Agentic AI siap mengubah pengalaman pelanggan dan efisiensi operasional, sehingga memerlukan pendekatan strategis baru dari kepemimpinan. Evolusi dalam kecerdasan buatan ini memberdayakan sistem untuk merencanakan, melaksanakan, dan bertahan dalam tugas, melampaui rekomendasi sederhana hingga tindakan proaktif. Bagi tim UX, manajer produk, dan eksekutif, memahami perubahan ini sangat penting untuk membuka peluang dalam inovasi, menyederhanakan alur kerja, dan mendefinisikan ulang bagaimana teknologi melayani masyarakat. Sangat mudah untuk mengacaukan AI Agen dengan Otomatisasi Proses Robot (RPA), yaitu teknologi yang berfokus pada tugas berbasis aturan yang dilakukan di komputer. Perbedaannya terletak pada kekakuan versus penalaran. RPA sangat baik dalam mengikuti skrip yang ketat: jika X terjadi, lakukan Y. Ini meniru tangan manusia. AI agen meniru pemikiran manusia. Itu tidak mengikuti skrip linier; itu menciptakan satu. Pertimbangkan alur kerja perekrutan. Bot RPA dapat memindai resume dan mengunggahnya ke database. Ia melakukan tugas yang berulang dengan sempurna. Sistem Agentic melihat resume, mengetahui bahwa kandidat mencantumkan sertifikasi tertentu, melakukan referensi silang dengan persyaratan klien baru, dan memutuskan untuk membuat draf email penjangkauan yang dipersonalisasi yang menyoroti kecocokan tersebut. RPA menjalankan rencana yang telah ditentukan sebelumnya; Agentic AI merumuskan rencana berdasarkan tujuan. Otonomi ini memisahkan agen dari alat prediksi yang telah kita gunakan selama dekade terakhir. Contoh lainnya adalah mengelola konflik rapat. Model prediktif yang terintegrasi ke dalam kalender Anda mungkin menganalisis jadwal rapat Anda dan jadwal kolega Anda. Hal ini kemudian dapat menunjukkan potensi konflik, seperti dua pertemuan penting yang dijadwalkan pada waktu yang sama, atau pertemuan yang dijadwalkan ketika peserta utama sedang berlibur. Ini memberi Anda informasi dan menandai potensi masalah, namun Anda bertanggung jawab untuk mengambil tindakan. AI agen, dalam skenario yang sama, akan lebih dari sekadar menyarankan konflik yang harus dihindari. Setelah mengidentifikasi konflik dengan peserta utama, agen dapat bertindak dengan:
Memeriksa ketersediaan semua peserta yang diperlukan. Mengidentifikasi slot waktu alternatif yang cocok untuk semua orang. Mengirimkan usulan undangan rapat baru kepada semua peserta. Jika konflik terjadi dengan peserta eksternal, agen dapat membuat draf dan mengirimkan email yang menjelaskan perlunya penjadwalan ulang dan menawarkan waktu alternatif. Memperbarui kalender Anda dan kalender kolega Anda dengan detail rapat baru setelah dikonfirmasi.
AI agen ini memahami tujuan (menyelesaikan konflik rapat), merencanakan langkah-langkahnya (memeriksa ketersediaan, mencari alternatif, mengirim undangan), melaksanakan langkah-langkah tersebut, dan bertahan hingga konflik terselesaikan, semuanya dengan intervensi pengguna langsung yang minimal. Hal ini menunjukkan perbedaan “agentik”: sistem mengambil langkah proaktif untuk pengguna, bukan hanya memberikan informasi kepada pengguna. Sistem AI agen memahami suatu tujuan, merencanakan serangkaian langkah untuk mencapainya, melaksanakan langkah-langkah tersebut, dan bahkan beradaptasi jika terjadi kesalahan. Anggap saja seperti asisten digital proaktif. Teknologi yang mendasarinya sering kali menggabungkan model bahasa besar (LLM) untuk pemahaman dan penalaran, dengan algoritma perencanaan yang memecah tugas-tugas kompleks menjadi tindakan yang dapat dikelola. Agen-agen ini dapat berinteraksi dengan berbagai alat, API, dan bahkan model AI lainnya untuk mencapai tujuan mereka, dan yang terpenting, mereka dapat mempertahankan status persisten, yang berarti mereka mengingat tindakan sebelumnya dan terus berupaya mencapai tujuan dari waktu ke waktu. Hal ini menjadikannya berbeda secara mendasar dari AI generatif pada umumnya, yang biasanya menyelesaikan satu permintaan dan kemudian melakukan reset. Taksonomi Sederhana Perilaku Agenik Kita dapat mengkategorikan perilaku agen ke dalam empat mode otonomi yang berbeda. Walaupun sering kali terlihat seperti kemajuan, namun berfungsi sebagai mode operasi independen. Pengguna mungkin memercayai agen untuk bertindak secara mandiri dalam penjadwalan, namun tetap menjaganya dalam “mode saran” untuk transaksi keuangan. Kami memperoleh tingkatan ini dengan mengadaptasi standar industri untuk kendaraan otonom (tingkat SAE) dengan konteks pengalaman pengguna digital. Amati-dan-Sarankan Agen berfungsi sebagai monitor. Ini menganalisis aliran data dan menandai anomali atau peluang, tetapi tidak mengambil tindakan apa pun. Diferensiasi Berbeda dengan level berikutnya, agen tidak menghasilkan rencana yang rumit. Ini menunjuk pada suatu masalah. ContohAgen DevOps memperhatikan lonjakan CPU server dan memperingatkan teknisi panggilan. Ia tidak mengetahui cara atau berupaya memperbaikinya, namun ia mengetahui ada sesuatu yang salah. Implikasi terhadap desain dan pengawasan Pada tingkat ini,desain dan pengawasan harus memprioritaskan pemberitahuan yang jelas dan tidak mengganggu serta proses yang jelas bagi pengguna untuk menindaklanjuti saran. Fokusnya adalah memberdayakan pengguna dengan informasi yang tepat waktu dan relevan tanpa mengambil kendali. Praktisi UX harus fokus untuk memberikan saran yang jelas dan mudah dipahami, sementara manajer produk perlu memastikan sistem memberikan nilai tanpa membebani pengguna. Rencanakan dan Usulkan Agen mengidentifikasi tujuan dan menghasilkan strategi multi-langkah untuk mencapainya. Ini menyajikan rencana lengkap untuk tinjauan manusia. Diferensiasi Agen bertindak sebagai ahli strategi. Itu tidak dijalankan; ia menunggu persetujuan atas seluruh pendekatan. ContohAgen DevOps yang sama memperhatikan lonjakan CPU, menganalisis log, dan mengusulkan rencana remediasi:
Putar dua instance tambahan. Mulai ulang penyeimbang beban. Arsipkan log lama.
Manusia meninjau logika dan mengklik “Setujui Rencana”. Implikasi terhadap desain dan pengawasan Bagi agen yang merencanakan dan mengusulkan, desain harus memastikan rencana yang diusulkan mudah dipahami dan bahwa pengguna memiliki cara intuitif untuk mengubah atau menolaknya. Pengawasan sangat penting dalam memantau kualitas proposal dan logika perencanaan agen. Praktisi UX harus merancang visualisasi yang jelas dari rencana yang diusulkan, dan manajer produk harus menetapkan alur kerja peninjauan dan persetujuan yang jelas. Bertindak dengan Konfirmasi Agen menyelesaikan semua pekerjaan persiapan dan menempatkan tindakan akhir dalam keadaan bertahap. Ini secara efektif menahan pintu tetap terbuka, menunggu anggukan. Diferensiasi Ini berbeda dengan “Rencanakan dan Usulan” karena pekerjaan sudah selesai dan bertahap. Ini mengurangi gesekan. Pengguna mengkonfirmasi hasilnya, bukan strateginya. Contoh Seorang agen perekrutan menyusun lima undangan wawancara, menemukan jam buka di kalender, dan membuat acara kalender. Ini menyajikan tombol "Kirim Semua". Pengguna memberikan otorisasi akhir untuk memicu tindakan eksternal. Implikasi terhadap desain dan pengawasan Ketika agen bertindak dengan konfirmasi, desain harus memberikan ringkasan yang transparan dan ringkas mengenai tindakan yang dimaksudkan, dengan jelas menguraikan konsekuensi potensial. Pengawasan perlu memverifikasi bahwa proses konfirmasi sudah berjalan dengan baik dan bahwa pengguna tidak diminta untuk menyetujui tindakan secara membabi buta. Praktisi UX harus merancang perintah konfirmasi yang jelas dan memberikan semua informasi yang diperlukan, dan manajer produk harus memprioritaskan jejak audit yang kuat untuk semua tindakan yang dikonfirmasi. Bertindak-Otonomi Agen menjalankan tugas secara independen dalam batasan yang ditentukan. Diferensiasi Pengguna meninjau riwayat tindakan, bukan tindakan itu sendiri. Contoh Agen perekrutan melihat konflik, memindahkan wawancara ke slot cadangan, memperbarui kandidat, dan memberi tahu manajer perekrutan. Manusia hanya melihat pemberitahuan: Wawancara dijadwalkan ulang hingga Selasa. Implikasi terhadap desain dan pengawasanUntuk agen otonom, desain perlu menetapkan batasan jelas yang telah disetujui sebelumnya dan menyediakan alat pemantauan yang kuat. Pengawasan memerlukan evaluasi berkelanjutan terhadap kinerja agen dalam batas-batas ini, kebutuhan penting akan pencatatan log yang kuat, mekanisme penggantian yang jelas, dan tombol pemutus (kill switch) yang ditentukan pengguna untuk mempertahankan kontrol dan kepercayaan pengguna. Praktisi UX harus fokus pada perancangan dasbor yang efektif untuk memantau perilaku agen otonom, dan manajer produk harus memastikan tata kelola yang jelas dan pedoman etika tersedia.
Mari kita lihat penerapan teknologi SDM di dunia nyata untuk melihat cara kerja mode ini. Pertimbangkan “Agen Koordinasi Wawancara” yang dirancang untuk menangani logistik perekrutan.
Dalam Mode SaranAgen memperhatikan bahwa pewawancara sudah dipesan ganda. Ini menyoroti konflik di dasbor perekrut: “Peringatan: Sarah mendapat pesanan ganda untuk wawancara pukul 14.00.” Dalam Mode RencanaAgen menganalisis kalender Sarah dan ketersediaan kandidat. Ini memberikan solusi: "Saya merekomendasikan untuk memindahkan wawancara ke hari Kamis pukul 10.00. Hal ini memerlukan pemindahan hubungan Sarah 1:1 dengan manajernya." Perekrut meninjau logika ini. Dalam Mode KonfirmasiAgen membuat draf email ke kandidat dan manajer. Ini mengisi undangan kalender. Perekrut melihat ringkasan: "Siap untuk menjadwal ulang ke hari Kamis. Kirim pembaruan?" Perekrut mengklik “Konfirmasi.” Dalam Mode Otonom, agen menangani konflik secara instan. Hal ini menghormati aturan yang telah ditetapkan sebelumnya: “Selalu prioritaskan wawancara kandidat dibandingkan wawancara internal 1:1.” Ini memindahkan rapat dan mengirimkan pemberitahuan. Perekrut melihat entri log: “Terselesaikankonflik jadwal untuk Kandidat B.”
Primer Penelitian: Apa yang Harus Diteliti dan Bagaimana Mengembangkan AI agen yang efektif memerlukan pendekatan penelitian yang berbeda dibandingkan dengan perangkat lunak tradisional atau bahkan AI generatif. Sifat agen AI yang otonom, kemampuannya mengambil keputusan, dan potensi tindakan proaktif memerlukan metodologi khusus untuk memahami ekspektasi pengguna, memetakan perilaku agen yang kompleks, dan mengantisipasi potensi kegagalan. Penelitian primer berikut menguraikan metode utama untuk mengukur dan mengevaluasi aspek unik AI agen. Wawancara Model Mental Wawancara ini mengungkap prasangka pengguna tentang bagaimana agen AI harus berperilaku. Daripada hanya menanyakan apa yang diinginkan pengguna, fokusnya adalah memahami model internal mereka mengenai kemampuan dan keterbatasan agen. Kita harus menghindari penggunaan kata “agen” pada partisipan. Ini membawa bagasi fiksi ilmiah atau istilah yang terlalu mudah dikacaukan dengan agen manusia yang menawarkan dukungan atau layanan. Sebaliknya, bingkailah diskusi seputar “asisten” atau “sistem”. Kita perlu mengungkap di mana pengguna membedakan antara otomatisasi yang berguna dan kontrol yang mengganggu.
Metode: Minta pengguna untuk mendeskripsikan, menggambar, atau menceritakan interaksi yang diharapkan dengan agen dalam berbagai skenario hipotetis. Pemeriksaan Utama (mencerminkan berbagai industri): Untuk memahami batasan otomatisasi yang diinginkan dan potensi kekhawatiran seputar otomatisasi berlebihan, tanyakan: Jika penerbangan Anda dibatalkan, apa yang Anda ingin sistem lakukan secara otomatis? Apa yang membuat Anda khawatir jika ia melakukan hal itu tanpa instruksi eksplisit dari Anda?
Untuk mengeksplorasi pemahaman pengguna tentang proses internal agen dan komunikasi yang diperlukan, tanyakan: Bayangkan asisten digital mengelola rumah pintar Anda. Jika sebuah paket terkirim, menurut Anda langkah apa yang diperlukan, dan informasi apa yang ingin Anda terima?
Untuk mengungkap ekspektasi seputar kontrol dan persetujuan dalam proses multi-langkah, tanyakan: Jika Anda meminta asisten digital Anda untuk menjadwalkan rapat, langkah apa yang Anda bayangkan akan diambil? Pada titik manakah Anda ingin diajak berkonsultasi atau diberi pilihan?
Manfaat metode ini: Mengungkapkan asumsi implisit, menyoroti area di mana perilaku yang direncanakan agen mungkin berbeda dari harapan pengguna, dan menginformasikan desain kontrol yang tepat dan mekanisme umpan balik.
Pemetaan Perjalanan Agen: Mirip dengan pemetaan perjalanan pengguna tradisional, pemetaan perjalanan agen secara khusus berfokus pada tindakan yang diantisipasi dan poin keputusan dari agen AI itu sendiri, di samping interaksi pengguna. Hal ini membantu mengidentifikasi potensi kendala secara proaktif.
Metode: Buat peta visual yang menguraikan berbagai tahapan operasi agen, mulai dari inisiasi hingga penyelesaian, termasuk semua potensi tindakan, keputusan, dan interaksi dengan sistem atau pengguna eksternal. Elemen Kunci untuk Dipetakan: Tindakan Agen: Tugas atau keputusan spesifik apa yang dilakukan agen? Input/Output Informasi: Data apa yang dibutuhkan agen, dan informasi apa yang dihasilkan atau dikomunikasikan? Poin Keputusan: Di mana agen membuat pilihan, dan apa kriteria pilihan tersebut? Poin Interaksi Pengguna: Di mana pengguna memberikan masukan, ulasan, atau menyetujui tindakan? Poin Kegagalan: Yang terpenting, identifikasi kejadian spesifik di mana agen dapat salah menafsirkan instruksi, membuat keputusan yang salah, atau berinteraksi dengan entitas yang salah. Contoh: Penerima yang salah (misalnya mengirimkan informasi sensitif kepada orang yang salah), cerukan (misalnya pembayaran otomatis melebihi dana yang tersedia), salah tafsir maksud (misalnya memesan penerbangan pada tanggal yang salah karena bahasa yang ambigu).
Jalur Pemulihan: Bagaimana cara agen atau pengguna pulih dari kegagalan ini? Mekanisme apa yang ada untuk koreksi atau intervensi?
Manfaat metode ini: Memberikan pandangan menyeluruh tentang alur operasional agen, mengungkap ketergantungan tersembunyi, dan memungkinkan desain pengamanan, penanganan kesalahan, dan titik intervensi pengguna yang proaktif untuk mencegah atau memitigasi hasil negatif.
Simulasi Pengujian Perilaku Buruk: Pendekatan ini dirancang untuk menguji sistem dan mengamati reaksi pengguna ketika agen AI gagal atau menyimpang dari harapan. Ini tentang memahami perbaikan kepercayaan dan respons emosional dalam situasi buruk.
Metode: Dalam studi laboratorium terkontrol, dengan sengaja memperkenalkan skenario di mana agen melakukan kesalahan, salah menafsirkan perintah, atau berperilaku tidak terduga. Jenis “Perilaku Buruk” untuk Disimulasikan: PerintahSalah tafsir: Agen melakukan tindakan yang sedikit berbeda dari yang diinginkan pengguna (misalnya memesan dua item, bukan satu). Kelebihan/Kekurangan Informasi: Agen memberikan terlalu banyak informasi yang tidak relevan atau tidak cukup detail penting. Tindakan yang Tidak Diminta: Agen mengambil tindakan yang secara eksplisit tidak diinginkan atau diharapkan oleh pengguna (misalnya, membeli saham tanpa persetujuan). Kegagalan Sistem: Agen mengalami crash, menjadi tidak responsif, atau memberikan pesan kesalahan. Dilema Etis: Agen membuat keputusan dengan implikasi etis (misalnya, memprioritaskan satu tugas dibandingkan tugas lainnya berdasarkan metrik yang tidak terduga).
Fokus Observasi: Reaksi Pengguna: Bagaimana reaksi pengguna secara emosional (frustrasi, marah, bingung, kehilangan kepercayaan)? Upaya Pemulihan: Langkah apa yang diambil pengguna untuk memperbaiki perilaku agen atau membatalkan tindakannya? Mekanisme Perbaikan Kepercayaan: Apakah mekanisme pemulihan atau umpan balik bawaan sistem membantu memulihkan kepercayaan? Bagaimana pengguna ingin diberi tahu tentang kesalahan? Pergeseran Model Mental: Apakah perilaku buruk mengubah pemahaman pengguna tentang kemampuan atau keterbatasan agen?
Manfaat metode ini: Penting untuk mengidentifikasi kesenjangan desain terkait pemulihan kesalahan, umpan balik, dan kontrol pengguna. Hal ini memberikan wawasan tentang seberapa tangguh pengguna terhadap kegagalan agen dan apa yang diperlukan untuk mempertahankan atau membangun kembali kepercayaan, sehingga menghasilkan sistem agen yang lebih kuat dan mudah memaafkan.
Dengan mengintegrasikan metodologi penelitian ini, praktisi UX dapat beralih dari sekadar menjadikan sistem agen dapat digunakan, tetapi juga menjadikannya tepercaya, terkendali, dan akuntabel, serta membina hubungan yang positif dan produktif antara pengguna dan agen AI mereka. Perhatikan bahwa ini bukan satu-satunya metode yang relevan untuk mengeksplorasi AI agen secara efektif. Masih banyak metode lain yang ada, namun metode ini paling mudah diakses oleh para praktisi dalam waktu dekat. Saya sebelumnya telah membahas metode Wizard of Oz, metode pengujian konsep yang sedikit lebih canggih, yang juga merupakan alat berharga untuk mengeksplorasi konsep AI agen. Pertimbangan Etis Dalam Metodologi Penelitian Saat meneliti AI agen, khususnya saat melakukan simulasi perilaku buruk atau kesalahan, pertimbangan etis adalah kunci yang harus dipertimbangkan. Ada banyak publikasi yang berfokus pada penelitian etika UX, termasuk artikel yang saya tulis untuk Smashing Magazine, pedoman dari UX Design Institute, dan halaman ini dari Inclusive Design Toolkit. Metrik Utama Untuk AI Agentik Anda memerlukan serangkaian metrik utama yang komprehensif untuk menilai kinerja dan keandalan sistem AI agen secara efektif. Metrik ini memberikan wawasan tentang kepercayaan pengguna, keakuratan sistem, dan pengalaman pengguna secara keseluruhan. Dengan melacak indikator-indikator ini, pengembang dan perancang dapat mengidentifikasi area yang perlu ditingkatkan dan memastikan bahwa agen AI beroperasi dengan aman dan efisien. 1. Tingkat Intervensi Bagi agen otonom, kami mengukur keberhasilan dengan diam. Jika agen menjalankan tugas dan pengguna tidak melakukan intervensi atau membalikkan tindakan tersebut dalam jangka waktu yang ditentukan (misalnya, 24 jam), kami menghitungnya sebagai penerimaan. Kami melacak Tingkat Intervensi: seberapa sering manusia mengambil tindakan untuk menghentikan atau mengoreksi agen? Tingkat intervensi yang tinggi menandakan ketidakselarasan dalam kepercayaan dan logika. 2. Frekuensi Tindakan yang Tidak Diinginkan per 1.000 Tugas Metrik penting ini menghitung jumlah tindakan yang dilakukan oleh agen AI yang tidak diinginkan atau diharapkan oleh pengguna, yang dinormalisasi per 1.000 tugas yang diselesaikan. Rendahnya frekuensi tindakan yang tidak disengaja menandakan AI yang selaras dan mampu menafsirkan maksud pengguna secara akurat dan beroperasi dalam batasan yang ditentukan. Metrik ini terkait erat dengan pemahaman AI terhadap konteks, kemampuannya untuk membedakan perintah, dan kekokohan protokol keselamatannya. 3. Kecepatan Rollback atau Undo Metrik ini melacak seberapa sering pengguna perlu membalikkan atau membatalkan tindakan yang dilakukan oleh AI. Tingkat pengembalian yang tinggi menunjukkan bahwa AI sering melakukan kesalahan, salah menafsirkan instruksi, atau bertindak dengan cara yang tidak sesuai dengan harapan pengguna. Menganalisis alasan di balik kemunduran ini dapat memberikan umpan balik yang berharga untuk meningkatkan algoritma AI, memahami preferensi pengguna, dan kemampuannya untuk memprediksi hasil yang diinginkan. Untuk memahami alasannya, Anda harus menerapkan survei mikro pada tindakan pembatalan. Misalnya, saat pengguna membatalkan perubahan penjadwalan, pesan sederhana akan menanyakan: "Waktu yang salah? Orang yang salah? Atau apakah Anda hanya ingin melakukannya sendiri?" Mengizinkan pengguna mengklik opsi yang paling sesuai dengan alasannya. 4. Waktu untuk Penyelesaian Setelah Metrik ErrorThismengukur durasi yang diperlukan pengguna untuk memperbaiki kesalahan yang dibuat oleh AI atau sistem AI itu sendiri untuk pulih dari keadaan yang salah. Waktu penyelesaian yang singkat menunjukkan proses pemulihan kesalahan yang efisien dan mudah digunakan, yang dapat mengurangi rasa frustrasi pengguna dan menjaga produktivitas. Hal ini mencakup kemudahan mengidentifikasi kesalahan, aksesibilitas mekanisme pembatalan atau koreksi, dan kejelasan pesan kesalahan yang diberikan oleh AI.
Pengumpulan metrik ini memerlukan instrumentasi sistem Anda untuk melacak ID Tindakan Agen. Setiap tindakan berbeda yang diambil agen, seperti mengusulkan jadwal atau memesan penerbangan, harus menghasilkan ID unik yang tersimpan di log. Untuk mengukur Tingkat Intervensi, kami tidak mengharapkan reaksi langsung dari pengguna. Kami mencari tidak adanya tindakan balasan dalam jangka waktu yang ditentukan. Jika ID Tindakan dibuat pada pukul 09.00 dan tidak ada pengguna manusia yang mengubah atau mengembalikan ID spesifik tersebut pada pukul 09.00 keesokan harinya, sistem secara logis akan menandainya sebagai Diterima. Hal ini memungkinkan kami mengukur keberhasilan berdasarkan keheningan pengguna, bukan konfirmasi aktif. Untuk Rollback Rates, penghitungan mentah tidak mencukupi karena tidak memiliki konteks. Untuk menangkap alasan yang mendasarinya, Anda harus menerapkan logika intersep pada fungsi Undo atau Revert aplikasi Anda. Saat pengguna membatalkan tindakan yang dimulai oleh agen, picu survei mikro ringan. Ini bisa berupa modal tiga opsi sederhana yang meminta pengguna untuk mengkategorikan kesalahan sebagai kesalahan faktual, kurang konteks, atau preferensi sederhana untuk menangani tugas secara manual. Ini menggabungkan telemetri kuantitatif dengan wawasan kualitatif. Hal ini memungkinkan tim teknik untuk membedakan antara algoritma yang rusak dan ketidakcocokan preferensi pengguna. Metrik ini, jika dilacak secara konsisten dan dianalisis secara holistik, memberikan kerangka kerja yang kuat untuk mengevaluasi kinerja sistem AI agen, sehingga memungkinkan peningkatan berkelanjutan dalam kontrol, persetujuan, dan akuntabilitas. Merancang Melawan Penipuan Ketika agen semakin mampu, kita menghadapi risiko baru: Agentic Sludge. Lumpur tradisional menciptakan gesekan yang menyulitkan pembatalan langganan atau penghapusan akun. Lumpur agen bertindak sebaliknya. Ini menghilangkan gesekan terhadap suatu kesalahan, sehingga memudahkan pengguna untuk menyetujui tindakan yang menguntungkan bisnis daripada kepentingan mereka sendiri. Pertimbangkan agen yang membantu pemesanan perjalanan. Tanpa batasan yang jelas, sistem mungkin akan memprioritaskan maskapai penerbangan mitra atau hotel dengan margin lebih tinggi. Ini menyajikan pilihan ini sebagai jalur optimal. Pengguna, yang memercayai otoritas sistem, menerima rekomendasi tanpa pengawasan. Hal ini menciptakan pola penipuan dimana sistem mengoptimalkan pendapatan dengan kedok kenyamanan. Resiko Kompetensi yang Dibayangkan Secara Salah Penipuan mungkin tidak berasal dari niat jahat. Hal ini sering kali diwujudkan dalam AI sebagai Kompetensi yang Dibayangkan. Model Bahasa Besar sering kali terdengar berwibawa meskipun salah. Mereka memberikan konfirmasi pemesanan palsu atau ringkasan yang tidak akurat dengan keyakinan yang sama seperti fakta yang diverifikasi. Pengguna secara alami mungkin mempercayai nada percaya diri ini. Ketidaksesuaian ini menciptakan kesenjangan yang berbahaya antara kemampuan sistem dan harapan pengguna. Kita harus merancang secara khusus untuk menjembatani kesenjangan ini. Jika agen gagal menyelesaikan tugas, antarmuka harus memberi sinyal kegagalan tersebut dengan jelas. Jika sistem tidak yakin, sistem harus mengungkapkan ketidakpastian daripada menutupinya dengan prosa yang halus. Transparansi melalui Primitif Penangkal lumpur dan halusinasi adalah asal usulnya. Setiap tindakan otonom memerlukan tag metadata khusus yang menjelaskan asal usul keputusan. Pengguna memerlukan kemampuan untuk memeriksa rantai logika di balik hasilnya. Untuk mencapai hal ini, kita harus menerjemahkan jawaban primitif menjadi jawaban praktis. Dalam rekayasa perangkat lunak, primitif merujuk pada unit inti informasi atau tindakan yang dilakukan agen. Bagi teknisi, ini terlihat seperti panggilan API atau gerbang logika. Bagi pengguna, itu harus tampil sebagai penjelasan yang jelas. Tantangan desainnya terletak pada memetakan langkah-langkah teknis ini ke dasar pemikiran yang dapat dibaca manusia. Jika agen merekomendasikan penerbangan tertentu, pengguna perlu mengetahui alasannya. Antarmuka tidak dapat bersembunyi di balik saran umum. Itu harus mengekspos primitif yang mendasarinya: Logika: Penerbangan_Termurah_Direct_Flight atau Logika: Partner_Airline_Priority. Gambar 4 mengilustrasikan alur penerjemahan ini. Kami mengambil sistem mentah primitif - logika kode sebenarnya - dan memetakannya ke string yang dapat dilihat pengguna. Misalnya, pemeriksaan primitif jadwal kalender pertemuan menjadi pernyataan yang jelas: Saya sudah mengusulkan jam 4 sorepertemuan. Tingkat transparansi ini memastikan tindakan agen tampak logis dan bermanfaat. Hal ini memungkinkan pengguna untuk memverifikasi bahwa agen bertindak demi kepentingan terbaik mereka. Dengan mengungkap hal-hal primitif, kami mengubah kotak hitam menjadi kotak kaca, memastikan pengguna tetap menjadi otoritas terakhir dalam kehidupan digital mereka.
Menetapkan Panggung Untuk Desain Membangun sistem agen memerlukan tingkat pemahaman psikologis dan perilaku yang baru. Hal ini memaksa kita untuk beralih dari pengujian kegunaan konvensional ke ranah kepercayaan, persetujuan, dan akuntabilitas. Metode penelitian yang telah kita diskusikan, mulai dari menyelidiki model mental hingga mensimulasikan perilaku buruk dan menetapkan metrik baru, memberikan landasan yang diperlukan. Praktik-praktik ini adalah alat penting untuk secara proaktif mengidentifikasi di mana sistem otonom mungkin mengalami kegagalan dan, yang lebih penting, bagaimana memperbaiki hubungan agen-pengguna jika terjadi kegagalan. Peralihan ke AI agen adalah redefinisi hubungan pengguna-sistem. Kami tidak lagi merancang alat yang hanya merespons perintah; kami merancang untuk mitra yang bertindak atas nama kami. Hal ini mengubah pentingnya desain dari efisiensi dan kemudahan penggunaan menjadi transparansi, prediktabilitas, dan kontrol. Ketika AI dapat memesan penerbangan atau memperdagangkan saham tanpa klik terakhir, desain “on-ramp” dan “off-ramp” menjadi hal yang terpenting. Merupakan tanggung jawab kami untuk memastikan bahwa pengguna merasa berada di kursi pengemudi, bahkan ketika mereka telah menyerahkan kemudi. Realitas baru ini juga meningkatkan peran peneliti UX. Kami menjadi penjaga kepercayaan pengguna, bekerja secara kolaboratif dengan para insinyur dan manajer produk untuk menentukan dan menguji batasan otonomi agen. Selain menjadi peneliti, kami juga mendukung kontrol pengguna, transparansi, dan perlindungan etika dalam proses pengembangan. Dengan menerjemahkan pertanyaan primitif ke dalam pertanyaan praktis dan mensimulasikan skenario terburuk, kita dapat membangun sistem yang kuat, kuat, dan aman. Artikel ini telah menguraikan “apa” dan “mengapa” dalam meneliti AI agen. Hal ini menunjukkan bahwa perangkat tradisional kita tidak mencukupi dan kita harus mengadopsi metodologi baru yang berwawasan ke depan. Artikel berikutnya akan membangun landasan ini, dengan memberikan pola desain spesifik dan praktik organisasi yang membuat utilitas agen transparan bagi pengguna, memastikan mereka dapat memanfaatkan kekuatan AI agen dengan percaya diri dan terkendali. Masa depan UX adalah tentang membuat sistem dapat dipercaya. Untuk pemahaman tambahan tentang AI agen, Anda dapat menjelajahi sumber daya berikut:
Blog Google AI tentang AI Agen Penelitian Microsoft tentang Agen AI