AI Agentik bersedia untuk mengubah pengalaman pelanggan dan kecekapan operasi, memerlukan pendekatan strategik baharu daripada kepimpinan. Evolusi dalam kecerdasan buatan ini memperkasakan sistem untuk merancang, melaksanakan dan berterusan dalam tugas, melangkaui pengesyoran mudah kepada tindakan proaktif. Untuk pasukan UX, pengurus produk dan eksekutif, memahami anjakan ini adalah penting untuk membuka kunci peluang dalam inovasi, memperkemas aliran kerja dan mentakrifkan semula cara teknologi memberi perkhidmatan kepada orang ramai. Sangat mudah untuk mengelirukan Agentic AI dengan Robotic Process Automation (RPA), iaitu teknologi yang memfokuskan pada tugas berasaskan peraturan yang dilakukan pada komputer. Perbezaannya terletak pada ketegaran berbanding penaakulan. RPA sangat baik dalam mengikuti skrip yang ketat: jika X berlaku, adakah Y. Ia meniru tangan manusia. AI Agentik meniru pemikiran manusia. Ia tidak mengikut skrip linear; ia mencipta satu. Pertimbangkan aliran kerja merekrut. Bot RPA boleh mengimbas resume dan memuat naiknya ke pangkalan data. Ia melakukan tugas berulang dengan sempurna. Sistem Agentik melihat resume, melihat calon menyenaraikan pensijilan tertentu, merujuk silang dengan keperluan pelanggan baharu dan memutuskan untuk mendraf e-mel jangkauan diperibadikan yang menyerlahkan perlawanan itu. RPA melaksanakan pelan yang telah ditetapkan; AI Agentik merumuskan rancangan berdasarkan matlamat. Autonomi ini memisahkan ejen daripada alat ramalan yang telah kami gunakan selama sedekad yang lalu. Contoh lain ialah menguruskan konflik mesyuarat. Model ramalan yang disepadukan ke dalam kalendar anda mungkin menganalisis jadual mesyuarat anda dan jadual rakan sekerja anda. Ia kemudiannya boleh mencadangkan kemungkinan konflik, seperti dua mesyuarat penting yang dijadualkan pada masa yang sama, atau mesyuarat yang dijadualkan apabila peserta utama sedang bercuti. Ia memberi anda maklumat dan menandakan isu yang berpotensi, tetapi anda bertanggungjawab untuk mengambil tindakan. AI agen, dalam senario yang sama, akan melampaui sekadar mencadangkan konflik untuk dielakkan. Setelah mengenal pasti konflik dengan peserta utama, ejen boleh bertindak dengan:
Menyemak ketersediaan semua peserta yang diperlukan. Mengenal pasti slot masa alternatif yang sesuai untuk semua orang. Menghantar cadangan jemputan mesyuarat baharu kepada semua hadirin. Jika konflik adalah dengan peserta luar, ejen boleh mendraf dan menghantar e-mel yang menerangkan keperluan untuk menjadualkan semula dan menawarkan masa alternatif. Mengemas kini kalendar anda dan kalendar rakan sekerja anda dengan butiran mesyuarat baharu setelah disahkan.
AI agen ini memahami matlamat (menyelesaikan konflik mesyuarat), merancang langkah (menyemak ketersediaan, mencari alternatif, menghantar jemputan), melaksanakan langkah tersebut dan berterusan sehingga konflik diselesaikan, semuanya dengan campur tangan pengguna langsung yang minimum. Ini menunjukkan perbezaan "agentik": sistem mengambil langkah proaktif untuk pengguna, bukannya hanya memberikan maklumat kepada pengguna. Sistem AI Agentik memahami matlamat, merancang satu siri langkah untuk mencapainya, melaksanakan langkah tersebut, dan juga menyesuaikan diri jika berlaku kesilapan. Fikirkan ia seperti pembantu digital yang proaktif. Teknologi asas sering menggabungkan model bahasa besar (LLM) untuk pemahaman dan penaakulan, dengan algoritma perancangan yang memecahkan tugas yang kompleks kepada tindakan yang boleh diurus. Ejen ini boleh berinteraksi dengan pelbagai alatan, API, dan juga model AI lain untuk mencapai objektif mereka, dan secara kritikal, mereka boleh mengekalkan keadaan yang berterusan, bermakna mereka mengingati tindakan sebelumnya dan terus berusaha ke arah matlamat dari semasa ke semasa. Ini menjadikan mereka secara asasnya berbeza daripada AI generatif biasa, yang biasanya melengkapkan satu permintaan dan kemudian menetapkan semula. Taksonomi Mudah Tingkah Laku Agentik Kita boleh mengkategorikan tingkah laku ejen kepada empat mod autonomi yang berbeza. Walaupun ini selalunya kelihatan seperti perkembangan, ia berfungsi sebagai mod pengendalian bebas. Pengguna mungkin mempercayai ejen untuk bertindak secara autonomi untuk penjadualan, tetapi menyimpannya dalam "mod cadangan" untuk transaksi kewangan. Kami memperoleh tahap ini dengan menyesuaikan piawaian industri untuk kenderaan autonomi (tahap SAE) kepada konteks pengalaman pengguna digital. Perhatikan-dan-Cadangkan Ejen berfungsi sebagai pemantau. Ia menganalisis aliran data dan membenderakan anomali atau peluang, tetapi mengambil tindakan sifar. PembezaanTidak seperti peringkat seterusnya, ejen tidak menjana pelan yang kompleks. Ia menunjuk kepada masalah. ContohEjen DevOps menyedari lonjakan CPU pelayan dan memaklumkan jurutera dalam panggilan. Ia tidak tahu bagaimana atau cuba membetulkannya, tetapi ia tahu ada sesuatu yang tidak kena. Implikasi untuk reka bentuk dan pengawasan Pada peringkat ini,reka bentuk dan pengawasan harus mengutamakan pemberitahuan yang jelas, tidak mengganggu dan proses yang jelas untuk pengguna bertindak atas cadangan. Tumpuan adalah untuk memperkasakan pengguna dengan maklumat yang tepat pada masanya dan relevan tanpa mengambil kawalan. Pengamal UX harus menumpukan pada membuat cadangan yang jelas dan mudah difahami, manakala pengurus produk perlu memastikan sistem memberikan nilai tanpa membebankan pengguna. Rancang-dan-Cadang Ejen mengenal pasti matlamat dan menjana strategi pelbagai langkah untuk mencapainya. Ia membentangkan rancangan penuh untuk semakan manusia. PembezaanEjen bertindak sebagai ahli strategi. Ia tidak melaksanakan; ia menunggu kelulusan pada keseluruhan pendekatan. ContohEjen DevOps yang sama menyedari lonjakan CPU, menganalisis log dan mencadangkan pelan pemulihan:
Putar dua contoh tambahan. Mulakan semula pengimbang beban. Arkibkan log lama.
Manusia menyemak logik dan mengklik "Luluskan Pelan". Implikasi untuk reka bentuk dan pengawasan Bagi ejen yang merancang dan mencadangkan, reka bentuk mesti memastikan pelan yang dicadangkan mudah difahami dan pengguna mempunyai cara intuitif untuk mengubah suai atau menolaknya. Pengawasan adalah penting dalam memantau kualiti cadangan dan logik perancangan ejen. Pengamal UX harus mereka bentuk visualisasi yang jelas tentang rancangan yang dicadangkan, dan pengurus produk mesti mewujudkan aliran kerja semakan dan kelulusan yang jelas. Bertindak-dengan-Pengesahan Ejen menyelesaikan semua kerja penyediaan dan meletakkan tindakan terakhir dalam keadaan berperingkat. Ia dengan berkesan menahan pintu terbuka, menunggu anggukkan. PembezaanIni berbeza daripada "Rancang-dan-Cadang" kerana kerja itu sudah siap dan berperingkat. Ia mengurangkan geseran. Pengguna mengesahkan hasil, bukan strategi. ContohEjen perekrut mendraf lima jemputan temu duga, mencari waktu terbuka pada kalendar dan mencipta acara kalendar. Ia membentangkan butang "Hantar Semua". Pengguna memberikan kebenaran terakhir untuk mencetuskan tindakan luaran. Implikasi untuk reka bentuk dan pengawasan Apabila ejen bertindak dengan pengesahan, reka bentuk harus menyediakan ringkasan yang telus dan padat tentang tindakan yang dimaksudkan, dengan jelas menggariskan kemungkinan akibat. Pengawasan perlu mengesahkan bahawa proses pengesahan adalah teguh dan bahawa pengguna tidak diminta untuk meluluskan tindakan secara membabi buta. Pengamal UX harus mereka bentuk gesaan pengesahan yang jelas dan menyediakan semua maklumat yang diperlukan, dan pengurus produk harus mengutamakan jejak audit yang teguh untuk semua tindakan yang disahkan. Bertindak-Secara Autonomi Ejen melaksanakan tugas secara bebas dalam sempadan yang ditetapkan. PembezaanPengguna menyemak sejarah tindakan, bukan tindakan itu sendiri. ContohEjen perekrut melihat konflik, mengalihkan temu duga ke slot sandaran, mengemas kini calon dan memberitahu pengurus pengambilan pekerja. Manusia hanya melihat pemberitahuan: Temu bual dijadualkan semula pada hari Selasa. Implikasi untuk reka bentuk dan pengawasan Bagi ejen autonomi, reka bentuk perlu mewujudkan sempadan yang jelas sebelum diluluskan dan menyediakan alat pemantauan yang mantap. Pengawasan memerlukan penilaian berterusan terhadap prestasi ejen dalam sempadan ini, keperluan kritikal untuk pembalakan yang mantap, mekanisme override yang jelas dan suis bunuh yang ditentukan pengguna untuk mengekalkan kawalan dan kepercayaan pengguna. Pengamal UX harus menumpukan pada mereka bentuk papan pemuka yang berkesan untuk memantau tingkah laku ejen autonomi, dan pengurus produk mesti memastikan garis panduan tadbir urus dan etika yang jelas disediakan.
Mari lihat aplikasi dunia sebenar dalam teknologi HR untuk melihat mod ini dalam tindakan. Pertimbangkan "Ejen Penyelarasan Temuduga" yang direka untuk mengendalikan logistik pengambilan pekerja.
Dalam Mod CadanganEjen mendapati penemuduga telah ditempah dua kali. Ia menyerlahkan konflik pada papan pemuka perekrut: "Amaran: Sarah ditempah dua kali untuk temu duga pukul 2 petang." Dalam Mod PelanEjen menganalisis kalendar Sarah dan ketersediaan calon. Ia memberikan penyelesaian: "Saya mengesyorkan agar temu duga dipindahkan ke hari Khamis jam 10 pagi. Ini memerlukan pemindahan 1:1 Sarah dengan pengurusnya." Perekrut menyemak logik ini. Dalam Mod PengesahanEjen mendraf e-mel kepada calon dan pengurus. Ia mengisi jemputan kalendar. Perekrut melihat ringkasan: "Bersedia untuk menjadualkan semula kepada Khamis. Hantar kemas kini?" Perekrut mengklik "Sahkan." Dalam Mod AutonomiEjen mengendalikan konflik dengan serta-merta. Ia mematuhi peraturan yang telah ditetapkan: "Sentiasa utamakan temu duga calon berbanding 1:1s dalaman." Ia menggerakkan mesyuarat dan menghantar pemberitahuan. Perekrut melihat catatan log: "Diselesaikankonflik jadual untuk Calon B.”
Primer Penyelidikan: Apa Yang Perlu Dikaji Dan Bagaimana Membangunkan AI agenik yang berkesan memerlukan pendekatan penyelidikan yang berbeza berbanding perisian tradisional atau bahkan AI generatif. Sifat autonomi ejen AI, keupayaan mereka untuk membuat keputusan, dan potensi mereka untuk tindakan proaktif memerlukan metodologi khusus untuk memahami jangkaan pengguna, memetakan gelagat ejen yang kompleks dan menjangka kemungkinan kegagalan. Primer penyelidikan berikut menggariskan kaedah utama untuk mengukur dan menilai aspek unik AI agenik ini. Temuduga Model Mental Temu bual ini mendedahkan tanggapan prasangka pengguna tentang cara ejen AI harus berkelakuan. Daripada hanya bertanya apa yang pengguna mahukan, tumpuan adalah untuk memahami model dalaman mereka tentang keupayaan dan batasan ejen. Kita harus mengelak daripada menggunakan perkataan "ejen" dengan peserta. Ia membawa bagasi sci-fi atau istilah yang terlalu mudah dikelirukan dengan ejen manusia yang menawarkan sokongan atau perkhidmatan. Sebaliknya, rangka perbincangan mengenai "pembantu" atau "sistem". Kami perlu mendedahkan tempat pengguna menarik garis antara automasi yang membantu dan kawalan mengganggu.
Kaedah: Minta pengguna untuk menerangkan, melukis atau menceritakan interaksi jangkaan mereka dengan ejen dalam pelbagai senario hipotesis. Probe Utama (mencerminkan pelbagai industri): Untuk memahami sempadan automasi yang diingini dan kemungkinan kebimbangan mengenai automasi berlebihan, tanya: Jika penerbangan anda dibatalkan, apakah yang anda mahu sistem lakukan secara automatik? Apakah yang akan membimbangkan anda jika ia berbuat demikian tanpa arahan jelas anda?
Untuk meneroka pemahaman pengguna tentang proses dalaman ejen dan komunikasi yang diperlukan, tanya: Bayangkan pembantu digital menguruskan rumah pintar anda. Jika pakej dihantar, apakah langkah-langkah yang anda bayangkan yang diperlukan, dan apakah maklumat yang anda harapkan untuk terima?
Untuk mendedahkan jangkaan tentang kawalan dan persetujuan dalam proses berbilang langkah, tanya: Jika anda meminta pembantu digital anda untuk menjadualkan mesyuarat, apakah langkah yang anda bayangkan untuk ia ambil? Pada titik manakah anda ingin dirujuk atau diberi pilihan?
Faedah kaedah: Mendedahkan andaian tersirat, menyerlahkan kawasan yang tingkah laku yang dirancang oleh ejen mungkin menyimpang daripada jangkaan pengguna, dan memaklumkan reka bentuk mekanisme kawalan dan maklum balas yang sesuai.
Pemetaan Perjalanan Ejen: Sama seperti pemetaan perjalanan pengguna tradisional, pemetaan perjalanan ejen secara khusus memfokuskan pada tindakan yang dijangkakan dan titik keputusan ejen AI itu sendiri, di samping interaksi pengguna. Ini membantu mengenal pasti kemungkinan perangkap secara proaktif.
Kaedah: Buat peta visual yang menggariskan pelbagai peringkat operasi ejen, dari permulaan hingga penyelesaian, termasuk semua tindakan, keputusan dan interaksi yang berpotensi dengan sistem atau pengguna luaran. Elemen Utama untuk Peta: Tindakan Ejen: Apakah tugas atau keputusan khusus yang dilakukan oleh ejen? Input/Output Maklumat: Apakah data yang diperlukan oleh ejen, dan maklumat apakah yang dijana atau disampaikan? Mata Keputusan: Di manakah ejen membuat pilihan, dan apakah kriteria untuk pilihan tersebut? Mata Interaksi Pengguna: Di manakah pengguna memberikan input, semakan atau meluluskan tindakan? Titik Kegagalan: Yang penting, kenal pasti kejadian khusus di mana ejen boleh salah tafsir arahan, membuat keputusan yang salah atau berinteraksi dengan entiti yang salah. Contoh: Penerima yang salah (cth., menghantar maklumat sensitif kepada orang yang salah), overdraf (cth., pembayaran automatik melebihi dana yang tersedia), salah tafsir niat (cth., menempah penerbangan untuk tarikh yang salah disebabkan bahasa yang tidak jelas).
Laluan Pemulihan: Bagaimanakah ejen atau pengguna boleh pulih daripada kegagalan ini? Apakah mekanisme yang disediakan untuk pembetulan atau campur tangan?
Faedah kaedah: Menyediakan pandangan holistik aliran operasi ejen, mendedahkan kebergantungan tersembunyi, dan membenarkan reka bentuk proaktif perlindungan, pengendalian ralat dan titik campur tangan pengguna untuk mencegah atau mengurangkan hasil negatif.
Ujian Kesalahan Tingkah Laku Simulasi: Pendekatan ini direka bentuk untuk menguji sistem dan memerhati reaksi pengguna apabila ejen AI gagal atau menyimpang daripada jangkaan. Ini tentang memahami pembaikan amanah dan tindak balas emosi dalam situasi yang buruk.
Kaedah: Dalam kajian makmal terkawal, sengaja memperkenalkan senario di mana ejen membuat kesilapan, salah tafsir arahan atau berkelakuan di luar jangkaan. Jenis "Kelakuan Salah" untuk Disimulasikan: PerintahSalah tafsir: Ejen melakukan tindakan yang berbeza sedikit daripada yang dimaksudkan oleh pengguna (mis., memesan dua item dan bukannya satu). Maklumat Lebihan/Kurang Muatan: Ejen memberikan terlalu banyak maklumat yang tidak relevan atau butiran kritikal yang tidak mencukupi. Tindakan Tidak Diminta: Ejen mengambil tindakan yang secara jelas tidak diingini atau dijangka oleh pengguna (mis., membeli saham tanpa kelulusan). Kegagalan Sistem: Ejen ranap, menjadi tidak bertindak balas, atau memberikan mesej ralat. Dilema Etika: Ejen membuat keputusan dengan implikasi etika (mis., mengutamakan satu tugas berbanding tugas lain berdasarkan metrik yang tidak dijangka).
Fokus Pemerhatian: Reaksi Pengguna: Bagaimanakah pengguna bertindak balas secara emosi (kekecewaan, kemarahan, kekeliruan, hilang kepercayaan)? Percubaan Pemulihan: Apakah langkah yang diambil pengguna untuk membetulkan tingkah laku ejen atau membuat asal tindakannya? Mekanisme Pembaikan Amanah: Adakah mekanisme pemulihan atau maklum balas terbina dalam sistem membantu memulihkan kepercayaan? Bagaimanakah pengguna ingin dimaklumkan tentang ralat? Anjakan Model Mental: Adakah salah laku itu mengubah pemahaman pengguna tentang keupayaan atau batasan ejen?
Faedah kaedah: Penting untuk mengenal pasti jurang reka bentuk yang berkaitan dengan pemulihan ralat, maklum balas dan kawalan pengguna. Ia memberikan pandangan tentang bagaimana pengguna berdaya tahan terhadap kegagalan ejen dan perkara yang diperlukan untuk mengekalkan atau membina semula kepercayaan, yang membawa kepada sistem agenik yang lebih mantap dan memaafkan.
Dengan menyepadukan metodologi penyelidikan ini, pengamal UX boleh bergerak lebih daripada sekadar menjadikan sistem agen boleh digunakan untuk menjadikannya dipercayai, boleh dikawal dan bertanggungjawab, memupuk hubungan yang positif dan produktif antara pengguna dan ejen AI mereka. Ambil perhatian bahawa ini bukan satu-satunya kaedah yang berkaitan untuk meneroka AI agen dengan berkesan. Banyak kaedah lain wujud, tetapi kaedah ini paling mudah diakses oleh pengamal dalam tempoh terdekat. Saya sebelum ini telah membincangkan kaedah Wizard of Oz, kaedah ujian konsep yang lebih maju sedikit, yang juga merupakan alat yang berharga untuk meneroka konsep AI agenik. Pertimbangan Etika Dalam Metodologi Penyelidikan Apabila menyelidik AI agen, terutamanya apabila mensimulasikan salah laku atau kesilapan, pertimbangan etika adalah kunci untuk diambil kira. Terdapat banyak penerbitan yang memfokuskan pada penyelidikan UX beretika, termasuk artikel yang saya tulis untuk Smashing Magazine, garis panduan ini daripada Institut Reka Bentuk UX dan halaman ini daripada Kit Reka Bentuk Inklusif. Metrik Utama Untuk AI Agentik Anda memerlukan set metrik utama yang komprehensif untuk menilai prestasi dan kebolehpercayaan sistem AI agen secara berkesan. Metrik ini memberikan cerapan tentang kepercayaan pengguna, ketepatan sistem dan keseluruhan pengalaman pengguna. Dengan menjejaki penunjuk ini, pembangun dan pereka bentuk boleh mengenal pasti bidang untuk penambahbaikan dan memastikan ejen AI beroperasi dengan selamat dan cekap. 1. Kadar IntervensiBagi ejen autonomi, kami mengukur kejayaan dengan senyap. Jika ejen melaksanakan tugas dan pengguna tidak campur tangan atau membalikkan tindakan dalam tetingkap yang ditetapkan (mis., 24 jam), kami mengira itu sebagai penerimaan. Kami menjejaki Kadar Intervensi: berapa kerapkah manusia melompat masuk untuk menghentikan atau membetulkan ejen? Kadar campur tangan yang tinggi menandakan salah jajaran dalam kepercayaan atau logik. 2. Kekerapan Tindakan Yang Tidak Diingini bagi setiap 1,000 Tugasan Metrik kritikal ini mengukur bilangan tindakan yang dilakukan oleh ejen AI yang tidak diingini atau dijangka oleh pengguna, dinormalkan bagi setiap 1,000 tugasan yang diselesaikan. Kekerapan tindakan yang tidak diingini yang rendah menandakan AI sejajar yang mentafsir dengan tepat niat pengguna dan beroperasi dalam sempadan yang ditentukan. Metrik ini berkait rapat dengan pemahaman konteks AI, keupayaannya untuk menyahkekaburan arahan dan keteguhan protokol keselamatannya. 3. Kadar Rollback atau Undo Metrik ini menjejaki kekerapan pengguna perlu membalikkan atau membuat asal tindakan yang dilakukan oleh AI. Kadar rollback yang tinggi menunjukkan bahawa AI kerap membuat kesilapan, menyalahtafsir arahan atau bertindak dengan cara yang tidak sejajar dengan jangkaan pengguna. Menganalisis sebab di sebalik penarikan balik ini boleh memberikan maklum balas yang berharga untuk meningkatkan algoritma AI, pemahaman tentang pilihan pengguna dan keupayaannya untuk meramalkan hasil yang diingini. Untuk memahami sebabnya, anda mesti melaksanakan tinjauan mikro pada tindakan buat asal. Contohnya, apabila pengguna membalikkan perubahan penjadualan, gesaan mudah boleh bertanya: "Salah masa? Salah orang? Atau adakah anda hanya mahu melakukannya sendiri?" Membenarkan pengguna mengklik pada pilihan yang paling sesuai dengan alasan mereka. 4. Masa untuk Penyelesaian Selepas Metrik ErrorThismengukur tempoh yang diperlukan oleh pengguna untuk membetulkan ralat yang dibuat oleh AI atau untuk sistem AI itu sendiri pulih daripada keadaan yang salah. Masa yang singkat untuk menyelesaikan menunjukkan proses pemulihan ralat yang cekap dan mesra pengguna, yang boleh mengurangkan kekecewaan pengguna dan mengekalkan produktiviti. Ini termasuk kemudahan mengenal pasti ralat, kebolehcapaian mekanisme buat asal atau pembetulan, dan kejelasan mesej ralat yang disediakan oleh AI.
Mengumpul metrik ini memerlukan instrumen sistem anda untuk menjejak ID Tindakan Ejen. Setiap tindakan berbeza yang diambil oleh ejen, seperti mencadangkan jadual atau menempah penerbangan, mesti menjana ID unik yang kekal dalam log. Untuk mengukur Kadar Intervensi, kami tidak mencari reaksi pengguna serta-merta. Kami mencari ketiadaan tindakan balas dalam tetingkap yang ditentukan. Jika ID Tindakan dijana pada 9:00 PG dan tiada pengguna manusia mengubah suai atau mengembalikan ID tertentu itu sebelum 9:00 PG keesokan harinya, sistem menandakannya secara logik sebagai Diterima. Ini membolehkan kami mengukur kejayaan berdasarkan senyap pengguna dan bukannya pengesahan aktif. Untuk Kadar Rollback, kiraan mentah tidak mencukupi kerana tiada konteks. Untuk menangkap sebab asas, anda mesti melaksanakan logik pintasan pada fungsi Buat Asal atau Kembalikan aplikasi anda. Apabila pengguna membalikkan tindakan yang dimulakan oleh ejen, cetuskan tinjauan mikro yang ringan. Ini boleh menjadi modal tiga pilihan mudah yang meminta pengguna untuk mengkategorikan ralat sebagai salah fakta, kekurangan konteks atau keutamaan mudah untuk mengendalikan tugas secara manual. Ini menggabungkan telemetri kuantitatif dengan wawasan kualitatif. Ia membolehkan pasukan kejuruteraan membezakan antara algoritma yang rosak dan ketidakpadanan pilihan pengguna. Metrik ini, apabila dijejaki secara konsisten dan dianalisis secara holistik, menyediakan rangka kerja yang teguh untuk menilai prestasi sistem AI agenik, membolehkan peningkatan berterusan dalam kawalan, persetujuan dan akauntabiliti. Merancang Menentang Penipuan Apabila ejen menjadi semakin berkebolehan, kami menghadapi risiko baharu: Enapcemar Agen. Enap cemar tradisional mencipta geseran yang menyukarkan untuk membatalkan langganan atau memadamkan akaun. Enapcemar agen bertindak secara terbalik. Ia menghilangkan geseran akibat kesalahan, menjadikannya terlalu mudah bagi pengguna untuk bersetuju dengan tindakan yang menguntungkan perniagaan dan bukannya kepentingan mereka sendiri. Pertimbangkan ejen yang membantu dengan tempahan perjalanan. Tanpa pagar yang jelas, sistem mungkin mengutamakan syarikat penerbangan rakan kongsi atau hotel margin yang lebih tinggi. Ia membentangkan pilihan ini sebagai jalan yang optimum. Pengguna, mempercayai kuasa sistem, menerima pengesyoran tanpa penelitian. Ini mewujudkan corak yang mengelirukan di mana sistem mengoptimumkan hasil di bawah nama kemudahan. Risiko Kecekapan Dibayangkan Secara Palsu Penipuan mungkin tidak berpunca daripada niat jahat. Ia sering ditunjukkan dalam AI sebagai Kecekapan Terbayang. Model Bahasa Besar selalunya terdengar berwibawa walaupun salah. Mereka mengemukakan pengesahan tempahan palsu atau ringkasan yang tidak tepat dengan keyakinan yang sama seperti fakta yang disahkan. Pengguna secara semula jadi boleh mempercayai nada yakin ini. Ketidakpadanan ini mewujudkan jurang berbahaya antara keupayaan sistem dan jangkaan pengguna. Kita mesti mereka bentuk khusus untuk merapatkan jurang ini. Jika ejen gagal menyelesaikan tugas, antara muka mesti menandakan kegagalan itu dengan jelas. Jika sistem tidak pasti, ia mesti menyatakan ketidakpastian dan bukannya menutupnya dengan prosa yang digilap. Ketelusan melalui Primitif Penawar kepada kedua-dua enapcemar dan halusinasi adalah asal. Setiap tindakan autonomi memerlukan teg metadata khusus yang menerangkan asal usul keputusan. Pengguna memerlukan keupayaan untuk memeriksa rantai logik di sebalik hasilnya. Untuk mencapai matlamat ini, kita mesti menterjemahkan primitif kepada jawapan praktikal. Dalam kejuruteraan perisian, primitif merujuk kepada unit teras maklumat atau tindakan yang dilakukan oleh ejen. Bagi jurutera, ini kelihatan seperti panggilan API atau get logik. Kepada pengguna, ia mesti muncul sebagai penjelasan yang jelas. Cabaran reka bentuk terletak pada pemetaan langkah teknikal ini kepada rasional yang boleh dibaca manusia. Jika ejen mengesyorkan penerbangan tertentu, pengguna perlu mengetahui sebabnya. Antara muka tidak boleh bersembunyi di sebalik cadangan generik. Ia mesti mendedahkan asas primitif: Logik: Cheapest_Direct_Flight atau Logik: Partner_Airline_Priority. Rajah 4 menggambarkan aliran terjemahan ini. Kami mengambil primitif sistem mentah — logik kod sebenar — dan memetakannya kepada rentetan yang menghadap pengguna. Sebagai contoh, primitif menyemak jadual kalendar mesyuarat menjadi kenyataan yang jelas: Saya telah mencadangkan 4 petangmesyuarat. Tahap ketelusan ini memastikan tindakan ejen kelihatan logik dan bermanfaat. Ia membolehkan pengguna mengesahkan bahawa ejen bertindak demi kepentingan terbaik mereka. Dengan mendedahkan primitif, kami mengubah kotak hitam menjadi kotak kaca, memastikan pengguna kekal sebagai kuasa terakhir dalam kehidupan digital mereka sendiri.
Menetapkan Pentas Untuk Reka Bentuk Membina sistem agenik memerlukan tahap pemahaman psikologi dan tingkah laku yang baharu. Ia memaksa kami untuk bergerak melangkaui ujian kebolehgunaan konvensional dan ke alam amanah, persetujuan dan akauntabiliti. Kaedah penyelidikan yang telah kami bincangkan, daripada meneliti model mental kepada mensimulasikan salah laku dan mewujudkan metrik baharu, menyediakan asas yang diperlukan. Amalan ini ialah alat penting untuk mengenal pasti secara proaktif di mana sistem autonomi mungkin gagal dan, yang lebih penting, cara membaiki perhubungan ejen pengguna apabila ia berlaku. Peralihan kepada AI agenik ialah definisi semula perhubungan sistem pengguna. Kami tidak lagi mereka bentuk alat yang hanya bertindak balas kepada arahan; kami mereka bentuk untuk rakan kongsi yang bertindak bagi pihak kami. Ini mengubah keperluan reka bentuk daripada kecekapan dan kemudahan penggunaan kepada ketelusan, kebolehramalan dan kawalan. Apabila AI boleh menempah penerbangan atau menukar stok tanpa klik terakhir, reka bentuk "on-ramp" dan "off-ramp"nya menjadi yang terpenting. Tanggungjawab kami untuk memastikan pengguna merasakan mereka berada di tempat duduk pemandu, walaupun mereka telah menyerahkan roda. Realiti baharu ini juga meningkatkan peranan penyelidik UX. Kami menjadi penjaga kepercayaan pengguna, bekerja secara kolaboratif dengan jurutera dan pengurus produk untuk menentukan dan menguji pagar autonomi ejen. Selain daripada menjadi penyelidik, kami menjadi penyokong untuk kawalan pengguna, ketelusan dan perlindungan etika dalam proses pembangunan. Dengan menterjemahkan primitif kepada soalan praktikal dan mensimulasikan senario terburuk, kami boleh membina sistem teguh yang berkuasa dan selamat. Artikel ini telah menggariskan "apa" dan "mengapa" penyelidikan AI agen. Ia telah menunjukkan bahawa kit alat tradisional kami tidak mencukupi dan kami mesti menerima pakai metodologi baharu yang berpandangan ke hadapan. Artikel seterusnya akan dibina di atas asas ini, menyediakan corak reka bentuk khusus dan amalan organisasi yang menjadikan utiliti ejen telus kepada pengguna, memastikan mereka dapat memanfaatkan kuasa AI agen dengan keyakinan dan kawalan. Masa depan UX adalah tentang menjadikan sistem boleh dipercayai. Untuk pemahaman tambahan tentang AI agen, anda boleh meneroka sumber berikut:
Blog AI Google pada AI Agen Penyelidikan Microsoft tentang Ejen AI