Agentic AI 已準備好改變客戶體驗和營運效率,因此領導階層需要採取新的策略方法。人工智慧的這種發展使系統能夠規劃、執行和堅持任務,從簡單的建議轉變為主動行動。對於使用者體驗團隊、產品經理和高階主管來說,理解這種轉變對於釋放創新機會、簡化工作流程以及重新定義技術如何為人們服務至關重要。 人們很容易將代理人工智慧與機器人流程自動化 (RPA) 混淆,後者是一種專注於在電腦上執行的基於規則的任務的技術。差別在於僵化與推理。 RPA 非常擅長遵循嚴格的腳本:如果發生 X,則執行 Y。它模仿人手。代理人工智慧模仿人類推理。它不遵循線性腳本;它創造了一個。 考慮招募工作流程。 RPA 機器人可以掃描簡歷並將其上傳到資料庫。它完美地執行重複性任務。 Agentic 系統查看履歷,注意到候選人列出了特定的認證,將其與新的客戶要求進行交叉引用,並決定起草一封突出顯示匹配項的個人化外展電子郵件。 RPA執行預先定義的計劃; Agentic AI 根據目標制定計劃。這種自主性將代理與我們過去十年使用的預測工具分開。 另一個例子是管理會議衝突。整合到您的日曆中的預測模型可能會分析您的會議安排和同事的日程安排。然後,它可能會提出潛在的衝突,例如同時安排的兩次重要會議,或在關鍵參與者休假時安排的會議。它為您提供資訊並標記潛在問題,但您有責任採取行動。 在同樣的情況下,代理人工智慧不僅會建議避免衝突。在發現與關鍵參與者的衝突後,代理可以採取以下行動:
檢查所有必要參與者的可用性。 確定適合每個人的替代時段。 向所有與會者發送提議的新會議邀請。 如果與外部參與者發生衝突,代理可以起草並發送電子郵件,解釋需要重新安排並提供替代時間。 確認後,使用新的會議詳細資訊更新您的日曆和同事的日曆。
這種代理人工智慧理解目標(解決會議衝突),規劃步驟(檢查可用性、尋找替代方案、發送邀請)、執行這些步驟,並持續執行直到衝突得到解決,所有這些都只需最少的直接用戶幹預。這體現了「代理」差異:系統為使用者採取主動步驟,而不僅僅是向用戶提供資訊。 代理人工智慧系統理解一個目標,規劃一系列步驟來實現它,執行這些步驟,甚至在出現問題時進行調整。把它想像成一個主動的數位助理。底層技術通常將用於理解和推理的大型語言模型 (LLM) 與將複雜任務分解為可管理操作的規劃演算法相結合。這些代理可以與各種工具、API 甚至其他人工智慧模型互動來實現其目標,最重要的是,它們可以保持持久狀態,這意味著它們會記住先前的操作並隨著時間的推移繼續朝著目標努力。這使得它們與典型的生成式人工智慧有根本的不同,後者通常完成單一請求然後重置。 代理行為的簡單分類 我們可以將代理行為分為四種不同的自主模式。雖然這些通常看起來像是一個進展,但它們作為獨立的操作模式發揮作用。用戶可能會信任代理商自動進行調度,但將其保持在金融交易的「建議模式」。 我們透過將自動駕駛汽車的行業標準(SAE 等級)適應數位使用者體驗環境來得出這些等級。 觀察和建議 代理充當監視器。它分析資料流並標記異常或機會,但採取零行動。 差異化與下一個層級不同,代理人不會產生複雜的計劃。它指出了一個問題。 範例 DevOps 代理程式註意到伺服器 CPU 峰值並提醒值班工程師。它不知道如何或嘗試修復它,但它知道出了問題。 對設計和監督的影響在這個層面上,設計和監督應優先考慮清晰、非侵入性的通知和明確的流程,以便使用者根據建議採取行動。重點是在不控制的情況下為使用者提供及時且相關的資訊。使用者體驗從業人員應該專注於提出清晰易懂的建議,而產品經理需要確保系統提供價值而不會讓使用者感到不知所措。 計劃和建議 代理確定一個目標並產生一個多步驟策略來實現它。它提出了人工審查的完整計劃。 差異化代理充當策略師。它不執行;它正在等待整個方法的批准。 範例同一個 DevOps 代理程式註意到 CPU 峰值、分析日誌並提出補救計劃:
啟動兩個額外的實例。 重新啟動負載平衡器。 歸檔舊日誌。
人員檢查邏輯並點擊“批准計劃”。 對設計和監督的影響對於規劃和提出建議的代理來說,設計必須確保提出的計劃易於理解,並且用戶有直觀的方式來修改或拒絕它們。監督對於監控提案的品質和代理商的規劃邏輯至關重要。使用者體驗從業者應該設計擬議計劃的清晰視覺化,產品經理必須建立清晰的審查和批准工作流程。 確認後行動 代理完成所有準備工作,並將最終動作置於分階段狀態。它有效地保持門打開,等待點頭。 差異化這與「計劃和建議」不同,因為工作已經完成並已上演。它減少摩擦。使用者確認的是結果,而不是策略。 範例招募代理人起草了五份面試邀請,在日曆上尋找空缺時間,並建立日曆事件。它有一個“發送全部”按鈕。使用者提供觸發外部操作的最終授權。 對設計和監督的影響當代理人進行確認行動時,設計應該提供預期行動的透明和簡潔的總結,清楚地概述潛在的後果。監督需要驗證確認過程是否健全,並且不會要求使用者盲目批准操作。使用者體驗從業者應設計清晰的確認提示並提供所有必要的信息,產品經理應優先考慮對所有已確認的操作進行可靠的審計追蹤。 自主行動 代理在定義的邊界內獨立執行任務。 差異化使用者查看操作歷史記錄,而不是操作本身。 範例招聘代理發現衝突,將面試移至備用時段,更新候選人信息,並通知招聘經理。人們只會看到一則通知:面試重新安排到週二。 對設計和監督的影響對於自主代理,設計需要建立明確的預先批准的邊界並提供強大的監控工具。監督需要對代理商在這些邊界內的效能進行持續評估,迫切需要強大的日誌記錄、清晰的覆蓋機制和使用者定義的終止開關來維持使用者的控制和信任。使用者體驗從業人員應專注於設計有效的儀表板來監控自主代理的行為,產品經理必須確保明確的治理和道德準則到位。
讓我們來看看人力資源技術的實際應用,看看這些模式的實際應用。考慮一個旨在處理招聘後勤工作的「面試協調代理」。
在建議模式下,代理注意到面試官被雙重預定。它強調了招聘人員儀表板上的衝突:“警告:莎拉被雙重預約下午 2 點面試。” 在計劃模式下,代理商會分析莎拉的日曆和候選人的空閒時間。它提出了一個解決方案:「我建議將面試移至週四上午 10 點。這需要將 Sarah 與她的經理的 1:1 訪談移至此處。」招募人員會審查這個邏輯。 在確認模式下,代理起草發送給候選人和經理的電子郵件。它填滿日曆邀請。招募人員會看到一篇摘要:「準備好重新安排到週四。發送更新嗎?」招募人員點擊「確認」。 在自主模式下,代理會立即處理衝突。它遵循預先設定的規則:「始終優先考慮候選人面試而不是內部一對一。」它移動會議並發送通知。招募人員會看到一條日誌條目:「已解決候選人 B 的日程安排有衝突。 」
研究入門:研究什麼以及如何研究 與傳統軟體甚至生成式人工智慧相比,開發有效的代理人工智慧需要獨特的研究方法。人工智慧代理的自主性、決策能力以及主動行動的潛力需要專門的方法來理解使用者期望、映射複雜的代理行為和預測潛在的故障。以下研究入門概述了衡量和評估代理人工智慧這些獨特方面的關鍵方法。 心理模型訪談 這些訪談揭示了用戶對人工智慧代理應該如何行為的先入為主的觀念。重點不是簡單地詢問使用者想要什麼,而是了解代理的功能和限制的內部模型。我們應該避免對參與者使用「代理人」這個詞。它帶有科幻的包袱,或是一個很容易與提供支援或服務的人工代理混淆的術語。相反,圍繞“助手”或“系統”進行討論。 我們需要揭示使用者在有用的自動化和侵入性控制之間的界線。
方法:要求使用者描述、繪製或敘述他們在各種假設場景中與代理人的預期互動。 重點調查(反映各行業): 要了解所需自動化的界限以及過度自動化的潛在焦慮,請詢問: 如果您的航班取消,您希望系統自動執行哪些操作?如果它在沒有您明確指示的情況下這樣做,您會擔心什麼?
若要探索使用者對代理內部流程和必要溝通的理解,請詢問: 想像一下,數位助理正在管理您的智慧家庭。如果包裹已送達,您認為需要採取哪些步驟,以及您希望收到哪些資訊?
要揭示多步驟流程中對控制和同意的期望,請詢問: 如果您要求數位助理安排會議,您預計會採取哪些步驟?什麼時候您希望得到諮詢或給予選擇?
此方法的優點:揭示隱含的假設,突顯代理的計畫行為可能與使用者期望不同的區域,並為適當的控制和回饋機制的設計提供資訊。
代理旅程圖: 與傳統的使用者旅程映射類似,代理旅程映射特別關注人工智慧代理本身的預期操作和決策點以及使用者的互動。這有助於主動識別潛在的陷阱。
方法:建立一個視覺化地圖,概述代理操作的各個階段(從啟動到完成),包括所有潛在的操作、決策以及與外部系統或使用者的互動。 映射的關鍵要素: 代理操作:代理執行哪些具體任務或決策? 訊息輸入/輸出:代理人需要什麼數據,它產生或傳達什麼訊息? 決策點:智能體在哪裡做選擇,這些選擇的標準是什麼? 使用者互動點:使用者在哪裡提供輸入、審核或批准操作? 失敗點:至關重要的是,確定代理人可能會誤解指令、做出錯誤決定或與錯誤實體互動的具體情況。 例如:不正確的收件人(例如,將敏感資訊發送給錯誤的人)、透支(例如,自動付款超出可用資金)、意圖誤解(例如,由於語言含糊而預訂了錯誤日期的航班)。
恢復路徑:代理程式或使用者如何從這些故障中恢復?有哪些糾正或介入機制?
此方法的優點:提供代理操作流程的整體視圖,發現隱藏的依賴關係,並允許主動設計防護措施、錯誤處理和使用者乾預點,以防止或減輕負面結果。
模擬不當行為測試: 這種方法旨在對系統進行壓力測試,並觀察當人工智慧代理失敗或偏離預期時用戶的反應。這是關於理解逆境下的信任修復和情緒反應。
方法:在受控實驗室研究中,故意引入代理犯錯、誤解命令或行為異常的場景。 要模擬的「不當行為」類型: 命令誤解:代理執行的操作與使用者的意圖略有不同(例如,訂購兩件商品而不是一件)。 資訊過載/欠載:代理提供了太多不相關的資訊或沒有足夠的關鍵細節。 未經請求的操作:代理採取使用者明確不想要或不期望的操作(例如,未經批准購買股票)。 系統故障:代理程式崩潰、無回應或提供錯誤訊息。 道德兩難:代理人做出具有道德影響的決定(例如,根據不可預見的指標將一項任務優先於另一項任務)。
觀察重點: 使用者反應:使用者的情緒反應如何(沮喪、憤怒、困惑、失去信任)? 恢復嘗試:使用者採取哪些步驟來修正代理程式的行為或撤銷其操作? 信任修復機制:系統內建的恢復或回饋機制是否有助於恢復信任?用戶希望如何獲知錯誤? 心理模型轉變:不當行為是否會改變使用者對代理能力或限制的理解?
此方法的優點:對於識別與錯誤恢復、回饋和使用者控制相關的設計差距至關重要。它提供了有關使用者對代理故障的復原能力以及維持或重建信任所需的內容的見解,從而形成更強大和更寬容的代理系統。
透過整合這些研究方法,使用者體驗從業者不僅可以簡單地使代理系統變得可用,還可以使其變得可信、可控和負責,從而在使用者與其人工智慧代理之間培養積極且富有成效的關係。請注意,這些並不是與有效探索代理人工智慧相關的唯一方法。有許多其他方法,但這些方法在短期內最適合從業者使用。我之前介紹過「綠野仙蹤」方法,這是一種稍微進階的概念測試方法,也是探索代理 AI 概念的寶貴工具。 研究方法中的倫理考慮 在研究代理人工智慧時,特別是在模擬不當行為或錯誤時,道德因素是需要考慮的關鍵。有許多出版物專注於道德用戶體驗研究,包括我為 Smashing 雜誌撰寫的一篇文章、用戶體驗設計研究所的這些指南以及包容性設計工具包中的此頁面。 代理人工智慧的關鍵指標 您需要一套全面的關鍵指標來有效評估代理人工智慧系統的效能和可靠性。這些指標可以深入了解使用者信任度、系統準確性和整體使用者體驗。透過追蹤這些指標,開發人員和設計人員可以確定需要改進的領域,並確保人工智慧代理安全且有效率地運作。 1. 介入率對於自主代理,我們以沉默來衡量成功。如果代理執行任務且使用者在設定的視窗(例如 24 小時)內沒有乾預或逆轉該操作,我們將其視為接受。我們追蹤幹預率:人類介入阻止或糾正智能體的頻率是多少?高幹預率表示信任或邏輯錯位。 2. 每 1,000 個任務中非預期操作的頻率 這個關鍵指標量化了 AI 代理執行的使用者不希望或預期的操作數量,標準化為每 1,000 個已完成的任務。低頻率的意外操作意味著人工智慧能夠準確地解釋使用者意圖並在定義的邊界內運行。該指標與人工智慧對上下文的理解、消除命令歧義的能力以及安全協議的穩健性密切相關。 3.回滾或撤銷率此指標追蹤使用者需要撤銷或撤銷人工智慧執行的操作的頻率。高回滾率表示人工智慧經常犯錯、誤解指令或以與使用者期望不符的方式行事。分析這些回滾背後的原因可以為改進人工智慧演算法、了解使用者偏好及其預測期望結果的能力提供有價值的回饋。 要了解原因,您必須對撤消操作進行微觀調查。例如,當使用者撤銷日程安排變更時,一個簡單的提示可以詢問:「錯誤的時間?錯誤的人?或者您只是想自己做?」允許使用者點擊最符合其推理的選項。 4. 出現錯誤後解決問題的時間此指標衡量用戶糾正人工智慧所犯錯誤或人工智慧系統本身從錯誤狀態恢復所需的時間。解決問題的時間短錶示錯誤恢復過程高效且用戶友好,可以減輕用戶的挫折感並保持生產力。這包括識別錯誤的容易程度、撤消或糾正機制的可訪問性以及人工智慧提供的錯誤訊息的清晰度。
收集這些指標需要對您的系統進行檢測以追蹤代理操作 ID。代理商採取的每項不同操作(例如提出時間表或預訂航班)都必須產生一個唯一的 ID,並保留在日誌中。為了衡量介入率,我們並不尋求使用者的立即反應。我們尋找在定義的視窗內是否存在反作用。如果操作 ID 是在上午 9:00 生成的,並且在第二天上午 9:00 之前沒有人類用戶修改或恢復該特定 ID,則係統會在邏輯上將其標記為「已接受」。這使我們能夠根據用戶的沉默而不是主動確認來量化成功。 對於回滾率,原始計數是不夠的,因為它們缺乏上下文。要捕獲根本原因,您必須在應用程式的撤消或恢復函數上實現攔截邏輯。當使用者撤銷代理程式發起的操作時,觸發輕量級微調查。這可以是一個簡單的三選項模式,要求使用者將錯誤分類為事實不正確、缺乏上下文或手動處理任務的簡單偏好。這將定量遙測與定性洞察相結合。它使工程團隊能夠區分損壞的演算法和用戶偏好不匹配。 這些指標經過一致追蹤和整體分析,可以為評估代理人工智慧系統的性能提供一個強大的框架,從而實現控制、同意和問責方面的持續改進。 反欺騙設計 隨著特務的能力越來越強,我們面臨新的風險:特務污泥。傳統的污泥會產生摩擦,使得取消訂閱或刪除帳戶變得困難。污泥劑的作用相反。它消除了故障的摩擦,使用戶很容易同意有利於企業而不是自己利益的行為。 考慮找一個協助旅行預訂的代理人。如果沒有明確的護欄,系統可能會優先考慮合作航空公司或利潤率較高的飯店。它將這種選擇呈現為最佳路徑。使用者信任系統的權威,無需仔細審查即可接受推薦。這就產生了一種欺騙性的模式,系統以方便為幌子來優化收入。 錯誤想像的能力的風險 欺騙可能並非出於惡意。它在人工智慧中通常表現為想像能力。大型語言模型即使在不正確的情況下也經常聽起來很權威。他們提供虛假的預訂確認或不準確的摘要,其可信度與已驗證的事實相同。使用者自然會相信這種自信的語氣。這種不匹配在系統功能和使用者期望之間造成了危險的差距。 我們必須專門設計來彌補這一差距。如果代理未能完成任務,介面必須清楚地發出失敗訊號。如果系統不確定,它必須表達不確定性,而不是用優美的散文來掩蓋它。 透過原語實現透明度 污泥和幻覺的解藥是出處。每個自主操作都需要一個特定的元資料標籤來解釋決策的起源。用戶需要能夠檢查結果背後的邏輯鏈。 為了實現這一目標,我們必須將原語轉化為實際的答案。在軟體工程中,原語是指代理執行的資訊或操作的核心單元。對於工程師來說,這看起來像是 API 呼叫或邏輯閘。對於用戶來說,它必須顯示為清晰的解釋。 設計挑戰在於將這些技術步驟映射到人類可讀的基本原理。如果代理商推薦特定航班,用戶需要知道原因。介面不能隱藏在通用建議後面。它必須公開底層原語:邏輯:Cheapest_Direct_Flight 或邏輯:Partner_Airline_Priority。 圖 4 說明了此轉換流程。我們採用原始系統原語(實際的程式碼邏輯)並將其對應到面向使用者的字串。例如,檢查日曆安排會議的原始內容變成了一個明確的聲明:我提議在下午 4 點召開會議。 這種程度的透明度確保了代理的行為顯得合乎邏輯且有益。它允許用戶驗證代理的行為是否符合他們的最佳利益。透過暴露原語,我們將黑盒子變成了玻璃盒子,確保使用者仍然對自己的數位生活擁有最終決定權。
為設計奠定基礎 建立代理系統需要新層次的心理和行為理解。它迫使我們超越傳統的可用性測試,進入信任、同意和問責的領域。我們討論的研究方法,從探索心理模型到模擬不當行為和建立新的指標,提供了必要的基礎。這些實踐是主動識別自治系統可能在哪裡發生故障的基本工具,更重要的是,在發生故障時如何修復使用者代理關係。 向代理人工智慧的轉變是對使用者與系統關係的重新定義。我們不再設計僅僅是回應命令的工具;而是設計工具。我們正在為代表我們行事的合作夥伴進行設計。這將設計的要求從效率和易用性轉變為透明度、可預測性和控制。 當人工智慧無需最終點擊即可預訂航班或交易股票時,其「入口匝道」和「出口匝道」的設計就變得至關重要。我們有責任確保使用者感覺自己處於駕駛座上,即使他們已經交出了方向盤。 這一新的現實也提升了使用者體驗研究員的角色。我們成為使用者信任的守護者,與工程師和產品經理合作,定義和測試代理自主權的護欄。除了成為研究人員之外,我們也成為開發過程中使用者控制、透明度和道德保障的倡導者。透過將原語轉化為實際問題並模擬最壞的情況,我們可以建立強大且安全的強大系統。 本文概述了研究代理人工智慧的「內容」和「原因」。它顯示我們的傳統工具箱是不夠的,我們必須採用新的、前瞻性的方法。下一篇文章將在此基礎上構建,提供具體的設計模式和組織實踐,使代理的效用對用戶透明,確保他們能夠自信和控制地利用代理人工智慧的力量。使用者體驗的未來在於讓系統值得信賴。 若要進一步了解代理 AI,您可以探索以下資源:
關於 Agentic AI 的 Google AI 博客 微軟對人工智慧代理的研究