Agentic AI 已准备好改变客户体验和运营效率,因此领导层需要采取新的战略方法。人工智能的这种发展使系统能够计划、执行和坚持任务,从简单的建议转变为主动行动。对于用户体验团队、产品经理和高管来说,理解这种转变对于释放创新机会、简化工作流程以及重新定义技术如何为人们服务至关重要。 人们很容易将代理人工智能与机器人流程自动化 (RPA) 混淆,后者是一种专注于在计算机上执行的基于规则的任务的技术。区别在于僵化与推理。 RPA 非常擅长遵循严格的脚本:如果发生 X,则执行 Y。它模仿人手。代理人工智能模仿人类推理。它不遵循线性脚本;它创造了一个。 考虑招聘工作流程。 RPA 机器人可以扫描简历并将其上传到数据库。它完美地执行重复性任务。 Agentic 系统查看简历,注意到候选人列出了特定的认证,将其与新的客户要求进行交叉引用,并决定起草一封突出显示匹配项的个性化外展电子邮件。 RPA执行预定义的计划; Agentic AI 根据目标制定计划。这种自主性将代理与我们过去十年使用的预测工具分开。 另一个例子是管理会议冲突。集成到您的日历中的预测模型可能会分析您的会议安排和同事的日程安排。然后,它可能会提出潜在的冲突,例如同时安排的两次重要会议,或者在关键参与者休假时安排的会议。它为您提供信息并标记潜在问题,但您有责任采取行动。 在同样的情况下,代理人工智能不仅仅会建议避免冲突。在发现与关键参与者的冲突后,代理可以采取以下行动:

检查所有必要参与者的可用性。 确定适合每个人的替代时间段。 向所有与会者发送提议的新会议邀请。 如果与外部参与者发生冲突,代理可以起草并发送一封电子邮件,解释需要重新安排并提供替代时间。 确认后,使用新的会议详细信息更新您的日历和同事的日历。

这种代理人工智能理解目标(解决会议冲突),规划步骤(检查可用性、寻找替代方案、发送邀请)、执行这些步骤,并持续执行直到冲突得到解决,所有这些都只需最少的直接用户干预。这体现了“代理”差异:系统为用户采取主动步骤,而不仅仅是向用户提供信息。 代理人工智能系统理解一个目标,规划一系列步骤来实现它,执行这些步骤,甚至在出现问题时进行调整。把它想象成一个主动的数字助理。底层技术通常将用于理解和推理的大型语言模型 (LLM) 与将复杂任务分解为可管理操作的规划算法相结合。这些代理可以与各种工具、API 甚至其他人工智能模型交互来实现其目标,最重要的是,它们可以保持持久状态,这意味着它们会记住之前的操作并随着时间的推移继续朝着目标努力。这使得它们与典型的生成式人工智能有根本的不同,后者通常完成单个请求然后重置。 代理行为的简单分类 我们可以将代理行为分为四种不同的自主模式。虽然这些通常看起来像是一个进展,但它们作为独立的操作模式发挥作用。用户可能信任代理自动进行调度,但将其保持在金融交易的“建议模式”。 我们通过将自动驾驶汽车的行业标准(SAE 级别)适应数字用户体验环境来得出这些级别。 观察和建议 代理充当监视器。它分析数据流并标记异常或机会,但采取零行动。 差异化与下一个级别不同,代理不会生成复杂的计划。它指出了一个问题。 示例 DevOps 代理注意到服务器 CPU 峰值并提醒值班工程师。它不知道如何或尝试修复它,但它知道出了问题。 对设计和监督的影响在这个层面上,设计和监督应优先考虑清晰、非侵入性的通知和明确的流程,以便用户根据建议采取行动。重点是在不控制的情况下为用户提供及时且相关的信息。用户体验从业者应该专注于提出清晰易懂的建议,而产品经理需要确保系统提供价值而不会让用户感到不知所措。 计划和建议 代理确定一个目标并生成一个多步骤策略来实现它。它提出了人工审查的完整计划。 差异化代理充当策略师。它不执行;它正在等待整个方法的批准。 示例同一 DevOps 代理注意到 CPU 峰值、分析日志并提出补救计划:

启动两个额外的实例。 重新启动负载均衡器。 归档旧日志。

人员检查逻辑并单击“批准计划”。 对设计和监督的影响对于规划和提出建议的代理来说,设计必须确保提出的计划易于理解,并且用户有直观的方式来修改或拒绝它们。监督对于监控提案的质量和代理商的规划逻辑至关重要。用户体验从业者应该设计拟议计划的清晰可视化,产品经理必须建立清晰的审查和批准工作流程。 确认后行动 代理完成所有准备工作,并将最终动作置于分阶段状态。它有效地保持门打开,等待点头。 差异化这与“计划和建议”不同,因为工作已经完成并已上演。它减少摩擦。用户确认的是结果,而不是策略。 示例招聘代理起草了五份面试邀请,在日历上查找空缺时间,并创建日历事件。它有一个“发送全部”按钮。用户提供触发外部操作的最终授权。 对设计和监督的影响当代理人进行确认行动时,设计应该提供预期行动的透明和简洁的总结,清楚地概述潜在的后果。监督需要验证确认过程是否健全,并且不会要求用户盲目批准操作。用户体验从业者应设计清晰的确认提示并提供所有必要的信息,产品经理应优先考虑对所有已确认的操作进行可靠的审计跟踪。 自主行动 代理在定义的边界内独立执行任务。 差异化用户查看操作历史记录,而不是操作本身。 示例招聘代理发现冲突,将面试移至备用时段,更新候选人信息,并通知招聘经理。人们只会看到一条通知:面试重新安排到周二。 对设计和监督的影响对于自主代理,设计需要建立明确的预先批准的边界并提供强大的监控工具。监督需要对代理在这些边界内的性能进行持续评估,迫切需要强大的日志记录、清晰的覆盖机制和用户定义的终止开关来维持用户的控制和信任。用户体验从业者应专注于设计有效的仪表板来监控自主代理的行为,产品经理必须确保明确的治理和道德准则到位。

让我们看一下人力资源技术的实际应用,看看这些模式的实际应用。考虑一个旨在处理招聘后勤工作的“面试协调代理”。

在建议模式下,代理注意到面试官被双​​重预定。它强调了招聘人员仪表板上的冲突:“警告:莎拉被双重预约下午 2 点面试。” 在计划模式下,代理会分析莎拉的日历和候选人的空闲时间。它提出了一个解决方案:“我建议将面试移至周四上午 10 点。这需要将 Sarah 与她的经理的 1:1 访谈移至此处。”招聘人员会审查这个逻辑。 在确认模式下,代理起草发送给候选人和经理的电子邮件。它填充日历邀请。招聘人员会看到一条摘要:“准备好重新安排到周四。发送更新吗?”招聘人员点击“确认”。 在自主模式下,代理会立即处理冲突。它遵循预先设定的规则:“始终优先考虑候选人面试而不是内部一对一。”它移动会议并发送通知。招聘人员会看到一条日志条目:“已解决候选人 B 的日程安排有冲突。”

研究入门:研究什么以及如何研究 与传统软件甚至生成式人工智能相比,开发有效的代理人工智能需要独特的研究方法。人工智能代理的自主性、决策能力以及主动行动的潜力需要专门的方法来理解用户期望、映射复杂的代理行为和预测潜在的故障。以下研究入门概述了衡量和评估代理人工智能这些独特方面的关键方法。 心理模型访谈 这些采访揭示了用户对人工智能代理应该如何行为的先入为主的观念。重点不是简单地询问用户想要什么,而是了解代理的功能和局限性的内部模型。我们应该避免对参与者使用“代理人”这个词。它带有科幻的包袱,或者是一个很容易与提供支持或服务的人工代理混淆的术语。相反,围绕“助手”或“系统”进行讨论。 我们需要揭示用户在有用的自动化和侵入性控制之间的界限。

方法:要求用户描述、绘制或叙述他们在各种假设场景中与代理的预期交互。 重点调查(反映各个行业): 要了解所需自动化的界限以及过度自动化的潜在焦虑,请询问: 如果您的航班取消,您希望系统自动执行哪些操作?如果它在没有您明确指示的情况下这样做,您会担心什么?

要探索用户对代理内部流程和必要沟通的理解,请询问: 想象一下,数字助理正在管理您的智能家居。如果包裹已送达,您认为需要采取哪些步骤,以及您希望收到哪些信息?

要揭示多步骤流程中对控制和同意的期望,请询问: 如果您要求数字助理安排会议,您预计会采取哪些步骤?在什么时候您希望得到咨询或给予选择?

该方法的优点:揭示隐含的假设,突出显示代理的计划行为可能与用户期望不同的区域,并为适当的控制和反馈机制的设计提供信息。

代理旅程图: 与传统的用户旅程映射类似,代理旅程映射特别关注人工智能代理本身的预期操作和决策点以及用户的交互。这有助于主动识别潜在的陷阱。

方法:创建一个可视化地图,概述代理操作的各个阶段(从启动到完成),包括所有潜在的操作、决策以及与外部系统或用户的交互。 映射的关键要素: 代理操作:代理执行哪些具体任务或决策? 信息输入/输出:代理需要什么数据,它生成或传达什么信息? 决策点:智能体在哪里做出选择,这些选择的标准是什么? 用户交互点:用户在哪里提供输入、审核或批准操作? 失败点:至关重要的是,确定代理可能会误解指令、做出错误决定或与错误实体交互的具体情况。 示例:不正确的收件人(例如,将敏感信息发送给错误的人)、透支(例如,自动付款超出可用资金)、意图误解(例如,由于语言含糊而预订了错误日期的航班)。

恢复路径:代理或用户如何从这些故障中恢复?有哪些纠正或干预机制?

该方法的优点:提供代理操作流程的整体视图,发现隐藏的依赖关系,并允许主动设计防护措施、错误处理和用户干预点,以防止或减轻负面结果。

模拟不当行为测试: 这种方法旨在对系统进行压力测试,并观察当人工智能代理失败或偏离预期时用户的反应。这是关于理解逆境下的信任修复和情绪反应。

方法:在受控实验室研究中,故意引入代理犯错误、误解命令或行为异常的场景。 要模拟的“不当行为”类型: 命令误解:代理执行的操作与用户的意图略有不同(例如,订购两件商品而不是一件)。 信息过载/欠载:代理提供了太多不相关的信息或没有足够的关键细节。 未经请求的操作:代理采取用户明确不想要或不期望的操作(例如,未经批准购买股票)。 系统故障:代理崩溃、无响应或提供错误消息。 道德困境:代理做出具有道德影响的决定(例如,根据不可预见的指标将一项任务优先于另一项任务)。

观察重点: 用户反应:用户的情绪反应如何(沮丧、愤怒、困惑、失去信任)? 恢复尝试:用户采取哪些步骤来纠正代理的行为或撤消其操作? 信任修复机制:系统内置的恢复或反馈机制是否有助于恢复信任?用户希望如何获知错误? 心理模型转变:不当行为是否会改变用户对代理能力或局限性的理解?

该方法的优点:对于识别与错误恢复、反馈和用户控制相关的设计差距至关重要。它提供了有关用户对代理故障的恢复能力以及维持或重建信任所需的内容的见解,从而形成更强大和更宽容的代理系统。

通过整合这些研究方法,用户体验从业者不仅可以简单地使代理系统变得可用,还可以使其变得可信、可控和负责,从而在用户与其人工智能代理之间培养积极且富有成效的关系。请注意,这些并不是与有效探索代理人工智能相关的唯一方法。存在许多其他方法,但这些方法在短期内最适合从业者使用。我之前介绍过“绿野仙踪”方法,这是一种稍微高级的概念测试方法,也是探索代理 AI 概念的宝贵工具。 研究方法中的伦理考虑 在研究代理人工智能时,特别是在模拟不当行为或错误时,道德因素是需要考虑的关键。有许多出版物专注于道德用户体验研究,包括我为 Smashing 杂志撰写的一篇文章、用户体验设计研究所的这些指南以及包容性设计工具包中的此页面。 代理人工智能的关键指标 您需要一套全面的关键指标来有效评估代理人工智能系统的性能和可靠性。这些指标可以深入了解用户信任度、系统准确性和整体用户体验。通过跟踪这些指标,开发人员和设计人员可以确定需要改进的领域,并确保人工智能代理安全高效地运行。 1. 干预率对于自主代理,我们通过沉默来衡量成功。如果代理执行任务并且用户在设定的窗口(例如 24 小时)内没有干预或逆转该操作,我们将其视为接受。我们跟踪干预率:人类介入阻止或纠正智能体的频率是多少?高干预率表明信任或逻辑错位。 2. 每 1,000 个任务中非预期操作的频率 这个关键指标量化了 AI 代理执行的用户不希望或预期的操作数量,标准化为每 1,000 个已完成的任务。低频率的意外操作意味着人工智能能够准确地解释用户意图并在定义的边界内运行。该指标与人工智能对上下文的理解、消除命令歧义的能力以及安全协议的稳健性密切相关。 3.回滚或撤消率该指标跟踪用户需要撤消或撤消人工智能执行的操作的频率。高回滚率表明人工智能经常犯错误、误解指令或以与用户期望不符的方式行事。分析这些回滚背后的原因可以为改进人工智能算法、了解用户偏好及其预测期望结果的能力提供有价值的反馈。 要了解原因,您必须对撤消操作进行微观调查。例如,当用户撤销日程安排更改时,一个简单的提示可以询问:“错误的时间?错误的人?或者您只是想自己做?”允许用户单击最符合其推理的选项。 4. 出现错误后解决问题的时间此指标衡量用户纠正人工智能所犯错误或人工智能系统本身从错误状态恢复所需的时间。解决问题的时间短表明错误恢复过程高效且用户友好,可以减轻用户的挫败感并保持生产力。这包括识别错误的容易程度、撤消或纠正机制的可访问性以及人工智能提供的错误消息的清晰度。

收集这些指标需要对您的系统进行检测以跟踪代理操作 ID。代理采取的每项不同操作(例如提出时间表或预订航班)都必须生成一个唯一的 ID,并保留在日志中。为了衡量干预率,我们并不寻求用户的立即反应。我们寻找在定义的窗口内是否存在反作用。如果操作 ID 是在上午 9:00 生成的,并且在第二天上午 9:00 之前没有人类用户修改或恢复该特定 ID,则系统会在逻辑上将其标记为“已接受”。这使我们能够根据用户的沉默而不是主动确认来量化成功。 对于回滚率,原始计数是不够的,因为它们缺乏上下文。要捕获根本原因,您必须在应用程序的撤消或恢复函数上实现拦截逻辑。当用户撤消代理发起的操作时,触发轻量级微调查。这可以是一个简单的三选项模式,要求用户将错误分类为事实不正确、缺乏上下文或手动处理任务的简单偏好。这将定量遥测与定性洞察相结合。它使工程团队能够区分损坏的算法和用户偏好不匹配。 这些指标经过一致跟踪和整体分析,可以为评估代理人工智能系统的性能提供一个强大的框架,从而实现控制、同意和问责方面的持续改进。 反欺骗设计 随着特工的能力越来越强,我们面临着新的风险:特工污泥。传统的污泥会产生摩擦,使得取消订阅或删除帐户变得困难。污泥剂的作用相反。它消除了故障的摩擦,使用户很容易同意有利于企业而不是自己利益的行为。 考虑找一个协助旅行预订的代理人。如果没有明确的护栏,系统可能会优先考虑合作航空公司或利润率较高的酒店。它将这种选择呈现为最佳路径。用户信任系统的权威,无需仔细审查即可接受推荐。这就产生了一种欺骗性的模式,系统以方便为幌子来优化收入。 错误想象的能力的风险 欺骗可能并非出于恶意。它在人工智能中通常表现为想象能力。大型语言模型即使在不正确​​的情况下也经常听起来很权威。他们提供虚假的预订确认或不准确的摘要,其可信度与已验证的事实相同。用户自然会相信这种自信的语气。这种不匹配在系统功能和用户期望之间造成了危险的差距。 我们必须专门设计来弥补这一差距。如果代理未能完成任务,界面必须清楚地发出失败信号。如果系统不确定,它必须表达不确定性,而不是用优美的散文来掩盖它。 通过原语实现透明度 污泥和幻觉的解药是出处。每个自主操作都需要一个特定的元数据标签来解释决策的起源。用户需要能够检查结果背后的逻辑链。 为了实现这一目标,我们必须将原语转化为实际的答案。在软件工程中,原语是指代理执行的信息或操作的核心单元。对于工程师来说,这看起来像是 API 调用或逻辑门。对于用户来说,它必须显示为清晰的解释。 设计挑战在于将这些技术步骤映射到人类可读的基本原理。如果代理推荐特定航班,用户需要知道原因。界面不能隐藏在通用建议后面。它必须公开底层原语:逻辑:Cheapest_Direct_Flight 或逻辑:Partner_Airline_Priority。 图 4 说明了此转换流程。我们采用原始系统原语(实际的代码逻辑)并将其映射到面向用户的字符串。例如,检查日历安排会议的原始内容变成了一个明确的声明:我提议下午 4 点召开会议。 这种程度的透明度确保了代理的行为显得合乎逻辑且有益。它允许用户验证代理的行为是否符合他们的最佳利益。通过暴露原语,我们将黑匣子变成了玻璃匣子,确保用户仍然对自己的数字生活拥有最终决定权。

为设计奠定基础 建立代理系统需要新水平的心理和行为理解。它迫使我们超越传统的可用性测试,进入信任、同意和问责的领域。我们讨论的研究方法,从探索心理模型到模拟不当行为和建立新的指标,提供了必要的基础。这些实践是主动识别自治系统可能在哪里发生故障的基本工具,更重要的是,在发生故障时如何修复用户代理关系。 向代理人工智能的转变是对用户与系统关系的重新定义。我们不再设计仅仅响应命令的工具;而是设计工具。我们正在为代表我们行事的合作伙伴进行设计。这将设计的要求从效率和易用性转变为透明度、可预测性和控制。 当人工智能无需最终点击即可预订航班或交易股票时,其“入口匝道”和“出口匝道”的设计就变得至关重要。我们有责任确保用户感觉自己处于驾驶座上,即使他们已经交出了方向盘。 这一新的现实也提升了用户体验研究员的作用。我们成为用户信任的守护者,与工程师和产品经理合作,定义和测试代理自主权的护栏。除了成为研究人员之外,我们还成为开发过程中用户控制、透明度和道德保障的倡导者。通过将原语转化为实际问题并模拟最坏的情况,我们可以构建强大且安全的强大系统。 本文概述了研究代理人工智能的“内容”和“原因”。它表明我们的传统工具箱是不够的,我们必须采用新的、前瞻性的方法。下一篇文章将在此基础上构建,提供具体的设计模式和组织实践,使代理的效用对用户透明,确保他们能够自信和控制地利用代理人工智能的力量。用户体验的未来在于让系统变得值得信赖。 要进一步了解代理 AI,您可以探索以下资源:

关于 Agentic AI 的 Google AI 博客 微软对人工智能代理的研究

You May Also Like

Enjoyed This Article?

Get weekly tips on growing your audience and monetizing your content — straight to your inbox.

No spam. Join 138,000+ creators. Unsubscribe anytime.

Create Your Free Bio Page

Join 138,000+ creators on Seemless.

Get Started Free