为自主代理进行设计会带来独特的挫败感。我们将一项复杂的任务交给人工智能,它会消失 30 秒(或 30 分钟),然后返回结果。我们盯着屏幕。有效吗?难道是出现幻觉了?它是否检查了合规性数据库或跳过了该步骤? 我们通常会用两个极端之一来应对这种焦虑。我们要么让系统成为一个黑匣子,隐藏所有内容以保持简单性,要么我们恐慌并提供数据转储,将每个日志行和 API 调用流式传输给用户。 这两种方法都没有直接解决为用户提供理想透明度所需的细微差别。 黑匣子让用户感到无能为力。数据转储造成通知盲目性,破坏了代理承诺提供的效率。用户会忽略源源不断的信息流,直到出现问题为止,此时他们缺乏修复它的上下文。 我们需要一种有组织的方式来找到平衡。在我之前的文章“为代理 AI 进行设计”中,我们研究了建立信任的界面元素,例如预先显示 AI 的预期操作(意图预览)以及让用户控制 AI 自行执行的操作(自主拨号)。但知道要使用哪些元素只是挑战的一部分。对于设计师来说,更困难的问题是知道何时使用它们。 您如何知道 30 秒工作流程中的哪个特定时刻需要意图预览,以及哪些可以通过简单的日志条目进行处理? 本文提供了一种回答该问题的方法。我们将逐步完成决策节点审核。这个过程让设计师和工程师在同一个房间将后端逻辑映射到用户界面。您将学习如何确定用户需要了解人工智能正在做什么的更新的确切时刻。我们还将介绍影响/风险矩阵,该矩阵将有助于确定要显示的决策节点的优先级以及与该决策配对的任何相关设计模式。 透明时刻:案例研究示例 以 Meridian(非真名)为例,这是一家使用代理人工智能来处理初始事故索赔的保险公司。用户上传车辆损坏的照片和警方报告。然后,代理人消失一分钟,然后带着风险评估和建议的支付范围返回。 最初,Meridian 的界面只是显示计算索赔状态。用户变得沮丧。他们已经提交了几份详细文件,并且不确定人工智能是否审查了警方报告,其中包含了从轻处罚的情节。黑匣子造成了不信任。 为了解决这个问题,设计团队进行了决策节点审核。他们发现人工智能执行了三个不同的、基于概率的步骤,其中嵌入了许多较小的步骤:
图像分析代理将损坏照片与典型车祸场景的数据库进行比较,以估计维修成本。这涉及到置信度得分。 文本审查它扫描了警方报告中影响责任的关键词(例如过错、天气状况、清醒)。这涉及对法律地位的概率评估。 保单交叉参考它将索赔详细信息与用户的特定保单条款进行匹配,搜索例外情况或承保范围限制。这还涉及概率匹配。
该团队将这些步骤变成了透明时刻。界面顺序更新为:
评估损坏照片:与 500 个车辆碰撞剖面进行比较。 审查警方报告:分析责任关键词和法律先例。 验证保单承保范围:检查您的计划中是否有特定的排除项目。
系统仍然花费相同的时间,但有关代理内部运作的明确沟通恢复了用户的信心。用户明白人工智能正在执行其设计的复杂任务,并且如果最终评估似乎不准确,他们确切地知道应该将注意力集中在哪里。这种设计选择将焦虑的时刻转变为与用户联系的时刻。 应用影响/风险矩阵:我们选择隐藏的内容 大多数人工智能体验都不缺少在处理过程中可能显示的事件和决策节点。审计最重要的结果之一是决定哪些内容不可见。在 Meridian 示例中,后端日志为每个声明生成 50 多个事件。我们可以默认显示每个事件,因为它们是作为 UI 的一部分进行处理的。相反,我们应用风险矩阵来修剪它们:
日志事件:Ping 服务器West-2 用于冗余检查。 过滤器判决:隐藏。 (低风险,高技术性)。
日志事件:将维修估算与 BlueBook 值进行比较。 过滤器判决:显示。 (高风险,影响用户的支出)。
通过删除不必要的细节,重要信息(例如覆盖范围验证)更具影响力。我们创建了一个开放的界面并设计了一个开放的体验。 这种方法的理念是,当人们看到工作正在完成时,他们会对服务感觉更好。通过展示具体步骤(评估、审查、验证),我们将 30 秒的等待时间从担心的时间(“它坏了吗?”)改为感觉有价值的东西正在被创建的时间(“它正在思考”)。 现在让我们仔细看看如何审查我们产品中的决策过程,以确定需要清晰信息的关键时刻。 决策节点审核 当我们将透明度视为一种风格选择而不是功能需求时,透明度就会失败。我们倾向于问:“用户界面应该是什么样子?”在我们问“代理人实际决定什么?”之前 决策节点审核是一种使人工智能系统更易于理解的简单方法。它的工作原理是仔细规划系统的内部流程。主要目标是找到并明确定义系统停止遵循其设定规则并根据机会或估计做出选择的确切时刻。通过映射这种结构,创建者可以直接向使用该系统的人展示这些不确定点。这将系统更新从模糊的陈述转变为关于人工智能如何得出结论的具体、可靠的报告。 除了上面的保险案例研究之外,我最近还与一个团队合作建立了一个采购代理。该系统审查了供应商合同并标记了风险。原本,屏幕上显示的是一个简单的进度条:“正在审核合同。”用户讨厌它。我们的研究表明,他们对缺失条款的法律影响感到焦虑。 我们通过进行决策节点审核来修复此问题。我在本文的结尾处列出了用于进行此审核的分步清单。 我们与工程师进行了一次会议,并概述了系统的工作原理。我们确定了“决策点”——人工智能必须在两个好的选项之间做出选择的时刻。 在标准计算机程序中,过程很明确:如果 A 发生,则 B 总是会发生。在人工智能系统中,这个过程通常是基于机会的。 AI 认为 A 可能是最佳选择,但确定性可能只有 65%。 在合同系统中,我们发现人工智能根据我们公司的规则检查责任条款的时刻。这很少是完美的匹配。 AI 必须决定 90% 的匹配度是否足够好。这是一个关键的决策点。
一旦我们识别了这个节点,我们就把它暴露给用户。该界面不再是“审查合同”,而是更新为:“责任条款与标准模板不同。分析风险级别。” 这次具体的更新给了用户信心。他们知道代理人检查了责任条款。他们了解延迟的原因,并相信后端正在发生所需的操作。一旦代理生成合同,他们也知道在哪里进行更深入的挖掘。 要检查人工智能如何做出决策,您需要与工程师、产品经理、业务分析师和做出影响人工智能工具功能的选择(通常是隐藏的)的关键人员密切合作。画出该工具所采取的步骤。标记过程因满足概率而改变方向的每个点。这些是您应该注重提高透明度的地方。 如下图2所示,决策节点审计涉及以下步骤:
将团队聚集在一起:引入产品负责人、业务分析师、设计师、关键决策者以及构建人工智能的工程师。例如, 想象一下一个产品团队构建了一个人工智能工具,旨在审查混乱的法律合同。该团队包括用户体验设计师、产品经理、用户体验研究员、担任主题专家的执业律师以及编写文本分析代码的后端工程师。
绘制整个过程:记录人工智能采取的每一步,从用户的第一个动作到最终结果。 该团队站在白板前,勾勒出关键工作流程的整个序列,其中涉及人工智能在复杂合同中搜索责任条款。律师上传五十页的 PDF → 系统将文档转换为可读文本。 → AI 扫描页面以查找责任条款。 → 用户等待。 → 片刻或几分钟后,该工具会在用户界面上以黄色突出显示找到的段落。他们也为该工具支持的许多其他工作流程执行此操作。
查找不清楚的地方:查看流程图,查找人工智能比较没有完美匹配的选项或输入的任何位置。 团队查看白板以发现不明确的步骤。将图像转换为文本遵循严格的规则。寻找具体的责任条款涉及猜测。每家公司对这些条款的编写方式都不同,因此人工智能必须权衡多个选项并做出预测,而不是找到精确的单词匹配。
确定“最佳猜测”步骤:对于每个不清楚的点,检查系统是否使用置信度分数(例如,是否有 85% 的把握?)。这些都是人工智能做出最终选择的点。 系统必须猜测(给出概率)哪些段落与标准责任条款非常相似。它为其最佳猜测分配一个置信度分数。这个猜测就是一个决策节点。界面需要告诉律师它正在突出显示潜在的匹配项,而不是说明它找到了明确的条款。
检查选择:对于每个选择点,计算出具体的内部数学或正在进行的比较(例如,将合同的一部分与保单进行匹配或将破损汽车的图片与损坏汽车照片库进行比较)。 工程师解释说,系统将各个段落与过去公司案例中的标准责任条款数据库进行比较。它计算文本相似度分数,以根据概率决定匹配。
编写清晰的解释:为用户创建消息,清楚地描述人工智能做出选择时发生的特定内部操作。 内容设计师为此时刻编写了一条特定的消息。文本内容如下:将文件文本与标准公司条款进行比较,以识别潜在的责任风险。
更新屏幕:将这些新的、清晰的解释放入用户界面中,取代“审查合同”等模糊消息。 设计团队删除了通用的处理 PDF 加载旋转器。当人工智能思考时,他们将新的解释插入文档查看器正上方的状态栏中。
检查信任:确保新的屏幕消息为用户提供任何等待时间或结果的简单原因,这应该让他们感到更加自信和信任。
影响/风险矩阵 一旦你仔细观察人工智能的流程,你可能会发现它在很多地方做出选择。人工智能可能会为一项复杂任务做出数十个小选择。将它们全部显示出来会产生太多不必要的信息。您需要对这些选择进行分组。 您可以使用影响/风险矩阵根据 AI 正在采取的操作类型对这些选择进行排序。以下是影响/风险矩阵的示例: 首先,寻找低风险和低影响的决策。 低风险/低影响
示例:组织文件结构或重命名文档。 透明度需求:最小。一个微妙的 toast 通知或一个日志条目就足够了。用户可以轻松撤消这些操作。
然后确定高风险和高影响力的决策。 高风险/高影响力
示例:拒绝贷款申请或执行股票交易。 透明度需求:高。这些操作需要工作量证明。系统必须在其行动之前或立即证明其理由。
考虑一个对所有买入/卖出订单一视同仁的金融交易机器人。它执行 5 美元的交易,其不透明度与 50,000 美元的交易相同。用户可能会质疑该工具是否认识到透明度对大额交易的潜在影响。他们需要系统暂停并展示其对高风险交易的工作。解决方案是为任何超过特定美元金额的交易引入审查逻辑状态,允许用户在执行之前查看推动决策的因素。 将节点映射到模式:设计模式选择标准 一旦确定了体验的关键决策节点,您必须决定将哪种 UI 模式应用于您将显示的每个节点。在代理人工智能设计中,我们引入了意图预览(用于高风险控制)和操作审核(用于回顾安全)等模式。在它们之间进行选择的决定性因素是可逆性。 我们过滤每一个决策节点通过影响矩阵来分配正确的模式: 高风险且不可逆转:这些节点需要意图预览。由于用户无法轻松撤消操作(例如,永久删除数据库),因此透明时刻必须在执行之前发生。系统必须暂停,解释其意图,并要求确认。 高风险和可逆:这些节点可以依赖操作审核和撤消模式。如果人工智能驱动的销售代理将销售线索转移到不同的渠道,只要通知用户并提供立即撤消按钮,它就可以自主执行此操作。 通过以这种方式严格对节点进行分类,我们可以避免“警报疲劳”。我们只为真正不可逆转的时刻保留高摩擦意图预览,同时依靠行动审核来保持其他一切的速度。
可逆 不可逆 低影响 类型:Auto-ExecuteUI:被动 Toast / LogEx:重命名文件 类型:ConfirmUI:简单撤消选项Ex:归档电子邮件 高影响力 类型:ReviewUI:通知 + 审阅 TrailEx:向客户发送草稿 类型:意图预览UI:模态/显式权限Ex:删除服务器
表 1:然后可以使用影响和可逆性矩阵将透明时刻映射到设计模式。 定性验证:“等待,为什么?”测试 您可以识别白板上的潜在节点,但必须用人类行为来验证它们。您需要验证您的地图是否符合用户的心理模型。我使用一种名为“等等,为什么?”的协议。测试。 要求用户观看代理完成任务。指导他们大声说话。每当他们问一个问题时,“等等,为什么要这样做?”或“卡住了吗?”或“它听到我说话了吗?” - 你标记一个时间戳。 这些问题表明用户感到困惑。用户感觉自己的控制力正在消失。例如,在一项针对医疗保健调度助理的研究中,用户观看代理进行预约。屏幕静止了四秒钟。参与者不断地问:“是检查我的日历还是医生的日历?”
这个问题揭示了一个缺失的透明时刻。系统需要将四秒钟的等待分成两个不同的步骤:“检查您的可用性”,然后是“与提供商时间表同步”。 这个小小的改变降低了用户表达的焦虑程度。 当它仅描述系统操作时,透明度就失效了。界面必须将技术流程与用户的特定目标联系起来。显示“检查您的空闲时间”的屏幕由于缺乏上下文而显得平淡无奇。用户知道人工智能正在查看日历,但他们不知道为什么。 我们必须将行动与结果结合起来。系统需要将四秒的等待分成两个不同的步骤。首先,界面显示“检查日历以查找开放时间”。然后它会更新为“与提供商的日程同步以确保您的预约”。这将技术流程扎根于用户的实际生活中。 考虑使用人工智能来管理当地一家咖啡馆的库存。系统遇到供应短缺。界面上写着“联系供应商”或“查看选项”会让人感到焦虑。经理想知道系统是否正在取消订单或购买昂贵的替代品。更好的方法是解释预期结果:“评估替代供应商以维持周五的交货计划。”这准确地告诉用户人工智能想要实现的目标。 实施审计 您已完成决策节点审核并通过影响和风险矩阵筛选您的列表。您现在已经列出了保持透明的关键时刻。接下来,您需要在 UI 中创建它们。这一步需要不同部门的团队合作。您无法使用设计工具自行设计透明度。您需要了解系统在幕后如何工作。 从逻辑审查开始。与您的首席系统设计师会面。带上你的决策节点图。您需要确认系统实际上可以共享这些状态。我经常发现技术系统并没有揭示出我想要展示的确切状态。工程师可能会说系统只是返回一般的“工作”状态。您必须推动详细更新。您需要系统发送具体通知当它从阅读文本切换到检查规则时。如果没有这种技术连接,您的设计就不可能构建。 接下来,让内容设计团队参与进来。你有人工智能行为的技术原因,但你需要一个清晰的、人性化的解释。工程师提供底层流程,但内容设计师提供沟通方式。不要单独写这些消息。开发人员可能会编写“执行函数 402”,这在技术上是正确的,但对用户来说毫无意义。设计师可能会写“思考”,这很友好,但太模糊了。内容策略师找到了正确的中间立场。他们创建了特定的短语,例如“扫描责任风险”,表明人工智能正在工作,不会让用户感到困惑。 最后,测试消息的透明度。不要等到最终产品建成才看文本是否有效。我对简单的原型进行了比较测试,唯一改变的是状态消息。例如,我向一组(A 组)显示一条消息,上面写着“验证身份”,向另一组(B 组)显示一条消息,上面写着“检查政府数据库”(这些都是虚构的例子,但你明白这一点)。然后我问他们哪种人工智能感觉更安全。你经常会发现某些词语会引起担忧,而另一些词语则会建立信任。您必须将措辞视为需要测试并证明有效的内容。 这如何改变设计过程 进行这些审核有可能加强团队的合作方式。我们不再交付精美的设计文件。我们开始使用凌乱的原型和共享的电子表格。核心工具变成了透明度矩阵。工程师和内容设计师一起编辑此电子表格。他们将精确的技术代码映射到用户将阅读的单词。 团队在逻辑审查期间会遇到摩擦。想象一下,设计师询问工程师人工智能如何决定拒绝在费用报告上提交的交易。工程师可能会说后端仅输出通用状态代码,例如“错误:丢失数据”。设计师表示,这不是屏幕上可操作的信息。设计师与工程师协商创建特定的技术挂钩。工程师编写了一条新规则,以便系统准确报告丢失的内容,例如丢失的收据图像。 内容设计师在此阶段充当翻译者。开发人员可能会编写技术上准确的字符串,例如“计算供应商匹配的置信度阈值”。内容设计师将该字符串翻译成短语,为特定结果建立信任。该策略师将其重写为“比较当地供应商价格以确保周五交货”。用户了解操作和结果。 整个跨职能团队都会参加用户测试会议。他们观察真人对不同状态消息的反应。看到用户因为屏幕显示“执行交易”而感到恐慌,迫使团队重新考虑他们的方法。工程师和设计师就更好的措辞达成一致。他们在购买股票之前将文本更改为“验证足够的资金”。一起测试可以保证最终的界面既符合系统逻辑,又让用户安心。 将这些额外的活动纳入团队的日历确实需要时间。然而,最终的结果应该是一个更开放地沟通的团队,以及更好地理解人工智能驱动的工具代表他们做什么(以及为什么)的用户。这种集成方法是设计真正值得信赖的人工智能体验的基石。 信任是一种设计选择 我们经常将信任视为良好用户体验的情感副产品。人们更容易将信任视为可预测沟通的机械结果。 我们通过在正确的时间展示正确的信息来建立信任。我们通过压倒用户或完全隐藏机器来摧毁它。 从决策节点审核开始,特别是对于代理人工智能工具和产品。找出系统做出判断的时刻。将这些时刻映射到风险矩阵。如果赌注很高,请打开盒子。展示作品。 在下一篇文章中,我们将研究如何设计这些时刻:如何编写副本、构建 UI 以及在代理出错时处理不可避免的错误。 附录:决策节点审核清单 第一阶段:设置和映射 ✅ 将团队聚集在一起:引入产品负责人、业务分析师、设计师、关键决策者以及构建人工智能的工程师。 提示:您需要工程师解释实际的后端逻辑。不要单独尝试此步骤。 ✅ 绘制整个过程:记录人工智能采取的每一步,从用户的第一个动作到最终结果。 提示:物理白板会话通常最适合绘制这些初始步骤。 第二阶段:找到隐藏的逻辑 ✅ 查找不清楚的地方:查看流程图,查找人工智能比较没有完美匹配的选项或输入的任何位置。 ✅ 确定最佳猜测步骤:对于每个不清楚的点,检查系统是否使用置信度分数。例如,询问系统是否有 85% 的确定性。这些都是人工智能做出最终选择的点。 ✅ 检查选择:对于每个选择点,找出具体的内部数学或正在进行的比较。一个例子是将合同的一部分与策略相匹配。另一个例子涉及将破损汽车的图片与损坏汽车照片库进行比较。 第三阶段:创造用户体验 ✅ 编写清晰的解释:为用户创建消息,清楚地描述人工智能做出选择时发生的特定内部操作。 提示:将您的信息立足于具体的现实。如果人工智能在当地咖啡馆预订与客户的会议,请告诉用户系统正在检查咖啡馆预订系统。 ✅ 更新屏幕:将这些新的、清晰的解释放入用户界面中。用具体的解释替换模糊的消息,例如审查合同。 ✅ 检查信任:确保新的屏幕消息为用户提供任何等待时间或结果的简单原因。这应该让他们感到自信和信任。 提示:与实际用户一起测试这些消息,以验证他们理解所实现的具体结果。