在我的上一篇文章中,我们确立了一个基本事实:为了让用户采用并依赖人工智能,他们必须信任它。我们讨论了信任是一个多方面的结构,建立在对人工智能的能力、仁慈、正直和可预测性的认知之上。但是,当人工智能以其无声的算法智慧做出让用户感到困惑、沮丧甚至受伤的决定时,会发生什么?抵押贷款申请被拒绝,一首最喜欢的歌曲突然从播放列表中消失,一份合格的简历在人们看到之前就被拒绝了。在这些时刻,能力和可预测性都被粉碎,仁慈感觉遥不可及。 我们现在的对话必须从信任的原因转向透明度的方式。可解释人工智能 (XAI) 领域专注于开发使人工智能输出能够被人类理解的方法,旨在解决这一问题,但它通常被视为数据科学家的纯粹技术挑战。我认为这对于依赖人工智能的产品来说是一个关键的设计挑战。作为用户体验专业人士,我们的工作就是弥合算法决策和人类理解之间的差距。 本文提供了关于如何研究和设计可解释性的实用、可操作的指导。我们将超越流行语并进入模型,将复杂的 XAI 概念转化为您今天就可以开始使用的具体设计模式。 揭秘 XAI:UX 从业者的核心概念 XAI 旨在回答用户的问题:“为什么?”为什么我会看到这个广告?为什么向我推荐这部电影?为什么我的请求被拒绝?可以将其视为人工智能在数学问题上的表现。没有它,你就只有一个答案,而且你不得不相信它。通过展示这些步骤,您可以建立理解和信任。您还允许您的工作受到其影响的人员的双重检查和验证。 特征重要性和反事实 我们可以使用多种技术来澄清或解释人工智能正在发生的事情。虽然方法范围从提供决策树的整个逻辑到生成输出的自然语言摘要,但用户体验从业者可以引入体验的两种最实用和最有影响力的信息类型是特征重要性(图 1)和反事实。这些通常是用户最容易理解的,也是设计人员最容易实施的。
特征重要性 这种可解释性方法回答了“人工智能考虑的最重要因素是什么?”它是关于确定对结果影响最大的 2-3 个变量。这是标题,而不是整个故事。 示例:想象一个人工智能可以预测客户是否会流失(取消他们的服务)。特征重要性可能表明“上个月的支持电话数量”和“最近的价格上涨”是确定客户是否可能流失的两个最重要的因素。
反事实 这种强大的方法回答了“我需要改变什么才能获得不同的结果?”这很重要,因为它给用户一种代理感。它将令人沮丧的“不”转变为可行的“还没有”。 示例:想象一个使用人工智能的贷款申请系统。用户被拒绝贷款。反事实的解释不仅会看到“申请被拒绝”,还会分享“如果您的信用评分高出 50 分,或者您的债务与收入比率低 10%,您的贷款就会获得批准。”这为莎拉提供了明确的、可行的步骤,她可以采取这些步骤,以便将来可能获得贷款。
使用模型数据增强解释 尽管技术细节通常由数据科学家处理,但对于用户体验从业者来说,了解诸如 LIME(与模型无关的本地可解释解释)等工具(通过在本地逼近模型来解释个体预测)和 SHAP(SHapley 加法解释)(使用博弈论方法来解释任何机器学习模型的输出)等工具通常用于从复杂模型中提取这些“原因”见解是很有帮助的。这些库本质上有助于分解人工智能的决策,以显示哪些输入对给定结果最有影响力。 如果处理得当,人工智能工具决策所依据的数据可以用来讲述一个强有力的故事。让我们来看看功能的重要性和反事实,并展示如何利用决策背后的数据科学来增强用户体验。 现在让我们在本地解释(例如 LIME)数据的帮助下涵盖特征重要性:这种方法回答,“为什么人工智能现在为我提出这个具体建议?”它不是对模型如何工作进行一般性解释,而是为单个特定实例提供了集中的原因。这是个人的和情境的。 示例:想象一下像 Spotify 这样的人工智能音乐推荐系统。本地解释会回答:“为什么系统现在向您推荐阿黛尔的这首特定歌曲?”解释可能是:“因为你最近听了其他几首女歌手的情感民谣和歌曲。”
最后,让我们讨论如何将基于价值的解释(例如 Shapley 加法解释 (SHAP) 数据)纳入决策的解释:这是功能重要性的更细致的版本,可以回答“每个因素如何以某种方式推动决策?”它有助于可视化重要的内容,以及其影响是积极的还是消极的。 示例:想象一家银行使用人工智能模型来决定是否批准贷款申请。
特征重要性:模型输出可能表明申请人的信用评分、收入和债务收入比是其决策中最重要的因素。这回答了重要的问题。 基于值的解释的特征重要性 (SHAP):SHAP 值将根据模型的元素进一步考虑特征重要性。
对于批准的贷款,SHAP 可能会表明,高信用评分显着推动决策走向批准(积极影响),而略高于平均水平的债务与收入比率则稍微拉远决策(负面影响),但不足以拒绝贷款。 对于被拒绝的贷款,SHAP 可能会发现,即使信用评分不错,低收入和近期的大量信用查询也强烈推动了拒绝的决定。
这有助于信贷员向申请人解释超出考虑范围的因素,以及每个因素如何影响最终的“是”或“否”决定。 重要的是要认识到提供良好解释的能力通常在开发周期的早期就开始了。数据科学家和工程师发挥着关键作用,他们有意以本质上支持可解释性的方式构建模型和数据管道,而不是事后才试图将其固定下来。 研究和设计团队可以通过与数据科学家和工程师就用户理解需求进行早期对话、促进可解释性指标的开发以及协作原型设计解释来促进这一点,以确保它们既准确又用户友好。 XAI 和道德 AI:揭示偏见和责任 除了建立信任之外,XAI 在解决 AI* 的深刻道德影响方面发挥着关键作用,特别是在算法偏见方面。可解释性技术(例如分析 SHAP 值)可以揭示模型的决策是否过多地受到种族、性别或社会经济地位等敏感属性的影响,即使这些因素没有明确用作直接输入。 例如,如果贷款审批模型始终将负的 SHAP 值分配给特定人群的申请人,则表明存在需要调查的潜在偏见,从而使团队能够揭露并减轻这种不公平的结果。 XAI 的强大功能还具有“可解释性清洗”的潜力。正如“绿色清洗”会误导消费者有关环保实践的信息一样,当解释旨在掩盖而不是阐明有问题的算法行为或固有偏见时,就会发生可解释性清洗。这可能表现为过于简单化的解释,忽略了关键的影响因素,或者从战略上使结果看起来比实际情况更加中立或公平的解释。它强调了用户体验从业者设计真正透明和可验证的解释的道德责任。 用户体验专业人员与数据科学家和伦理学家合作,在传达决策原因以及底层人工智能模型的局限性和潜在偏差方面承担着至关重要的责任。这包括设定用户对人工智能准确性的现实期望,识别模型可能不太可靠的地方,并在用户认为不公平或不正确的结果时提供清晰的追索或反馈渠道。积极解决这些问题道德维度将使我们能够构建真正公正且值得信赖的人工智能系统。 从方法到模型:实用的 XAI 设计模式 了解概念是一回事,了解概念是一回事。设计它们是另一回事。以下是我们如何将这些 XAI 方法转化为直观的设计模式。 模式 1:“因为”陈述(针对功能重要性) 这是最简单且通常最有效的模式。这是一种直接、通俗易懂的语言陈述,揭示了人工智能行动的主要原因。
启发式:直接、简洁。以一个最有影响力的理由来领导。不惜一切代价避免使用行话。
示例:想象一下音乐流媒体服务。你不只是呈现一个“Discover Weekly”播放列表,而是添加一小行微文案。 歌曲推荐:“Velvet Morning”因为你听“The Fuzz”等迷幻摇滚。
模式 2:“假设”交互(针对反事实) 反事实本质上是关于赋权。表现它们的最佳方式是为用户提供交互式工具来自行探索可能性。这非常适合金融、健康或其他目标导向的应用程序。
启发式:使解释具有互动性和授权性。让用户看到自己选择的前因后果。
示例:贷款申请界面。拒绝后,用户不再陷入死胡同,而是获得了一个工具来确定各种场景(假设)可能如何发生(参见图 1)。
模式 3:精彩片段(用于本地解释) 当人工智能对用户的内容执行操作时(例如总结文档或识别照片中的面孔),解释应该在视觉上链接到源。
启发式:使用突出显示、轮廓或注释等视觉提示将解释直接连接到它正在解释的界面元素。
示例:总结长篇文章的人工智能工具。人工智能生成的总结点:初步研究显示可持续产品存在市场差距。文档来源:“......我们对市场趋势的第二季度分析最终表明,没有主要竞争对手能够有效地服务于具有生态意识的消费者,这揭示了可持续产品的巨大市场差距......”
模式 4:推拉视觉(用于基于价值的解释) 对于更复杂的决策,用户可能需要了解因素的相互作用。简单的数据可视化可以使这一点变得清晰,而不会让人不知所措。
启发式:使用简单的颜色编码数据可视化(如条形图)来显示对决策产生积极和消极影响的因素。
示例:人工智能筛选职位候选人的个人资料。为什么该候选人的匹配度为 75%:提高分数的因素:5 年以上 UX 研究经验精通 Python 降低分数的因素:没有 B2B SaaS 经验
在人工智能产品的用户体验中学习和使用这些设计模式将有助于提高可解释性。您还可以使用我在此未深入介绍的其他技术。这包括以下内容:
自然语言解释:将人工智能的技术输出翻译成非专家可以轻松理解的简单的人类对话语言。 上下文解释:为人工智能在特定时刻和位置的输出提供基本原理,它与用户的任务最相关。 相关可视化:使用图表、图形或热图来直观地表示人工智能的决策过程,使复杂的数据直观且易于用户掌握。
前端注意事项:将这些可解释性输出转化为无缝的用户体验也提出了自己的一套技术考虑因素。前端开发人员经常努力解决 API 设计以有效检索解释数据,并且性能影响(例如为每个用户交互实时生成解释)需要仔细规划以避免延迟。 一些现实世界的例子 UPS Capital 的 DeliveryDefense UPS 使用人工智能为地址分配“投递置信度评分”,以预测包裹被盗的可能性。他们的 DeliveryDefense 软件分析有关位置、丢失频率和其他因素的历史数据。如果地址得分较低,系统可以主动将包裹重新路由到安全的 UPS 接入点,并提供对该决定的解释(例如,“由于盗窃历史,包裹被重新路由到安全位置”)。该系统演示了如何使用 XAI 来降低风险并通过以下方式建立客户信任:透明度。 自动驾驶汽车 未来的这些车辆将需要有效地使用 XAI 来帮助他们的车辆做出安全、可解释的决策。当自动驾驶汽车突然刹车时,系统可以为其行为提供实时解释,例如通过识别行人踏入道路。这不仅对乘客的舒适度和信任度至关重要,也是证明人工智能系统安全性和责任性的监管要求。 IBM Watson Health(及其挑战) 虽然经常被引用为医疗保健领域人工智能的一般示例,但它也是展示 XAI 重要性的有价值的案例研究。 Watson for Oncology 项目的失败凸显了当解释不明确或基础数据存在偏见或非本地化时可能会出现问题。该系统的建议有时与当地的临床实践不一致,因为它们是基于以美国为中心的指南。这是一个关于需要强大的、上下文感知的可解释性的警示故事。 用户体验研究员的角色:查明和验证解释 我们的设计解决方案只有在正确的时间解决正确的用户问题才有效。回答用户没有的问题的解释只是噪音。这就是用户体验研究成为 XAI 策略中关键结缔组织的地方,确保我们解释对用户真正重要的内容和方式。研究人员的作用是双重的:首先,通过确定需要解释的地方来为策略提供信息,其次,验证提供这些解释的设计。 告知 XAI 策略(解释什么) 在我们设计单一解释之前,我们必须了解用户对人工智能系统的心理模型。他们认为它在做什么?他们的理解与系统现实之间的差距在哪里?这是用户体验研究员的基础工作。 心智模型访谈:剖析用户对人工智能系统的看法 通过深入的半结构化访谈,用户体验从业者可以获得关于用户如何感知和理解人工智能系统的宝贵见解。这些课程旨在鼓励用户真实地绘制或描述他们认为人工智能如何工作的内部“心理模型”。这通常涉及提出开放式问题,提示用户解释系统的逻辑、输入和输出以及这些元素之间的关系。 这些采访很有影响力,因为它们经常揭示用户对人工智能的深刻误解和假设。例如,与推荐引擎交互的用户可能会自信地断言该系统纯粹基于他们过去的观看历史记录。他们可能没有意识到该算法还结合了许多其他因素,例如他们浏览的时间、整个平台当前的热门项目,甚至类似用户的观看习惯。 揭示用户的心理模型与实际的人工智能底层逻辑之间的差距至关重要。它准确地告诉我们需要向用户传达哪些具体信息,以帮助他们建立更准确、更稳健的系统心理模型。反过来,这是培养信任的基本步骤。当用户了解人工智能如何得出结论或建议时,即使是在较高的水平上,他们也更有可能信任其输出并依赖其功能。 AI 旅程地图:深入探讨用户信任度和可解释性 通过使用人工智能驱动的功能精心绘制用户的旅程,我们获得了宝贵的见解,了解出现困惑、沮丧甚至严重不信任的精确时刻。这揭示了用户对人工智能如何运作的心理模型与其实际行为发生冲突的关键时刻。 考虑一个音乐流媒体服务:当播放列表推荐感觉“随机”,与他们过去的收听习惯或既定偏好缺乏任何明显的联系时,用户的信任度是否会直线下降?这种感知到的随机性是对用户对智能管理的期望的直接挑战,并且违反了人工智能理解他们的品味的隐含承诺。同样,在照片管理应用程序中,当人工智能照片标记功能始终错误地识别出珍贵的家庭成员时,用户是否会感到非常沮丧?这个错误不仅仅是技术故障;它触及准确性、个性化甚至情感联系。 这些痛点是生动的信号,准确地表明哪里需要恰当、清晰、简洁的解释。此类解释是至关重要的修复机制,可以修复信任漏洞,如果不解决,可能会导致用户放弃。 人工智能旅程地图的力量在于它能够让我们超越简单地解释人工智能系统的最终输出。虽然了解人工智能产生的结果很重要,但通常还不够。相反,这个过程迫使我们在关键时刻集中精力解释这个过程。这意味着寻址:
为什么生成特定的输出:是由于特定的输入数据吗?特定的模型架构? 哪些因素影响了人工智能的决策:某些特征的权重是否更大? 人工智能如何得出结论:我们能否对其内部运作提供一个简化的、类似的解释? 人工智能做出了哪些假设:是否对用户的意图或需要浮出水面的数据有隐含的理解? 人工智能的局限性是什么:清楚地传达人工智能不能做什么,或者其准确性可能会动摇的地方,可以建立切合实际的期望。
AI 旅程映射将 XAI 的抽象概念转变为用户体验从业者的实用、可操作的框架。它使我们能够超越可解释性的理论讨论,而是查明用户信任受到威胁的确切时刻,为构建强大、透明、可理解和值得信赖的人工智能体验提供必要的见解。 最终,研究是我们发现未知事物的方式。您的团队可能正在讨论如何解释贷款被拒绝的原因,但研究可能表明用户更关心的是了解他们的数据最初是如何使用的。如果没有研究,我们只是猜测用户想知道什么。 协作设计(如何解释你的人工智能) 一旦研究确定了要解释的内容,设计的协作循环就开始了。设计师可以对我们之前讨论的模式(“因为”声明、交互式滑块)进行原型设计,研究人员可以将这些设计放在用户面前,看看它们是否有效。 有针对性的可用性和理解性测试:我们可以设计专门测试 XAI 组件的研究。我们不只是问“这容易使用吗?”我们问:“看到这个之后,你能用自己的话告诉我为什么系统会推荐这个产品吗?”或者“告诉我你会怎样做,看看是否能得到不同的结果。”这里的目标是衡量理解性和可操作性以及可用性。 衡量信任本身:我们可以在解释之前和之后使用简单的调查和评级量表。例如,我们可以按照 5 分制询问用户“您对这个推荐的信任程度如何?”在他们看到“因为”陈述之前,然后再问他们。这提供了定量数据,说明我们的解释是否真正推动了信任。 这个过程创建了一个强大的迭代循环。研究结果为初步设计提供了信息。然后测试该设计,并将新的发现反馈给设计团队进行改进。也许“因为”的说法太行话了,或者“假设”滑块比授权更令人困惑。通过这种协作验证,我们确保最终的解释在技术上是准确的、真正易于理解的、有用的,并且能够为使用该产品的人们建立信任。 金发姑娘的解释区 需要注意的是:可能会过度解释。正如童话故事中金发姑娘寻找“恰到好处”的粥一样,良好解释的目标是提供适量的细节——不要太多也不要太少。用模型中的每个变量轰炸用户会导致认知超载,实际上会降低信任度。目标不是让用户成为数据科学家。 一种解决方案是渐进式披露。
从简单的开始。以简洁的“因为”陈述开头。对于大多数用户来说,这已经足够了。 提供一条通往细节的道路。提供清晰、低摩擦的链接,例如“了解更多”或“查看这是如何确定的”。 揭示复杂性。在该链接后面,您可以提供交互式滑块、可视化或更详细的影响因素列表。
这种分层方法尊重用户的注意力和专业知识,提供恰到好处的数量满足他们需求的信息。假设您正在使用智能家居设备,该设备会根据各种因素推荐最佳供暖。 从简单的开始:“您家目前供暖温度为 72 度,这是节能和舒适的最佳温度。” 提供详细信息的路径:下面有一个小链接或按钮:“为什么 72 度是最佳角度?” 揭示复杂性:单击该链接可以打开一个新屏幕,显示:
用于室外温度、湿度和您喜欢的舒适度的交互式滑块,演示它们如何调整建议的温度。 不同温度下能量消耗的可视化。 一系列影响因素,例如“一天中的时间”、“当前室外温度”、“历史能源使用情况”和“占用传感器”。
结合多种 XAI 方法是有效的,而这种金发姑娘解释区模式提倡渐进式披露,隐含地鼓励这种做法。您可以从一个简单的“因为”陈述(模式 1)开始以便立即理解,然后提供一个“了解更多”链接,该链接揭示“假设”交互(模式 2)或“推拉视觉”(模式 4)以进行更深入的探索。 例如,贷款申请系统最初可以说明拒绝的主要原因(功能重要性),然后允许用户与“假设”工具交互,看看收入或债务的变化将如何改变结果(反事实),最后提供详细的“推拉”图表(基于价值的解释)来说明所有因素的积极和消极贡献。这种分层方法允许用户在需要时访问他们需要的详细信息,防止认知过载,同时仍然提供全面的透明度。 确定使用哪些 XAI 工具和方法主要取决于彻底的用户体验研究。心智模型访谈和人工智能旅程图对于查明与人工智能理解和信任相关的用户需求和痛点至关重要。心理模型访谈有助于揭示用户对人工智能工作原理的误解,指出需要基本解释(如特征重要性或局部解释)的领域。另一方面,人工智能旅程地图可以识别用户与人工智能交互中困惑或不信任的关键时刻,表明更精细或交互式的解释(如反事实或基于价值的解释)最有利于重建信任和提供代理。
最终,选择技术的最佳方法是让用户研究指导您的决策,确保您设计的解释直接解决实际的用户问题和担忧,而不是简单地提供技术细节。 用于深度推理代理的 XAI 一些最新的人工智能系统,被称为深度推理代理,可以为每项复杂的任务产生明确的“思维链”。他们不仅仅引用消息来源;它们展示了他们得出结论所采取的逻辑、一步一步的路径。虽然这种透明度提供了有价值的上下文,但跨越多个段落的逐个播放可能会让仅仅试图完成任务的用户感到不知所措。 XAI 的原则,尤其是金发姑娘解释区,直接适用于此。我们可以策划整个旅程,使用渐进式披露来首先仅显示最终结论和思维过程中最重要的步骤。当用户需要仔细检查逻辑或查找特定事实时,他们可以选择查看完整、详细、多步骤的推理。这种方法尊重用户的注意力,同时保持代理的完全透明度。 后续步骤:增强您的 XAI 之旅 可解释性是构建值得信赖且有效的人工智能产品的基本支柱。对于希望在组织内推动这一变革的高级从业者来说,这个旅程超越了设计模式,延伸到了倡导和持续学习。 为了加深您的理解和实际应用,请考虑探索 IBM Research 的 AI Responsible 360 (AIX360) 工具包或 Google 的 What-If Tool 等资源,这些资源提供了探索模型行为和解释的交互式方式。与负责任的人工智能论坛等社区或专注于以人为本的人工智能的特定研究小组合作可以提供宝贵的见解和合作机会。 最后,在您自己的组织内成为 XAI 的倡导者。将可解释性视为一项战略投资。考虑向您的领导层或跨职能团队进行简短的推介: “通过投资 XAI,我们将不仅仅只是建立信任;我们将加速用户采用,通过赋予用户理解能力来降低支持成本,并通过揭露潜在偏见来减轻重大道德和监管风险。这是良好的设计和明智的业务。”
您基于实际理解的声音对于将人工智能带出黑匣子并与用户建立协作伙伴关系至关重要。