type
tags
category
icon
password
Multi-select
优先级
重要度
状态 2
预计结束时间
添加日期
URL
状态
分类(人工)
总结(AI 摘要)
status

有目的地设计人工智能:人工智能意图矩阵
一个强大的框架,帮助人工智能产品团队以更清晰的意图进行构建。

/
在竞相增加 "智能 "功能的过程中,许多产品都误入了一个陷阱:因为可以,而不是因为应该,才推出人工智能。当团队争先恐后地实现自动化时,他们往往不会停下来问一问:人工智能在这里扮演什么角色?它应该接管还是协助用户?它应该追求完美,还是只求快速和有用?

为了指导更好的决策,我提出了 人工智能意图矩阵(AI Intention Matrix )--一个帮助团队更有效地利用资源的框架,尤其是在最大限度地降低代币成本和计算浪费方面。对大型语言模型的每次调用都要付出代价,包括文字代价和技术代价。不必要地默认为高精度、全自动模式的功能可能会在用户不需要或不信任的输出上消耗令牌。
矩阵建立在两个轴上: 增强 ↔ 自动化 和 满意 ↕ 优化。通过明确一项功能是需要优化质量还是仅仅满足需求,是应该自主行动还是需要监督,产品团队可以更负责任地确定人工智能功能的范围。这样可以减少过度设计,降低服务成本,最重要的是,可以确保人工智能真正有用,而不仅仅是让人印象深刻。
轴 1:增强与自动化
增强 是指使用人工智能来 辅助 和增强人类的能力--人类仍处于环路中,指导或批准人工智能的输出。 自动化 是指使用人工智能 取代 或 自主 执行任务 ,尽量减少人工干预。这个轴线定义了人类参与功能的程度。

Github Copilot 就是人工智能增强功能的一个例子。(资料来源)
人工智能增强(环中有人): 在这里,人工智能充当智能助理或副驾驶员。系统可能会提供建议、见解或输出草案,但最终还是由人类用户做出决定或最终编辑。当任务复杂、与上下文相关或需要人工判断时,人工智能就会发挥重要作用。在 涉及 细微差别或道德考量 ,或者人工智能还不是百分之百可靠、需要监督的 情况下 ,人工智能就会 大显身手 。让人类参与其中可以提高信任度和责任感。例如,社交媒体平台可以使用人工智能标记有害内容,但由人类版主做出最终决定。当 "决策会带来重大的道德或法律后果 " 或 "技术还不够成熟,无法在没有人类参与的情况下可靠运行 " 时,这种方法就显得 弥足珍贵 。缺点是,需要人的参与可能会限制速度和可扩展性--如果人工智能处理大量数据的速度比人审查的速度快,可能会造成瓶颈。
人工智能自动化(完全自主): 在这种模式下,人工智能系统可 自行 完成任务或做出决策, 无需人工持续输入。自动化适用于定义明确、工作量大或实时性强的任务,在这些任务中,人的速度或可用性是一个限制因素。当人工智能自身能够达到可靠的准确度水平,并且 任务的 规模或频率 会使人类操作员不堪重负时 ,它就能发挥最佳作用 。典型的例子包括自动对电子邮件进行排序的垃圾邮件过滤器,或无需人工操作即可每月处理工资单的算法。在 "环路上的人 "设置中,人可以 监控 自动化系统,只对例外情况进行干预--想想信用卡欺诈检测系统,它可以自动阻止可疑交易,但会对边缘情况向分析师发出警报。完全自主化可以显著提高效率和可扩展性,但这需要人们相信,人工智能将在几乎没有监督的情况下正确运行。此外,还存在 自动化自满的 风险 :如果用户对人工智能的运行过于放心,他们可能会迟迟无法发现故障。因此,团队必须谨慎决定某项任务是否可以安全、适当地实现自动化,或者让人工参与其中是否能增加必要的安全性和意义。
值得注意的是,增强与自动化并不总是严格的二元对立。许多成功的解决方案都将两者融合在一起--在将某些子任务自动化的同时,将最终决策或创造性控制权留给人类。 "自动化不能简化为'手动'和'自动'之间的简单二元对立。相反,这需要在我们认为自动化有用的任务与我们参与其中仍有意义的任务之间找到适当的平衡。" 在产品设计中,这意味着要问 用户希望在这里进行监督吗?他们喜欢自己做这部分工作,还是更愿意让人工智能来处理?
了解这一轴心有助于团队正确定位人工智能功能。如果用户 看重 流程中的 控制或手工艺 (例如,许多人喜欢编辑照片或撰写文字),那么纯粹的自动化解决方案可能会因为去除了人为因素而适得其反。在这种情况下,提供人工智能增强功能--用户可以接受或调整的建议--可以保留用户的主动性和乐趣。相反,如果某项任务 既乏味又耗时 (比如在成千上万的日志文件中排查异常),那么自动化就能带来巨大的效率提升,并将用户解放出来,从事更高层次的工作。
总之: 增强技术 以人工智能为工具,以人为中心;而自动化技术则以 人工智能 为中心,以人为监督或脱离环路。二者在本质上并无优劣之分--选择取决于使用环境、利害关系和用户偏好。接下来,我们来看看与此相交的第二个轴心: 人工智能输出的质量和目标 。
轴 2:优化与满足
并非每个人工智能功能都需要产生完美的结果。有时候, "足够好 " 就已经足够了。我们矩阵的第二个维度涉及 人工智能输出的质量标准和目标 。
优化(最高质量输出): 在这一维度上,人工智能的目标是 尽可能 获得 最准确、最优质或最优化的 结果。几乎没有出错或平庸的余地。 优化型 人工智能功能通常用于高风险场景,或者质量是关键价值所在的场景:想想诊断医疗状况的人工智能系统,错过一个细节都可能危及生命;或者生成法律合同语言的人工智能,精确度至关重要。在这些情况下,产品团队实际上是在说 "这需要和人类专家做得一样好(或更好)"。 优化通常需要大量的努力--更复杂的模型、更多的训练数据、严格的评估--以尽可能降低错误率。
满足(足够好的输出): 在这种情况下,特征满足于 "足够好 "或满足基本阈值的 输出 ,尤其是如果实现更高的 输出 需要花费过多的时间或资源。 satisficing ( satisfy 和 suffice 的组合 ) 一词 是由诺贝尔奖获得者赫伯特-西蒙(Herbert Simon)创造的,用来描述以满意而非最优解为目标的决策。在设计方面,满足人工智能功能提供的结果 即使不是完美无缺,也能满足用户的需求。对于速度、效率或成本比完美更重要的用例来说,这通常是合理的。例如,对于内容撰稿人来说,能在几秒钟内快速起草出粗略的博客大纲的人工智能,可能比花费数小时来撰写 "完美 "文章的人工智能更有价值,因为草稿只需要作为人类撰稿人的起点。 " 满意 "侧重于 实用主义: "追求令人满意或适当的结果,而不是最佳解决方案",尤其是当寻找完美解决方案 "需要花费不必要的时间、精力和资源 "时 。 在许多情况下, 收益递减的 原则会发挥作用--一个稍好的结果可能并不能证明大规模复杂的实施是合理的。用户本身往往更喜欢现在快速得到答案,而不是稍后得到完美答案。
总而言之: 优化型 功能追求的是一流的输出结果,可能需要在高风险或具有竞争力的质量用例中使用;而 满足 型功能 则 满足于 "足够好 "的结果,这通常可以提高速度、扩大规模并方便用户。两种方法都能创造价值--关键在于将方法与用户的实际需求相匹配。确定了两个坐标轴后,我们现在可以将它们组合成一个矩阵,并研究由此产生的四个象限。
2×2 矩阵

当我们将 增强 ↔ 自动化 与 满意 ↕ 优化进行 对比 时,我们会得到一个包含四个象限的矩阵:1) 高风险副驾驶,2) 日常人工智能助理,3) 自主和高精度,4) 自主和低风险。每个象限都代表了人工智能功能的不同策略。
象限 1:增强 + 优化(高风险副驾驶)
在这一象限中,人工智能是用户的辅助工具,其质量要求极高。这些是 针对高风险或专家任务的人工智能协同驾驶功能。其逻辑是,人工智能可以通过提供洞察力、准确性或速度来提高人类的绩效,但由于决策至关重要,因此仍由人类负责。这种组合可以提供 "第二双眼睛 "或对大量数据进行压缩,而人类的判断力则可以处理细微差别和最终决定。

产品示例(医疗保健): 想象一下放射学软件平台中的一项功能:当放射科医生检查 X 光片或核磁共振成像时,人工智能算法会并行运行,突出显示看起来可疑的区域(可能是肿瘤阴影或细微骨折线)。医生会查看这些突出显示的区域,并予以确认或排除。人工智能标记的内容必须高度准确--假阳性太多,会浪费医生的时间或削弱信任;假阴性(遗漏问题)更糟糕。因此,系统要进行调整,以 优化灵敏度和特异性。这种增强型工作流程不会取代医生(事实上,医生也不会接受仅靠人工智能做出的自动诊断),但它能优化结果:医生+人工智能的综合智能让患者受益。人工智能有效地扩展了医生的能力--也许它能在数百万张图像中检测出模式(这是人类一辈子都做不到的)--而医生则提供背景判断和责任。
设计考虑因素: 这一象限中的功能需要建立 用户 对人工智能辅助工具的 信任 。透明度很有帮助--例如,展示 人工智能建议某事的 原因 (可解释的人工智能)--这样人类就能验证其推理。因为人是最终的仲裁者,所以用户界面应该方便他们审查和调整人工智能的输出结果。另一个实用技巧:团队通常会逐步引入此类功能。例如,人工智能可以先在 "静默 "模式下运行,以证明其准确性(显示未经批准实际上不会被执行的建议),这样用户就可以在完全依赖人工智能之前看到它的价值。这就降低了人工智能越权的风险。如果成功, "增强+优化 " 功能就能实现 两全其美: 通过机器的精确性提升人类的专业知识 。
第二象限:增强+满足(日常人工智能助手)
第二象限可以说是 当今 许多 用于提高生产力和创造力的 "酷 "人工智能功能所在的位置 。在这里,人工智能再次成为人类的助手(增强),但我们可以接受人工智能的输出只是一个 粗略的草稿或初步建议。我们的目标是提高效率、激发创造力或处理繁琐的工作, 而不是 在第一次尝试时就做到完美。人类用户应该对人工智能提供的内容进行审核、调整或迭代。

产品示例(生产力--写作): 现实世界中的一个例子是 Gmail 的 " 智能撰写 " 功能,它可以在你输入电子邮件时建议下一个单词或短语。这是一种增强功能(你在写作,它只是在帮忙),而且绝对能让你满意--这些建议通常都很普通,这没什么,因为它们能快速处理模板。如果建议不是你想要的,你只需忽略它,继续打字。当它起作用时,可能会让你少敲几下键盘(比如在你输入 "Let me kn... "之后,再输入 "Let me know if you have any questions")。它 又快又便宜。没人指望 Smart Compose 能帮你写出一本小说或一份关键任务备忘录;它的价值在于缓解写作中的小摩擦。这种 低风险的增强功能 深受用户欢迎,因为它不强加于人,也不打扰他人--它只是提供帮助,加快琐碎的子任务。
设计考虑因素: 对于 "增强 "和 "满意 " 功能 来说 ,关键是要使人与人工智能的交互无缝且摩擦力小。用户应感觉自己处于控制之中,并能轻松地控制人工智能。由于人工智能并不总是正确的,因此界面应 便于编辑或重试。例如,在写作助手中,如果第一次输出没有用,你可以提供替代建议或提示人工智能换个角度的方法。设定正确的用户期望也很重要:告知用户人工智能的作用是协助和起草,而不是提供最终的完美答案。当用户明白了这一点,他们就能更宽容地对待错误,并有效地利用这一工具(比如把它当作头脑风暴)。从开发的角度来看,这个象限的功能通常可以逐步交付--你可以推出一个测试版,也许70%的功能都很好,这也是可以接受的,因为用户会忽略那30%没有帮助的功能。这是一个很好的实验空间,因为人工智能错误的代价通常只是轻微的不便,而不是灾难性的失败。
第三象限:自动化+优化(自主精准)
这个象限是 全自动系统的领域 ,这些系统的运行几乎不需要人工输入,而且性能标准非常高。这类人工智能功能(甚至是整个产品)基本上可以说是:"人工智能,你已经掌握了控制权--只要确保你做对了"。它们往往会出现在需要快速做出决策或行动的情况下,或者在规模上超出人类能力的情况下 , 如果做错了就会造成严重后果。换句话说,除非你对人工智能能够持续达到或超过人类水平的结果充满信心,否则你不会将其自动化。

产品示例(企业 SaaS - AIOps): 考虑一个提供 自动化事件检测和响应的 云服务平台 。该功能使用人工智能监控服务器上的数百万个日志事件和指标。如果检测到关键异常(例如,显示服务器可能崩溃或安全漏洞企图的峰值),它就会自动采取行动--例如,隔离部分网络或重启服务--以防止出现问题。这就是自动化:它不会当即征求操作员的许可,因为延误可能会造成灾难性后果(如果服务瘫痪或攻击正在进行,则分秒必争)。但由于这些操作会影响正常运行时间、数据完整性和安全性,因此决策必须 高度准确。人工智能需要进行优化,以便对真正的问题进行真阳性检测,同时尽量减少误报。如果人工智能过于敏感,不停地 "狼来了",就可能不必要地干扰运营;如果人工智能过于松懈,就可能错过事故。实现这种平衡是一个优化问题。在实践中,开发此类功能的团队可能会实施广泛的测试,甚至是冗余(例如,一个人工智能模型标记一个问题,另一个验证步骤在行动前确认该问题,以减少错误)。他们还可能允许一定的 可配置性 --例如,让客户设定人工智能触发行动必须达到的阈值(基本上是定义 "足以采取行动 "在其上下文中的含义)。
设计考虑因素: 自动化 + 优化 功能 本质上 是最 敏感和 最 容易发生风险的。它们需要在部署前后进行严格验证。实施监控和回退机制是明智之举:如果人工智能遇到越界情况或信心不足,它应该安全失效(例如,交给人工或更简单的安全模式)。从产品管理的角度来看,你应该质疑一个给定的想法是否真的需要 从第一天起就 实现完全自动化 和 高精确度。有时,从 " 增强+优化 " 象限 开始 ,然后再过渡到完全自动化会更安全。例如,人工智能可以 先向操作员 推荐 操作(增强),一旦证明始终正确,就过渡到自动执行这些操作。这种分阶段的方法可以建立信任并及早发现问题。此外,还要考虑责任和用户信任:如果自主人工智能犯了错,谁来承担责任,如何进行沟通?许多公司将这一象限的功能限制在内部流程或控制极好的环境中,正是为了避免面向公众的错误。不过,如果操作得当," 自动化+优化 " 系统可以提供超人的效率和质量--就像一个时刻保持警惕的守护者,在任何人发现问题之前就能处理好事情。它是 某些操作任务的圣杯 ,但必须谨慎负责地追求。
第四象限:自动化+满意度(自主实用性)
最后一个象限涵盖了人工智能自主运行的功能 , 结果足够好才是 真正 的好。这些通常是 互联网时代大量涌现的 大众个性化和规模导向型功能 --为数百万用户提供近似正确的服务胜过为少数用户提供完美服务。在这种情况下,错误或次优结果的单次成本很低。通常情况下,用户甚至不会注意到人工智能是否准确无误,或者他们有简单的方法忽略或纠正错误。这样做的好处是,这些功能可以 达到 人类团队无法达到的大规模或处理令人头疼的工作量 ,从而提供原本无法实现的价值。在每种情况下,人工智能都会自行做出大量的微观决定,虽然它的目标是有用,但不必每次都做到完美。

电子商务产品推荐(资料来源)
产品示例(电子商务--推荐): 这个象限中最有名的例子可能就是电子商务推荐引擎("买过 X 的客户也买过 Y "和个性化产品建议)。这些系统以自动方式为每次用户访问生成推荐。没有人在挑选这些商品--都是由分析购买数据的算法驱动的人工智能。推荐的商品总是用户想要的理想商品吗?当然不是。但只要其中一些建议是相关的,就能提升购物体验和销售额。这种方法的成功有目共睹:亚马逊的推荐引擎创造了 亚马逊网站 大约 35% 的收入 。这意味着数十亿美元的收入来自于一项自主功能,该功能 在根据用户的兴趣匹配商品方面 基本 足够出色。购物者可能会浏览一些不相关的建议,但由于该系统会根据数据进行改进,而且经常会出现吸引人的商品,因此它完全可以自圆其说。错误(不相关的推荐)的代价很小,可能只是占用用户的片刻时间,而大规模的个性化则会带来巨大的商业价值。
设计考虑因素: 对于 "自动化+满意度 " 功能 来说 , 覆盖范围和恢复能力 是关键的设计因素。由于人工智能并不完美,因此需要考虑:系统将如何处理无法很好解决的情况?在推荐系统中,"失败 "仅仅是用户忽略了一个糟糕的推荐--这通常没有问题,但您可能仍要监控点击率等指标,以确保整体质量保持在某个阈值之上。从根本上说,您要用可衡量的术语定义 "足够好 "的含义(例如,X% 的用户点击推荐,或聊天机器人解决了 Y% 的咨询),并确保功能达到这一标准,并随着时间的推移不断改进。适当传达目的也很重要。用户通常不会意识到人工智能功能是在 "满足需求"--他们只是看到了输出结果。但如果有可能出现混淆或期望过高的情况,提示功能的作用会有所帮助。例如,人工智能生成的标题可能会附带编辑选项和 "自动生成标题 "的说明--这表明它可能并不完美,并邀请用户在需要时进行调整。
从开发的角度来看,这个象限很有吸引力,因为它可以带来 高投资回报率:完全自动化意味着它可以毫不费力地扩展,"足够好 "意味着你可以快速迭代,而不必在推出时追求完美。许多人工智能功能的 MVP 都是从这里开始的--以自动化的方式做一些有用的事情,证明价值,然后完善。但是,我们必须确保 "低风险 "是真正的低风险。如果一项自主功能偶尔会做一些 真正 令用户不快或造成伤害的事情 ,那么它就不是真正的低风险,而更属于有保障措施的优化领域。该矩阵有助于区分这些情况。
关注重点
在人工智能炒作泛滥的时代,最难的问题不是 "我们能自动化什么?- 而是 "什么值得自动化?人工智能意图矩阵提供了一个实用的视角:你是将人工智能用于改善体验,还是仅仅增加复杂性?通过在地图上深思熟虑地放置一个概念,我们可以确保考虑的问题是正确的: 我们是否让用户控制他们想要控制的地方?我们是否将技术推向了可靠的极限?这种人工智能能否真正改善用户体验,还是在增加复杂性却收效甚微?
利用这个矩阵作为指南,避免人工智能过度发展--在这种情况下,热情可能会导致我们将用户更愿意合作的事情完全自动化,或者在快速结果更重要的情况下要求完美。它还可以强调何时不要使用人工智能。如果一个功能点子在这些方面并不能明显受益于一些智能,那么也许更简单的解决方案才是最好的。正如谷歌 PAIR 指南所建议的那样, 引入人工智能的理由应该是能够切实改善用户体验,否则甚至会降低用户体验 。
反之,则可以利用矩阵来发现黄金--能够让用户满意并带来价值的人工智能机会。这些可能是让用户感觉自己是拥有人工智能小伙伴的超级人类的增强功能,也可能是大规模无形处理繁琐任务的自动化功能。请确保您的雄心壮志与您的团队所能实现的目标以及技术所能支持的目标相匹配。完全可以(通常也是明智的)从一个受限的、"足够好 "的人工智能功能开始,解决真正的用户需求,然后在此基础上不断扩展。精心策划的成功胜过过度规划的失败。
在人工智能时代,我们很容易相信我们应该打造 "无所不能的人工智能"。但智慧在于辨别。有些事情应该留给人类去做,而有些事情则可以交给机器去做。最好的人工智能功能要么 能增强用户的能力 ,要么能 淡出后台处理繁琐的工作 --知道你的目标是哪一种,就成功了一半。通过沿着 人工智能意图矩阵 的两个轴进行思考 ,产品团队可以更好地驾驭人工智能带来的无限设计选择。
订阅我的 Substack 以提前获得这些信息 :https://ambitiousdesigner.substack.com/
- 作者:xingyan
- 链接:http://blog.xingyan.me/article/21564cad-d821-804f-a16d-f7c15052a560
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。