用户反馈在软件应用程序中始终发挥着关键作用,原因有两个:评估应用程序的性能并为其开发提供信息。对于人工智能应用程序来说,用户反馈起着更加重要的作用。它可用于个性化模型并训练未来的模型迭代。
基础模型支持许多新的应用程序界面,但特别流行的是对话界面,例如聊天机器人和助手。对话式界面使用户更容易提供反馈,但开发人员更难提取信号。这篇文章将讨论对话式人工智能反馈是什么样子,以及如何设计一个系统来收集正确的反馈而不损害用户体验。
用户反馈是专有数据,数据是竞争优势。创建数据飞轮需要一个精心设计的反馈系统。一款快速推出并尽早吸引用户的产品可以收集数据来不断改进其模型,从而使竞争对手难以追赶。专有应用程序相对于开源应用程序的一个关键优势是,收集后者的用户反馈要困难得多。用户可以独立部署您的开源应用程序,而您不知道该应用程序是如何使用的。
需要强调的是,用户反馈就是用户数据。利用反馈需要与利用任何用户数据时一样谨慎。用户隐私应受到尊重。用户有权知道他们的数据如何被使用。
这篇文章改编自《AI Engineering (2025)》的用户反馈部分,经过少量编辑,使其成为独立的文章。
提取对话反馈
传统上,反馈可以是显式的或*隐式的*。显式反馈是用户为响应明确的反馈请求而提供的信息,例如赞成/反对、赞成/反对、星级评定或对“我们解决了您的问题吗?”问题的是/否答案。明确的反馈在所有应用程序中都是相当标准的——你可以通过多种方式询问人们是否喜欢某件事。因此,显式反馈更容易理解。
隐式反馈是从用户活动推断出的信息。例如,如果有人购买了向他们推荐的产品,则意味着这是一个很好的推荐。隐式反馈取决于用户在应用程序中可以执行的操作,因此高度依赖于应用程序。基础模型开启了应用程序的新世界,并由此带来了许多类型的隐式反馈。
许多人工智能应用程序使用的对话界面使用户更容易提供反馈。作为对话的一部分,用户可以鼓励良好行为、抱怨不良行为并纠正错误。用户向人工智能发出的指令可以传达有关应用程序性能和用户偏好的反馈。
想象一下,您正在使用人工智能助手来帮助您计划澳大利亚之旅。你要求人工智能为你在悉尼找到一家住三晚的酒店。其回应了以下三项建议:
Here are three hotel suggestions in Sydney for a 3-night stay: 1. Historic Rocks Boutique Hotel (The Rocks) * Price: ~$400/night * Neighborhood: Charming streets and close to iconic sights. 2. Stylish Surry Hills House Hotel (Surry Hills) * Price: ~$200/night * Neighborhood: Trendy, with vibrant cafes and art galleries. 3. Chill Bondi Beachside Hotel (Bondi Beach) * Price: ~$300/night * Neighborhood: Beachside, ideal for relaxation and city exploration.
您对这三个建议的回应表明了您的偏好。例如,如果您回答"Yes book me the one close to galleries"
,则表明您对艺术感兴趣。另一方面,回答"Is there nothing under $200?"
揭示了您对价格敏感的偏好,并表明助理还没有完全理解您的意思。
从对话中提取的用户反馈可用于评估、开发和个性化:
- 评估:导出监控应用程序的指标
- 开发:训练未来模型或指导其开发
- 个性化:为每个用户个性化应用程序
隐式会话反馈可以从用户消息的内容(自然语言反馈)及其通信模式中推断出来。由于反馈混合在对话中,因此提取起来也很困难。虽然对对话线索的直觉可以帮助设计一组初始信号来寻找,但严格的数据分析和用户研究是必要的。这篇文章将讨论如何从自然语言反馈和其他对话信号中提取信号。
在我们继续之前,值得注意的是,虽然由于对话机器人的流行,对话反馈受到了更多关注,但在 ChatGPT 出现之前,它多年来一直是一个活跃的研究领域。这些研究中的许多经验教训都适用于生成式人工智能应用。
- 自 2010 年代末以来,强化学习社区一直在尝试让强化学习算法从自然语言反馈中学习,其中许多都取得了可喜的成果( Fu et al., 2019 ; Goyal, Niekum, and Mooney, 2019 ; Zhou and Small, 2020 ; Sumers等人,2020 )。
- 自然语言反馈对于早期对话式人工智能应用程序也很感兴趣,例如 Amazon Alexa( Ponnusamy 等人,2019 年; Park 等人,2020 年)、Spotify 的语音控制功能( Xiao 等人,2021 年)和 Yahoo!声音(桥本和萨萨诺,2018)。
自然语言反馈
从消息内容中提取的反馈称为自然语言反馈。以下是自然语言反馈信号的示例,可以告诉您对话的进展情况。在生产中跟踪这些信号以监控应用程序的性能非常有用。
了解应用程序如何失败对于使其变得更好至关重要。例如,如果您知道用户经常抱怨输出过于冗长,您可以更改应用程序的提示以使其更加简洁。如果用户因为答案缺乏细节而不满意,您可以提示机器人更具体。
表 1 显示了由Yuan、Cho 和 Weston (2023) 对FITS (交互式对话和搜索反馈)数据集自动聚类产生的八组自然语言反馈。
团体 | 反馈类型 | 编号。 | % |
1 | 再次明确他们的诉求。 | 3702 | 26.54% |
2 | 抱怨机器人 (1) 不回答问题或 (2) 提供不相关的信息或 (3) 要求用户自己找出答案。 | 2260 | 16.20% |
3 | 指出可以回答问题的具体搜索结果。 | 2255 | 16.17% |
4 | 建议机器人使用搜索结果。 | 2130 | 15.27% |
5 | 指出答案 (1) 事实上不正确,或 (2) 不基于搜索结果。 | 第1572章 | 11.27% |
6 | 指出机器人的答案不具体/准确/完整/详细。 | 1309 | 9.39% |
7 | 指出机器人对其答案没有信心,并且总是以“我不确定”或“我不知道”开始其响应。 | 第582章 | 4.17% |
8 | 抱怨机器人响应中的重复/粗鲁。 | 137 | 0.99% |
澄清和错误更正
如果用户以"No, …"
或"I meant, …"
开始后续行动,则模型的响应可能不准确。
为了纠正错误,用户可能会尝试重新表述他们的请求。图 1 显示了用户尝试纠正模型误解的示例。可以使用启发式或机器学习模型来检测改写尝试。
图 1. 由于用户提前终止了生成并改写了问题,因此可以推断模型误解了原始请求的意图。
用户还可以澄清他们的需求或指出模型应该以不同方式完成的具体操作。例如,如果用户给出反馈: "No, summarize the attached PDF, not my message"
则模型应该能够接受此反馈并修改其摘要。
这种行为纠正反馈对于代理用例尤其常见,在这些用例中,用户可能会推动代理采取更多可选操作。例如,如果用户向代理分配对 XYZ 公司进行市场分析的任务,则该用户可能会给出诸如“您还应该检查该公司的 GitHub 页面”或“检查首席执行官的社交媒体”之类的反馈。
有时,用户可能希望模型通过要求明确的确认来纠正自身,例如“你确定吗?”、“再检查一次”或“你从哪里得到这个?”这并不一定意味着模型给出了错误的答案。但是,这可能意味着您的模型的答案缺乏用户正在寻找的详细信息。它还可以表明对您的模型的普遍不信任。
如果你的模型在被提问后改变了答案,那么该模型可能出现了幻觉。
在我的分析中,澄清和纠错是最常见的反馈类型,这与Yuan、Cho 和 Weston (2023) 的研究结果一致。当我有机会时,我会分享我的分析,但这里有来自SharedGPT上共享的对话的纠错反馈的示例。
-
"You gave me general advice, though. I need specific advise in evaluating the wording of all of my topic sentences. Please do this."
-
"No, I want to do this programmatically"
-
"I mean the code you written"
-
"something more short"
-
"I think the public_path() there is not correct, I think the function should be base_path()"
某些应用程序允许用户直接编辑模型的响应。例如,如果用户要求模型生成代码,并且用户编辑了生成的代码,则这是一个强烈的信号,表明生成的代码不太正确。
用户编辑还可以作为偏好数据的宝贵来源,可用于使模型与人类偏好保持一致。对于那些不熟悉的人,偏好数据显示两个响应中哪个响应是首选。它通常采用(查询、获胜响应、失败响应)的格式,通常称为比较数据。每个用户编辑都会构成一个偏好示例,原始响应是失败响应,编辑后的响应是获胜响应。
如果用户要求模型自行纠正,那么原始响应仍然是失败的响应,但纠正后的生成是获胜的响应。
投诉
用户可以抱怨输出而不尝试纠正它们。例如,他们可能会抱怨答案是错误的、不相关的、有毒的、冗长的、缺乏细节的,或者只是不好。
投诉也可以是负面情绪(沮丧、失望、嘲笑等)的一般表达,但没有解释原因,例如"Ugh"
或"What?"
。
在我对 2023 年初ShareGPT对话的分析中,我发现了许多愤怒的用户消息,我不会分享这些消息,因为其中大多数包含 f、b、s 单词的变体。然而,愤怒的消息比澄清或纠错消息要少得多。这可能是因为当时如果有人对 ChatGPT 感到沮丧,他们就会直接离开聊天室。
然而,负面情绪在语音助手中更为常见。这听起来可能有点反乌托邦,但在与机器人对话过程中分析用户的情绪可能会让您深入了解机器人的行为方式。一些呼叫中心在整个通话过程中跟踪用户的声音。如果用户声音越来越大,则说明有问题。相反,如果某人在谈话开始时感到愤怒,但最终愉快地结束,那么谈话可能已经解决了他们的问题。
自然语言反馈也可以从模型的响应中推断出来。一个重要信号是模特的拒绝率。如果模型说"Sorry, I don't know that one"
或"As a language model, I can't …"
,用户可能会不高兴。
沟通模式反馈
还有其他类型的对话反馈可以从用户操作而不是消息中获得。
提前终止
如果用户提前终止响应,例如,中途停止生成、退出应用程序、告诉模型停止(对于语音助手),或者只是让代理挂起(例如,不响应代理),则很可能谈话进行得不太顺利。
再生
许多应用程序允许用户生成另一个响应,有时使用不同的模型。如果用户选择重新生成,他们可能会发现第一个响应不满意。但是,第一个响应可能已经足够,但用户想要进行比较的选项。这对于图像或故事生成等创意请求尤其常见。
再生信号的强度取决于再生是否花钱。对于基于订阅计费的应用程序,由于重新生成不需要额外费用,因此用户更有可能出于闲置的好奇心而重新生成,这并不能说明第一个响应的质量。
就我个人而言,我经常为复杂的请求选择重新生成,以确保模型的响应一致。如果两个回答给出了相互矛盾的答案,我也将无法信任。
重新生成后,某些应用程序可能会明确要求将新响应与前一个响应进行比较,如图 2 所示。该比较数据同样可用于偏好微调。
图 2. 当用户重新生成另一个响应时,ChatGPT 要求提供比较反馈
对话组织与分享
用户组织对话所采取的操作(例如删除、重命名、共享和添加书签)也可以是信号。删除对话是一个非常强烈的信号,表明该对话很糟糕,除非它是一个令人尴尬的对话并且用户想要删除其痕迹。重命名对话表明对话很好,但自动生成的标题很糟糕。
旁注:在撰写本文时,因为 ChatGPT 还不允许我为我最喜欢的对话加注星标(Claude 可以),所以我手动将[Good]添加到我喜欢的每个对话的开头,以便我以后可以找到它。其他人可能会以不同的方式使用同一个应用程序。这就是为什么了解您的用户如此重要。
分享对话可能是消极信号,也可能是积极信号。例如,我的一个朋友主要分享模型犯了一些明显错误时的对话,而另一个朋友则主要与同事分享有用的对话。同样,研究用户以了解他们执行每个操作的原因非常重要。
添加更多信号可以帮助阐明意图。例如,如果用户在共享链接后重新表述了他们的问题,则可能表明对话未达到他们的期望。提取、解释和利用对话中的隐含反应是一个虽小但不断发展的研究领域。
谈话长度
另一个经常被跟踪的信号是每次对话的轮数。这是正信号还是负信号取决于应用。对于人工智能伴侣来说,长时间的对话可能表明用户喜欢这次对话。然而,对于像客户支持这样注重生产力的聊天机器人来说,长时间的对话可能表明机器人在帮助用户解决问题方面效率低下。
对话多样性
对话长度也可以与对话多样性一起解释,对话多样性可以通过不同的标记或主题计数来衡量。例如,如果对话很长但机器人不断重复几行,用户可能会陷入循环。
反馈设计
我们在上一节中讨论了要收集哪些反馈。本节讨论何时以及如何收集这些有价值的反馈。
何时收集反馈
反馈可以而且应该在整个用户旅程中收集。每当出现这种需要时,用户应该可以选择提供反馈,尤其是报告错误。然而,反馈收集选项应该是非侵入性的。它不应该干扰用户的工作流程。以下是用户反馈可能特别有价值的几个地方。
一开始
当用户刚刚注册时,用户反馈可以帮助为用户校准应用程序。例如,面部识别应用程序必须先扫描您的面部才能工作。语音助手可能会要求您大声朗读一个句子,以识别您的声音中的唤醒词(激活语音助手的单词,例如“嘿 Google”)。语言学习应用程序可能会问您几个问题来衡量您的技能水平。
对于某些应用,例如面部识别码,校准是必要的。然而,对于其他应用程序,初始反馈应该是可选的,因为它会给用户尝试您的产品带来摩擦。如果用户没有指定他们的偏好,您可以回退到中性选项并随着时间的推移进行校准。
当不好的事情发生时
当模型犯错误时——例如产生幻觉响应、阻止合法请求或生成受损图像——用户应该能够通知您这些失败。
要解决错误,您可以为用户提供以下选项:
- 对响应投反对票
- 编辑回复
- 使用相同模型重新生成
- 更换其他型号
- 从头开始对话
用户可能只是给出诸如"Wrong"
或"Too cliche"
之类的对话反馈。
理想情况下,当您的产品出现错误时,用户仍然应该能够完成他们的任务。例如,如果模型对产品进行了错误分类,用户可以编辑该类别。让用户与人工智能协作。如果这不起作用,就让他们与人类合作。如果对话拖延或用户看起来很沮丧,许多客户支持机器人会主动将用户转移给人工代理。
人类与人工智能协作的一个例子是图像生成的修复功能。如果生成的图像不完全是用户需要的,他们可以选择图像的一个区域并提示描述如何改进。图 3 显示了使用DALL-E进行修复的示例(OpenAI,2021)。该功能可以让用户获得更好的结果,同时为开发者提供高质量的反馈。
图 3. DALL-E 中修复工作原理的示例
旁注:我希望有文字转语音的修复功能。我发现文本转语音在 95% 的情况下效果很好,但在另外 5% 的情况下可能会令人沮丧。人工智能可能会念错名字或在对话期间无法暂停。我希望有一些应用程序可以让我只编辑错误,而不必重新生成整个音频。
当模型置信度较低时
当模型对某个操作不确定时,您可以要求用户提供反馈以增加其信心。例如,给定总结一篇论文的请求,如果模型不确定用户是否喜欢简短的高级摘要或详细的逐节摘要,则模型可以并排输出两个摘要(假设生成两个摘要不会增加用户的延迟)。用户可以选择自己喜欢的一项。图4显示了生产中比较评估的示例。
图 4. 两个 ChatGPT 响应的并排比较
显示两个完整的回复供用户选择意味着要求用户提供明确的反馈。用户可能没有时间阅读两个完整的回复,也没有足够的注意力来提供深思熟虑的反馈。这可能会导致混乱的投票。某些应用程序(例如 Google Gemini)仅显示每个响应的开头,如图 5 所示。用户可以单击以展开他们想要阅读的响应。
图 5. Google Gemini 并排显示了部分响应,以进行比较反馈。用户必须单击他们想要阅读更多信息的响应。
然而,尚不清楚并排显示完整或部分响应是否能提供更可靠的反馈。当我在演讲的活动中问这个问题时,得到的回答是相互矛盾的。有些人认为显示完整的回复可以提供更可靠的反馈,因为它可以为用户提供更多信息来做出决定。与此同时,有些人认为,一旦用户阅读了完整的回复,他们就没有动力去点击更好的回复。
另一个例子是照片组织应用程序,它会自动标记您的照片,以便它可以响应“显示 X 的所有照片”之类的查询。当不确定两个人是否相同时,它可以要求您提供反馈,如图 6 中的 Google Photos 所做的那样。
图 6. 当不确定时,Google Photos 会询问用户反馈。
您可能想知道:当好事发生时反馈怎么样?用户可以采取的表达满意度的操作包括点赞、收藏或分享。然而,苹果的人机界面指南警告不要同时要求正面和负面反馈。默认情况下,您的应用程序应该产生良好的结果。寻求有关良好结果的反馈可能会给用户留下良好结果是例外的印象。最终,如果用户满意,他们就会继续使用您的应用程序。
然而,我采访过的许多人都认为,当用户遇到令人惊奇的事情时,他们应该可以选择提供反馈。一款流行的人工智能产品的产品经理提到,他们的团队需要积极的反馈,因为它揭示了用户足够喜欢的功能,可以提供热情的反馈。这使得团队能够专注于完善一小部分高影响力的功能,而不是将资源分散到许多附加值极小的功能上。
有些人避免要求积极的反馈,因为担心这可能会使界面混乱或惹恼用户。然而,可以通过限制反馈请求的频率来管理这种风险。例如,如果您拥有庞大的用户群,一次仅向 1% 的用户显示请求可以帮助收集足够的反馈,而不会影响大多数用户的体验。请记住,提出问题的用户比例越小,反馈偏差的风险就越大。尽管如此,只要有足够大的池子,反馈就可以提供有意义的产品见解。
如何收集反馈
反馈应无缝集成到用户的工作流程中。用户应该很容易提供反馈,而无需额外的工作。反馈收集不应破坏用户体验且容易被忽视。应该激励用户提供良好的反馈。
经常被引用为良好反馈设计的一个例子来自图像生成器应用 Midjourney。对于每个提示,Midjourney 都会生成一组(四个)图像,并为用户提供以下选项,如图 7 所示。
- 生成任何这些图像的未缩放版本。
- 为这些图像中的任何一个生成变体。
- 再生。
图 7. Midjourney 的工作流程允许应用程序收集隐式反馈
所有这些选项都给中途发出了不同的信号。
- 选项 1 和 2 告诉 Midjourney 用户认为四张照片中哪一张最有希望。选项 1 给出了有关所选照片的最强的积极信号。选项 2 给出了较弱的正信号。
- 选项 3 表明没有一张照片足够好。然而,即使现有照片很好,用户也可能会选择重新生成,只是为了看看还有什么可能。
像 GitHub Copilot 这样的代码助手可能会以比最终文本更浅的颜色显示草稿,如图 8 所示。用户可以使用 Tab 键接受建议,或者直接继续键入以忽略建议,两者都提供反馈。
图 8:GitHub Copilot 可以轻松提出和拒绝建议
ChatGPT 和 Claude 等独立人工智能应用程序的最大挑战之一是它们没有集成到用户的日常工作流程中,因此很难像 GitHub Copilot 等集成产品那样收集高质量的反馈。例如,如果 Gmail 建议使用电子邮件草稿,Gmail 可以跟踪该草稿的使用或编辑方式。但是,如果您使用 ChatGPT 编写电子邮件,ChatGPT 并不知道生成的电子邮件是否实际发送。
仅反馈可能对产品分析有帮助。例如,赞成/反对信息足以计算人们对您的产品感到满意或不满意的频率。为了进行更深入的分析,您需要反馈的上下文,例如之前的 5 到 10 个对话轮次。此上下文可以帮助您找出问题所在。但是,如果没有明确的用户同意,可能无法获取此上下文,尤其是当上下文可能包含个人身份信息时。
因此,某些产品在其服务协议中包含允许他们访问用户数据以进行分析和产品改进的条款。对于没有此类术语的应用程序,用户反馈可能与用户数据捐赠流程相关联,其中用户被要求捐赠(例如,共享)他们最近的交互数据以及他们的反馈。例如,在提交反馈时,系统可能会要求您选中一个复选框以共享您最近的数据作为此反馈的上下文。
向用户解释如何使用他们的反馈可以激励他们提供更多更好的反馈。您是否使用用户的反馈来为该用户个性化产品、收集有关一般使用情况的统计数据或训练新模型?如果用户担心隐私,请向他们保证他们的数据不会用于训练模型或不会离开他们的设备(仅当这些情况属实时)。
不要要求用户做不可能的事情。例如,如果您从用户那里收集比较信号,请不要要求他们在他们不理解的两个选项之间进行选择。例如,当 ChatGPT 要求我在一个统计问题的两个可能答案之间进行选择时,我曾经被难住了,如图 9 所示。我希望有一个选项可以让我说“我不知道”。
图 9. ChatGPT 要求用户选择用户喜欢的响应的示例。然而,对于像这样的数学问题,正确答案不应该是偏好问题。
如果图标和工具提示可以帮助人们理解,请将其添加到选项中。避免可能使用户感到困惑的设计。模糊的指令可能会导致嘈杂的反馈。我曾经主持过一个GPU 优化研讨会,使用 Luma 来收集反馈。当我读到负面反馈时,我很困惑。尽管反应积极,但星级评定为 1/5。当我深入挖掘时,我发现 Luma 在反馈收集表单中使用表情符号来表示数字,但对应一星评级的愤怒表情符号却被放在了五星级评级应有的位置,如图 10 所示。
图 10. 由于 Luma 将对应 1 星评级的愤怒表情符号放置在本应为 5 星评级的位置,因此一些用户错误地选择它作为正面评价。
请注意您希望用户的反馈是私人的还是公开的。例如,如果用户喜欢某物,您是否希望将此信息显示给其他用户?在早期,Midjourney 的反馈(有人选择升级图像、生成变化或重新生成另一批图像)是公开的。
信号的可见性可以深刻影响用户行为、用户体验和反馈质量。用户在私下里往往更加坦诚——他们的活动被评判的可能性较低——这可以产生更高质量的信号(参见“特德·克鲁兹指责工作人员‘喜欢’色情推文”和“ 肯塔基州参议员的 Twitter 账户被‘喜欢’” ‘ 淫秽推文称他被黑了”)。 2024 年,X 将“点赞”设为私有。埃隆·马斯克声称,这一改变后点赞数显着增加。
然而,私有信号会降低可发现性和可解释性。例如,隐藏点赞可以防止用户找到他们的联系人点赞过的推文。如果 X 根据您关注的人的喜好推荐推文,则隐藏喜好可能会导致用户对某些推文出现在其源中的原因感到困惑。
反馈限制
毫无疑问,用户反馈对于应用程序开发人员的价值。然而,反馈并不是免费的午餐。它有其自身的局限性。
偏见
与任何其他数据一样,用户反馈也存在偏见。了解这些偏见并围绕它们设计反馈系统非常重要。每个应用程序都有自己的偏见。以下是一些反馈偏差的示例,可帮助您了解需要注意的事项:
宽大偏见
宽大偏见是指人们倾向于对事物给予比合理的更积极的评价,通常是为了避免冲突,因为他们觉得有必要表现得友善,或者因为这是最简单的选择。想象一下,您很着急,并且应用程序要求您对交易进行评分。您对交易不满意,但您知道如果您给予负面评价,系统会要求您提供理由,因此您只需选择正面即可完成交易。这也是为什么你不应该让人们为你的反馈做额外的工作。
在 5 星评分标准中,4 星和 5 星通常表示良好的体验。然而,在许多情况下,用户可能会感到有压力,必须给出 5 星评级,并在出现问题时保留 4 星。据Uber称,2015年,司机的平均评分为4.8,评分低于4.6的司机面临被停用的风险。
这种偏见并不一定会破坏交易。 Uber 的目标是区分好司机和坏司机。即使存在这种偏见,他们的评级系统似乎还是帮助他们实现了这一目标。有必要查看用户评分的分布来检测这种偏差。
如果您想要更细致的反馈,消除与低评级相关的强烈负面含义可以帮助人们摆脱这种偏见。例如,不要向用户显示数字 5 到 1,而是向用户显示如下选项。
- “很棒的旅程。很棒的司机。”
- “没什么可抱怨的,但也没有什么出色的。”
- “本来可以更好。”
- “别再把我和这个司机撮合了。”
- “下次我宁愿步行。”
这里建议的选项只是为了展示如何重写选项。它们尚未得到验证。就我个人而言,我认为 3 个选项量表可能就足够了。
随机性
用户经常提供随机反馈,并非出于恶意,而是因为他们缺乏动力来提供更深思熟虑的输入。例如,当并排显示两个长响应以进行比较评估时,用户可能不会阅读它们,而只是随机单击一个。在 Midjourney 的情况下,用户也可以随机选择一张图像来生成变化。
位置偏差
选项呈现给用户的位置会影响该选项的感知方式。用户通常更有可能点击第一个建议而不是第二个建议。这意味着,如果用户点击第一个建议,并不一定意味着这是一个好的建议。
在设计反馈系统时,可以通过随机改变建议的位置或构建模型来根据建议的位置计算建议的真实成功率来减轻这种偏差。
偏好偏差
还有许多其他偏见会影响一个人的反馈,本书已经讨论了其中一些偏见。例如,在并排比较中,人们可能更喜欢较长的响应,即使较长的响应不太准确——长度比不准确更容易被注意到。另一个偏见是新近度偏见,即人们在比较两个答案时倾向于选择最后看到的答案。
检查用户反馈以发现其偏见非常重要。了解这些偏见将帮助您正确解读反馈,避免误导产品决策。
退化反馈环路
使用用户反馈时,请记住用户反馈是不完整的。您只会收到有关您向用户显示的内容的反馈。
在使用用户反馈来修改模型行为的系统中,可能会出现退化反馈循环。当预测本身影响反馈时,可能会发生退化反馈回路,这反过来又影响了模型的下一个迭代,从而扩大了初始偏见。
想象一下,您正在建立一个系统来推荐视频。排名更高的视频首先显示,因此它们获得了更多点击,从而加强了系统的信念,即它们是最好的选择。最初,两个视频A和B之间的差异可能很小,但是由于A排名略高,因此获得了更多点击,并且系统不断提高它。随着时间的流逝,A的排名飙升,B落后。此反馈循环是为什么流行视频保持流行的原因,这使得新的视频很难突破。这个问题被称为“曝光偏见”,“流行性偏见”或“过滤气泡”,这是一个充分的问题。
退化的反馈循环可以改变产品的焦点并使用基础。想象一下,最初,少数用户会提供他们喜欢猫照片的反馈。该系统对此进行了接收,并开始与猫一起生成更多照片。这吸引了猫爱好者,他们给出了更多的反馈,即猫的照片很好,鼓励系统生成更多的猫。不久之后,您的申请成为猫避风港。在这里,我以猫照片为例,但是相同的机制可以扩大其他偏见,例如种族主义,性别歧视和对明确内容的偏爱。
在用户反馈上的作用也可以将对话代理变成骗子,因为缺少更好的词语。多项研究表明,对用户反馈的培训模型可以教给它,以使用户认为用户想要的东西,即使不是最准确或最有益的东西( Stray ,2023)。夏尔马等人。 (2023)表明,接受人类反馈训练的AI模型趋向于粘粘体。他们更有可能提出与此用户视图相匹配的用户响应。
用户反馈对于改善用户体验至关重要,但是如果不加选择地使用,它可能会使偏见永存并破坏您的产品。在将反馈纳入产品之前,请确保您了解此反馈及其潜在影响的局限性。
结论
该帖子很长,但还不够长,我无法使用AI应用程序的反馈设计进入深度。但是,我希望这篇文章涵盖了什么是对话反馈,为什么重要以及如何设计反馈系统的概述。我将尝试跟进应用程序中实际反馈的更具体示例,以及如何从反馈中提取信号。
用户反馈始终对于指导产品开发是无价的,但是对于AI应用程序,用户反馈作为改进模型的数据源具有更重要的作用。同时,对话界面启用了新型的用户反馈,您可以利用分析,产品改进和数据飞轮。
传统上,用户反馈设计被视为产品责任,而不是工程责任,因此,工程师经常忽略了产品责任。但是,由于用户反馈是不断改进AI模型的关键数据来源,因此更多的AI工程师现在正在参与该过程,以确保他们接收所需的数据。这加强了与传统的ML工程相比,AI工程更接近产品的想法。这是因为数据飞轮的重要性和产品体验的重要性既有竞争优势。
原文: https://huyenchip.com//2025/01/06/conversational-feedback.html