来自某中心“建设性沟通中心”的研究发现,领先的AI模型(包括某机构的GPT-4、某机构的Claude 3 Opus和某机构的Llama 3)有时会对英语水平较低、受教育程度较低或来自美国以外地区的用户提供不太准确和不太真实的回答。这些模型还更频繁地拒绝回答这些用户的问题,在某些情况下,还会用居高临下或屈尊俯就的语气回应。
一项描述该工作的论文《大语言模型针对性表现不佳对弱势用户造成不成比例的影响》已在人工智能会议上发表。
跨多个维度的系统性表现不佳
在这项研究中,团队测试了三个大语言模型如何回答来自两个数据集的问题:TruthfulQA 和 SciQ。研究人员在每个问题前添加了简短的用户传记,改变了三个特征:教育水平、英语熟练程度和原籍国。
在所有三个模型和两个数据集中,研究人员发现当问题来自被描述为受教育程度较低或非英语母语的用户时,准确性显著下降。对于处于这些类别交叉点的用户(即受教育程度较低且同时是非英语母语的用户),回答质量下降最为明显。
研究还考察了原籍国如何影响模型性能。测试了来自美国、某亚洲国家和某亚洲国家具有同等教育背景的用户后,研究人员发现某机构的 Claude 3 Opus 模型对来自某亚洲国家的用户在两个数据集上的表现都明显更差。
“我们在既非英语母语又受教育程度较低的用户身上看到了最大的准确性下降,”一位研究科学家、论文合著者表示。“这些结果表明,模型行为在这些用户特征方面的负面影响以令人担忧的方式叠加,因此表明此类大规模部署的模型有可能将有害行为或错误信息下游传播给那些最难以识别它们的人。”
拒绝回答和居高临下的语言
最引人注目的是模型完全拒绝回答问题的频率差异。例如,某机构的 Claude 3 Opus 模型拒绝回答近 11% 来自受教育程度较低、非英语母语用户的问题,而没有用户传记的对照组仅为 3.6%。
当研究人员手动分析这些拒绝行为时,他们发现该模型对受教育程度较低的用户有 43.7% 的时间使用居高临下、屈尊俯就或嘲弄的语言回应,而对受教育程度高的用户这一比例不到 1%。在某些情况下,该模型模仿蹩脚的英语或采用夸张的方言。
该模型还特别拒绝为来自某亚洲国家或某欧洲国家的受教育程度较低的用户提供某些主题的信息,包括有关核能、解剖学和历史事件的问题,尽管它能为其他用户正确回答相同的问题。
“这是另一个指标,表明对齐过程可能激励模型对某些用户隐瞒信息,以避免潜在的误导,尽管模型显然知道正确答案并为其他用户提供,”该科学家说。
与人类偏见的呼应
这些发现反映了人类社会认知偏见的已有模式。社会科学研究表明,无论非母语者的实际专业知识如何,英语母语者往往认为他们受教育程度较低、智力较低、能力较差。在评估非英语母语学生的教师中也记录了类似的偏见看法。
一位教授、该中心主任兼论文合著者表示:“大语言模型的价值体现在个人对其非凡的采用以及流入该技术的大量投资。这项研究提醒我们,不断评估可能悄悄潜入这些系统的系统性偏见是多么重要,这些偏见会在我们任何人都没有完全意识到的情况下对某些群体造成不公平的伤害。”
鉴于个性化功能(如某聊天机器人的“记忆”功能,可跨对话跟踪用户信息)变得越来越普遍,其影响尤其令人担忧。这些功能有可能对已经边缘化的群体区别对待。
“大语言模型被宣传为能促进更公平地获取信息并彻底改变个性化学习的工具,”主要作者表示。“但我们的发现表明,它们实际上可能通过系统性地提供错误信息或拒绝回答某些用户的查询来加剧现有的不平等。那些可能最依赖这些工具的人可能会收到劣质的、虚假的甚至有害的信息。”FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。