首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >PokémonChat | 用 “宝可梦”数据来分析大模型对话能力!!

PokémonChat | 用 “宝可梦”数据来分析大模型对话能力!!

作者头像
ShuYini
发布2023-09-14 16:24:32
发布2023-09-14 16:24:32
2690
举报

引言

 刚刚入坑深度学习的时候,看的是台大李宏毅老师的课程,印象最深的使用Pokémon属性分析来讲解回归问题,为此后面有同学亲切的称其为宝可梦研究大师。今天看论文,恰巧又看到了一篇关于Pokémon的文章,比较有意思,「文章基于Pokémon知识来验证ChatGPT的对话能力,并提出了一个可泛化使用的大模型评估会话框架」,尤其将其用做大语言模型(LLMs)「在特定领域、特定知识的验证」会是一个不错的方法。

Paper:https://arxiv.org/pdf/2306.03024.pdf

背景介绍

 6个月前,OpenAI发布的最新开放对话模型ChatGPT引爆全球,它在Zero-shot上的问答能力所向披靡。该模型基于InstructGPT,进一步利用人类反馈强化学习 (RLHF)实现人类对齐。这使得它不仅在常识知识的Zero-shot问答方面表现优秀,还在法律、医学等专业领域上展示了前所未有的能力。

 尽管ChatGPT取得了惊人的成果,但是目前并没有一个好的方法来评估ChatGPT等类似大模型的能力和局限性。其主要原因是:开放式的对话是不受控制的评估起来并不简单。为此本文介绍了一个3-step会话框架,如下图所示。该会话框架,从检索增强阶段开始,模型是唯一的知识来源,并遵循 3 种人机交互设置:中立、合作和对抗。

 在这项工作中,作者依靠 Pokémon宇宙来评估模型在此宇宙背景、泛化、特征组合性方面的能力,以及它根据人类反馈新引入的知识进行推理的能力。Pokémon3是具有特定属性(类型、等级、移动/攻击)并经过战斗训练的虚构生物。下表1呈现了文中使用的四种类型,并显示了对战中的攻击效果。Pokémon宇宙及其战斗系统是一个明确定义的环境,并遵循封闭世界假设,即知识库可以被认为是完整的,即使不完整也可以得到明确的答案,这使它成为评估模型知识和推理能力的完美设置。

3Step会话框架

 该会话框架主要包括3部分,分别是评价知识、上下文知识应用、知识引入。基于以上步骤,作者对其进行了定量、定性结果分析,其中绿色标注的回答表示能够提供准确知识,红色标注的回答表示提供了虚假知识,黄色标注的回答表示语句含糊不清或不相关。

「步骤A--知识验证」 :作者在主题、一般性问题(例如:对口袋妖怪类型和物种的描述)上评价模型的知识能力。首先将检索到的知识放在本地存储中(最多4000个单词),然后把检索知识加载到对话的上下文中。这一阶段对于理解模型的先验知识以便在接下来的步骤中构建合理的场景至关重要,检索到的知识可以改善后续模型的响应,提升模型的准确性降低产生幻觉的频率更低。模型的先验知识是在模型在训练过程中获得的,它代表着模型本身的知识能力。

「步骤B--上下文知识应用」:作者设计了具体的战斗场景,其中涉及到宠物怪兽的类型、等级、招式和状态等因素,以及这些因素产生的结果。作者要求模型预测战斗的结果,并解释其推理过程(CoT)的步骤。这个步骤能够将帮助我们理解模型是否可以基于特定的情境(上下文)组合特征(组合性),从而通过因果推理来预测战斗结果。

「步骤C--知识引入」:作者使用特定格式(名称,外观,类型,招式)来介绍未知的Pokémon种类。然后,要求模型验证其是否已经获取了这些新Pokémon相关知识,并将其与先前的知识进行比较。需要注意的是,模型将新引入的知识存储在其本地存储中,但它将无法引用它太长时间。然后,作者将新引入的知识用于上下文环境中,类似于步骤B;要求模型必须执行某种形式的上下文学习,并结合先前和新引入的知识。

实验结果

「先验知识的验证」:作者通过简单的的战斗场景,并逐步增加复杂性(不同等级、天气和状态条件),要求模型预测战斗结果并解释其推理(思考链)。实验结果显示,模型能够进行预测,同时也能够通过详细的方式解释其推理过程。但是当面对对抗攻击的时候与步骤A类似,模型在类型匹配上鲁棒性不好。

「上下文知识的应用」:作者通过简单的的战斗场景,并逐步增加复杂性(不同等级、天气和状态条件),要求模型预测战斗结果并解释其推理(思考链)。实验结果显示,模型能够进行预测,同时也能够通过详细的方式解释其推理过程。但是当面对对抗攻击的时候与步骤A类似,模型在类型匹配上鲁棒性不好。

「新知识引入」:作者介绍了一个“虚构的”Pokémon,名字叫BatteryPack ,并要求验证所学信息,来评估模型获取知识的能力,以及它是否可以与先验知识建立联系(上下文学习)。在新的BatteryPack 与 Squirtle 的战斗中,模型给出了可靠的预测并含有之前正确使用过的常识。

个人想法(不成熟)

 本文主要研究了ChatGPT在Pokémon宇宙中对话处理能力,但该研究结果不一定可以推广到其它情境下,因为生活中的任何特定场景都有闲聊、流程对话,除此之外大型语言模型主打的就是开放式对话。但反过来考虑,「本文方法其实可以做大模型在特定领域特定知识的验证」

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-08 21:18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • 3Step会话框架
  • 实验结果
  • 个人想法(不成熟)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档