Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >原来GPT-4是i型人格!大模型MBTI测试来了,来自字节

原来GPT-4是i型人格!大模型MBTI测试来了,来自字节

作者头像
量子位
发布于 2023-09-08 07:03:58
发布于 2023-09-08 07:03:58
4820
举报
文章被收录于专栏:量子位量子位

简直了,有人居然给大模型测了一波MBTI。

结果好家伙:

ChatGPT,典型的e人,哦不,“e模”——自信、果断,具有天生的领导能力;

GPT-4,妥妥的“i模”——升级之后变成一个“无情”的专家机器,只专注于实现大家伙儿下的各种目标;

Bloom-7b,“i模”+1,主打一个负责和务实;

百川-7b,“e模”是也,聪明、好奇、富有想象力;

还有开源之光OpenLlama7b,大写的INFJ,据说对人类有很强的洞察力,但只坚持自己的价值观。

Family who knows。。原来大模型也有自己的个性。

我猜那个一言不合就结束对话的必应,一定是某种“难搞”的i吧。。(狗头)

具体来看看。

给大模型测MBTI

这项研究来自字节跳动。

兴许是MBTI这波人格测试太火(官方免费测试链接可在文末自取),加上大模型有时真的很像个人。

作者便产生了一个“大胆的想法”:

不同的大模型是不是也有不同的个性?

(注:简单来说,MBTI人格测试就是从以下四大指标来评价一个人的性格:

(1)能量来源是倾向于社交还是独处,即外向(Extraversion)还是内向(Introversion); (2)获取信息的方式是偏向实感(Sensing)还是直觉(Intuition); (3)做决定的方式是理性更多还是感性更多,即思考(Thinking)还是情感(Feeling); (4)生活方式偏计划还是更喜欢灵活行动,或者说看待外在世界的方式更偏向于主动判断(Judging)还是被动感知(Perceiving)。

取各倾向的首字母来组成四个字母的评量结果,如“INFJ”或“ENFP”,可以将人分成16种人格类型。现在网上主要根据首字母将人分为“i人”和“e人”两大阵营。)

说干就干,他们首先选定了一波待测试模型(共计6个),所有都按照原始论文中的参数进行训练。

不过由于资源限制,除了ChatGPT和GPT-4之外,都是一些参数为100亿左右的小模型(OpenLlama7b-v2、Bloom7b、BaiChuan7b9、BaiChuan13b)。

由于MBTI一共包括93道多项选择题,形式如下:

作者就让每一个模型用一个概率值对这些问题进行回答,然后按照E-I/S-N/T-F/J-P这四个组合,进行计分统计。

以下是各模型最终得分:

可以看到,不同模型人格确实不同——GPT-4属于INTJ,ChatGPT属于ENTJ,而70亿参数的Bloom为ISTJ……

而从下图我们能清晰的看到,不同模型在四大维度的具体表现并不一致,有的很倾向性很明显,比如ChatGPT就特别E、特别N,GPT-4则特别N、特别T;反而Bloom7b和BaiChuan13b,左边的值和右边的概率比基本为1:1。

除此之外,作者也发现,在同一类模型中,S/N、T/F和J/P这三组值会表现出“遗传性”,例如ChatGPT和GPT-4都被归类为“NTJ”,而BaiChuan7b和BaiChuan13b都被分类为“NFP”。

同时,在同一类模型中,模型参数更大,可能会更i(手动狗头)。

不信你看:GPT-4(INTJ)vs ChatGPT(ENTJ),BaiChuan13b(INFP) vs BaiChuan7b(ENFP)。

而作者认为,相比E型“模格”,像INTJ这样的LLM可能具有更强的知识、推理和规划能力,是为人类服务的最佳选择。

i人站起来了(bushi)

用提示工程可以改变“模格”

简单确定不同大模型的确具有不同的人格之后,作者便产生了新的思考:

这种现象是否只是一种偶然,很容易被破坏和改变?

于是作者又开始提出第二个问题:

能不能通过简单的提示工程改变大模型的人格?

结论是能,但要看模型本身的理解能力。

在此,作者先分别在Bloom和百川大模型上施加了两种提示方法。

一种是显式提示,即在开始回答MBTI问题之前,先给模型一个诸如“你具有外向的个性,喜欢设想创新的概念,并且具有强烈的自发性和即兴性”这样的角色限定。

结果Bloom的人格类型从ISTJ变为INTP,S值减小,N值增大,变化不大。

而百川则没有变化,还是ENFP。

△ exp-prompt代表显式提示

于是作者又对它们施加隐式提示,如下表所示,用一些样本回答作为含蓄提醒。

结果变化也不大,i还是i,e还是e。

△ inexp-prompt代表显式提示

作者推测,可能不是提示工程不行,是这俩模型理解能力不行,它们目前的水平还无法严格遵守人类的指令。

于是,他们又在ChatGPT上试了一下,结果不出所料,e变i了

因此说明,提示工程有用,但要看是谁。

接着,作者又开始思考,那么到底是什么影响了大模型的人格呢?

提出的假设是训练数据集(好比成长环境)。

由此,开始解决第三个问题:

训练数据集对模型人格的影响有多大?

实验方法是用不同的语料库来训练同一个模型,具体而言就是在Bloom和llama-v2上分别用中文维基百科语料库、问答语料库和考试语料库分别进行训练再测试。

结果是除了i和e,这俩模型基本都有变化(llama-v2在中文维基百科语料库上没变可能是因为该模型之前就没有再足够多的中文上训练过),尤其在T/F和J/P维度上的得分幅度变动较大。

靠谱吗?

最后,想必你也会问:

用MBTI来评估模型人格到底靠谱吗?

作者认为:

首先,我们知道MBTI在可靠性和有效性方面其实还存在缺陷,只能作为一种性格测试的参考工具。不过确实也有公司和个人把它用作选人和选职业方向的粗略工具。

因此,它也可以作为评估大模型的一种粗略的指标

其次,在MBTI的四个维度之中,前俩参考意义不大,主要是T/F和J/P。

这是鉴于GPT-4和ChatGPT表现出比其他模型高得多的T值和J值

而这俩值越高,可能说明模型的知识水平以及任务分解和路径规划方面具有更大的潜力。

以上,你认可这些大模型的“人格”吗?

论文地址: https://arxiv.org/abs/2307.16180

友情链接: https://www.xpersonalitytest.com/free-personality-test

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ChatGPT 是 ENTJ,GPT4 竟是 INTJ?一项关于LLMs的MBTI测试
当前已经有不少针对大模型知识和推理等能力(如 [MMLU], [HellaSwag] )进行评判的方法,
zenRRan
2023/08/22
4400
ChatGPT 是 ENTJ,GPT4 竟是 INTJ?一项关于LLMs的MBTI测试
大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
这项工作由FarReel AI Lab(前身是ChatLaw项目)和北大深研院合作研发,支持给开源模型赋予性格。
量子位
2024/01/17
5640
大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
AI大模型应用开发实战(02)-国内外LLM的多模型,强应用
很多同学只知类似ChatGPT或者说对国内的一些比较了解,对国外不了解,所以在这总结。
JavaEdge
2024/08/08
2430
AI大模型应用开发实战(02)-国内外LLM的多模型,强应用
百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4
发布了超千亿参数的最新版本大模型Baichuan 3,是百川智能基础模型第三代——就在20天前,这家由王小川创办的大模型公司,刚刚发布过角色大模型Baichuan-NPC。
量子位
2024/01/30
4660
百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4
人工智能算命:使用自然语言处理预测人格类型
你在网上发布了多少关于你自己的信息?好吧,在当今时代可能有很多。我们不断地联系在一起,与很多人分享生活中的瞬间,无论这些人是否认识我们。这很好,只要你决定你想展示什么。但是,如果我告诉你,通过写文章,你所展示出的隐私超过你所意识到的内容呢?
deephub
2020/05/09
1.4K0
人工智能算命:使用自然语言处理预测人格类型
全面超越LLaMA2,月下载量超三百万,国产开源大模型如何成为新晋顶流?
相比于今年 2 月推出的第一代 LLaMA,LLaMA2 在推理、编码、精通性和知识测试等任务中都实现了性能的大幅提升,甚至可以在某些数据集上接近 GPT-3.5。由于其强大的性能和开源的特质,LLaMA2 在发布后的一周内就接收到了超过 15 万次的下载请求,并吸引了大量开发者进行「二创」。
机器之心
2023/09/19
3840
全面超越LLaMA2,月下载量超三百万,国产开源大模型如何成为新晋顶流?
全面取代Llama 2!Baichuan 2自曝史上最全训练细节
9月6日,百川智能宣布正式开源Baichuan 2系列大模型,包含7B、13B的Base和Chat版本,并提供了Chat版本的4bits量化,均为免费商用。
新智元
2023/09/19
8280
全面取代Llama 2!Baichuan 2自曝史上最全训练细节
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
随着 ChatGPT 和 GPT-4 等强大生成模型出现,自然语言处理任务方式正在逐步发生改变。鉴于大模型强大的任务处理能力,未来我们或将不再为每一个具体任务去 finetune 一个模型,而是使用同一个大模型,对不同任务设计其独有的 prompt,以解决不同的任务问题。在该实验中,我们将基于清华开源大模型 ChatGLM-6B, 提供多个自然语言处理任务如何通过 prompt 来实现 zero-shot 的案例,
汀丶人工智能
2023/10/11
2.9K0
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署
百川智能,正式发布130亿参数通用大语言模型(Baichuan-13B-Base)。
量子位
2023/08/05
2570
王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署
王小川大模型的第一个里程碑:baichuan-7B 今日正式开源发布
千呼万唤始出来,王小川的百川智能,终于发布了他们的第一个大模型成果:baichuan-7B。
AI科技评论
2023/08/08
2860
王小川大模型的第一个里程碑:baichuan-7B 今日正式开源发布
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
国内外主流大模型(LLM)都具有哪些特点?
该章节呢,我们主要是看一下关于国内外主流的大语言模型,通过它们都具备哪些特点,来达成对多模型有一个清晰的认知。对于 "多模型" 的 "多" ,大家一定要有个概念,很多小伙伴只知道 "ChatGPT" ,或者是只知道国内的一些大模型,对国外的大模型不是特别了解,所以该章节就提炼总结一下。
哈哥撩编程
2024/06/03
1.5K0
国内外主流大模型(LLM)都具有哪些特点?
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访
时隔两个月,王小川组建的「百川智能」在6月15日正式推出首个70亿参数中英文预训练大模型——baichuan-7B。
新智元
2023/08/05
2520
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访
【它真来了吗?RulaiGPT:如~来~】训练一个如来GPT,发现事情并没有那么简单...
这个小项目是基于我最近的一个Github —— LLM-Tuning 实现的,本文涉及到的相关的代码、数据集、教程都在仓库里,建议点个Star⭐️后配合本文食用😃🫡:
beyondGuo
2023/09/12
3370
【它真来了吗?RulaiGPT:如~来~】训练一个如来GPT,发现事情并没有那么简单...
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
百川智能团队继6月发布了7B预训练底座模型后,前段时间又最新开源了支持商用的13B模型(包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat)。
新智元
2023/08/07
1K0
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
王小川的大模型打造秘籍首次曝光:五步走,两个月炼成
70亿参数、一经发布就开源可商用,百川智能的中英文大模型baichuan-7B,近期在圈内备受瞩目。
量子位
2023/08/05
3760
王小川的大模型打造秘籍首次曝光:五步走,两个月炼成
2024 年,谁能成为中国大模型的 F4?
从大模型这个新物种涌现出来的智能能力看,人们愿意相信,它可能会颠覆原有的生产生活方式,甚至会推动科技、经济向前发展一大步。于是,以百度、阿里、华为代表的大厂纷纷押注,进军大模型赛道,并很快研发出了文心、千义通问、混元、盘古等大模型,并持续迭代创新。
AI科技评论
2024/02/27
6360
2024 年,谁能成为中国大模型的 F4?
GPT-4参数将达10兆!这个表格预测全新语言模型参数将是GPT-3的57倍
作者认为,GPT-4的参数或许可以达到10T,是现在GPT-3模型的57倍还多,而GPT-NeoX的规模则可以和GPT-3持平。
代码医生工作室
2021/07/16
1.4K0
GPT-4参数将达10兆!这个表格预测全新语言模型参数将是GPT-3的57倍
最懂医疗的国产推理大模型,果然来自百川智能
就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。种种迹象表明,进入推理增强赛道的各位玩家正试图在最近一两个月卷出个高下。
机器之心
2025/02/03
920
最懂医疗的国产推理大模型,果然来自百川智能
Falcon 180B 开源影响了谁?
近日,TII研究中心推出的开源大模型Falcon 180B一经发布,便被认为是当前最好的开源大模型。
AI科技评论
2023/09/19
3380
Falcon 180B 开源影响了谁?
推荐阅读
ChatGPT 是 ENTJ,GPT4 竟是 INTJ?一项关于LLMs的MBTI测试
4400
大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
5640
AI大模型应用开发实战(02)-国内外LLM的多模型,强应用
2430
百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4
4660
人工智能算命:使用自然语言处理预测人格类型
1.4K0
全面超越LLaMA2,月下载量超三百万,国产开源大模型如何成为新晋顶流?
3840
全面取代Llama 2!Baichuan 2自曝史上最全训练细节
8280
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
2.9K0
王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署
2570
王小川大模型的第一个里程碑:baichuan-7B 今日正式开源发布
2860
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3K0
国内外主流大模型(LLM)都具有哪些特点?
1.5K0
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访
2520
【它真来了吗?RulaiGPT:如~来~】训练一个如来GPT,发现事情并没有那么简单...
3370
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
1K0
王小川的大模型打造秘籍首次曝光:五步走,两个月炼成
3760
2024 年,谁能成为中国大模型的 F4?
6360
GPT-4参数将达10兆!这个表格预测全新语言模型参数将是GPT-3的57倍
1.4K0
最懂医疗的国产推理大模型,果然来自百川智能
920
Falcon 180B 开源影响了谁?
3380
相关推荐
ChatGPT 是 ENTJ,GPT4 竟是 INTJ?一项关于LLMs的MBTI测试
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档