Poe和SurgeAI合作,对主流LLM的四个属性进行了系统评估:包括推理、写作、创造力和非英语流利程度。
关键结论
GPT4 在所有维度上都赢得了比赛(不计算速度和价格),但有一些值得注意的地方排在第二位。
Google 的 PaLM 在非英语语言能力方面击败了所有其他竞争者,有效支持了最广泛的在线人群语言。这以前好像没有报道过。
Claude 2 在推理方面排名第二,涵盖解决数学问题和编程挑战等任务。
Llama 2 70b 在与SurgeAI 共同进行的人工智能专家评估中,在写作和创造力方面获得第三名。
评估方式
除了评估的结果之外,评估的方式也值得借鉴:
推理
机器人通过遵循复杂的提示来得出逻辑结论的能力如何。这有助于描述在解决数学问题和克服编程挑战等任务方面的熟练程度。
选择了行业基准,以逻辑推理、游戏推理、编码和计算来描述每个LLM的“开箱即用”能力。为了得出最终的加权方案,每个子类别的个体数据集都经过样本大小的归一化处理。每个分数是LLM准确性在各个子类别和3次运行中的加权平均值。
非英语流利程度
机器人在执行需要语言特定理解和使用非英语进行对话的常规任务方面的表现如何。这有助于描述Poe用户常用的非英语熟练程度。
阿拉伯语、中文、法语、德语、印度尼西亚语、意大利语、日语、韩语、波斯语、葡萄牙语、俄语、西班牙语、土耳其语和越南语是我们评估的14种常用语言。利用了几份关于在线语言使用分布的报告,以确定每种语言子类别应用的权重。将这种权重方案与Poe语言使用分布进行交叉参考,发现Poe平台上也存在类似的趋势。在每个语言子类别中,如果数据集测量的是较简单的语言任务,如词性分类、词汇、发音、翻译等,它们被分配了1倍的权重。相反,需要对语言有更深入理解和知识的任务被分配了2倍的权重。
创造力
机器人在创造性维度上如何准确把握指导,以产生与提示相吻合的富有表现力的文本。这有助于描述在创意写作和角色扮演等任务上的熟练程度。
与SurgeAI合作,在广泛的创意任务中进行专家人工评估,包括写故事、生成名称和角色扮演。得出的排名转换为Elo评分以进行比较。创造力是一个新兴的评估领域,因此Poe已经开源了我们用来促进对LLM创造能力更深入理解的提示。
写作
机器人能够如何准确地遵循提示来生成或改写文本,以一种表达清晰且适合所要求的格式的方式。这有助于描述在撰写文本、校对和概括等写作任务方面的熟练程度。
与SurgeAI合作的专家人工评估。编写任务经过精心策划,以模拟真实的Poe用法。人工评估结果转化为Elo分数。
其他补充信息
对于推理和非英语流利度维度,从OpenAI数据集的一个子集开始,并将每个LLM请求中的所有输入消息转换为用户消息,以模拟最终用户体验。对每个测试进行了3次复制,并取每个数据集上LLM准确性的平均值来确定最终的综合得分。关于LLM评估的一个普遍注意事项是,通过足够的特定于机器人的提示工程,可以提取出所需的回答。将每个样本修改为以最佳方式与每个LLM交流是一项非常困难的任务。为了解决这个问题,改进了答案识别,以确保机器人不会因为不同程度的冗长而受到惩罚。
对于创造力和写作,Poe团队通过独立的用户调研数据确定了突出的主题。这些主题经过匿名使用数据的验证,生成了对Poe使用模式的描述。SurgeAI根据这些指南生成了与Poe使用相关的提示。他们的人类评估员对每个机器人进行了详尽的排名,只有少数出现并列情况。然后,我们将不同的排名转换为两两对战,并使用LMSys发布的方法计算Elo分数。
所有测试使用的提示词和对应结果:https://poe.com/bot_rankings[1]
参考资料
[1]
https://poe.com/bot_rankings: https://poe.com/bot_rankings
领取专属 10元无门槛券
私享最新 技术干货