Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >伯克利函数调用排行榜(BFCL)

伯克利函数调用排行榜(BFCL)

作者头像
张善友
发布于 2025-02-04 00:56:58
发布于 2025-02-04 00:56:58
4370
举报
文章被收录于专栏:张善友的专栏张善友的专栏

自 2022 年底以来,大语言模型(LLMs)凭借其执行通用任务的强大能力,成为众人关注的焦点。不仅限于聊天应用,将这些模型应用于开发各类 AI 应用和软件(如 Langchain, Llama Index, AutoGPT, Voyager)已成为一种趋势。GPT, Gemini, Llama, Mistral 等模型通过与外部世界的交互,如函数调用和执行,展现了其巨大潜力。

伯克利函数调用排行榜(Berkeley Function-Calling Leaderboard,简称 BFCL)[1]是一个用于评估大型语言模型(LLM)在准确调用函数或工具方面的能力的在线平台。BFCL是一个全面评估大型语言模型(LLM)调用函数和工具能力的平台,包括多种编程语言和应用场景。该平台通过提供问题-函数-答案对,评估模型在不同场景下的表现,如简单函数调用、并行函数调用、多函数调用等。此外,BFCL还关注模型的成本和延迟,并在2024年8月19日发布了BFCL V2数据集,解决了偏见和数据污染问题,专注于动态真实世界场景。这个排行榜的特点包括:

  1. 全面评估 LLM:它评估大型语言模型的函数调用能力,涵盖了各种编程语言和应用场景。
  2. 真实世界数据:使用实际数据集进行评估,确保评估的准确性和相关性。
  3. 定期更新:排行榜会根据 AI 技术的最新进展进行更新。
  4. 详细的错误分析:提供对不同模型的优缺点的深入分析。
  5. 模型比较:方便用户在模型之间进行比较,以便做出明智的决策。
  6. 成本和延迟估计:为模型的经济效率和性能提供估计。

排行榜中包括了 2,000 个问题-函数-答案对,涉及多种编程语言(如 PythonJava、JavaScript、REST API)和复杂的使用场景。这些场景包括需要从多个提供的函数中选择一个或多个函数的多个函数调用,以及需要同时进行多个函数调用的并行函数调用。

伯克利函数调用排行榜对于研究人员、开发者和教育机构来说是一个宝贵的资源,可以帮助他们比较和选择最适合其需求的模型,评估模型的经济效率和性能。伯克利函数调用排行榜是 AI 社区的关键工具,它提供了一种透明且数据驱动的评估方法,用于评估和选择最有效的用于编程任务的大型语言模型。通过提供全面的评估、真实世界的见解和实用的比较,它使用户能够做出明智的决策,从而提高其 AI 应用程序的效率和有效性。

2024年9月19日发布的 伯克利函数调用排行榜(BFCL V3)[2]是一个评估大型语言模型(LLM)在多轮和多步函数调用(工具使用)方面能力的重要平台。它允许LLM进行往返交互,通过询问澄清性问题来处理复杂任务,特别是引入了多轮次、多步骤函数调用(工具使用)的基准测试。BFCL V3在评估大型语言模型(LLMs)如何通过调用正确功能与各种场景互动方面取得了关键进展。它允许模型与用户进行来回互动,通过询问澄清问题来导航复杂任务。此外,BFCL V3首次执行API状态验证作为真实情况验证,而不仅仅是通过抽象语法树(AST)和可能的答案列表进行参数匹配。BFCL V3的主要特点包括:

  1. 多轮函数调用:允许模型与用户进行来回交互,处理输入信息,从而处理更动态和真实的用户交互。
  2. 多步函数调用:LLM可以将响应分解为多个步骤,模拟真实世界中AI助手可能需要规划执行路径、请求和提取关键信息,以及处理顺序函数调用以完成任务。
  3. API状态验证:BFCL V3首次执行API状态验证作为地面实况验证。
  4. 数据集组成:包括基础多轮、增强多轮、缺失参数、缺失函数、长上下文多轮和组合等多个类别,旨在创造极端困难但重要的挑战。
  5. 多轮模型推理和执行:评估多轮函数调用模型,包括函数调用模型和提示模型,以及它们在推理过程中的差异。
  6. 状态基础评估:通过比较每个对话轮次后实例的最终状态来评估模型性能。

BFCL V3的这些创新和改进使其成为评估LLM在复杂场景中函数调用能力的重要工具,更多详细信息和数据集可以在伯克利大学的官方网站上找到。

相关链接:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5
---- 新智元报道   编辑:好困 【新智元导读】万万没想到,现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了!据说,那些闭源模型们很快也会被拉出来溜溜。 最近,来自LMSYS Org(UC伯克利主导)的研究人员又搞了个大新闻——大语言模型版排位赛! 顾名思义,「LLM排位赛」就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。 然后,我们就能一眼看出,某个聊天机器人到底是「嘴强王者」还是「最强王者」。 划重点:团队还计划把国内和国外的这些「闭源」
新智元
2023/05/09
6530
UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5
LLM函数调用指南
减少大型语言模型中幻觉的已验证技术之一是 检索增强生成,或 RAG。RAG 使用检索器搜索外部数据,在将提示发送到生成器(即 LLM)之前,使用上下文对提示进行增强。
云云众生s
2024/05/18
4880
LLM函数调用指南
27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
前段时间,由27岁的华裔创始人Alexandr Wang领导的Scale AI刚刚因为融资圈了一波关注。
新智元
2024/06/05
1800
27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一
这次,团队不仅在排行榜中加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。
新智元
2023/08/07
5500
UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一
首个大规模使用工具的大模型来了:伯克利发布Gorilla
机器之心报道 编辑:Panda One AI to rule them all. 大型语言模型性能强大,但为了更好地用于解决实际问题,各式各样的 API 是必不可少的。 近日,加利福尼亚大学伯克利分校和微软研究院造出了一只「大猩猩」Gorilla,该模型能根据用户输入的自然语言为用户选择合适的 API 来执行对应任务。理论上讲,这个模型可以根据用户需求调用其它各种 AI 模型,因此 Gorilla 有望成为一个统御其它 AI 的 AI 模型。该项目的代码、模型、数据和演示都已发布。 网站:gorilla.
机器之心
2023/05/31
4840
首个大规模使用工具的大模型来了:伯克利发布Gorilla
UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六
---- 新智元报道   编辑:好困 【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了! 前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛! 这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。 OpenAI GPT-4 OpenAI GPT-3.5-turbo Anthropic Claude-v1 RWKV-4-Raven-14B(开源) 毫无疑问,只要GPT-4参战,必定是稳居第一。 不过,出乎意
新智元
2023/05/22
4750
UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六
GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞
自3月发布以来,Vicuna已成为最受欢迎的聊天LLM之一。它在多模态、AI安全和评估方面的研究具有开创性。
新智元
2023/09/09
6240
GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞
OpenLLM大模型排行榜
大模型排行榜链接地址为:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
山行AI
2023/06/14
1.9K0
OpenLLM大模型排行榜
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
数学证明不仅要得出 “对” 的答案,更要给出逻辑闭合、层层严谨的推理过程。在不等式问题中尤其如此 —— 哪怕最终答案是对的,只要中间某一步出现纰漏,整个证明就可能不成立。我们不禁提问:这些答案是模型通过严密推理得出的,还是只是通过 “看起来合理” 的过程猜出来的?
机器之心
2025/06/23
1170
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二
除了各类开源模型外,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。
新智元
2023/08/05
7730
斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二
自己发基准自己第一,Anyscale行为惹社区吐槽
前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。
机器之心
2023/12/28
3120
自己发基准自己第一,Anyscale行为惹社区吐槽
彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码
这是一组由 Meta 开源的大型语言模型,共有 7B、13B、33B、65B 四种版本。其中,LLaMA-13B 在大多数数据集上超过了 GPT-3(175B),LLaMA-65B 达到了和 Chinchilla-70B、PaLM-540B 相当的水平。
机器之心
2023/08/07
2950
彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
机器之心报道 机器之心编辑部 平替再平替,可以在消费级 GPU 上运行的 Koala 模型能实现 ChatGPT 一半的性能。 自从 Meta 发布并开源了 LLaMA 系列模型,来自斯坦福大学、UC 伯克利等机构的研究者们纷纷在 LLaMA 的基础上进行「二创」,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型。 羊驼已然成为开源社区的新晋顶流。由于「二创」过于丰富,生物学羊驼属的英文单词都快不够用了,但是用其他动物的名字给大模型命名也是可以的。 最近,UC 伯克利的伯克利人工智能研究院(BA
机器之心
2023/04/06
6500
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4
继11月初零一万物发布性能优异的 Yi-34B 基座模型后,Yi-34B-Chat 微调模型在11月24日开源上线 ,再度获得全球开发者关注。
AI科技评论
2023/12/12
8180
零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4
强如 GPT-4,也未通过伯克利与斯坦福共同设计的这项“剧本杀”测试
例如,AI 科技评论想使用 GPT-4 制作一张包含对话框的图片,但没有针对目标生成对话的内容给予明确指示,而 GPT-4 生成的图文效果便如下,显示文本逻辑混乱、字不成章,还有部分“重影”:
AI科技评论
2024/03/18
2100
强如 GPT-4,也未通过伯克利与斯坦福共同设计的这项“剧本杀”测试
UC伯克利发现GPT-4惊人缺陷:儿童从经验中学习因果,LLM却不行
你可能会说,LLM有那么多训练数据集,经过了那么多次微调,还不全方位秒杀小朋友们?
新智元
2023/12/20
1920
UC伯克利发现GPT-4惊人缺陷:儿童从经验中学习因果,LLM却不行
Llama 2宇宙大爆炸!伯克利实测排第8,iPhone本地可跑,一大波应用免费玩,LeCun狂转
昨天,Meta发布了免费可商用版本Llama 2,再一次给开源社区做出了惊人贡献。
新智元
2023/08/07
2580
Llama 2宇宙大爆炸!伯克利实测排第8,iPhone本地可跑,一大波应用免费玩,LeCun狂转
SCALE:一个面向专业级任务的大语言模型 SQL 能力开源评测框架
随着大语言模型(LLM)在数据科学领域的应用日益广泛,学术界和工业界涌现出多种评测基准。然而,我们观察到,现有评测体系大多聚焦于 Text-to-SQL 的转换准确率,而这远不能全面反映模型在真实、复杂场景下的 SQL 处理能力。
爱可生开源社区
2025/06/19
1470
SCALE:一个面向专业级任务的大语言模型 SQL 能力开源评测框架
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来模型的能力变得具有挑战性。
机器之心
2025/02/14
1200
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
多位网友分享了自己的经历,「我试过用LLMs做正割和正切的定理的证明,但是结果错误的太多了!」
新智元
2025/06/24
790
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
推荐阅读
UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5
6530
LLM函数调用指南
4880
27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
1800
UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一
5500
首个大规模使用工具的大模型来了:伯克利发布Gorilla
4840
UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六
4750
GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞
6240
OpenLLM大模型排行榜
1.9K0
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
1170
斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二
7730
自己发基准自己第一,Anyscale行为惹社区吐槽
3120
彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码
2950
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
6500
零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4
8180
强如 GPT-4,也未通过伯克利与斯坦福共同设计的这项“剧本杀”测试
2100
UC伯克利发现GPT-4惊人缺陷:儿童从经验中学习因果,LLM却不行
1920
Llama 2宇宙大爆炸!伯克利实测排第8,iPhone本地可跑,一大波应用免费玩,LeCun狂转
2580
SCALE:一个面向专业级任务的大语言模型 SQL 能力开源评测框架
1470
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
1200
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
790
相关推荐
UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档