首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型评测|国产模型偷摸删库且装聋作哑

    引言 MiniMax M2 发布已经十天左右了,本觉得不写一记评测了,但是感觉它算是给当下的国产 Coding 模型又注入了一记强心剂,毕竟从榜单来看,已经与 Claude 4.5 拉到了一个水位线,而且速度要远快于 这可能也是诸多同学心中疑惑的事情,如果有个结论,不是软广,而是民间客观的三方评测,就可以判断要不要用 MiniMax M2 替换对国人不友好又贵一批的 Claude 4.5了,今天我就结合我这一段时间的使用测试对比 MiniMax M2 属于 Coding 第一梯队的模型 评测环境 • Code Agent:Claude Code v2.0.30 • LLM:Claude Sonnet 4.5 VS MiniMax 因为对照之前用 DeepSeek 以及 K2 非 Thinking 版本,以及 Qwen3 系列,效果都还是在预期内,在顶级之下,MiniMax M2 的能力的确是强一截,但客观的说,距离最佳 Coding 模型 这也并非我长别人志气,灭自家威风,我深刻的希望国产 LLM (我也充了不少钱作为支持)在 Coding 模型方面把 Claude 这叼毛按在地上摩擦,但是我们一定要客观的看待事情,现在已经看到希望了,希望年前看到超越吧

    16310编辑于 2025-11-13
  • 来自专栏GiantPandaCV

    使用OpenCompass评测rwkv模型教程

    前言 继续MLC-LLM 支持RWKV-5推理以及对RWKV-5的一些思考文章里面提到的想法,探索一下使用OpenCompass来评测RWKV模型,对模型的实际表现有一个更客观的了解。 我在尝试的过程中也碰到了一些问题,所以这里记录一下使用OpenCompass评测的流程以及在评测RWKV过程中解决的问题。这里主要是记录如何跑通,后续可能会跑一下榜单去对比一下其它的模型模型部分添加了下面的2个文件: 然后在评测数据集方面我挑选了和 RWKV-5 的训练进展(之二),与 SotA GPT 模型的性能对比(https://zhuanlan.zhihu.com/p/664079347 如果在评测过程中因为一些奇怪的原因挂掉了,但是又不是模型的问题,我们可以使用python run.py configs/eval_rwkv5_3b.py -r来续测,这样会在outputs下面最新时间戳的文件夹下复用已经评测的数据继续评测 结论 尝试用OpenCompass跑一下RWKV模型,尝试的过程中也碰到了一些问题,所以这里记录一下使用OpenCompass评测的流程以及在评测RWKV过程中解决的问题。

    70710编辑于 2023-12-04
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三大基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    26210编辑于 2025-08-13
  • 来自专栏算法进阶

    大语言模型评测方法全面总结!

    本文回顾了自然语言处理中的评测基准与指标,将大语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的大语言模型评测思想、相关指标和方法,并总结了当前广受关注的大语言模型评测新方向。 在评估指标方面,同一任务下的评测数据集可能产生模型A在某个评测数据集上优于模型B,但在另一个评测数据集上又劣于模型B的矛盾情况。 为了克服这些局限性,研究者开始探索基于模型评测方法,尤其是基于大语言模型评测方法。 更可靠的评测方法:进一步发展更加可靠的基于模型评测方法,增强评测结果的可信度。 知识增强的评测方法:探索将特定知识注入到大语言模型中的方法,从而提高基于大语言模型评测方法在某些专业领域的表现。 人机协作评测:尝试提出结合基于模型评测和人类评测的有效方式,从而提高人类评测的可用性和基于模型评测的准确性。

    92910编辑于 2024-07-31
  • 来自专栏Java技术进阶

    基于OpenCompass的大模型评测实践

    为了准确和公正地评估大模型的能力,国内外机构在大模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass以基座模型和对话模型作为重点评测对象。 能力层:OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。 客观评测能便捷地评估模型在具有确定答案(如选择,填空,封闭式问答等)的任务上的能力,主观评测能评估用户对模型回复的真实满意度,OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。

    96510编辑于 2024-03-08
  • 来自专栏AI技术探索和应用

    常见的大模型评测数据集

    开源大模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness 更加详细的评测教程。 CMMLU https://github.com/haonan-li/CMMLU CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测模型的主观题预测结果

    10K12编辑于 2024-03-13
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,大模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨大模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、大模型评测的重要性大模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战大模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 三、司南评测体系2.0司南评测体系2.0是一个全面升级的评测工具,它包括:工具链:提供一套完整的评测工具,支持不同模型和任务的评测。基准:建立标准化的评测基准,方便比较不同模型的性能。 榜单:定期更新的模型性能榜单,展示顶尖模型的性能。自定义数据集:支持用户自定义数据集进行评测。多模态评测:支持图像、视频等多模态数据的评测

    28810编辑于 2024-12-06
  • 代码模型评测:能否取代 GitHub Copilot?

    DeepSeek 代码模型评测:能否取代 GitHub Copilot?随着人工智能技术的快速发展,AI 编程助手已成为开发者提高工作效率的重要工具。 然而,DeepSeek 代码模型(DeepSeek Code)近期的出现,给开发者带来了新的选择。DeepSeek Code 是否具备挑战 GitHub Copilot 的能力? 本文将对 DeepSeek 代码模型进行全面评测,并探讨它是否能够取代 GitHub Copilot。1. DeepSeek Code 简介DeepSeek Code 是 DeepSeek AI 开发的一款 专注于代码生成、补全、优化 的大模型,目标是帮助程序员提高开发效率,减少重复性劳动,优化代码质量。

    59710编辑于 2025-03-20
  • 来自专栏AI SPPECH

    58_大模型评估与评测:构建科学的多维度评测体系

    引言 在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。 本文将深入探讨大模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的大模型评估指南。 SuperCLUE 评估体系:中文大模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文大模型评测报告 社会影响评估 社会价值评估:评估模型对社会的积极价值和贡献 伦理影响评估:系统评估模型的伦理影响和风险 公平性监测:研究模型公平性的持续监测方法 可持续发展评估:评估模型技术的可持续发展性 结论 大模型评估与评测是一个复杂而系统的工程

    22710编辑于 2025-11-13
  • 模型评测体系介绍及中文大模型表现

    1.测试指标体系(测什么) 大模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 自动化评估会计算特定指标完成模型输出和标准答案的对比。人工评估的方式对评测人员的资质或者评测方法有一定的要求。较为前沿的,有通过大模型作为裁判,对其它模型进行评估的研究。 近年大模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 现有评测数据集的比例大致是这样的:通用语言类(53%)、行业(21%)、模型安全(7%)、多模态(13%)、可靠性/鲁棒性等(6%)。 评测数据集的发布机构有大学,也有学术机构。 关于大模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 大模型第2部分:评测指标与方法,读者可以参考。 另外,中文大模型谁家最强呢?

    1.7K20编辑于 2025-05-30
  • 【AGI-Eval评测报告】混元图像2.0模型开箱评测模型实测效果大放送!

    目录:1.腾讯混元图像 2.0 模型介绍2.腾讯混元图像 2.0 模型开箱评测   2.1 评测核心结论   2.2 实时文生图评测   2.3 实时绘画板评测1. 2.多语义理解能力:腾讯混元图像 2.0 模型引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化 caption 系统,语义响应速度遥遥领先,在GenEval评测集上,腾讯号称以0.9597 模型体验入口:https://hunyuan.tencent.com/2.模型开箱评测那么 ,腾讯混元图像 2.0 模型在实测表现中又如何呢?首先来看本次开箱评测的核心结论。 2.1 评测核心结论AGI-Eval 大模型评测社区第一时间做了模型评测评测结论如下:腾讯混元图像 2.0 模型在实时生成速度和交互模式上实现了一定突破,尤其适合快速获取基础视觉素材或日常娱乐图像。 2.2 实时文生图评测那么首先来看实时文生图功能,我们将从无参考图和有参考图两个方向进行评测

    49010编辑于 2025-05-23
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    对大模型进行全方位评测面临诸多挑战,由于大模型的通用性强,能够胜任多种任务,因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 对大模型评测需要从模型本身特点,通用还是专业领域,多模还是单模、主要能力是问题解答还是代码编写等多方面考虑,之后需要考虑评测的目的,是为了验证模型的哪些特点,然后选择评测数据集。 03 评测目的 评测最终为结果服务,达成目的需要确定评测策略。在具体评测需要考虑被评测对象自身特点,在完整的大模型基准评测体系下,选择合适的评测方式、评测数据集、评测指标及评测工具。 04 评测策略 大模型评测的目的不同,有不同评测策略,如大模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 例如:GPT-4(由OpenAI开发) 06 大模型基准评测体系 由于各种大模型的差异及评测目的的不同,评测方式同样也多种多样,如果总结成体系,能更好指导评测执行。

    77110编辑于 2025-06-25
  • 来自专栏机器之心

    全球140+大模型全方位评测结果出炉,智源评测体系发布

    机器之心编辑部 2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果 由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数。 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “大模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展大模型评测方法与工具研发。 2023 年 6 月,由智源研究院与多个高校团队共建的 FlagEval 大模型评测平台上线,迄今为止已完成了 1000 多次覆盖全球多个开源大模型评测,并持续发布评测结果,广泛地积累了国际领先的评测技术 智源研究院牵头成立了 IEEE 大模型评测标准小组 P3419,组织 20 余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准

    59810编辑于 2024-05-22
  • 13.4 大语言模型文生图能力评测

    13.4 大语言模型文生图能力评测模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨大模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价大模型根据复杂提示词生成图片的能力 最后是在效率方面对大模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估大模型生成图片的速度 资源使用:评估大模型生成图片时使用的资源 接下来就是对模型进行评估,其步骤如下: 获得中文prompt 依据评估标准 使用评分规则 进行细粒度打分 本节主要探讨了文本到图像(Text-to-Image)大模型的多种评估方法,包括SuperCLUE

    58610编辑于 2025-04-07
  • 来自专栏OpenMMLab

    Hugging Face 大模型评测榜集合收录 OpenCompass!

    然而大模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 OpenCompass 是一个开源开放的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 OpenCompass 支持大部分主流 HuggingFaces 上的大语言模型评测,只需几行简单配置,便可轻松开展模型评测。 平台提供大模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。 同时我们提供大量开源模型在该数据集上的评测结果,支持更进一步的数据分析与模型分析。

    3K10编辑于 2023-09-21
  • 来自专栏GiantPandaCV

    星辰AI大模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。 首先,该项目不仅开源了1TB训练预料,而且还在仓库里开源了基于LoRA的详细微调方案,这为研究人员和开发者提供了极大的便利,让我们能够更好地理解和应用这个大模型模型。 但模型本身也存在大模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 但由于TeleChat模型的训练Token相比于主流模型已经比较少了,只有1.0T数据,所以相信上述问题通过更多高质量的数据以及PPO等训练可以进一步被缓解。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https

    54920编辑于 2024-02-22
  • 来自专栏目标检测和深度学习

    目标检测入门(二):模型评测与训练技巧

    文章结构 检测模型评测指标 目标检测模型本源上可以用统计推断的框架描述,我们关注其犯第一类错误和第二类错误的概率,通常用准确率和召回率来描述。 除此之外,COCO官方也保留一部分test数据作为比赛的评测集。 COCO数据集物体大小分布 如本文第一节所述,COCO提供的评测标准更为精细化,提供的API不仅包含了可视化、评测数据的功能,还有对模型的错误来源分析脚本,能够更清晰地展现算法的不足之处。 COCO所建立的这些标准也逐渐被学术界认可,成为通用的评测标准。您可以在这里找到目前检测任务的LeaderBoard。 总结 本篇文章里,我们介绍了检测模型常用的标准评测数据集和训练模型的技巧,上述内容在溯源和表述方面的不实之处也请读者评论指出。从下一篇开始,我们将介绍检测领域较新的趋势,请持续关注。

    2.4K60发布于 2018-04-18
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:大模型如何“考出好成绩”:详解内在评测与外在评测方法

    指导研发与优化,明白我们该如何改进它 通过评测发现模型的短板,不擅长数学计算或容易胡说八道,为开发者优化方向提供依据。对模型开发者而言,评测是指引方向的罗盘。 评测尤其是安全和伦理评测就像安全质检,确保模型在出厂前尽可能排除重大风险,符合伦理和法律规范,从而更负责任地推向社会。 总而言之,评测是连接模型研发与实际应用的桥梁。 四、如何去评测语言模型 评测语言模型是一个系统工程,主要有两大流派:内在评测和外在评测。内在评测:就像一个学生既要考基础知识测验,也要参加综合实践项目。 不依赖具体任务,直接通过语言模型的输出来评测模型的生成能力。外在评测:通过某些具体任务,如机器翻译、摘要生成、文案写作等,来评测语言模型处理这些具体生成任务的能力。方法一:内在评测 — 考基本功1. 方法总结外在评测核心:通过实际任务表现评估模型,关注实用性而非理论指标RAG架构价值:结合检索与生成,提高答案准确性和可解释性多维度评估:需要从多个角度(准确性、相关性、流畅度等)综合评估实践导向:外在评测结果直接影响模型的选择和优化方向两种方法对比维度内在评测外在评测定义评估模型基础语言能力评估模型在具体任务中的表现关注点模型的语言建模基本功模型的实际应用效果评测环境孤立

    6300编辑于 2025-11-19
  • 来自专栏搜狗测试

    软件品质评测系统-评测结果展示

    展现出来的数据需要客观反映被评测模型(或软件系统)的各项指标,使得用户在看完结果展现后即可对被评测模型(或软件系统)的品质情况有个全面的认知。 版本间数据对比 一般情况下,被评测模型(或软件系统)都会有一个从粗糙到精细、从单一到完备、从朴素到智能的发展过程,因而每次评测的结果除了反映当时被评测模型的品质之外,与之前版本的数据对比也显得尤为重要 通过版本间的数据对比,可以看到一段时间内被评测模型(或软件系统)的品质指标发展趋势。对于每个版本的修改,也能直观地给出结论:这个版本的改动对于效果的影响到底是正向还是负向,影响有多大。 对比发现的正向影响,我们可以进行深入分析,找到正向影响的因素,从而反哺被评测模型(或软件系统)的策略和模型优化。 在保证准确性方面,要做到决不能更改原始评测数据,并且对于原始评测数据中抖动较大的数据,需要深入分析原因,最终解释清楚为什么会出现抖动,使评测结果客观、真实地反映被评测模型(或系统)的品质状况。

    2.7K20发布于 2020-08-11
  • 来自专栏arXiv每日学术速递

    SEVENLLM | 网安事件分析大模型的训练与评测

    2.2 模型微调 文章选择了在中英文能力上表现杰出的Llama-2和Qwen-1.5作为模型基座,并针对20B以下的量级进行微调。 思维链构建被证实是一种有效的激发模型生成能力的方式,文章在微调的过程中加入这一思想,引导模型通过思考来优化处理网络安全事件分析能力,为了能够对不同量级不同方法进行评估,文章设置了统一的训练参数。 ,ALL }的样本进行训练,分析数据集量级对模型效果的影响,对训练结果逐一评分。 基于选择题评分 针对两种语言和两大类任务设计 100 道选择题,以全面评估模型对网络安全事件专业领域的理解和推理能力。输出结果经过人工验证,以确保有效评估模型处理客观题的能力。 同时发现,SEVENLLM-Instruct训练后的模型即使在较小的参数量级下也可以具备强于较大量级通用大模型的能力,可用于针对该任务的轻量化部署和快速应用。

    85110编辑于 2024-05-31
领券