惊爆！DeepSeek vs. OpenAI，基准测试对决震撼发布，谁更胜一筹？

程序视点

发布于 2025-02-20 15:00:12

1000

文章被收录于专栏：程序小小事程序小小事

大家好，欢迎来到程序视点！我是小二哥。

前言

AI 模型正在快速发展，DeepSeek-R1 作为 OpenAI 的重要竞争对手正在掀起波澜。究竟谁更胜一筹呢？

这些模型对 Kotlin 的理解程度如何呢？他们能否生成可靠的代码、解释棘手的概念并帮助我们进行友好的调试呢？

Research 团队，使用 KotlinHumanEval 和专为 Kotlin 设计的新基准测试，测试了最新的 AI 模型，包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini。

团队研究了这些AI模型的整体表现，根据结果对它们进行了排名，并研究了 DeepSeek 对实际 Kotlin 问题的一些答案，以便让我们更清楚地了解这些模型可以做什么和不能做什么。

使用 AI 模型对 Kotlin 进行基准测试

KotlinHumanEval 基准测试

长期以来，评估模型的一个关键指标是它们在 OpenAI 的 HumanEval 基准测试中的性能，该基准测试测试模型从文档字符串生成函数并通过单元测试的能力。

去年，JetBrains 推出了 KotlinHumanEval——这是一个测试相同，但针对 Kotlin 的基准测试。

使用 KotlinHumanEval，使得该数据集的分数有了显著提高。这说明：专业集成的AI编程工具比原生的AI模型在代码编程上更加有针对性！

领先的 OpenAI 模型实现了开创性的 91% 成功率，其他模型紧随其后。即使是开源的 DeepSeek-R1 也可以完成这个基准测试中的大部分任务，如下所示。

新兴基准测试:McEval

McEval 是一个多语言基准测试，涵盖 40 种编程语言，包括 Kotlin。同样的，还有M2rc-Eval。

虽然之前的所有基准测试都主要测试模型生成代码的能力，但与之LLMs的交互范围不止于此。

因此，官方团队在测试基准中，不能只考虑代码生成能力。

根据用户使用习惯研究，继代码生成能力后, AI 工具最流行的用途之一是解释，例如用于错误修复和了解特定代码的作用。但是，现有的基准并不能完全衡量模型对 Kotlin 相关问题的回答程度。

怎么办呢？

Kotlin_QA基准测试（专属测试基准）

为了解决上面提到的差距，团队提出了新的基准—Kotlin_QA。

团队收集了 47 个问题，这些问题由官方的开发技术推广工程师准备，或由 Kotlin 用户在 Kotlin 公共 Slack 中分享的 TOP问题。

对于以上每个点，官方的 Kotlin 专家都提供了答案。然后，对于每个问题，研究团队要求不同的模型来回答。以下是来自 Slack 的一个示例问题：

I got a kotlin server app deployed in pods (k8s). In some cases, k8s can send SIGTERM / SIGKILL signals to kill my app. 我在 pod （k8s）中部署了一个 kotlin 服务器应用程序。在某些情况下，k8s 可以发送 SIGTERM / SIGKILL 信号来杀死我的应用程序。
What is the good way, in Kotlin, to gracefully shutdown (close all connections…)? 在 Kotlin 中，正常关闭（关闭所有连接）的好方法是什么？
Is there better than the java way? Runtime.getRuntime().addShutdownHook(myShutdownHook); 有没有比 java 更好的方法呢？

您可以先尝试回答，然后将您的回答与您最喜欢的LLM回答进行比较。欢迎在评论中分享您的结果。

评估 LLMs' 答案

从不同的 LLMs收集了答案后，下一个挑战就是评估它们的质量。

为此，团队使用了 LLM-as-a-judge 方法，要求潜在的评委模型将回答与专家答案进行比较，并从 1 到 10 分进行评分。

由于不同的 LLMs 评委模型有着不一致的评估，因此团队根据以下因素精心挑选了裁判模型：

Its ability to recognize meaningless responses (e.g. random strings of 512 and 1024 characters). 它能够识别无意义的响应（例如 512 和 1024 个字符的随机字符串）。
How closely its ratings are aligned with human evaluations of OpenAI o1-preview’s responses. 其评级与人类对 OpenAI o1-preview 响应的评估的一致性。
Its ability to distinguish the simplest and most comprehensive models. 它能够区分最简单和最全面的模型。 ...