部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >遇见DeepSeek之(1):初识

遇见DeepSeek之(1):初识

作者头像
TVP官方团队
修改2025-02-05 16:08:03
修改2025-02-05 16:08:03
1.7K00
代码可运行
举报
文章被收录于专栏:腾讯云TVP腾讯云TVP
运行总次数:0
代码可运行

作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群总经理一职,负责IDC、云平台、系统运维、信息安全以及用户服务等业务。维护有“世民谈云计算”技术博客和微信公众号。《OpenShift云原生架构原理与实践》作者之一、《Ceph Cookbook中文版》、《精通OpenStack》、《机器学习即服务:将Python机器学习创意快速转变为云端Web应用程序》译者之一

2025年1月20日正式发布以来,短短十几天,DeepSeek风暴席卷全球,几乎成为全世界人们唯一热议的话题。使用DeepSeek最快捷的方式,就是打开其官方网站(https://www.deepseek.com/)。

点击“开始对话”,在输入框中输入文字,

回车后就开始对话:

图片
图片

非常幸运,能够遇见DeepSeek。初识之际,本文对其做一些简单介绍,为后续的深入交流做些准备。

1.一键本地部署DeepSeek

本地安装DeepSeek最简单的方式应该是利用ollama工具(https://ollama.com/library/deepseek-r1)。DeepSeek-R1完整版本具有671B参数,部署和运行它需要很大的资源。为了在我的Mackbook Air(芯片:Apple M1;内存:16G)上安装,只能安装基于DS R1蒸馏出的小模型。目前DeepSeek提供了以下6个小模型供选择:

蒸馏模型

安装命令

DeepSeek-R1-Distill-Qwen-1.5B

ollama run deepseek-r1:1.5b

DeepSeek-R1-Distill-Qwen-7B

ollama run deepseek-r1:7b

DeepSeek-R1-Distill-Llama-8B

ollama run deepseek-r1:8b

DeepSeek-R1-Distill-Qwen-14B

ollama run deepseek-r1:14b

DeepSeek-R1-Distill-Qwen-32B

ollama run deepseek-r1:32b

DeepSeek-R1-Distill-Llama-70B

ollama run deepseek-r1:70b

以安装DeepSeek-R1-Distill-Qwen-14B模型为例:

安装完成后即可在本地模型列表中看到该模型:

代码语言:javascript
代码运行次数:0
复制
sammys@xinMacbook ~ % ollama listNAME               ID              SIZE      MODIFIED     deepseek-r1:14b    ea35dfe18182    9.0 GB    31 hours ago

该模型详情如下。它基于qwen2-14B模型蒸馏而来,具有14.8B参数,上下文长度131K tokens。版权属于DeepSeek公司,采用MIT许可。

代码语言:javascript
代码运行次数:0
复制
% ollama show deepseek-r1:14b  Model    architecture        qwen2         parameters          14.8B         context length      131072        embedding length    5120          quantization        Q4_K_M    
  Parameters    stop    "<|begin▁of▁sentence|>"        stop    "<|end▁of▁sentence|>"          stop    "<|User|>"                       stop    "<|Assistant|>"              
  License    MIT License                        Copyright (c) 2023 DeepSeek

然后就可以运行该模型并进行对话了:

代码语言:javascript
代码运行次数:0
复制
% ollama run deepseek-r1:14b>>> 请概况《昆虫记》的主要内容<think>嗯,用户让我概括《昆虫记》的主要内容。首先,我需要回想一下这本书的基本信息。《昆虫记》是法国作家法布尔写的,他用了很多年的观察和研究写成的,对吧?这是一部很受欢迎的科普读物,里面详细描述了各种昆虫的生活习性。
接下来,我应该考虑用户的需求是什么。他们可能想要一个简明扼要的内容概述,可能是为了准备考试、做报告或者只是想了解这本书的大致内容。所以,我需要确保我的回答既全面又简洁,涵盖主要的方面。
然后,我会想到《昆虫记》的主要特点,比如它不仅仅描述了昆虫的行为,还融入了法布尔对生命的热爱和对科学的严谨态度。这些元素也是内容的重要组成部分,应该在概述中提到。
接下来,我想到了书中的具体例子,比如蝉、蟋蟀、蜘蛛等昆虫,每个都有独特的习性。这部分可以让用户了解书中涉及的具体内容,而不仅仅是泛泛而谈。
还有,法布尔的研究方法也很重要,他是在自然环境中观察和记录,这种方法让他的研究更真实可靠。这可能也是用户感兴趣的部分,因为它展示了科学探索的精神。
最后,我应该总结一下这本书的价值,不仅在于它提供了丰富的昆虫知识,还在于它传达了对生命的尊重和对科学的热爱。这样可以让概述更有深度,满足用户的潜在需求。
总的来说,我需要确保回答结构清晰,涵盖主要内容、研究方法、具体例子以及书的价值,同时语言要简洁明了,让读者快速理解《昆虫记》的核心内容。
</think>
《昆虫记》(又名《昆虫的故事》)是法国著名的昆虫学家、作家让-亨利·法布尔(Jean-Henri Casimir Fabre)所著的一部科学与文学相结合的巨著。全书共十卷,记录了法布尔对各种昆虫的详细观察和研究,内容涉及昆虫的生活习性、繁殖方式、捕食手段以及它们在自然环境中的生存策略。
书中以生动细腻的笔触描绘了许多有趣的昆虫世界,例如蝉、蟋蟀、蜘蛛、蚂蚁、蝴蝶等。法布尔通过长期的实地观察,揭示了这些小生灵们鲜为人知的秘密,并对它们的行为进行了科学的解释和分析。
《昆虫记》不仅是一部科普作品,也是一部文学佳作,它展现了法布尔对自然界的热爱和敬畏,以及他严谨的科学态度和对生命的深刻理解。这部作品既适合科学研究者阅读,也能吸引普通读者的兴趣,被誉为“昆虫世界的史诗”。

在笔者的笔记本上,14B模型的输出速度已经比较慢了,而7B模型能正常运行。

2.蒸馏,让小模型也能发挥强大作用

模型蒸馏是指将知识从老师模型(Teacher Model)转移到学生模型(Student Model)的过程。对于DeepSeek公司提供的蒸馏模型,老师模型就是包含671B参数的DeepSeek R1模型,学生模型是Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct等6个开源模型。

模型蒸馏,通俗地说,就是使用 DeepSeek-R1 训练出的80万个样本直接对 Qwen 和 Llama 等开源模型进行了微调(fine-tuning),也就是把经过DS R1“蒸馏(distill)”出的知识(knowledge)“转交(transfer)”给Qwen和Llama等模型。

Qwen模型即阿里巴开源的通义千问模型(https://github.com/QwenLM/Qwen2.5),用于理解和分析用户输入的自然语言,以及图片、音频、视频等多模态数据。

Llama模型(Large Language Model Meta AI)是Meta AI公司于2023年2月发布的大型语言模型,这些模型的参数从70亿到650亿不等。2023年7月,Meta推出LLaMA2,这是一种可用于商业应用的开源AI模型。2024年4月18日,Meta发布了Llama-3,有两种模型大小尺寸:8B和70B参数。Meta于2024年7月23日发布Llama-3.1,具有8B、70B、405B参数三种模型大小尺寸。其中,405B参数的模型对标OpenAI和谷歌的大模型,使用1.6万块英伟达H100 GPU进行训练。

蒸馏后的Qwen和Llama模型的性能有了显著提升。

以下表中红框中的QwQ-32B-Preview 模型为例,这是由Qwen团队开发的一个实验性研究模型,专注于提升人工智能推理能力。与其对比的是表格下半部分的DeepSeek-R1-Distill-Qwen-32B模型,其综合性能约有40%~50%的提升

DeepSeek-R1-Distill-Qwen-14B的性能基本上等于甚至略好于OpenAI-o1-mini模型了(据网上资料,o1-mini参数约1000亿)。

DeepSeek的研究结果表明,模型蒸馏技术能够使小型模型具备像 DeepSeek-R1 这样的推理能力,这种直接的蒸馏方法显著增强了小型模型的推理能力,同时使得使用更少的资源就可以部署蒸馏得到的模型,使其更具便捷性、通用性和低成本。

3.DeepSeek性能跻身第一方阵

下图是DeepSeek公司发布的性能数据。

参与对比的模型:

  • DeepSeek-R1模型:DeepSeek 公司于2025年1月发布的大语言模型,参数量671B,详情请参见https://api-docs.deepseek.com/zh-cn/news/news250120
  • OpenAI-o1-1217模型:OpenAI 于2024年12月发布的o1 GPT模型,据悉其perview版本包含约3000亿参数。这应该是OpenAI公司目前最强大的模型,也是ChatGPT的主流模型。
  • DeepSeek-R1-32B模型:具有32B参数的DeepSeek R1模型。
  • OpenAI-o1-mini模型:OpenAI发布的mini版本的o1模型,据悉参数约1000亿。
  • DeepSeek-V3模型:DeepSeek公司于2024年12月发布的DeepSeek模型,参数671B,是R1的前一个版本,也是R1的基础模型。详细技术参数在https://api-docs.deepseek.com/zh-cn/news/news1226。

性能对比项:

  • AIME(美国数学奥林匹克竞赛): 作为一项高难度的数学竞赛,AIME用于评估模型的数学推理能力,考察模型能否解决复杂问题。(Pass@1 表示一次性结果准确率)
  • GPQA Diamond(科学问题解答数据集):  这是一个涵盖物理、化学、生物等多个学科的科学问题数据集,用于评估模型在科学领域的专业知识,考察模型是否具备媲美领域专家的知识储备。
  • Codeforces(编程竞赛平台): 这是一个全球性的编程竞赛平台,用于评估模型的代码生成能力,考察模型能否像经验丰富的程序员一样编写高质量代码。
  • MATH-500(包含500个测试样本的MATH评测集):全面考察数学解题能力。MATH是一个包含12500个高中数学竞赛的问题(7500个用于训练,5000个用于测试)的数据集,以文本模式的Latex格式呈现。
  • MMLU(多语言理解均值):Mean Multi-Language Understanding,是一项用于衡量大语言模型性能的指标。MMLU 的概念是在评估大型语言模型(如 GPT)在多语言环境中的表现时引入的,旨在更全面地考察模型对不同语言的理解能力。
  • SWE-bench Verified(代码生成评估基准):该基准是对SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个流行的软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。它通过向AI代理提供代码库和问题描述,并要求其生成修复问题的补丁来进行评估。

性能对比结果简单解读:

  • DeepSeek R1 在大多数评估中的得分与 OpenAI o1 相当,甚至在特定情况下胜过 OpenAI o1。从结果来看,DeepSeek在数学和软件工程任务领域上胜出,而OpenAI在复杂编程、通用知识问答等领域上胜出。
  • DeepSeek R1比DeepSeek V3在性能上有大幅提升。
  • DeepSeek-R1-32B的性能比大约100B的OpenAI o1 mini的性能在五个比较项中有4个占优。

4.DeepSeek的成本,让子弹再飞一会

DeepSeek的成本优势也是人们热议的焦点之一。从DeepSeek公司发布的下图可以看出其在价格上DeepSeek则占据绝对优势:

DeepSeek R1 在DeepSeek聊天平台上可免费使用,并提供实惠的API定价。成本比较:

  • DeepSeek R1 API:输入 55 美分,输出 2.19 美元(每100 万个token)。
  • OpenAI o1 API:输入 15 美元,输出 60 美元(每100 万个token)。

DeepSeek的API 比 ChatGPT 便宜 96.4%。DeepSeek基本上免费提供了OpenAI收费的东西

关于DeepSeek公司训练DeepSeek-R1大模型所花的费用,众说纷纭,莫衷一是。

一方观点认为,“DeepSeek用600万美元做到美国AI公司花费数十亿美元才能实现的事情”,DeepSeek 效率如此之高,以至于未来将不再需要更多的计算资源,这将导致GPU出现巨大的产能过剩,这就是导致春节期间英伟达股票下跌的原因。

另一方观点认为,DeepSeek的成本被大大低估了。半导体分析机构Semianalysis甚至专门发布了一份报告(https://semianalysis.com/2025/01/31/deepseek-debates/),认为DeepSeek的成本约16亿美金,而广为传播的600万美金只是其训练成本的一部分。

5.DeepSeek的下一步发展

根据DeepSeek的论文(https://arxiv.org/html/2501.12948v1),DeepSeek下一步将在四个方向上进一步优化提升:

一是通用能力增强。目前,DeepSeek-R1 在函数调用、多轮(multi-turn)、复杂角色扮演和 JSON 输出等任务上的能力不如 DeepSeek-V3。未来计划探索思维链(Chain of Thought,CoT)可以发挥多大作用来增强这些领域的任务。

二是语言混合问题解决。DeepSeek-R1 目前针对中文和英文进行了优化,这在处理其他语言的查询时可能会导致语言混合问题。例如,即使查询使用的是英文或中文以外的语言,DeepSeek-R1 也可能使用英文进行推理和响应。计划在未来的更新中解决这一限制。

三是提示工程优化。在评估 DeepSeek-R1 时,观察到它对提示很敏感,少量提示会持续降低其性能。

四是软件工程任务优化。DeepSeek-R1 在软件工程基准测试中并未表现出比 DeepSeek-V3 更大的改进。未来版本将通过对软件工程数据实施拒绝采样或在 强化学习(RL)过程中加入异步评估来解决这个问题,以提高效率。

6.DeepSeek,探索未至之境

DeepSeek模型开源 License 统一使用 MIT许可。开源仓库(包括模型权重)统一采用标准化、宽松的 MIT License,完全开源,不限制商用,无需申请。

MIT 协议可能是几大开源协议中最宽松的一个,核心条款是:该软件及其相关文档对所有人免费,可以任意处置,包括使用,复制,修改,合并,发表,分发,再授权,或者销售。唯一的限制是,软件中必须包含上述版 权和许可提示。这意味着:

  • 你可以自由使用,复制,修改,可以用于自己的项目。
  • 可以免费分发或用来盈利。
  • 唯一的限制是必须包含许可声明。

DeepSeek产品协议明确可“模型蒸馏”。为了进一步促进技术的开源和共享,DeepSeek公司支持用户进行“模型蒸馏”,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

性能强大且完全开源的DeepSeek让笔者联想起2010年发布第一个正式版本的OpenStack。它让包括笔者在内的很多人第一次知道了计算、网络和存储等基础云服务是如何实现的。它的出现,是云计算领域一个划时代事件。直到目前,OpenStack依然在全世界各地的许许多多数据中心中运行着。OpenStack还是笔者进入云计算行业的引路人。2014年12月4日,笔者发布了第一篇学习OpenStack的文章:学习OpenStack之 (1):安装devstack。

DeepSeek的横空出世,这是人工智能领域一个划时代事件。它让人们第一次了解到一个超级大模型是如何实现的,尤其是让国人切身感受到人工智能第一次离自己如此之近。它必将引起一系列变革和变化。幸运的是,我们都遇见了它;更难能可贵的是,它诞生在我们自己的国家。它将帮助甚至带领人们探索未至之境。

你好,DeepSeek!很幸运遇见你!

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.一键本地部署DeepSeek
  • 2.蒸馏,让小模型也能发挥强大作用
  • 3.DeepSeek性能跻身第一方阵
  • 4.DeepSeek的成本,让子弹再飞一会
  • 5.DeepSeek的下一步发展
  • 6.DeepSeek,探索未至之境
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档