作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群总经理一职,负责IDC、云平台、系统运维、信息安全以及用户服务等业务。维护有“世民谈云计算”技术博客和微信公众号。《OpenShift云原生架构原理与实践》作者之一、《Ceph Cookbook中文版》、《精通OpenStack》、《机器学习即服务:将Python机器学习创意快速转变为云端Web应用程序》译者之一
2025年1月20日正式发布以来,短短十几天,DeepSeek风暴席卷全球,几乎成为全世界人们唯一热议的话题。使用DeepSeek最快捷的方式,就是打开其官方网站(https://www.deepseek.com/)。
点击“开始对话”,在输入框中输入文字,
回车后就开始对话:
非常幸运,能够遇见DeepSeek。初识之际,本文对其做一些简单介绍,为后续的深入交流做些准备。
本地安装DeepSeek最简单的方式应该是利用ollama工具(https://ollama.com/library/deepseek-r1)。DeepSeek-R1完整版本具有671B参数,部署和运行它需要很大的资源。为了在我的Mackbook Air(芯片:Apple M1;内存:16G)上安装,只能安装基于DS R1蒸馏出的小模型。目前DeepSeek提供了以下6个小模型供选择:
蒸馏模型 | 安装命令 |
---|---|
DeepSeek-R1-Distill-Qwen-1.5B | ollama run deepseek-r1:1.5b |
DeepSeek-R1-Distill-Qwen-7B | ollama run deepseek-r1:7b |
DeepSeek-R1-Distill-Llama-8B | ollama run deepseek-r1:8b |
DeepSeek-R1-Distill-Qwen-14B | ollama run deepseek-r1:14b |
DeepSeek-R1-Distill-Qwen-32B | ollama run deepseek-r1:32b |
DeepSeek-R1-Distill-Llama-70B | ollama run deepseek-r1:70b |
以安装DeepSeek-R1-Distill-Qwen-14B模型为例:
安装完成后即可在本地模型列表中看到该模型:
sammys@xinMacbook ~ % ollama listNAME ID SIZE MODIFIED deepseek-r1:14b ea35dfe18182 9.0 GB 31 hours ago
该模型详情如下。它基于qwen2-14B模型蒸馏而来,具有14.8B参数,上下文长度131K tokens。版权属于DeepSeek公司,采用MIT许可。
% ollama show deepseek-r1:14b Model architecture qwen2 parameters 14.8B context length 131072 embedding length 5120 quantization Q4_K_M
Parameters stop "<|begin▁of▁sentence|>" stop "<|end▁of▁sentence|>" stop "<|User|>" stop "<|Assistant|>"
License MIT License Copyright (c) 2023 DeepSeek
然后就可以运行该模型并进行对话了:
% ollama run deepseek-r1:14b>>> 请概况《昆虫记》的主要内容<think>嗯,用户让我概括《昆虫记》的主要内容。首先,我需要回想一下这本书的基本信息。《昆虫记》是法国作家法布尔写的,他用了很多年的观察和研究写成的,对吧?这是一部很受欢迎的科普读物,里面详细描述了各种昆虫的生活习性。
接下来,我应该考虑用户的需求是什么。他们可能想要一个简明扼要的内容概述,可能是为了准备考试、做报告或者只是想了解这本书的大致内容。所以,我需要确保我的回答既全面又简洁,涵盖主要的方面。
然后,我会想到《昆虫记》的主要特点,比如它不仅仅描述了昆虫的行为,还融入了法布尔对生命的热爱和对科学的严谨态度。这些元素也是内容的重要组成部分,应该在概述中提到。
接下来,我想到了书中的具体例子,比如蝉、蟋蟀、蜘蛛等昆虫,每个都有独特的习性。这部分可以让用户了解书中涉及的具体内容,而不仅仅是泛泛而谈。
还有,法布尔的研究方法也很重要,他是在自然环境中观察和记录,这种方法让他的研究更真实可靠。这可能也是用户感兴趣的部分,因为它展示了科学探索的精神。
最后,我应该总结一下这本书的价值,不仅在于它提供了丰富的昆虫知识,还在于它传达了对生命的尊重和对科学的热爱。这样可以让概述更有深度,满足用户的潜在需求。
总的来说,我需要确保回答结构清晰,涵盖主要内容、研究方法、具体例子以及书的价值,同时语言要简洁明了,让读者快速理解《昆虫记》的核心内容。
</think>
《昆虫记》(又名《昆虫的故事》)是法国著名的昆虫学家、作家让-亨利·法布尔(Jean-Henri Casimir Fabre)所著的一部科学与文学相结合的巨著。全书共十卷,记录了法布尔对各种昆虫的详细观察和研究,内容涉及昆虫的生活习性、繁殖方式、捕食手段以及它们在自然环境中的生存策略。
书中以生动细腻的笔触描绘了许多有趣的昆虫世界,例如蝉、蟋蟀、蜘蛛、蚂蚁、蝴蝶等。法布尔通过长期的实地观察,揭示了这些小生灵们鲜为人知的秘密,并对它们的行为进行了科学的解释和分析。
《昆虫记》不仅是一部科普作品,也是一部文学佳作,它展现了法布尔对自然界的热爱和敬畏,以及他严谨的科学态度和对生命的深刻理解。这部作品既适合科学研究者阅读,也能吸引普通读者的兴趣,被誉为“昆虫世界的史诗”。
在笔者的笔记本上,14B模型的输出速度已经比较慢了,而7B模型能正常运行。
模型蒸馏是指将知识从老师模型(Teacher Model)转移到学生模型(Student Model)的过程。对于DeepSeek公司提供的蒸馏模型,老师模型就是包含671B参数的DeepSeek R1模型,学生模型是Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct等6个开源模型。
模型蒸馏,通俗地说,就是使用 DeepSeek-R1 训练出的80万个样本直接对 Qwen 和 Llama 等开源模型进行了微调(fine-tuning),也就是把经过DS R1“蒸馏(distill)”出的知识(knowledge)“转交(transfer)”给Qwen和Llama等模型。
Qwen模型即阿里巴开源的通义千问模型(https://github.com/QwenLM/Qwen2.5),用于理解和分析用户输入的自然语言,以及图片、音频、视频等多模态数据。
Llama模型(Large Language Model Meta AI)是Meta AI公司于2023年2月发布的大型语言模型,这些模型的参数从70亿到650亿不等。2023年7月,Meta推出LLaMA2,这是一种可用于商业应用的开源AI模型。2024年4月18日,Meta发布了Llama-3,有两种模型大小尺寸:8B和70B参数。Meta于2024年7月23日发布Llama-3.1,具有8B、70B、405B参数三种模型大小尺寸。其中,405B参数的模型对标OpenAI和谷歌的大模型,使用1.6万块英伟达H100 GPU进行训练。
蒸馏后的Qwen和Llama模型的性能有了显著提升。
以下表中红框中的QwQ-32B-Preview 模型为例,这是由Qwen团队开发的一个实验性研究模型,专注于提升人工智能推理能力。与其对比的是表格下半部分的DeepSeek-R1-Distill-Qwen-32B模型,其综合性能约有40%~50%的提升。
DeepSeek-R1-Distill-Qwen-14B的性能基本上等于甚至略好于OpenAI-o1-mini模型了(据网上资料,o1-mini参数约1000亿)。
DeepSeek的研究结果表明,模型蒸馏技术能够使小型模型具备像 DeepSeek-R1 这样的推理能力,这种直接的蒸馏方法显著增强了小型模型的推理能力,同时使得使用更少的资源就可以部署蒸馏得到的模型,使其更具便捷性、通用性和低成本。
下图是DeepSeek公司发布的性能数据。
参与对比的模型:
性能对比项:
性能对比结果简单解读:
DeepSeek的成本优势也是人们热议的焦点之一。从DeepSeek公司发布的下图可以看出其在价格上DeepSeek则占据绝对优势:
DeepSeek R1 在DeepSeek聊天平台上可免费使用,并提供实惠的API定价。成本比较:
DeepSeek的API 比 ChatGPT 便宜 96.4%。DeepSeek基本上免费提供了OpenAI收费的东西。
关于DeepSeek公司训练DeepSeek-R1大模型所花的费用,众说纷纭,莫衷一是。
一方观点认为,“DeepSeek用600万美元做到美国AI公司花费数十亿美元才能实现的事情”,DeepSeek 效率如此之高,以至于未来将不再需要更多的计算资源,这将导致GPU出现巨大的产能过剩,这就是导致春节期间英伟达股票下跌的原因。
另一方观点认为,DeepSeek的成本被大大低估了。半导体分析机构Semianalysis甚至专门发布了一份报告(https://semianalysis.com/2025/01/31/deepseek-debates/),认为DeepSeek的成本约16亿美金,而广为传播的600万美金只是其训练成本的一部分。
根据DeepSeek的论文(https://arxiv.org/html/2501.12948v1),DeepSeek下一步将在四个方向上进一步优化提升:
一是通用能力增强。目前,DeepSeek-R1 在函数调用、多轮(multi-turn)、复杂角色扮演和 JSON 输出等任务上的能力不如 DeepSeek-V3。未来计划探索思维链(Chain of Thought,CoT)可以发挥多大作用来增强这些领域的任务。
二是语言混合问题解决。DeepSeek-R1 目前针对中文和英文进行了优化,这在处理其他语言的查询时可能会导致语言混合问题。例如,即使查询使用的是英文或中文以外的语言,DeepSeek-R1 也可能使用英文进行推理和响应。计划在未来的更新中解决这一限制。
三是提示工程优化。在评估 DeepSeek-R1 时,观察到它对提示很敏感,少量提示会持续降低其性能。
四是软件工程任务优化。DeepSeek-R1 在软件工程基准测试中并未表现出比 DeepSeek-V3 更大的改进。未来版本将通过对软件工程数据实施拒绝采样或在 强化学习(RL)过程中加入异步评估来解决这个问题,以提高效率。
DeepSeek模型开源 License 统一使用 MIT许可。开源仓库(包括模型权重)统一采用标准化、宽松的 MIT License,完全开源,不限制商用,无需申请。
MIT 协议可能是几大开源协议中最宽松的一个,核心条款是:该软件及其相关文档对所有人免费,可以任意处置,包括使用,复制,修改,合并,发表,分发,再授权,或者销售。唯一的限制是,软件中必须包含上述版 权和许可提示。这意味着:
DeepSeek产品协议明确可“模型蒸馏”。为了进一步促进技术的开源和共享,DeepSeek公司支持用户进行“模型蒸馏”,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
性能强大且完全开源的DeepSeek让笔者联想起2010年发布第一个正式版本的OpenStack。它让包括笔者在内的很多人第一次知道了计算、网络和存储等基础云服务是如何实现的。它的出现,是云计算领域一个划时代事件。直到目前,OpenStack依然在全世界各地的许许多多数据中心中运行着。OpenStack还是笔者进入云计算行业的引路人。2014年12月4日,笔者发布了第一篇学习OpenStack的文章:学习OpenStack之 (1):安装devstack。
DeepSeek的横空出世,这是人工智能领域一个划时代事件。它让人们第一次了解到一个超级大模型是如何实现的,尤其是让国人切身感受到人工智能第一次离自己如此之近。它必将引起一系列变革和变化。幸运的是,我们都遇见了它;更难能可贵的是,它诞生在我们自己的国家。它将帮助甚至带领人们探索未至之境。
你好,DeepSeek!很幸运遇见你!
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。