部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >DeepSeek-模型(model)介绍

DeepSeek-模型(model)介绍

作者头像
运维小路
发布2025-03-10 14:54:00
发布2025-03-10 14:54:00
2500
代码可运行
举报
文章被收录于专栏:运维小路运维小路
运行总次数:0
代码可运行

我们前面部署过Win版本,也部署过Linux版本,也部署过单机版本,也部署过集群版,中途采用过多个模型,那这个模型到底是什么,我能选择什么模型呢?什么是蒸馏版,满血版,什么是量化版呢?

首先我们说模型需要先来解释什么是训练模型,什么是推理模型。

训练模型

训练模型是指模型在学习阶段的过程。在这一阶段,模型通过大量标注数据(输入数据和对应的标签/答案)逐步调整内部参数(如神经网络的权重),目标是学习数据中的规律,从而能够对未知数据做出预测或分类。

国产大模型DeepSeek之所以火爆,就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。

注:这里的B指出的是参数,参数越大,代表能力越强,一个B代表10亿参数。

推理模型

推理模型是指训练完成后,模型应用阶段的过程。此时模型参数已固定,用于对新的输入数据(未见过的数据)进行预测或分类。包括我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。

蒸馏模型

DeepSeek到目前为止开源的的模型有多个,其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版,还发布了蒸馏版。通过知识蒸馏技术将 DeepSeek-R1(参数量671B)的推理能力迁移至更小的模型中。可以简单理解蒸馏版比原始版本更厉害。

目前这些模型可以在多个大模型框架都可以使用(包括我们讲过的ollama和vllm甚至未讲过的sglang等)。

量化模型

虽然这些模型对原始模型进行蒸馏,但是这些模型对于对GPU的要求已经降低,但是对于ollama框架来说,还是比较大,所以ollama对这些模型进行进一步量化,比如我们这里以1.5模型为例。默认是格式fp16原始大小是3.6,量化一次降低接近50%的大小,也相对降低对显存的需求。

显存需求

此图是我从互联网找来,仅供参考。

实测ollama运行deepseek-r1:32b-qwen-distill-q8_0模型,显存占用在40G左右。

vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G(vllm会按照显存的90%去计算剩余显存,当模型等资源加载完成以后剩下的都会用作缓存)。

代码语言:javascript
代码运行次数:0
复制
(VllmWorkerProcess pid=195) INFO 03-09 10:10:40 worker.py:267] model weights take 15.41GiB; non_torch_memory takes 0.14GiB; PyTorch activation peak memory takes 0.24GiB; the rest of the memory reserved for KV Cache is 12.76GiB.
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维小路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档