首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于vLLM、Ollama的DeepSeek R1全系列模型部署教程!

国产AI黑马DeepSeek在2025开年霸榜全球,无论是日常聊天、数据分析,还是创意写作,DeepSeek样样精通。新春开工之际,为大家带来最全的DeepSeek系列模型一键部署及使用攻略。

DeepSeek-R1 Distill系列 基于vLLM部署

基于DeepSeek-R1的推理能力,通过蒸馏技术将推理能力迁移到较小的模型上,在保持高效性能的同时,成功降低了计算成本,实现了“小身材、大智慧”的完美平衡!该镜像使用vLLM部署提供支持,适用于高性能大语言模型的推理和微调任务。

第一步:登录「优云智算」算力共享平台并进入「镜像社区」

访问优云智算镜像社区,选择DeepSeek镜像创建资源。这里选择基于vLLM的镜像,vLLM为非量化版本,效果比Ollama更好。

第二步:选择「vLLM-DeepSeek-R1-Distill」镜像,点击「使用该镜像创建实例」

镜像地址:https://www.compshare.cn/images-detail?ImageID=compshareImage-17ym815cbokz

根据镜像说明中的引导,选择所用模型需要的GPU算力规格,并点击「立即部署」即可拥有一个自带模型的算力资源。

第三步:启动vLLM api 服务,镜像已配置好所需依赖环境,无需额外安装,即可通过以下命令启动vLLM服务:

打开Jupyterlab

进入Terminal并执行服务启动命令

单卡4090

# DeepSeek-R1-Distill-Qwen-1.5B

vllm serve  /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --port 8000

# DeepSeek-R1-Distill-Qwen-7B

vllm serve  /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --port8000 --max-model-len 65536

# DeepSeek-R1-Distill-Llama-8B

vllm serve  /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Llama-8B --port8000 --max-model-len 17984

2卡4090

# DeepSeek-R1-Distill-Qwen-14B

vllm serve  /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B --port8000-tp2 --max-model-len 59968

4卡4090

# DeepSeek-R1-Distill-Qwen-32B

vllm serve  /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --port 8000 -tp 4 --max-model-len 65168

8卡4090

# DeepSeek-R1-Distill-Llama-70B

vllm serve  /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Llama-70B --port 8000

对应大模型服务启动后,执行下面命令验证即可

python workspace/test.py

DeepSeek-R1-32B-WebUI 基于Ollama部署

DeepSeek-R1采用强化学习进行后训练,旨在提升推理能力,尤其擅长数学、代码和自然语言推理等复杂任务,该镜像安装和使用 Ollama 和 Open WebUI,以便更好地利用深度学习模型进行推理和交互。

第一步:登录「优云智算」算力共享平台并进入「镜像社区」

访问优云智算官网:https://www.compshare.cn/ ,选择Ollama版本的DeepSeek镜像创建资源,Ollama支持R1量化版本,单卡4090就能运行32B模型。

第二步:选择「DeepSeek-R1-32B」镜像,点击「使用该镜像创建实例」

镜像地址:https://www.compshare.cn/images-detail?ImageID=compshareImage-17j1nrwtdmid

根据镜像说明中的引导,选择所用模型需要的GPU算力规格,并点击「立即部署」即可拥有一个自带模型的算力资源。

第三步:进入JupyterLab启动服务

运行 Ollama

在终端中执行以下命令以启动 Ollama 服务:

ollama serve

运行模型(可选)

接下来,您可以安装并运行指定的深度学习模型。以下是安装和运行 deepseek-r1:32b 模型的命令:

ollama run deepseek-r1:32b

启动 Open WebUI

启动 Open WebUI 服务,指定端口和主机:

open-webui serve --port 6080 --host 0.0.0.0

用户名和密码设置

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1EAaCOvJyWLAoNP5Vrnwpxg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券