Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >LLM挂载&部署

LLM挂载&部署

原创

作者头像

happywei

修改于 2025-05-22 02:13:19

修改于 2025-05-22 02:13:19

1460

举报

cd /data01/downloadModel/Qwen    
#单卡  
vllm serve Qwen3-0.6B --port 8000 --enable-reasoning --reasoning-parser deepseek_r1   

#多卡跑Qwen3-0.6B  
vllm serve Qwen3-0.6B --port 8000 --max-model-len 4096 --tensor-parallel-size 2 --max-num-seqs 4 --enable-reasoning --reasoning-parser deepseek_r1   

#多卡跑Qwen2.5-14B(32B)-Instruct  
vllm serve Qwen2.5-32B-Instruct --port 8000 --tensor-parallel-size 4 --max-num-seqs 4 

#单卡跑Qwen2.5-VL-7B-Instruct 
vllm serve Qwen2.5-VL-7B-Instruct --dtype half --port 6006 --limit_mm_per_prompt image=4 --max_model_len 8784

成功挂载：

在Dify中编辑“模型供应商”，添加更多模型供应商“OpenAI-API-compatible”，不仅支持LLM还支持Embedding模型:

成功部署：

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新