首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基于vllm的千问3/2.5部署

基于vllm的千问3/2.5部署

原创
作者头像
happywei
修改2025-05-20 10:28:41
修改2025-05-20 10:28:41
5820
举报

启动方式1:

#多卡跑Qwen3-0.6B

代码语言:bash
复制
cd /data01/downloadModel/Qwen

#单卡
vllm serve Qwen3-0.6B --port 8000 --enable-reasoning --reasoning-parser deepseek_r1
#多卡跑Qwen3-0.6B
vllm serve Qwen3-0.6B --port 8000 --max-model-len 4096 --tensor-parallel-size 2 --max-num-seqs 4 --enable-reasoning --reasoning-parser deepseek_r1
#多卡跑Qwen2.5-14B-Instruct
vllm serve Qwen2.5-14B-Instruct --port 8000 --tensor-parallel-size 4 --max-num-seqs 4 

挂载成功:

接着可以在终端尝试访问:

代码语言:bash
复制
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3-0.6B",
    "messages": [
      {"role": "user", "content": "请介绍一下昇腾。"}
    ],
    "temperature": 0.7
  }'

也可以在本地运行一个python文件来访问部署的大模型:

代码语言:python
复制
import requests
url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}
data = {
    "model": "Qwen3-0.6B",
    "messages": [
        {"role": "user", "content": "请介绍一下昇腾。"}
    ],
    "temperature": 0.7,
}
response = requests.post(url, headers=headers, json=data)
print(response.json())

启动方式2:

代码语言:bash
复制
cd /data01/downloadModel/Qwen3/examples/demo

python cli_demo.py

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 启动方式1:
  • 启动方式2:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档