
#多卡跑Qwen3-0.6B

cd /data01/downloadModel/Qwen
#单卡
vllm serve Qwen3-0.6B --port 8000 --enable-reasoning --reasoning-parser deepseek_r1
#多卡跑Qwen3-0.6B
vllm serve Qwen3-0.6B --port 8000 --max-model-len 4096 --tensor-parallel-size 2 --max-num-seqs 4 --enable-reasoning --reasoning-parser deepseek_r1
#多卡跑Qwen2.5-14B-Instruct
vllm serve Qwen2.5-14B-Instruct --port 8000 --tensor-parallel-size 4 --max-num-seqs 4
挂载成功:

接着可以在终端尝试访问:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-0.6B",
"messages": [
{"role": "user", "content": "请介绍一下昇腾。"}
],
"temperature": 0.7
}'也可以在本地运行一个python文件来访问部署的大模型:
import requests
url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}
data = {
"model": "Qwen3-0.6B",
"messages": [
{"role": "user", "content": "请介绍一下昇腾。"}
],
"temperature": 0.7,
}
response = requests.post(url, headers=headers, json=data)
print(response.json())cd /data01/downloadModel/Qwen3/examples/demo
python cli_demo.py
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。