首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >实测,单卡 4090 + llama.cpp 轻松跑 Claude-Opus-4.6蒸馏版Qwen3.5 27B,46 Token每秒!

实测,单卡 4090 + llama.cpp 轻松跑 Claude-Opus-4.6蒸馏版Qwen3.5 27B,46 Token每秒!

作者头像
Ai学习的老章
发布2026-03-27 12:46:55
发布2026-03-27 12:46:55
60
举报

本文实测 24GB 显存的 4090 单卡启动 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M

省流:

  • 1、单卡 4090 跑 27B 很轻松,最高64K 上下文、128K 报 OOM,这个上下文还是不错的,对比同样单 4090 启动的 GLM-4.7-Flash-AWQ-4bit,上下文只能开到 10K
  • 2、平均生成速度 46 token/s 的样子,并发是没有的,个人用还可以
  • 3、 实际表现中规中矩,中等水平,可以完成核心任务,细节不如 GLM-4.7-Flash

极简过程及启动脚本

下载模型

我选择的这个

使用 modelscope 下载

代码语言:javascript
复制
pip install modelscope
modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .

llama.cpp 安装

安装真是一言难尽,大家各显神通吧

我的内网机基础环境很差,编译从来没有成功过

所以还是走的 Docker 方案

docker pull ghcr.io/ggml-org/llama.cpp:full-cuda

启动脚本

我计划完全用显卡来跑,不动用 CPU

启动脚本:

代码语言:javascript
复制
docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -ngl 99 

前端对话使用的自带 UI,其实可以接入到 OpenwebUI,它现在的 UI 还支持 MCP

告诉他细节不够丰富后,这种表现已经十分优秀了,这个题目考察阅读理解+svg 代码生成+审美,很多大号模型表现也不一定这么好

对比 GLM-4.7-Flash-AWQ-4bit

平均 46 t/s

测试并发能力,失败告终

找 GPT5.4 读了文档加了一些支持并发,激发性能的参数,结果依然如上,没有改善,或许默认的 4 并发会好一些,没在尝试。

代码语言:javascript
复制
docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -kvu -ngl 99 --flash-attn on -b 1024 -t 48

才想起来去年 8 月测过,结论:

lama.cpp 并未针对张量并行(Tensor Parallelism)与批推理(Batch Inference)进行优化。只有在进行 LLM 的部分或全部 CPU 卸载时,你才应该使用 llama.cpp。但在多 GPU 配置下,需要经过优化的批推理与 Tensor Parallelism,此时 vLLM 是正确选择。

附 LocalLLaMA 社区的吐槽

llama.cpp 项目 issue 吐槽

 14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器,# Stop Wasting Your Multi-GPU Setup With llama.cpp
14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器,# Stop Wasting Your Multi-GPU Setup With llama.cpp

14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器,# Stop Wasting Your Multi-GPU Setup With llama.cpp

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 极简过程及启动脚本
  • 下载模型
  • llama.cpp 安装
  • 启动脚本
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档