大家好 这里是「代码简单说」,欢迎大家关注同名公众号,不定时更新更多实用有趣的教程 也欢迎大家在评论区一起讨论交流!~
SEO关键词:本地大模型推荐工具、LLM模型选择工具、Qwen模型部署、本地AI模型运行、GPU显卡跑大模型、whichllm教程、AI模型推荐工具、HuggingFace模型推荐

最近越来越多朋友开始折腾本地大模型。
但一个非常现实的问题摆在面前:
我的电脑到底适合跑什么模型?
RTX4060能跑32B吗?
24G显存选Qwen3还是Llama?
MacBook M3 Max适合哪个模型?
很多人会打开各种模型排行榜,然后开始各种查资料、算显存、看量化版本。
结果折腾半天还是不知道该选哪个。
直到最近发现了一个非常有意思的开源项目:
whichllm
它可以自动检测你的硬件配置,然后直接告诉你:
当前机器最值得运行的大模型是谁。
而且它不仅仅看显存是否能装下模型,还会结合:
综合推荐真正适合你的模型。
今天就带大家详细体验一下这个神器。
项目地址:
https://github.com/Andyyyy64/whichllmwhichllm是一款:
自动推荐本地LLM模型的CLI工具
简单来说:
它会根据你的硬件配置自动分析:
CPU
GPU
显存
内存
硬盘然后从 HuggingFace 海量模型中筛选出:
最适合
最能跑
效果最好的模型。
官方介绍:
Find the best local LLM that actually runs on your hardware.
翻译过来就是:
找到真正适合你硬件运行的本地大模型。
很多工具只会告诉你:
这个模型能跑但能跑 ≠ 值得跑。
例如:
RTX4090:
Qwen3.6-27B
Qwen3-32B
Llama3-70B(Q2)可能都能运行。
但实际体验:
模型 | 速度 | 效果 |
|---|---|---|
Qwen3.6-27B | 快 | 很强 |
Qwen3-32B | 中 | 强 |
70B Q2 | 慢 | 不稳定 |
如果只按显存推荐:
很多工具会推荐70B。
但whichllm会综合考虑:
模型质量
推理速度
量化损失
硬件适配最终推荐真正体验最好的模型。
运行:
whichllm自动检测:
NVIDIA
AMD
Apple Silicon
CPU
RAM无需任何配置。
非常适合买显卡前做规划。
例如:
whichllm --gpu "RTX 4090"或者:
whichllm --gpu "RTX 5090"模拟结果:
#1 Qwen3.6-27B
#2 Qwen3-32B
#3 Qwen3-30B-A3B提前知道升级显卡后的效果。
比较多个显卡。
whichllm upgrade "RTX 4090" "RTX 5090" "H100"输出类似:
GPU | 推荐模型 | 得分 |
|---|---|---|
RTX4090 | Qwen3.6-27B | 92.8 |
RTX5090 | Qwen3.6-27B | 94.7 |
H100 | 更高规格模型 | 98+ |
适合硬件升级决策。
很多人会问:
Qwen72B需要什么显卡?直接查询:
whichllm plan "Qwen2.5-72B"输出:
推荐显存
推荐量化
最低配置
最佳配置非常实用。
推荐。
无需安装。
uvx whichllm@latest直接执行。
uv tool install whichllm升级:
uv tool upgrade whichllmpip install whichllmMac用户:
brew install andyyyy64/whichllm/whichllmwhichllm输出类似:
#1 Qwen3.6-27B
#2 Qwen3-32B
#3 DeepSeek-R1whichllm --top 20返回前20名。
适合自动化。
whichllm --json输出:
{
"models":[
{
"model_id":"Qwen/Qwen3.6-27B"
}
]
}这是我最喜欢的功能。
whichllm run "qwen 2.5 1.5b gguf"工具会自动:
下载模型
安装依赖
启动推理
进入聊天真正做到:
开箱即用甚至不用指定模型。
whichllm run自动选择当前机器最佳模型。
whichllm run "phi 3 mini gguf" --cpu-only低配置电脑也能体验。
对于开发者来说特别友好。
例如:
whichllm snippet "qwen 7b"自动生成:
from llama_cpp import Llama
llm = Llama.from_pretrained(
repo_id="Qwen/Qwen2.5-7B-Instruct-GGUF",
filename="qwen2.5-7b-instruct-q4_k_m.gguf",
n_ctx=4096,
n_gpu_layers=-1,
)
output = llm.create_chat_completion(
messages=[
{
"role": "user",
"content": "你好"
}
]
)
print(output)直接复制即可运行。
很多人好奇:
它凭什么推荐模型?
其实核心流程如下:
硬件检测
↓
获取HuggingFace模型
↓
获取Benchmark数据
↓
计算显存需求
↓
估算推理速度
↓
评分排序
↓
输出最佳模型传统逻辑:
显存够不够公式:
模型大小 <= 显存问题:
忽略模型质量
忽略推理速度
忽略量化损失推荐结果经常不合理。
引入综合评分:
Benchmark
模型规模
量化质量
运行速度
证据可信度
模型热度最终形成:
Score(0~100)排序推荐。
官方评分因素:
因素 | 权重 |
|---|---|
Benchmark质量 | 核心 |
模型规模 | 35分 |
量化质量 | 惩罚项 |
证据可信度 | 乘数 |
运行适配度 | 乘数 |
推理速度 | ±8 |
来源可信度 | ±5 |
模型热度 | 辅助 |
这种方案比单纯看参数量科学得多。
whichllm会综合多个排行榜。
包括:
LiveBench
Artificial Analysis
Aider
Open LLM Leaderboard
Chatbot Arena
Vision Benchmark因此结果相对客观。
我分别测试了:
RTX4060
RTX4090
Mac M3 Max推荐结果基本符合当前社区主流认知。
例如:
RTX4090:
Qwen3.6-27B确实是目前兼顾:
效果
速度
显存占用比较均衡的选择。
相比很多只会推荐最大参数模型的工具来说靠谱很多。
推荐以下用户使用:
不知道选什么模型。
提前评估:
4090
5090
H100哪个更值得买。
快速获取:
最佳模型
推理代码
部署方案评估:
硬件成本
模型效果
运行速度whichllm最大的价值在于:
它解决的不是“能不能跑”的问题,而是“跑哪个最好”的问题。
相比传统的显存计算器,它额外结合:
最终给出更符合实际体验的推荐结果。
如果你最近正在折腾:
Qwen
DeepSeek
Llama
Gemma
Mistral等本地大模型,建议体验一下whichllm,几秒钟就能知道自己机器最值得跑哪个模型。
https://github.com/Andyyyy64/whichllm如果觉得有帮助,别忘了给项目点个 Star。这样优秀的开源工具,值得被更多本地AI爱好者发现。