首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >whichllm教程:一键找出最适合你电脑的本地大模型

whichllm教程:一键找出最适合你电脑的本地大模型

作者头像
代码简单说
发布2026-06-16 11:28:47
发布2026-06-16 11:28:47
260
举报
文章被收录于专栏:代码简单说代码简单说

whichllm教程:一键找出最适合你电脑的本地大模型

大家好 这里是「代码简单说」,欢迎大家关注同名公众号,不定时更新更多实用有趣的教程 也欢迎大家在评论区一起讨论交流!~

SEO关键词:本地大模型推荐工具、LLM模型选择工具、Qwen模型部署、本地AI模型运行、GPU显卡跑大模型、whichllm教程、AI模型推荐工具、HuggingFace模型推荐

在这里插入图片描述
在这里插入图片描述

最近越来越多朋友开始折腾本地大模型。

但一个非常现实的问题摆在面前:

我的电脑到底适合跑什么模型?

RTX4060能跑32B吗?

24G显存选Qwen3还是Llama?

MacBook M3 Max适合哪个模型?

很多人会打开各种模型排行榜,然后开始各种查资料、算显存、看量化版本。

结果折腾半天还是不知道该选哪个。

直到最近发现了一个非常有意思的开源项目:

whichllm

它可以自动检测你的硬件配置,然后直接告诉你:

当前机器最值得运行的大模型是谁。

而且它不仅仅看显存是否能装下模型,还会结合:

  • Benchmark成绩
  • 模型发布时间
  • 推理速度
  • 量化质量
  • HuggingFace数据

综合推荐真正适合你的模型。

今天就带大家详细体验一下这个神器。


目录

  • 什么是whichllm
  • 为什么需要whichllm
  • 核心功能介绍
  • 安装方法
  • 快速使用
  • GPU模拟测试
  • 模型运行功能
  • Python代码生成
  • 工作原理解析
  • 与传统选型方式对比
  • 实际体验

什么是whichllm

项目地址:

代码语言:javascript
复制
https://github.com/Andyyyy64/whichllm

whichllm是一款:

自动推荐本地LLM模型的CLI工具

简单来说:

它会根据你的硬件配置自动分析:

代码语言:javascript
复制
CPU
GPU
显存
内存
硬盘

然后从 HuggingFace 海量模型中筛选出:

代码语言:javascript
复制
最适合
最能跑
效果最好

的模型。

官方介绍:

Find the best local LLM that actually runs on your hardware.

翻译过来就是:

找到真正适合你硬件运行的本地大模型。


为什么需要whichllm

很多工具只会告诉你:

代码语言:javascript
复制
这个模型能跑

但能跑 ≠ 值得跑。

例如:

RTX4090:

代码语言:javascript
复制
Qwen3.6-27B
Qwen3-32B
Llama3-70B(Q2)

可能都能运行。

但实际体验:

模型

速度

效果

Qwen3.6-27B

很强

Qwen3-32B

70B Q2

不稳定

如果只按显存推荐:

很多工具会推荐70B。

但whichllm会综合考虑:

代码语言:javascript
复制
模型质量
推理速度
量化损失
硬件适配

最终推荐真正体验最好的模型。


核心功能

自动检测硬件

运行:

代码语言:javascript
复制
whichllm

自动检测:

代码语言:javascript
复制
NVIDIA
AMD
Apple Silicon
CPU
RAM

无需任何配置。


GPU模拟

非常适合买显卡前做规划。

例如:

代码语言:javascript
复制
whichllm --gpu "RTX 4090"

或者:

代码语言:javascript
复制
whichllm --gpu "RTX 5090"

模拟结果:

代码语言:javascript
复制
#1 Qwen3.6-27B
#2 Qwen3-32B
#3 Qwen3-30B-A3B

提前知道升级显卡后的效果。


升级对比

比较多个显卡。

代码语言:javascript
复制
whichllm upgrade "RTX 4090" "RTX 5090" "H100"

输出类似:

GPU

推荐模型

得分

RTX4090

Qwen3.6-27B

92.8

RTX5090

Qwen3.6-27B

94.7

H100

更高规格模型

98+

适合硬件升级决策。


GPU需求反查

很多人会问:

代码语言:javascript
复制
Qwen72B需要什么显卡?

直接查询:

代码语言:javascript
复制
whichllm plan "Qwen2.5-72B"

输出:

代码语言:javascript
复制
推荐显存
推荐量化
最低配置
最佳配置

非常实用。


安装教程

方法一:uvx运行

推荐。

无需安装。

代码语言:javascript
复制
uvx whichllm@latest

直接执行。


方法二:uv安装

代码语言:javascript
复制
uv tool install whichllm

升级:

代码语言:javascript
复制
uv tool upgrade whichllm

方法三:pip安装

代码语言:javascript
复制
pip install whichllm

方法四:Homebrew

Mac用户:

代码语言:javascript
复制
brew install andyyyy64/whichllm/whichllm

快速体验

查看当前最佳模型

代码语言:javascript
复制
whichllm

输出类似:

代码语言:javascript
复制
#1 Qwen3.6-27B
#2 Qwen3-32B
#3 DeepSeek-R1

查看更多结果

代码语言:javascript
复制
whichllm --top 20

返回前20名。


JSON格式

适合自动化。

代码语言:javascript
复制
whichllm --json

输出:

代码语言:javascript
复制
{
  "models":[
      {
         "model_id":"Qwen/Qwen3.6-27B"
      }
  ]
}

一键启动模型聊天

这是我最喜欢的功能。

运行指定模型

代码语言:javascript
复制
whichllm run "qwen 2.5 1.5b gguf"

工具会自动:

代码语言:javascript
复制
下载模型
安装依赖
启动推理
进入聊天

真正做到:

代码语言:javascript
复制
开箱即用

自动选择模型

甚至不用指定模型。

代码语言:javascript
复制
whichllm run

自动选择当前机器最佳模型。


CPU模式

代码语言:javascript
复制
whichllm run "phi 3 mini gguf" --cpu-only

低配置电脑也能体验。


自动生成Python代码

对于开发者来说特别友好。

例如:

代码语言:javascript
复制
whichllm snippet "qwen 7b"

自动生成:

代码语言:javascript
复制
from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="Qwen/Qwen2.5-7B-Instruct-GGUF",
    filename="qwen2.5-7b-instruct-q4_k_m.gguf",
    n_ctx=4096,
    n_gpu_layers=-1,
)

output = llm.create_chat_completion(
    messages=[
        {
            "role": "user",
            "content": "你好"
        }
    ]
)

print(output)

直接复制即可运行。


whichllm工作原理

很多人好奇:

它凭什么推荐模型?

其实核心流程如下:

代码语言:javascript
复制
硬件检测
    ↓
获取HuggingFace模型
    ↓
获取Benchmark数据
    ↓
计算显存需求
    ↓
估算推理速度
    ↓
评分排序
    ↓
输出最佳模型

V1传统推荐方案的问题

传统逻辑:

代码语言:javascript
复制
显存够不够

公式:

代码语言:javascript
复制
模型大小 <= 显存

问题:

代码语言:javascript
复制
忽略模型质量
忽略推理速度
忽略量化损失

推荐结果经常不合理。


V2 whichllm改进方案

引入综合评分:

代码语言:javascript
复制
Benchmark
模型规模
量化质量
运行速度
证据可信度
模型热度

最终形成:

代码语言:javascript
复制
Score(0~100)

排序推荐。


评分机制解析

官方评分因素:

因素

权重

Benchmark质量

核心

模型规模

35分

量化质量

惩罚项

证据可信度

乘数

运行适配度

乘数

推理速度

±8

来源可信度

±5

模型热度

辅助

这种方案比单纯看参数量科学得多。


支持的数据源

whichllm会综合多个排行榜。

包括:

代码语言:javascript
复制
LiveBench
Artificial Analysis
Aider
Open LLM Leaderboard
Chatbot Arena
Vision Benchmark

因此结果相对客观。


实际体验

我分别测试了:

代码语言:javascript
复制
RTX4060
RTX4090
Mac M3 Max

推荐结果基本符合当前社区主流认知。

例如:

RTX4090:

代码语言:javascript
复制
Qwen3.6-27B

确实是目前兼顾:

代码语言:javascript
复制
效果
速度
显存占用

比较均衡的选择。

相比很多只会推荐最大参数模型的工具来说靠谱很多。


适合哪些人

推荐以下用户使用:

本地AI玩家

不知道选什么模型。


显卡升级用户

提前评估:

代码语言:javascript
复制
4090
5090
H100

哪个更值得买。


AI开发者

快速获取:

代码语言:javascript
复制
最佳模型
推理代码
部署方案

企业私有化部署

评估:

代码语言:javascript
复制
硬件成本
模型效果
运行速度

总结

whichllm最大的价值在于:

它解决的不是“能不能跑”的问题,而是“跑哪个最好”的问题。

相比传统的显存计算器,它额外结合:

  • HuggingFace模型库
  • 多个Benchmark排行榜
  • 推理速度估算
  • 模型可信度分析
  • 硬件适配能力

最终给出更符合实际体验的推荐结果。

如果你最近正在折腾:

代码语言:javascript
复制
Qwen
DeepSeek
Llama
Gemma
Mistral

等本地大模型,建议体验一下whichllm,几秒钟就能知道自己机器最值得跑哪个模型。

项目地址

代码语言:javascript
复制
https://github.com/Andyyyy64/whichllm

如果觉得有帮助,别忘了给项目点个 Star。这样优秀的开源工具,值得被更多本地AI爱好者发现。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2026-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • whichllm教程:一键找出最适合你电脑的本地大模型
  • 目录
  • 什么是whichllm
  • 为什么需要whichllm
  • 核心功能
    • 自动检测硬件
    • GPU模拟
    • 升级对比
    • GPU需求反查
  • 安装教程
    • 方法一:uvx运行
    • 方法二:uv安装
    • 方法三:pip安装
    • 方法四:Homebrew
  • 快速体验
    • 查看当前最佳模型
    • 查看更多结果
    • JSON格式
  • 一键启动模型聊天
    • 运行指定模型
    • 自动选择模型
    • CPU模式
  • 自动生成Python代码
  • whichllm工作原理
  • V1传统推荐方案的问题
  • V2 whichllm改进方案
  • 评分机制解析
  • 支持的数据源
  • 实际体验
  • 适合哪些人
    • 本地AI玩家
    • 显卡升级用户
    • AI开发者
    • 企业私有化部署
  • 总结
    • 项目地址
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档