2025 年云原生运维实战文档 X 篇原创计划 第 03 篇 |AI 最佳实战「2025」系列 第 01 篇
你好,我是术哥,欢迎来到运维有术。
只会用 Ollama 本地运行 DeepSeek R1 等大模型?本文介绍一款简单、强大的本地运行各种 LLM 的工具,LM Studio。
LM Studio 是一款桌面应用程序,用于在个人计算机本地开发和试验 LLM。
主要功能如下:
使用 LM Studio,您可以...
LM Studio 支持任何在 Hugging Face上 GGUF格式的 DeepSeek-R1、Qwen、 Llama、Mistral、Phi、Gemma、StarCoder 等模型。
硬件最低要求: M1/M2/M3/M4 Mac,或具有支持 AVX2 的处理器的 Windows / Linux PC。
本文以 Windows 系统为例演示 LM Studio 的安装和使用。
首先需要下载安装 LM Studio,点击链接https://lmstudio.ai/
进入到 LM Studio官网。
根据自己的操作系统类型,点击下载即可。
Windows 版本的安装包 455MB,不算很大,下载比较快,下载到本地目录后,双击进行安装。
根据磁盘空间大小,选择安装路径。
等待安装完成。
安装完成后点击「完成」,并勾选「运行 LM Studio」。
LM Studio 运行后,内容如下,点击右上角的「Skip onboarding」,进入默认对话页面。
在正式体验 LM Studio 之前,我们需要下载本地 DeepSeek R1 模型。
点击 LM Studio 左侧的放大镜图标,在 Model Search 功能菜单,打开默认的模型列表。
在搜索栏搜索 DeepSeek。此时,会发现可用模型很少,右侧显示 No result found。
这是因为,LM Studio 默认从 Hugging Face 下载 LLM 模型文件,受限于网络原因大多数人无法正常访问 Hugging Face。因此,为了提高访问成功率和访问速度,我们需要替换 Hugging Face 为国内镜像站 https://hf-mirror.com/
。
关闭 LM Studio,使用 vscode 或是其他高级文本编辑器,打开 LM Studio 安装目录,本文使用 d:\Program Files\LM Studio
,请根据实际情况替换。
搜索 huggingface.co
替换为 hf-mirror.com
。
点击批量替换图标,完成批量替换。
按提示,点击「替换」按钮。(涉及 3个 js 文件)
完成替换后,搜索结果中内容为空。
打开 LM Studio,进入模型搜索菜单,再次搜索 DeepSeek R1
。此时,会发现很多可用的模型并显示详细信息。
接下来,我们介绍如何下载DeepSeek R1
本地模型。
在下载模型之前,建议设置本地模型的存储路径,windows 系统下模型的默认存储路径在系统目录的 c:\Users\当前用户\.lmstudio\models
。由于模型文件比较大,建议存放到非系统目录。
点击模型目录管理的「Change」按钮。
选择更改后的目录,本文使用d:\lmstudio\models
(需要提前创建),点击「选择文件夹」。
正确修改后的结果如下:
接下来回到模型管理,搜索DeepSeek R1
,在返回的结果中选择DeepSeek R1 Distill (Qwen 7B)
,点击「Download」。
点击「Download」后,会弹出下载任务管理窗口,显示下载进度。
如果你机器有16G以上显存的显卡,可以使用14B的模型。
可以点击模型信息的下拉列表,查看模型详情,LM Studio 会自动根据机器配置,判断此模型是否适配。
以14B为例,我的电脑运行Q4和 Q3的模型,适配图标均是绿色,并且在 Q4 的模型上有个大拇指的图标,说明 14B Q4的更适合。
接下来我们进行一个简单的对话,测试。
我们用最近比较有意思的一个问题进行测试,据说目前为止这个测试只有 DeepSeek R1 回答正确,其他的各种模型都回答错了。
问题:DeepSeek 这个单词中有几个字母e,我们看看本地部署的1.5B、7B、14B 模型回答的差异。
回到 Chats 功能菜单,选择需要加载模型并进行设置。
根据设置模型,也可以直接勾选 Remember settings,点击「Load Model」加载模型。
加载后进入对话窗口,在对话框输入问题。
接下来我们看一下不同尺寸的模型对于该问题的思考和回答结果。
1.5B
7B
巴巴的自己一顿分析,最后还是错了。
14B
本地部署应该选择哪个参数量的?如何判断,需要多少多少GPU资源,是否支持量化,准确性怎么样?
参数量 适用场景 | 典型应用 | |
---|---|---|
1.5B | 移动端/嵌入式设备 - 简单文本生成(如短回复、摘要) - 低延迟实时交互 | 智能客服基础版、手机端轻应用 |
7B | 日常对话 - 代码辅助生成 - 教育问答 | 个人助手、教育工具、小型开发项目 |
8B | 代码补全与调试 - 技术文档生成 | 开发者工具(如VS Code插件)、编程教学 |
14B | 多轮复杂对话 - 基础逻辑推理 - 长文本续写 | 高级客服、内容创作辅助、商业报告生成 |
32B | 专业领域问答(法律、医学) - 长篇小说生成 - 复杂数据分析 | 企业级知识库、专业咨询系统、创意与作平台 |
70B | 多模态任务衔接 - 学术研究支持 - 高精度翻译 | 科研机构、大型企业私有化部署、跨语言服务平台 |
671B | 前沿AI研究 - 超复杂系统仿真 - 全领域知识融合 | 国家级实验室、超算中心、通用人工智能(AGI)探索 |
参数量 | 最低硬件配置(GPU) | CPU模式需求 | 量化技术支持 | 部署成本 |
---|---|---|---|---|
1.5B | 4GB显存(如GTX 1650) | 8GB 内存 | 4- bit 量化后仅需 2GB显存 | 极低 (个人设备可承载) |
7B | 8GB显存(如RTX3060) | 16GB 内存 | 4-bit 量化后需 4.68G 接近 5 GB 的显存 | 低 |
8B | 10GB显存(如RTX 3080) | 20GB 内存 | 需 8-bit量化 | 中低 |
14B | 24GB显存(如RTX 4090) | 32GB 内存 | 需多卡并行 + 量化 | 中等 |
32B | 多卡(如2×A5000,48GB显存) | 64GB内存 + 高速SSD | 必须量化+模型切分 | 高 |
70B | 多卡集群(如4×A100 80GB) | 不推荐纯 CPU模式 | 依赖分布式推理框架 | 极高 |
671B | 超算集群(TPU/Pod架构) | 不可行 | 专用压缩算法 | 天价(仅机构级) |
参数量 速度 | 准确性 | 资源消耗 | 适用人群 | |
---|---|---|---|---|
1.5B | 极快(毫秒级) | 基础任务合格 | 极低 | 学生、移动开发者 |
7B | 快(秒级响应) | 多数任务可靠 | 低 | 个人用户、中小团队 |
8B | 中等(側重代码优化) | 代码场景突出 | 中等 | 程序员、技术极客 |
14B | 玉较慢(3-10秒) | 逻辑能力提升 | 较高 | 企业用户、内容创作者 |
32B | 慢(需缓存优化) | 专业领域增强 | 高 | 行业专家、研究机构 |
70B | 极慢(批处理优先) | 接近商用模型 | 极高 | 大型企业、科研团队 |
671B | 玉非实时(小时级) | 突破性能力 | 极限资源 | 国家级实验室、科技巨头 |
个人选型建议:
以上,就是我今天分享的全部内容。下一期分享的内容还没想好,敬请期待开盲盒。
如果你喜欢本文,请分享、收藏、点赞、评论! 请持续关注 @运维有术,及时收看更多好文!。
免责声明:
版权声明
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。