私有化搭建、本地知识库、可联网查询、具备RAG能力的私人DeepSeek

原创

参谋带个长

发布于 2025-02-15 12:46:02

3.8K0

文章被收录于专栏：服务器运维日常服务器运维日常

一、如何私有化部署DeepSeek

之前已经写过教程介绍如何部署DeepSeek，具体可参考以下内容：

喂饭式教程 - 腾讯云轻量服务器部署DeepSeek：https://cloud.tencent.com/developer/article/2494571
喂饭式教程 - 腾讯云HAI服务部署DeepSeek：https://cloud.tencent.com/developer/article/2495288
喂饭式教程 - 腾讯云HAI服务原生安装Ollama部署DeepSeek：https://cloud.tencent.com/developer/article/2496078

以上方式在云端产品上实现 DeepSeek 的私有化部署，除此之外，也可以部署安装在本地机器上，如个人PC电脑、内网电脑等环境。

无论使用哪种方法，本质上都是通过安装 Ollama 运行 DeepSeek的大模型来实现，只是具体的实现方式不同。

二、私有化部署DeepSeek与第三方API使用区别

	私有化部署DeepSeek	第三方API使用
定义	将DeepSeek部署在自有服务器或数据中心中，完全掌控数据和系统	使用由第三方提供的API接口，将第三方服务或功能集成到自己的应用程序中
数据安全与隐私	高安全性，数据完全掌握手中，减少数据泄露风险	安全性依赖于第三方API提供者的安全措施，可能存在数据泄露风险
定制化程度	高度定制化，可以根据自身需求对DeepSeek进行配置和优化	定制化程度较低，受限于第三方API提供的功能和参数
成本控制	初期投入较高，但长期来看可节省持续的服务费用	前期基本无投入，但需支付第三方API的使用费用
灵活性	灵活性高，可根据需求自主扩展和调整DeepSeek的功能	灵活性取决于第三方API的更新和扩展能力
技术支持与维护	需自行负责DeepSeek的技术支持与维护，但拥有完全的控制权	第三方API提供者通常提供技术支持，但可能面临响应延迟或限制
应用场景	适合对数据安全性、隐私保护要求高的场景	适合需要快速集成第三方服务或功能，且对数据安全性要求不是特别高的场景

通过以上表格对比可得出私有化部署DeepSeek具有数据高安全性、功能高定制化等特点，但安装好后的DeepSeek还是模型的最初形态，可以通过不同的插件及软件对其进行优化调整。

本文将介绍如何通过Page Assist、Cherry Studio、AnythingLLM对私有化部署的DeepSeek进行设置，搭建本地知识库、联网搜索、RAG（检索增强生成），以实现私人专属AI大模型。

本文所展示的数据和内容仅用于教程演示，具体参数及功能以官网介绍为准。

三、Ollama URL 地址

3.1、Ollama地址

对DeepSeek进行配置训练，就需要通过 Ollama 的URL地址找到DeepSeek模型，不同部署方式的Ollama地址有所不同。其中11434为Ollama默认端口号，。

安装方式	Ollama地址
本地安装 Ollama	http://localhost:11434
服务器安装 Ollama	http://服务器公网IP:11434
腾讯云HAI基础环境安装 Ollama	http://服务HAI应的公网IP:11434
腾讯云HAI社区应用DeepSeek-R1	http://服务HAI应的公网IP:6399

Ollama URL地址以后续的配置中会被使用

默认情况下自行安装的Ollama仅可被localhost（127.0.0.1）访问，通过配置可开通外部访问。

3.2 Linux Ollama开通外部访问

1.修改Ollama配置文件

# 编辑配置文件
sudo vim /etc/systemd/system/ollama.service

# 在 [Service] 部分，添加或修改 Environment 行
Environment="OLLAMA_HOST=0.0.0.0"

2.重新加载 systemd 配置

sudo systemctl daemon-reload

3.重启Ollama服务

sudo systemctl restart ollama

具体操作如图所示：

3.3 Windowns Ollama开通外部访问

打开系统属性
在“系统属性”窗口中，点击“高级”选项卡，然后点击“环境变量”。
在“系统变量”部分，点击“新建”，输入变量名为 OLLAMA_HOST，变量值为 0.0.0.0，然后点击“确定”。
如果该变量已存在，则直接修改其值为 0.0.0.0。
重启Ollama服务，以使新的环境变量生效。

具体操作如图所示：

四、Page Assist插件配置

Page Assist是一款开源的浏览器扩展程序，它为用户提供了一个直观的交互界面，以便在本地运行的AI模型中进行交互。

Page Assist可安装在Chrome、Edge等浏览器，本文以 Edge 浏览器安装配置Page Assist插件进行说明。

4.1、安装Page Assist

打开Edge浏览器，点击右上角3个点（...），点击扩展，点击打开Microsoft Edge扩展网站，在打开的界面中，搜索Page Assist，找到对应结果，点击获取，再弹出的窗口中点击添加扩展，即可完成安装。

4.2、打开Page Assist插件

打开已安装的Page Assist，可以通过以下两种方法：

在Edge地址栏右侧找到如下图标，按点击可以打开Page Assist。
点击右上角3个点（...），点击扩展，将弹出相同界面，打开Page Assist。

4.3、设置Page Assist插件语言

在打开的界面中，点击右上角设置图标，如图所示，在General Settings，找到Language，改成简体中文。

4.4、主界面介绍

点击左上角返回箭头，可返回至主界面，以下为主界面功能介绍。选择好模型后即可开始对话。

4.5、Ollama设置

Ollama URL 地址的获取，在本文中已有介绍（参考第三部分Ollama URL 地址），此处填写合适的地址，即可在主界面中选择对应的模型。

填写规则：

默认为本机地址，主界面模型列表中显示的也是本地已安装模型。
如需填写线上地址，需要Ollama URL 高级配置中，开启启用或禁用自定义来源 URL，同时填写正确的线上地址，此时主界面模型列表中显示的是线上服务中已安装模型。

4.6、RAG设置

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合了检索技术和生成模型的方法，可以提升自然语言处理系统的性能。

简单的说，RAG可以将后续介绍的本地知识库中的内容进行处理，便于大语言模型使用。这里需要安装合适的嵌入模型，推荐以下两种模型。

嵌入模型（Embedding Model）是一种将高维数据（如文本、图像等）映射到低维连续向量空间的模型。这种模型能够捕捉数据中的语义和结构信息，使得相似内容的嵌入在高维空间中距离接近，而不相关的内容则距离较远。

模型名称	使用场景	安装命令
nomic-embed-text	功能强大的英文文本嵌入模型	ollama pull nomic-embed-text
bge-m3	适用于多种高级自然语言处理任务	ollama pull bge-m3

推荐安装bge-m3，这里需要用到ollama安装模型的知识，如不了解可看本文开头的相关教程。

点击右上角设置图标，选择RAG设置，文本嵌入模型，选择合适的模型，然后保存。

4.7、管理模型

模型的管理可在此处完成，进行添加、当前模型查看、删除、重新拉取等操作。

4.8、管理知识

对于私有化的知识，可以添加上传至大模型，由嵌入模型分析处理后，对DeepSeek模型提问，大模型就可以优先检索知识库中数据，回答的更加准确。

如果引用文本文档显示的是乱码，则需将文本文档的格式更改为UTF-8

可通过如下方法进行测试，上传知识库测试.txt文件，内容如下。

# 代号TEST001手机

代号TEST001手机是一款非常强大的手机，它安装了世界上最强大的操作系统TEST SERVER版，如今性能1台比过去10台加起来还要强大，还是价格也非常便宜，适合全人类使用。

# 代理TEST001手机价格

有缘可得，无缘不可得

下图为开启知识库前后大模型对问题的回复，可以看到未开启前无法准确回答，开启后可以优先检索知识库的内容，进行准确回复。

4.9、管理提示词

提示词用于指导AI模型如何理解和回应您的输入。通过输入特定的提示词，可以引导大模型生成与提示词相关的内容或执行特定的任务。

4.10、联网功能

如果联网功能不可用，或回答的内容明显不准确，需在设置中的一般设置，管理网络搜索中的搜索引擎改为国内搜索引擎，如Sougou。

4.11、Page Assist使用总结

通过合理的RAG设置、知识库设置、提示词设置，可以将大模型AI训练成更符合自身需要、更加智能化的产品。相比于通用大模型更能满足私有、定制的需求。

由于Cherry Studio、AnythingLLM在许多设置上与Page Assist相似，故下文将仅对软件主要设置进行介绍。

五、Cherry Studio配置

Cherry Studio是一款支持多个大语言模型（LLM）服务商的桌面客户端软件，下载安装后主要设置如下。

六、AnythingLLM配置

AnythingLLM是一个桌面软件，支持多种LLM大模型的配置，使用AnythingLLM设置知识库等功能，可以满足多种应用场景的需求，下载安装后主要设置如下。

6.1、主界面功能区

6.2、软件设置

6.3、知识库

在主界面，工作区处，上传文档，设置当前工作区的知识库。

七、选择什么样的模型

DeepSeek-R1就是深度搜索-R1模型，包含Distilled models 的是蒸馏模型。

模型	模型名	模型大小
DeepSeek-R1-Distill-Qwen-1.5B	deepseek-r1:1.5b	1.1G
DeepSeek-R1-Distill-Qwen-7B	deepseek-r1:7b	4.7G
DeepSeek-R1-Distill-Llama-8B	deepseek-r1:8b	4.9G
DeepSeek-R1-Distill-Qwen-14B	deepseek-r1:14b	9.0G
DeepSeek-R1-Distill-Qwen-32B	deepseek-r1:32b	20G
DeepSeek-R1-Distill-Llama-70B	deepseek-r1:70b	43G
DeepSeek-R1	deepseek-r1:671b	404G

通常所说的“满血版R1”指的是deepseek-r1:671b，该模型对硬件要求很高，相对的费用也会比较高，通常情况下也可以选择蒸馏模型。

从此表中可以看出，模型参数越大则文件体积越大，相应的对硬件要求也就越高。从运行结果来看，理论上拥有更大参数量的模型（如DeepSeek-R1）在推理效果上更胜一筹，但另一方面，更小参数的 Distilled models（蒸馏模型）模型的响应速度更快、占用资源更少、部署时长更短，在处理较为简单的任务时，仍是不错的选择。

从此表中可以看出不同参数量的蒸馏模型在不同场景下的得分情况，其中32B在很多场景下比70B得分要高，由此可见不能完全追求大参数量的模型，同样的14B与32B比较，在某些场景下相差并不大。

各种蒸馏模型中 DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B是性价比较高两种模型。

具体选择要根据服务硬件参数来决定，配置低的就选择低参数量，要追求更好的推理结果，高参数量的模型也必须搭配高配置的服务，如果运行一个模型响应很卡顿，大概率说明服务配置不够，可以考虑升级配置或降低模型参数量。。

本文所展示的数据和内容仅用于教程演示，具体参数及功能以官网介绍为准。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepSeek

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepSeek

登录后参与评论

0 条评论

热度