人人都可以用大模型！英伟达官方本地部署方案chat with RTX 解析

文章来源：企鹅号 - AI赋能实验室

现在，只要你有一张英伟达显卡，你就能用上本地大模型，而且是用上最高的推理速度。

春节期间，英伟达悄悄官方发布了一款工具，chat with RTX.

安装这个，目前需要NVIDIA GeForce RTX 30 或 40 系列 GPU 或 NVIDIA RTX Ampere 或 Ada 代 GPU，至少 8GB 显存。

下载包非常庞大，有35G之大。

解压之后就会发现，那么庞大是因为内置了两个模型，llama2-13B和mistral-7B。这里提供的都是经过量化的版本。

在功能上，Chat with RTX 支持多种文件格式，包括文本、pdf、doc/docx 和 xml。只需将应用程序指向包含文件的文件夹，它就会在几秒钟内将它们加载到库中。此外，您可以提供 YouTube 播放列表的 URL，该应用程序将加载播放列表中视频的转录，使您能够查询它们涵盖的内容。

安装和正常安装程序一样，需要等待比较长的时间，之后点击桌面图标就可以启动。程序启动好了会弹出浏览器。

不过，大部分网上教程没有告诉你的是，这里面程序还会访问huggingface，这个全球最大的模型站目前处于不可访问状态，你需要一点魔法才能访问并正常启动。

启动好了是这个样子的：

和其他本地大模型基于pytorch推理或者llama-cpp推理不同，chat with RTX的推理框架是业界最强的，毕竟是老黄家出品，发挥显卡最大效用是必须的。

在我的3090上，mistral的推理能够轻松跑到60token/s。速度毋庸置疑是极快的。

不过，它也有不小的缺点，最大的问题是，官方提供模型目前只有llama2-13B和mistral-7B。这两个模型比较老旧了，对中文支持也不好，因此对中国用户来说，意义不是很大。

而且由于架构不同，还不能直接用开源模型，需要另外转换一下量化；如果需要使用中文比较强的模型，需要英伟达后期改造或者由开源社区提供第三方支持。

其实，chat with RTX这套玩意早就在GitHub开源。它的另一个名字是 trt-llm-rag-windows。大家访问下面的网址开源获得更多信息：

https://github.com/NVIDIA/trt-llm-rag-windows

我们之前也介绍了其他本地大模型工具。有兴趣可以参考。它们的硬件要求甚至可以低至无需显卡。

AI工具资源

大模型测评

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货