现在,只要你有一张英伟达显卡,你就能用上本地大模型,而且是用上最高的推理速度。
春节期间,英伟达悄悄官方发布了一款工具,chat with RTX.
安装这个,目前需要NVIDIA GeForce RTX 30 或 40 系列 GPU 或 NVIDIA RTX Ampere 或 Ada 代 GPU,至少 8GB 显存。
下载包非常庞大,有35G之大。
解压之后就会发现,那么庞大是因为内置了两个模型,llama2-13B和mistral-7B。这里提供的都是经过量化的版本。
在功能上,Chat with RTX 支持多种文件格式,包括文本、pdf、doc/docx 和 xml。只需将应用程序指向包含文件的文件夹,它就会在几秒钟内将它们加载到库中。此外,您可以提供 YouTube 播放列表的 URL,该应用程序将加载播放列表中视频的转录,使您能够查询它们涵盖的内容。
安装和正常安装程序一样,需要等待比较长的时间,之后点击桌面图标就可以启动。程序启动好了会弹出浏览器。
不过,大部分网上教程没有告诉你的是,这里面程序还会访问huggingface,这个全球最大的模型站目前处于不可访问状态,你需要一点魔法才能访问并正常启动。
启动好了是这个样子的:
和其他本地大模型基于pytorch推理或者llama-cpp推理不同,chat with RTX的推理框架是业界最强的,毕竟是老黄家出品,发挥显卡最大效用是必须的。
在我的3090上,mistral的推理能够轻松跑到60token/s。速度毋庸置疑是极快的。
不过,它也有不小的缺点,最大的问题是,官方提供模型目前只有llama2-13B和mistral-7B。这两个模型比较老旧了,对中文支持也不好,因此对中国用户来说,意义不是很大。
而且由于架构不同,还不能直接用开源模型,需要另外转换一下量化;如果需要使用中文比较强的模型,需要英伟达后期改造或者由开源社区提供第三方支持。
其实,chat with RTX这套玩意早就在GitHub开源。它的另一个名字是 trt-llm-rag-windows。大家访问下面的网址开源获得更多信息:
https://github.com/NVIDIA/trt-llm-rag-windows
我们之前也介绍了其他本地大模型工具。有兴趣可以参考。它们的硬件要求甚至可以低至无需显卡。
AI工具资源
大模型测评
领取专属 10元无门槛券
私享最新 技术干货