首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

CacheGen:语言模型应用程序的快速上下文加载

凭借其令人印象深刻的生成能力,大语言模型(LLM)被广泛应用于各个领域。公共LLM的API(例如GPT-4)和应用框架(例如Langchain)的广泛使用,结合开源的满足工业应用质量要求的LLM(例如Llama),进一步提高了LLM的受欢迎程度。随着LLM越来越多地被用于复杂任务,许多应用程序通过使用包含至少数千个标记的长上下文LLM来增强它们的输入(即提示)。例如,某些上下文用领域知识文本补充用户提示,以便LLM可以使用LLM本身嵌入的信息之外的领域知识来生成响应。另一个例子是,一些上下文利用用户和LLM之间交互过程中积累的对话历史来补充用户提示。这种长上下文的趋势很好地反映在最近训练接受更长上下文输入的LLM的竞赛中,从ChatGPT中的2K Tokens到Claude中的100K(见图1)。虽然较短上下文输入能力的LLM仍然有用,但许多研究表明,较长的上下文输入通常有助于提高模型响应的质量和一致性。

01

为了加速在GPU上进行深度学习训练,NVIDIA原来还做了这么多事情,你都知道么?

不同行业采用人工智能的速度取决于最大化数据科学家的生产力。NVIDIA每个月都会发布优化的NGC容器,为深度学习框架和库提供更好的性能,帮助科学家最大限度地发挥他们的潜力。英伟达持续投资于完整的数据科学栈,包括GPU架构、系统和软件栈。这种整体的方法为深度学习模型培训提供了最好的性能,NVIDIA赢得了提交给MLPerf的所有六个基准测试,这是第一个全行业的AI基准测试。NVIDIA在最近几年引入了几代新的GPU架构,最终在Volta和图灵GPU上实现了张量核心架构,其中包括对混合精度计算的本机支持。NVIDIA在MXNet和PyTorch框架上完成了这些记录,展示了NVIDIA 平台的多功能性。

04

量子计算第二里程碑!谷歌实现量子纠错突破,150多位作者成果登Nature

---- 新智元报道   编辑:编辑部 【新智元导读】继三年前实现「量子霸权」后,谷歌今天宣称,首次通过增加量子比特来降低计算错误率,创下第二个里程碑。 2019年,谷歌首次宣称实现量子霸权,创下首个里程碑。 3年之后,这家公司宣布已经达到通往构建大型量子计算机道路上的第二个关键里程碑(M2)。 即有史以来首次通过增加量子比特来降低计算错误率! 官方博客称,量子纠错(QEC)通过多个物理量子比特,即「逻辑量子比特」,对信息进行编码。 这一方法被认为是大型量子计算机降低错误率来进行计算的唯一方法。 最

02

AdaQuant:改进训练后神经网络量化:分层校准和整数编程

训练后量化方法使用简单,并且只需要少量未标记的校准集,因此引起了相当大的关注。在没有明显过拟合的情况下,这个小的数据集不能用于微调模型。相反,这些方法仅使用校准集来设置激活的动态范围。但是,当使用低于8位的格式时(除非在小型数据集上使用),此类方法始终会导致精度显着下降。本文旨在突破8位的障碍。为此,通过在校准集上优化每一层的参数,分别最小化每一层的量化误差。本文从实验角度证明这种方法:(1)与标准的微调方法相比,对过拟合的敏感度要低得多,并且即使在非常小的校准集上也可以使用;(2)比以前的方法(仅能设置激活的动态范围)更强大。此外,本文提出一种新颖的整数编程公式,在为每层精确分配位宽的同时,限制了精度的降低。最后,本文建议对全局统计信息进行模型调整,以纠正量化期间引入的偏差。这些方法结合在视觉和文本任务上取得了SOTA的结果。例如,在ResNet50上,实现了所有层权重和激活4-bit量化,且精度下降不到1%。

01
领券