本文为 UC Berkeley 大学发表在 NeurIPS 2020 上的混合精度量化论文,是之前 HAWQ 论文的升级版本。
量化是减少神经网络的内存占用和推理时间的有效方法。但是,超低精度量化可能会导致模型精度显着下降。解决此问题的一种有前途的方法是执行混合精度量化,其中更敏感的层保持更高的精度。但是,用于混合精度量化的搜索空间的层数是指数级的。HAWQ 提出了一个新颖的基于 Hessian 的框架,其目的是通过使用二阶信息来减少这种指数搜索空间。尽管有前途,但这项先前的工作具有三个主要局限性:
在这里,本文介绍解决这些缺点的HAWQ-V2,解决对应HAWQ的三个问题,如下:
通过证明,HAWQ-V2在各种任务上均达到了最新水平。尤其是,本文展示了InceptionV3(7.57MB,精度为75:98%),ResNet50(7.99MB,精度为75:92%)和SqueezeNext(1MB,精度为68:68%)的量化结果,所有这些都没有任何手动位选择。此外,本文在Microsoft COCO上提供了对象检测的结果,与最近提出的FQN方法相比,获得了比直接均匀量化高2.6的mAP和比直接均匀量化高1.6的mAP,模型尺寸更小17.9MB。
混合精度搜索示意图
帕累托边界搜索示意图
Hessian迹的公式求解如下所示:
根据 Hutchinson 算法近似可以得到
Hutchinson快速估计算法
上图展示了当增加用于 Hessian迹 估计的迭代次数时,Hutchinson 算法的收敛图。可以清楚地看到,随着在512个数据点上增加数据点的数量,迹快速收敛,在该点上计算二次采样的 Hessian。可以看到,进行 50 次 Hutchinson 迭代足以实现低方差的精确逼近。基于收敛性分析,在ResNet50模型中能够在30分钟内使用4个GPU计算所有平均Hessian迹线,即54个块相对应平均每块33s。除自动位宽精度选择外,Hutchinson 算法还使 HAWQ-V2 成为一种比以前基于搜索的算法快得多的算法。
敏感度指标分析示意图
基于最小描述长度(MDL)理论,在给定的阈值下,指定一个平坦区域所需的比特数较少,反之,指定一个具有尖锐曲率的区域所需的比特数较多。更通俗的解释,平坦区域的不精确位置所产生的噪声不会被放大,使得它更容易被量化。而尖锐区域则相反,即使是小的舍去误差也会被放大。因此,预计具有较高 Hessian 迹的层(即较大的特征值)对量化更敏感。
激活的混合精度量化
ResNet50 on ImageNet
Inception-V3 on ImageNet
SqueezeNext on ImageNet
RetinaNet-ResNet50 On COCO
首先,证明为什么选择导致模型扰动最小的位精度设置非常重要,如下表所示,其中消融行模型使用的位精度设置为较大扰动。可以看到,HAWQ-V2方法模型以较小扰动,在SqueezeNext上实现了1%以上的精度提升。
模型扰动
其次,证明了使用海森矩阵的迹加上权重的 L2 范数作为敏感度度量(
)的有效性。如下表所示,其中消融行模型仅使用模型参数与量化差值的 L2 敏感度度量。可以看到,HAWQ-V2提出的敏感度度量方法在SqueezeNext上实现了0.85%的精度提升。
敏感度度量消融实验
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有