本文为Xilinx的量化工作,发表在 MLSys 2020,论文题目:Trained Quantization Thresholds for Accurate and Efficient Fixed-Point Inference of Deep Neural Networks. 本文提出了一种基于标准反向传播和梯度下降的均匀对称量化器量化阈值训练方法,为了便于硬件部署量化器被限制为使用2的幂比例因子。TQT能够在困难网络(如MobileNets)上实现接近浮点精度,而量化(8位)retrain 时间少于5个 epochs。
结合量化方法和对硬件部署的友好程度,本文总结量化方法与特点如下图所示:
可见,Asymmetric & Per-Channel & Real-valued scaling
方法对量化的表达最为灵活,无论是简单网络还是难网络均能保证良好的量化精度误差,但是硬件部署不友好;反之,针对Symmetric & Per-Tensor & Power-of-2 scaling
方法对量化表达不够灵活,简单网络实施量化较灵活,但是,针对如MobileNet类型的紧凑型网络结构量化后的损失严重。但是,对硬件的部署十分友好。
可视化数据范围
通过上图对 MobileNet 权重数据范围的可视化,我们发现,对于 depth-wise 卷积层,参数的分布范围非常不对称;这导致了均匀量化过程会产生严重的量化偏差。
梯度传递曲线
梯度公式推导
阈值梯度作用可视化
ImageNet量化实验结果