开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

量化感知训练比后量化差

量化感知训练和后量化是指在神经网络模型量化过程中的两个阶段。

量化感知训练是指在模型训练过程中引入量化感知训练算法，该算法考虑到量化后的精度损失，通过在训练过程中引入噪声和正则化等技术手段，使得模型能够更好地适应量化后的精度要求。量化感知训练可以有效提高模型对于量化操作的鲁棒性，减小量化带来的性能下降。

后量化是指在模型训练完成后，对模型进行离线量化的过程。在后量化中，模型的权重和激活值被转化为低位表示，以减小模型的存储需求和计算复杂度。后量化一般使用压缩算法和量化算法，如哈夫曼编码、K-means聚类等，将浮点数表示转化为定点数或者整数表示。

量化感知训练和后量化均是为了在云计算场景下提高模型的推理效率和降低模型的存储需求。量化感知训练注重在训练过程中减小量化带来的精度损失，后量化则是在模型训练完成后对模型进行压缩和量化。两者可以结合使用，以达到更好的性能和存储效率。

量化感知训练和后量化在云计算领域有广泛的应用场景。例如，对于大规模的神经网络模型，量化可以减少模型的存储需求和计算复杂度，从而在云计算平台上节省资源和提高推理速度。另外，对于移动端设备等资源受限的场景，量化可以减小模型的体积，使得模型可以在有限的计算资源下运行。量化还可以用于模型的加密保护，提高模型的安全性。

在腾讯云的产品中，可以使用Tencent MNN（Mobile Neural Network）进行量化感知训练和后量化。MNN是腾讯云提供的一款高性能、高度优化的深度学习推理引擎，支持多种量化算法和优化技术，可以帮助用户在云计算平台上实现模型的高效量化和推理。您可以在以下链接中了解更多关于Tencent MNN的信息：

https://cloud.tencent.com/product/mnn

总结起来，量化感知训练和后量化是在模型量化过程中的两个重要阶段，可以帮助提高模型的推理效率和降低模型的存储需求。在腾讯云中，可以使用Tencent MNN进行量化感知训练和后量化，以实现高效的模型部署和推理。

相关搜索:Tensorflow量化感知训练 Tensorflow Keras模型的量化感知训练如何利用量化感知训练完成神经网络的4位量化训练后量化后的“模型未量化”取决于模型结构？训练后量化后的问题加载模型 TensorFlow版本2和BatchNorm折叠中的量化感知训练在训练过程中，Tensorflow量化感知训练是否会导致实际的加速？Keras模型的训练后全整数量化 mobilenet V1不工作的训练后量化为什么矢量化的Pinv比未矢量化的慢？使用tflite进行训练后量化会导致运行时错误 pandas向量化的代码比for循环慢矢量化后无法使训练数据特征与标签数据匹配索引比指针更容易矢量化吗？MATLAB:矢量化反向传播(无循环训练示例)指数加权移动标准差的矢量化实现如何在恢复检查点后量化(Tensorflow lite)为什么量化的图推理比使用原始图要花更多的时间？Numpy随机数生成向量化后运行速度较慢训练时的位精度如何影响DNN的精度-支持量化类型推理的库

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

MobileAI2021 端侧图像超分竞赛方案简介

MobileAI的各大竞赛已经落下帷幕，冠亚军排名也相继确定，笔者近期会逐步将相关领域的竞赛结果进行一下简单总结，同时也将对这其中的冠军军及优秀方案进行一番解读，感兴趣的朋友可以关注一波...

03

模型部署系列 | 卷积Backbone量化技巧集锦

本文首发于【集智书童】，白名单账号转载请自觉植入本公众号名片并注明来源，非白名单账号请先申请权限，违者必究。

04

ABPN | 移动端实时超分详解

今天要介绍的MobileAI2021的图像超分竞赛的最佳方案，无论是PSNR指标还是推理速度均显著优于其他方案，推理速度达到了手机端实时(<40ms@1080P)。

02

深入了解NNIE量化技术

【GiantPandaCV导语】这篇文章对量化技术做了概要的介绍，由原理推导，验证实现了海思NNIE的量化算法。最后，作者还尝试了使用Pytorch对训练感知量化算法的进行复现，使其不依赖固定Cuda版本，并且可以使用多卡进行训练，内容非常硬核，具体请看文章。本文同步发表于知乎，地址为：https://zhuanlan.zhihu.com/p/223018242 。文末送出4本《机器学习与深度学习算法基础》书籍，欢迎评论区留言抽奖。

03

详解SoundStream：一款端到端的神经音频编解码器

音频编解码器的用途是高效压缩音频以减少存储或网络带宽需求。理想情况下，音频编解码器应该对最终用户是透明的，让解码后的音频与原始音频无法从听觉层面区分开来，并避免编码 / 解码过程引入可感知的延迟。

03

基于 CNN 模型选择的 VVC 质量增强

Fatemeh 首先介绍道，即便是 VVC， AV1/AV2 或 EVC 等下一代编码器使用了更为先进和复杂的编码工具，被编码的视频也无可避免地会产生模糊、块效应、振铃效应等明显可见的压缩伪影，尤其是在低码率编码的情况下。在编码器普遍采用的基于块的混合编码框架中，在块的边界部分产生的不连续性导致了块效应失真。另一种失真来源是量化损失，在低码率下使用粗糙量化和较大的量化步长时，残差信号的变换系数就产生了量化损失，这会引入振铃效应、平滑边缘或者模糊的失真。

05

Q-YOLOP来啦 | 一个具有量化感知全景驾驶感知模型

全景感知系统是自动驾驶汽车的关键部件，使其能够全面感知和理解环境。这些系统同时解决了多个视觉任务，包括物体检测、车道线分割、可驾驶区域分割，并对道路场景产生了丰富的理解。

04

视频质量评估算法 DVQA 正式开源

DVQA是腾讯多媒体实验室设计的基于深度学习的全参考视频质量评估算法。在整个视频链路中，我们可以量化大部分模块，如采集，上传，预处理，转码，分发。我们最未知的却恰恰是最关键的部分，即用户的视频观看体验。DVQA适用于在源参考视频可用的场景下，精确衡量视频内容的人眼感知质量。 DVQA包含多个质量评估算法模型，本次开源的算法为C3DVQA。本项目使用Python开发，深度学习模块使用PyTorch。代码使用模块化设计，方便集成较新的深度学习技术，灵活的自定义模型，训练和测试新的数据集。算法设计 C3DVQ

05

一个不限制插值个数和上采样倍数的视频增强方法

近年来，大量的视频增强研究致力于同时提高时间帧速率和空间分辨率，这些方法要么不能揭示时空信息之间的内在联系，要么在最终的时空分辨率的选择上缺乏灵活性。本文主要贡献如下：

05

今日 Paper | 不确定性量化；边缘感知深度预测；双目深度估计；自适应深度立体匹配等

论文名称：Uncertainty Quantification for Deep Context-Aware Mobile Activity Recognition and Unknown Context Discovery

02

业界 | 图鸭科技获CVPR 2018图像压缩挑战赛单项冠军，技术解读端到端图像压缩框架

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助，是第一个由计算机视觉领域的会议发起的图像压缩挑战赛，旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。据 CVPR 大会官方介绍，此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。

02

英伟达网络：硬件感知网络转化，加速硬件上部署（附源文件）

给定一个训练有素的网络，我们如何加速它以满足在特定硬件上部署的效率需求？常用的硬件感知网络压缩技术通过修剪、核融合、量化和降低精度来解决这个问题。

02

APQ：联合搜索网络架构、剪枝和量化策略

本文提出APQ，以便在资源受限的硬件上进行有效的深度学习推理。与以前分别搜索神经体系结构，修剪策略和量化策略的方法不同，本文以联合方式优化它们。为了应对它带来的更大的设计空间问题，一种有前途的方法是训练量化感知的准确性预测器，以快速获得量化模型的准确性，并将其提供给搜索引擎以选择最佳拟合。但是，训练此量化感知精度预测器需要收集大量量化的<model，precision>对，这涉及量化感知的微调，因此非常耗时。为了解决这一挑战，本文建议将知识从全精度（即fp32）精度预测器转移到量化感知（即int8）精度预测器，这将大大提高采样效率。此外，为fp32精度预测器收集数据集只需要通过从预训练的 once-for-all 网络中采样就可以评估神经网络，而无需任何训练成本。ImageNet 上的大量实验证明了联合优化方法的好处。与MobileNetV2 + HAQ 相比，APQ 以相同的精度将延迟降低2倍，能耗降低1.3倍。与单独的优化方法（ProxylessNAS + AMC + HAQ ）相比，APQ可提高ImageNet精度2.3％，同时减少GPU数量级和CO2排放量，从而推动了绿色AI在环保方面的前沿。

03

通用目标检测开源框架YOLOv6在美团的量化部署实战

总第537篇 2022年第054篇基于美团目标检测模型开源框架 YOLOv6，本文介绍了一种通用的量化部署方案，在保持精度的同时大幅提升了检测的速度，为通用检测的工业化部署探索出一条可行之路，希望能给大家带来一些启发或者帮助。 1. 背景和难点 2. 量化方案实战 2.1 重参数化优化器 2.2 基于量化敏感度分析的部分量化 2.3 基于通道蒸馏的量化感知训练 3. 部署时优化 3.1 图优化 3.1.4 性能测试 3.2 线上服务优化 4. 总结 YOLOv6 版本更新 5. 参考文献 6. 本文作

01

RepQ带来重参结构新突破 | RepVGG结构真的没办法进行QAT训练吗？

多年来，神经网络（NN）中的参数数量不断增加，这使得基于NN的应用在计算资源受限的设备上部署变得不切实际，例如移动设备。许多研究旨在设计计算效率更高的NN。

03

即插即用！视频超分中的涨点神器：iSeeBetter

CNN在大尺度上的超分往往缺乏精细的细节纹理，生成性对抗网络能够缓解这个问题。为此，本文提出了一种基于GAN的时空视频超分方法——iSeeBetter，亮点如下：结合了SR中的SOTA技术：使用循环反投影网络(RBPN)的作为其生成器，从当前帧和相邻帧中提取时空信息。使用SRGAN中的鉴别器，提高了超分辨率图像的“自然性”，减轻了传统算法中的伪影。优化了损失函数的架构：本文使用了四重损失函数（MSE、感知损失、对抗损失和全变差损失(TV)）来捕捉均方误差（MSE）可能无法捕捉到的图像中的精细细节，加强生成视频的感知质量。

02

针对环视摄像头的车道检测和估计

文章：Lane Detection and Estimation from Surround View Camera Sensing Systems

01

YOLO落地部署 | 让YOLO5和YOLO7等方法都可以用上4-bit/3-bit的超快部署方案

深度神经网络在各种应用中取得了显著的成功，包括图像分类、目标检测和语义分割。然而，将它们部署在边缘设备（如移动电话、智能相机和无人机）上却是一项重大的挑战，因为这些设备通常具有有限的计算和内存资源。这些设备通常具有有限的电池寿命、存储容量和处理能力，这使得执行复杂的神经网络具有挑战性。

07

零成本体验StyleGAN2：Colab代码直接使用，细节逼真难以分辨

最近英伟达在 GAN 领域最大的研究突破莫过于 StyleGAN2 了。这一新的研究提升了生成图像的质量，实现了最新的 SOTA。论文公开的同时，英伟达也公开了相关的代码和 Colab 笔记，你可以直接在线使用。

02

ICLR 2019论文解读：量化神经网络

深度神经网络（DNN）已经极大推升了机器学习（ML）/人工智能（AI）在许多不同任务中的性能，并由此带来了许多我们日常生活中所见的成熟应用。经典案例包括图像目标识别（Krizhevsky et al., 2012; Szegedy et al., 2014）、语音识别（Hinton et al., 2012; Sainath et al., 2013）、统计机器翻译（Devlin et al., 2014; Sutskever et al., 2014; Bahdanau et al., 2015）和掌握围棋（Silver et al., 2016）。

02

重参架构的量化问题解决了 | 粗+细粒度权重划分量化让RepVGG-A1仅损失0.3%准确性

尽管卷积神经网络（CNNs）在各种应用中展示了主导性能，但仍需要在边缘设备和云服务器上高效运行。神经网络量化是压缩神经网络中最广泛使用的技术之一。它涉及将网络参数和激活的精度降低，通常从浮点数（例如，FP32）减少到具有较低位数的整数（例如，INT8）。由于整数计算，它大大降低了内存成本（例如，INT8节省了75%的模型大小和带宽）并加速了矩阵乘法（例如，卷积，全连接）。网络量化通常分为两类：后训练量化（PTQ）和量化感知训练（QAT）。PTQ使用已经训练好的网络并对其进行量化，因此它需要最小化的超参数调整和无需端到端训练。

01

TensorFlow 模型优化工具包 — 训练后整型量化

模型优化工具包是一套先进的技术工具包，可协助新手和高级开发者优化待部署和执行的机器学习模型。自推出该工具包以来，我们一直努力降低机器学习模型量化的复杂性

05

深度学习框架量化感知训练的思考及OneFlow的一种解决方案

【GiantPandaCV导语】这篇文章分享的是笔者最近在OneFlow做的一个项目，将Pytorch FX移植到OneFlow之后实现了自动量化感知训练动态图模型(在Pytorch和OneFlow中都称为nn.Module)。现在用户可以在自己构建的nn.Module基础上，修改很少的代码即可完成从nn.Module量化感知训练到用TensorRT将量化感知训练后的模型部署到GPU上运行的完整链路。在TensorRT上推理是利用了ONNX作为中间表示，即Oneflow动态图模型(nn.Module)->OneFlow量化感知训练模型(nn.Module)->OneFlow静态图(nn.Graph)->ONNX->TensorRT。量化感知训练是基于支持在Eager下写Pass的FX模块（FX被Pytorch率先提出，笔者将其基础设施移植到了OneFlow）来完成的。读者如果想体验这个功能可以按照本文的方法进行操作，有任何使用上的问题可以联系笔者。

03

基于OneFlow实现量化感知训练

这篇文章主要是讲解一下量化感知训练的原理，以及基于OneFlow实现一个Demo级别的手动量化感知训练。

03

华为诺亚Transformer后量化技术：效率百倍提升，视觉&NLP性能不减

大型预训练模型在计算机视觉和自然语言处理中展现了巨大的潜力，但是模型大、参数多的问题也给它们的商业化落地带来了很大挑战。模型压缩技术是当前的研究热点，模型量化是其中的一个重要分支。

01

bioRxiv | 生物发现和设计的不确定性学习

今天给大家介绍麻省理工大学的Bonnie Berger教授课题组的一篇文章 “Learning with uncertainty for biological discovery and design”。作者通过对预训练特征使用基于高斯过程的不确定性预测，解决了用于产生生物学假设的机器学习方法在探索超出训练数据分布的范围时容易失败的问题。此外，作者展示了不确定性如何促进计算和实验之间的紧密迭代循环，如何改善新型生化结构的生成设计，并概括了不同的生物学领域。

06

用于视频超分辨率的可变形三维卷积

方法：提出了一个利用可变形3D卷积（D3D）的可变形三维卷积网络（D3Dnet）来整合视频的时空信息

01

FastestDet：比yolov5更快！更强！全新设计的超实时Anchor-free目标检测算法（附源代码下载）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 本篇文章转自于知乎——qiuqiuqiu，主要设计了一个新颖的轻量级网络！代码地址：https://github.com/dog-qiuqiu/FastestDet 01 概述 FastestDet是设计用来接替yolo-fastest系列算法，相比于业界已有的轻量级目标检测算法如yolov5n, yolox-nano, nanoD

02

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

选自deepsense.ai 机器之心编译参与：黄小天、路雪本文介绍了三种不同的卷积神经网络（SRCNN、Perceptual loss、SRResNet）在单图像超分辨率集上的实际应用及其表现对比，同时也探讨了其局限性和未来发展方向。单图像超分辨率技术涉及到增加小图像的大小，同时尽可能地防止其质量下降。这一技术有着广泛用途，包括卫星和航天图像分析、医疗图像处理、压缩图像／视频增强及其他应用。我们将在本文借助三个深度学习模型解决这个问题，并讨论其局限性和可能的发展方向。我们通过网页应用程序的形式部署

06

上交大 & 上海 AI 实验室 & ViVO 强势推出 TerDiT ，极低比特量化感知训练和和高效部署方案！！！

大规模预训练文本到图像扩散模型的进展导致了成功生成具有复杂性和对输入条件高保真的图像。特别是基于 Transformer 架构的扩散模型的出现，在这一研究领域中代表了重要的进步。与其他扩散模型相比，扩散 Transformer 已经展示了以更高的计算Gflops实现更低FID分数的能力[6]。近期的研究突显了扩散 Transformer 架构在图像生成能力方面的卓越表现，如Stable Diffusion 3[7]等方法，以及在视频生成方面，如Sora2所展示的出色性能。鉴于扩散 Transformer 模型的卓越性能，研究行人现在越来越多地研究这些视觉模型的扩展规律[8]，这与大型语言模型（LLMs）相似。

01

使用深度学习来实现超分辨率的介绍

超分辨率是从给定的低分辨率(LR)图像中恢复高分辨率(HR)图像的过程。由于较小的空间分辨率(即大小)或退化的结果(如模糊)，图像可能具有“较低的分辨率”。我们可以将HR图像和LR图像通过如下公式联系起来：LR = degradation(HR)`

04

使用深度学习来实现超分辨率的介绍

超分辨率是从给定的低分辨率(LR)图像中恢复高分辨率(HR)图像的过程。由于较小的空间分辨率(即大小)或退化的结果(如模糊)，图像可能具有“较低的分辨率”。我们可以将HR图像和LR图像通过如下公式联系起来：LR = degradation(HR)`

04

上交大 & 上海 AI 实验室 & ViVO 强势推出 TerDiT ，极低比特量化感知训练和和高效部署方案！！！

大规模预训练文本到图像扩散模型的进展导致了成功生成具有复杂性和对输入条件高保真的图像。特别是基于 Transformer 架构的扩散模型的出现，在这一研究领域中代表了重要的进步。与其他扩散模型相比，扩散 Transformer 已经展示了以更高的计算Gflops实现更低FID分数的能力[6]。近期的研究突显了扩散 Transformer 架构在图像生成能力方面的卓越表现，如Stable Diffusion 3[7]等方法，以及在视频生成方面，如Sora2所展示的出色性能。鉴于扩散 Transformer 模型的卓越性能，研究行人现在越来越多地研究这些视觉模型的扩展规律[8]，这与大型语言模型（LLMs）相似。

01

14.7倍推理加速、18.9倍存储节省！北航、商汤、UCSD提出首个点云二值网络 | ICLR 2021

在自动驾驶、AR 等实际应用场景下，用于点云的深度神经网络模型非常需要实时交互和快速响应。但是，它们的部署环境通常是一些资源受限的边缘设备。

01

为内存塞不下Transformer犯愁？OpenAI应用AI研究负责人写了份指南

选自Lilian Weng的博客作者：Lilian Weng 机器之心编译编辑：赵阳本文是一篇综述性的博客，探讨总结当下常用的大型 transformer 效率优化方案。大型 Transformer 模型如今已经成为主流，为各种任务创造了 SOTA 结果。诚然这些模型很强大，但训练和使用起来代价非常昂贵。在时间和内存方面存在有极高的推理成本。概括来说，使用大型 Transformer 模型进行推理的难点，除了模型的规模不断扩大外，还有两个不可忽略的地方：内存消耗大：推理时，需要把模型参数和中间状

03

【杂谈】当前模型量化有哪些可用的开源工具？

模型量化属于模型优化中的重要技术之一，是非常有效地提升模型推理速度的技术方案，那么当前有哪些可用的模型量化工具呢？

02

南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏，让AI落地更进一步！！！

本文首发于【集智书童】，白名单账号转载请自觉植入本公众号名片并注明来源，非白名单账号请先申请权限，违者必究。

03

CVPR 2024 | 腾讯优图实验室20篇论文入选，含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向

近日，CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。

01

CVPR 2024 | 腾讯优图实验室20篇论文入选，含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向

近日，CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。

01

AAAI 2024 | 深度分层视频压缩

目前，基于学习的视频压缩方法仍然受制于传统的混合编码框架。大多数现有方法都采用了两阶段编码流程，首先编码运动流，然后编码当前帧与运动扭曲后的帧之间的残差。这种框架设计繁琐，并且不准确的运动引起的扭曲误差不可避免地会跨时间帧传播，随着时间的推移逐渐降低重建帧的质量。

01

CVPR 2023 | ReRF：用于流媒体自由视视频的神经残差辐射场

真实的自由视角视频（Free-Viewpoint Videos，FVVs），尤其是人物表演这一类的动态场景，可以缩小表演者与观众之间的距离。但是将生成和观看 FVVs 变得像点击和观看常规 2D 视频一样简单，仍然是非常困难的目标。面临包括从数据处理和压缩到流媒体和渲染的各个方面的挑战。

01

视频体验评估标准(uVES1.0)模型及算法解读

视频业务快速发展，已经从强调用户规模走向注重提升服务品质的阶段。消费者对观看体验的要求不断提高，提升视频用户体验质量已经成为视频服务的主要竞争因素。

02

独家 | 创新工场首席科学家周明：NLP 与金融「联姻」，从经济实惠的小模型开始

作者 | 黄楠编辑 | 陈彩娴 6月6日，创新工场首席科学家、澜舟科技创始人周明博士代表澜舟科技，在北京与华夏基金签署战略合作协议，宣告成立「金融NLP联合实验室」。这是继周明在2020年12月离开微软亚洲研究院后的又一个重大动向。周明博士是我国研究自然语言处理（NLP）的先驱者之一：他是中国第一个中英翻译系统CEMT-I（哈工大1989年）、日本最有名的中日机器翻译产品J-北京（日本高电社1998年）的研制者，曾担任2019年国际计算语言学协会（ACL）主席，中国计算机学会理事、中文信息技术专委会

02

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

近年来，Transformer 已经成为了 NLP 和 CV 等领域的主流模型，但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在 2019 年 12 月和 2021 年 6 月分别推出了高效推理和训练引擎 LightSeq，大大加速了 Transformer 系列模型的训练和推理，也打通了 Transformer 从训练到推理的整个流程，极大优化了用户使用体验。最近，LightSeq 训练引擎相关论文[1]，被录用难度极高的超算领域国际顶会 SC22 接收，得到了学术界的广泛认可！

04

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

如何继续提升速度？降低计算精度是比较直接的方法。2017 年以来，fp16 混合精度技术 [2] 获得了广泛应用。在对模型效果无损的前提下，将模型训练和推理的速度提升了 50% 以上。而为了维持模型效果，更低精度的方法（例如 int8）通常需要使用如下传统方案：

01

英伟达发布最强图像生成器StyleGAN2，生成图像逼真到吓人

StyleGAN 生成的图像非常逼真，它是一步一步地生成人工的图像，从非常低的分辨率开始，一直到高分辨率（1024×1024）。通过分别地修改网络中每个级别的输入，它可以控制在该级别中所表示的视觉特征，从粗糙的特征（姿势、面部形状）到精细的细节（头发颜色），而不会影响其它的级别。

02

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言，模型量化显得更加重要。例如，GPT-3 模型的 175B 参数当使用 FP16 格式加载时，需消耗 350GB 的内存，需要至少 5 张 80GB 的 A100 GPU。

01

【白话模型量化系列一】矩阵乘法量化

模型量化是模型加速方向一个很重要的方法，主要思想就是用int8数据格式来存储和进行计算。这样做有两点好处：

02

全方位解读 | Facebook的搜索是怎么做的？

今天要和大家分享的论文是来自Facebook的『Embedding based Retrieval in Facebook Search』。

05

IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

标题：IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭