非结构化稀疏是一种常见的模型压缩策略。本文中,我们将分享一套基于飞桨(PaddlePaddle) 的非结构化稀疏训练和推理的端到端系统,以及为保证训练精度与推理速度而做的优化策略。移动端实测 MobileNetV1,稀疏度 80%,精度损失小于 1%,FP32 和 INT8 模型推理加速 70% 和 60%;稀疏度 90%,精度损失 2.7%,FP32 和 INT8 加速 178% 和 132%。
模型压缩可以有效地减少模型的存储和计算资源需求,提高模型的推理速度和效率,从而实现在移动设备、边缘设备等资源受限的场景中进行高效的机器学习应用。常用的模型压缩方法有4种:知识蒸馏(Knowledge Distillation,KD)、 轻量化模型架构、 剪枝(Pruning)、 量化(Quantization)。
这篇论文提出了一种高稀疏性基础大型语言模型(LLMs)的新方法,通过有效的预训练和部署,实现了模型在保持高准确度的同时,显著提升了处理速度。
自 2020 年 GPT-3 横空出世以来,ChatGPT 的爆火再一次将 GPT 家族的生成式大型语言模型带到聚光灯下,它们在各种任务中都已显示出了强大的性能。
---- 新智元报道 作者:刘宁 编辑:好困 【新智元导读】「彩票假说」指出神经网络可能存在准确率和原始网络相近的子网络。然而,这种中奖特性在许多情况中很难被观测到。最近,王言治教团队发现并揭示了中奖特性的潜在条件和基本原理。 在深度模型压缩领域中,「彩票假说」(Lottery Tickets Hypothesis)指出一个原始神经网络可能存在中奖彩票的子网络(Winning ticket),该子网络可以达到和原始网络相近的准确率。 然而,这种中奖特性(Winning property)在许多情况
很幸运,ICML2021的两篇稀疏训练 (Sparse Taining) 投稿都被接受了。这应该是读博这几年最令我开心的事了!尤其是RNN这篇,2 wa, 2 wj,最后居然被接受。ICML的rebuttal还是很有用的。
上周,机器之心 NIPS 2017 线上分享邀请到了杜克大学温伟。温伟博士分享了两种不同的方法 TernGrad 与 SSL。这篇文章对温伟博士的分享做了回顾,同时也编译介绍了这两篇相关论文。 温伟博
AI 科技评论按:如今,基于深度学习的 AI 系统日趋产业化,如何有效地在云端和雾端进行落地成为一个核心问题。相对于传统机器学习,深度学习无论是训练还是部署都对计算和通信等提出了很大的挑战。在云端(如 Google Cloud、Amazon AWS、Microsoft Azure、Facebook Big Basin),深度神经网络的训练依赖于分布式系统,其可扩展性受限于通信带宽。 在雾端(Fog Computing,如移动手机的 Face ID、无人机、去中心化自动驾驶系统等),便携设备的计算等资源有限,深度神经网络的高效部署依赖于模型压缩与加速技术,以完成轻量级部署。
面对越来越深的深度学习模型和海量的视频大数据,人工智能算法对计算资源的依赖越来越高。为了有效提升深度模型的性能和效率,通过探索模型的可蒸馏性和可稀疏性,本文提出了一种基于 “教导主任 - 教师 - 学生” 模式的统一的模型压缩技术。
【新智元导读】Facebook AI 实验室负责人Yann LeCun 在 CVPR2015 演讲,提到了深度学习在计算机视觉领域的应用及局限,比如缺乏理论、缺少论证、缺乏无监督学习,当然也提到了基于
基于模式化稀疏度的剪枝方法能够使深度神经网络在图像识别任务中「看得」更清楚,同时减小了模型尺寸,使模型在移动端「跑得」更快,实现实时推理。
之前我们介绍过在机器学习和深度学习中可能存在过拟合问题,过拟合会导致高偏差,解决办法有两个,一个是增加数据量,一个是正则化,下面我们就介绍一下正则化。
2018年,香港浸会大学异构计算实验室与MassGrid合作,通过研究提出一种可用于低带宽网络的全局Top-k稀疏化的分布式同步SGD算法,并通过实验论证出在低带宽网络下也能高效进行AI训练。目前实验结果及相关论文已被ICDCS workshop收录。
选自Lilian Weng的博客 作者:Lilian Weng 机器之心编译 编辑:赵阳 本文是一篇综述性的博客,探讨总结当下常用的大型 transformer 效率优化方案。 大型 Transformer 模型如今已经成为主流,为各种任务创造了 SOTA 结果。诚然这些模型很强大,但训练和使用起来代价非常昂贵。在时间和内存方面存在有极高的推理成本。概括来说,使用大型 Transformer 模型进行推理的难点,除了模型的规模不断扩大外,还有两个不可忽略的地方: 内存消耗大:推理时,需要把模型参数和中间状
这篇文章是ICCV 2017的一篇模型压缩论文,题目为《 Learning Efficient Convolutional Networks through Network Slimming》。2019年有相当多的关于YOLOv3的剪枝开源工程,他们大多数的原理都来自于这篇论文,这篇论文的思想值得仔细品读。论文原文地址和Pytorch开源代码地址见附录。
在深度学习领域,模型通常会对所有输入重用相同的参数。但 Mixture of Experts (MoE,混合专家) 模型是个例外,它们会为每个输入的例子选择不同的参数,结果得到一个稀疏激活模型——虽然参数量惊人,但计算成本恒定。
由美国东北大学王言治教授研究团队与美国威廉玛丽学院任彬教授研究团队共同提出,IBM、清华等共同研究的模式化稀疏度感知训练框架,不仅能够同时实现卷积核稀疏模式的全自动提取、模式化稀疏度的自动选择与模型训练,还证明了所提取的模式化稀疏度与理论最佳模式化稀疏度相匹配,并进一步设计了能够利用模型特点实现编译器优化的移动端推理框架,实现了大规模深度神经网络在手机移动端上的实时推理。目前,这篇文章已被 ECCV 2020 会议收录,该文章同时入选 ECCV 2020 demonstration track。
神经网络具有的推理功能,使得许许多多实时应用变为可能——比如姿态估计和背景模糊。这些应用通常拥有低延迟的特点,并且还具有隐私意识。
今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的一篇关于零阶优化深度学习框架的文章 “DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training”,本文被 ICLR 2024 接收,代码已开源。
随着深度学习与 3D 技术的发展,神经辐射场(NeRF)在 3D 场景重建与逼真新视图合成方面取得了巨大的进展。给定一组 2D 视图作为输入,神经辐射场便可通过优化隐式函数表示 3D。
大规模视觉 Transformer (ViT)模型已经在广泛的下游视觉任务中展示出强大的泛化能力。将这些模型适配到特定任务的普遍方法是遵循先预训练后微调的范式,模型最初在大规模数据集上进行预训练,然后针对每个下游任务进行微调。然而,随着这些预训练的ViT模型规模的不断扩大[57; 7],完全微调它们变得计算上更加密集。此外,在有限的下游数据集上进行微调时,还存在灾难性遗忘和过拟合的风险。
为什么在Google的Wide&Deep模型中,要使用带L1正则化项的FTRL作为wide部分的优化方法,而使用AdaGrad作为deep部分的优化方法?
大型模型在许多任务上都产生了令人印象深刻的结果,但是训练和微调的成本很高,而且解码速度过慢,以至于研究和使用难度提升。华沙大学,谷歌研究和OpenAI的学者们通过利用稀疏性来解决这个问题。他们研究了模型中所有层级的稀疏变量,并提出了下一代Transformer模型族-Scaling Transformers。 作者|郑宇宏 编辑|陈彩娴 1 Scaling Transformers: 让大型语言模型更易于管理 近年来,基于Transformer架构的大型神经网络,自然语言处理领域取得了巨大的进步。前几年在R
《Channel pruning for Accelerating Very Deep Neural Networks论文解读》
新视角合成是计算机视觉和图形学领域中一项长期存在并且富有挑战的任务。过去两年,NeRF及其衍生工作的提出将该任务提升到了新的高度。然而,基于NeRF的方法的训练和渲染需要大量的成本才能达到理想的效果,比如稠密的输入视角和耗时的训练与渲染。尽管后续的一些稀疏视角NeRF的工作以及InstantNGP的提出在一定程度上解决了部分缺陷,但NeRF方法始终没有做到实时和高质量的高分辨率渲染。
选自Stanford 机器之心编译 参与:路雪、蒋思源 韩松,2017 年斯坦福大学电子工程系博士毕业,师从 NVIDIA 首席科学家 Bill Dally 教授。他的研究也广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR'16 最佳论文,ESE 稀疏神经网络推理引擎获得 FPGA'17 最佳论文,对业界影响深远。他的研究成果在 NVIDIA、Google、Facebook 得到广泛应用,博士期间创立了深鉴科技,2018 年将任职 MIT 助理教授
选自arXiv 机器之心编译 参与:Panda ICLR 2018 将在当地时间明年 4 月 30 日~5 月 3 日在加拿大温哥华举办。目前正处于评审阶段的会议论文也正陆续公开。近日,机器之心发现了这样一篇有望极大改善分布式训练效率的研究论文。以下是我们对该论文的摘要介绍。 大规模分布式训练可以提升越来越深和越来越大的模型的训练效率(Chilimbi et al., 2014; Xing et al., 2015; Moritz et al., 2015; Zinkevich et al., 2010)。
本文分享一篇由清华& UCLA联合研究的论文『DynamicViT: Effificient Vision Transformers with Dynamic Token Sparsifification』,提出token 的动态稀疏化采样,降低 inference 时的计算量。
该项目也说明在使用YOLOv3进行单类目标检测时,模型存在大量冗余,剪枝可以较好的减少参数、提高速度。
深度自编码在异常检测中得到了广泛的应用。通过对正常数据的训练,期望自编码器对异常输入产生比正常输入更高的重构误差,以此作为识别异常的判据。然而,这一假设在实践中并不总是成立。有人观察到,有时自动编码器“概括”得很好,也能很好地重建异常,导致异常的漏检。为了减轻基于自编码器的异常检测的这个缺点,我们建议使用内存模块来增加自编码器,并开发一种改进的自编码器,称为内存增强自编码器,即MemAE。对于给定的输入,MemAE首先从编码器获取编码,然后将其作为查询来检索与重构最相关的内存项。在训练阶段,内存内容被更新,并被鼓励表示正常数据的原型元素。在测试阶段,学习记忆是固定的,从正常数据中选取少量记忆记录进行重构。因此,重建将趋向于接近一个正常的样本。从而增强异常的重构误差,用于异常检测。MemAE没有对数据类型的假设,因此适用于不同的任务。在各种数据集上的实验证明了该备忘录具有良好的泛化性和较高的有效性。
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。
稀疏网络训练一直是深度学习中训练神经网络的难点。随着网络规模和数据量的不断增加,训练成本也不断提升。如何有效的训练稀疏网络来维持合理的训练开销便十分重要。另一方面,找到有效的稀疏网络训练方法对理解神经网络的工作原理同样很有帮助。
机器之心专栏 机器之心编辑部 来自美国东北大学、圣克拉拉大学和 Meta 的研究者提出对偶彩票假说(Dual Lottery Ticket Hypothesis,DLTH),随机的子网络都可以被转换成中奖彩票。 稀疏网络训练一直是深度学习中训练神经网络的难点。随着网络规模和数据量的不断增加,训练成本也不断提升。如何有效的训练稀疏网络来维持合理的训练开销变得十分重要。另一方面,找到有效的稀疏网络训练方法对理解神经网络的工作原理同样很有帮助。 近日,来自美国东北大学,圣克拉拉大学和 Meta 的研究者提出对偶
Transformer 模型在很多不同的领域都取得了SOTA,包括自然语言,对话,图像,甚至音乐。每个 Transformer 体系结构的核心模块是 Attention 模块,它为一个输入序列中的所有位置对计算相似度score。
对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
深度学习算法(第29期)----可视化自编码器和无监督预训练 今天我们一起学一下降噪自编码器和稀疏自编码器方面的知识。
MoE-LLaVA只有3B个稀疏激活参数,表现与LLaVA-1.5-7B在各种视觉理解数据集上相当,并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在建立稀疏LVLMs的基准,并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。并且MoE-LLaVA团队已经开放了所有的数据、代码和模型。
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2207.05536.pdf 计算机视觉研究院专栏 作者:Edison_G “从稀疏到密集”的范式使SSOD的流程复杂化,同时忽略了强大的直接、密集的教师监督 01 概述 Mean-Teacher (MT) 方案在半监督目标检测 (SSOD) 中被广泛采用。在MT中,由教师的最终预测(例如,在非极大抑制 (NMS) 后处理之
2018 IEEE International Conference on Cluster Computing
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 多模态模型常见,但是基于稀疏化的还是头一个。 谷歌带来最新成果LIMoE,首次将稀疏化方法用在了图像文本混合模型上。 要知道,随着大模型参数呈指数级增加,训练成本也是一路飙升。 所以如何降低训练成本,成为了目前学界重点关注的一个问题。 谷歌想到的办法,不是拼硬件,而是从模型本身入手。 利用稀疏化的方法,让每次输入只需激活部分网络就能完成任务。 它们在模型内部设置了很多“专家”,每个“专家”只需处理对应部分的输入,根据任务情况按需使用“专家”就好。 这样一
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。 一般来说,监督学习可以看做最小化下面的目标函数: (正则化代价函数)=(经验代价函数)+(正则化参数)X(正则化项) 第一项是衡量模型预测与实际的
https://github.com/PKU-YuanGroup/MoE-LLaVA
最近,创业公司Neural Magic带来了一种名叫新的稀疏化方法,可以帮你解决烦恼,让你的深度学习模型效率“一节更比七节强”!
XGBoost是Extreme Gradient Boosting的缩写,是一个非常流行的开源机器学习库,以其高性能和出色的准确性而闻名。它已广泛应用于各个领域,包括数据科学、金融和在线广告。
从2010年到2018年,GPU性能提高了97倍。但是,由于我们几乎已达到了半导体技术的物理极限,可以预计,在未来5-8年内GPU性能的提升仅会略高于80%。
选自arXiv 机器之心编译 编辑:袁铭怿 我们可以压缩大型语言模型以获得更好的性能吗?本文中,研究者提出了剪枝技术 SparseGPT,可以一次性修剪至少 50% 的稀疏性,而无需任何重新训练,并且准确率损失最小。 GPT 家族的大型语言模型(LLMs)在诸多任务中取得了出色的表现,但模型庞大的规模和高昂的计算成本也增加了部署难度。例如,性能最好的 GPT-175B 模型约有 1750 亿参数,以半精度(FP16)格式计算,总计至少占 320GB(计算 1024 的倍数)的存储空间,所以需要至少 5 个
一般而言,AI模型的大小与其训练时间相关,因此较大的模型需要更多的时间来训练。通过修剪可以优化数学函数(或神经元)之间的连接,从而减小其整体尺寸而不会影响准确性,但是训练之后才能进行修剪。
GNN在许多任务上实现了最先进的性能,但在处理具有大量数据和严格延迟要求的实际应用程序时,面临可扩展性挑战。为了应对这些挑战,已经进行了许多关于如何加速GNN的研究。这些加速技术涉及GNN的各个方面,从智能训练和推理算法到高效系统和定制硬件。本综述提供了GNN加速的分类,回顾了现有的方法,并提出了未来的研究方向。
现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-regularized-Leader)算法,在处理诸如逻辑回归之类的带非光滑正则化项(例如1范数,做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色,据闻国内各大互联网公司都第一时间应用到了实际产品中,我们的系统也使用了该算法。这里对FTR
受Transformer模型在自然语言处理(NLP)应用中的成功启发,A.Dosovitskiy、Dosovitski等人介绍了用于计算机视觉(CV)应用的视觉Transformer(ViT)。视觉Transformer模型在ImageNet数据集上显示出77.9%至81.3%的Top-1准确率,并已用于许多下游图像识别任务,如分类、目标检测和分割。
领取专属 10元无门槛券
手把手带您无忧上云