首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >三个印度人改变压缩算法,一意孤行整个暑假,却因“太简单”申不到经费

三个印度人改变压缩算法,一意孤行整个暑假,却因“太简单”申不到经费

作者头像
量子位
发布于 2022-07-12 07:15:02
发布于 2022-07-12 07:15:02
3750
举报
文章被收录于专栏:量子位量子位
明敏 丰色 发自 凹非寺 量子位 | 公众号 QbitAI

世界上最好用的压缩软件是什么?

微信。

这个段子想必很多人都听过。

一张几兆的图片,经微信一发,立马降到几百kb。

如果是有损压缩画质会下降(右图天空有波纹)

虽说这是个吐槽,但u1s1,图片视频压缩其实是一项非常必要的技术。

比如视频通话、传输大量图片时,如果不压缩的话,要么图像完全无法传送,要么就是干等了。

所以在数字时代这几十年里,萌生出了很多相关的技术,比如JPEG、H.26X。

不过你或许不知道,这些技术往上追溯,可以从47年前说起。

有三位名不见经传的印度工程师“一意孤行”,在没申请到研究经费的情况下,利用暑假时间鼓捣出来了一项技术,后来直接成为图像视频压缩的行业标准。

它就是DCT

全称为Discrete Cosine Transform,即离散余弦变换

而有趣的是,DCT诞生之初时,就连作者本人都没有想到,它后来会有如此巨大的影响力。

没有DCT,就没有JPEG/MPEG

直接说DCT可能很多人不知道是什么,但JPEG大家肯定都听过。

它除了是一种常见的图片文件后缀名,其实也是一种有损压缩标准,可以把一张图片从左边这样变成右边这样:

ps.有损和无损的区别:无损压缩可以再100%还原图像;有损不可以,但有损压缩后的图像大小会大大减少。

DCT就是实现这个过程的一种基础技术

它是傅立叶变换的一种,可以将图像从空域转换到频域,也就是把图像从像素矩阵变成用带有频率等信息的函数来表示。

具体变换过程,我们以一张图像中一个3x3的像素块为例:

 图源博客园博主@沉默的背影 X-Pacific

对这个像素块做DTC变换,就相当于把除了第一个像素以外,其余像素的部分信息都抽取到第一个格中。

这样,第一个格的像素值表示的就是一张图的总体样貌,称为低频信息;其余格表示的就是图像中人物或物体的细节,称为高频信息

经DCT转换后,每个3x3的像素块都会产生1个DC(直流)系数(位于第一个格)及8个AC(交流)系数(剩余格),前者是DCT最重要的输出

由于大部分的图像能量会集中在低频部分,因此转换之后输出的DC系数值比较大,而输出的AC系值比较小。

利用“人眼对低频分量的图像比对高频分量的图像更敏感”这一原理,再通过量化保存下来低频分量,舍弃高频分量(将大部分AC系数值变为0)、丢掉那些对视觉效果影响不大的信息,从而达到压缩目的。

从下面这两张图像的三维投影,我们可以看到DCT变换带来的改变:

(上:原图;下:经过DCT变换后)

在实际的JPEG压缩标准中,都是将一张图像分成若干个8x8的像素块(不够的用空白补齐)。

将色彩空间从RGB转为YUV之后,从左至右、从上至下对每个块进行DCT变换。

然后对每个块变换得来的系数进行量化,在这个过程中,一些重要的分量就被去除了,且无法恢复。

因此,这是一种不可逆的有损压缩技术。

接着对量化后得到的AC系数和DC系数再分别进行编码,经过哈夫曼编码后得到下面这样的一大串数字。

解压缩时对每个图像块做DCT反转换(IDCT),就可以重建完整图像。

具体计算过程如下:

首先将图片中每个像素的原始灰度和亮度值用8bit表示,也就是(0,255)这个范围。

由于大多数值都会分布在128左右,所以会将这些值都减去128,这样会有更多值为0,有利于压缩,这时候范围变成(-128,127)。

然后再用DCT变换公式进行变换,二维的用这个:

变换完后进行根据量化表进行量化,将大部分系数变为0,完成压缩。

ps.量化表是根据人眼对量化误差的视觉阈值来确定的,有固定的一张表。

后面就是前面说的一系列编码过程了。

1974年1月,这项技术首次被发表在IEEE Transactions on Computers上面。

自此,图像和视频压缩领域的行业标准就诞生了。

1998年世界首个视频压缩标准H.261、1992年的JPEG和MPEG、2010年的WebP、2013年的HEIF、2018年谷歌亚马逊等公司联合创建的AV1……等压缩标准都是基于这项技术,且一直沿用至今。

40多年都名不见经传的发明者

DCT的作者有3位,分别是Nasir Ahmed(纳西尔·艾哈迈德)、K.R. Rao(K.R.拉奥)和T. Natarajan(T.纳塔拉詹)。

纳西尔是新墨西哥大学电气与计算机工程系名誉教授。

他1940年出生于印度班加罗尔,1966年在新墨西哥大学获得博士学位。

1966-1968年,他在霍尼韦尔公司担任首席工程师,1968-1983年在堪萨斯州立大学担任教授。

1983-2001年,他回到新墨西哥大学担任电气与计算机工程系首席教授。在此期间,他先后担任过系主任、研究生院院长等职位。

今年,纳西尔已经有82岁高龄。

另一位主要作者是K.R.拉奥

他同样是一位美籍印度裔学者。

1960年,他在佛罗里达大学获得核工程专业博士学位。1966年,又在新墨西哥大学获得电气与计算机工程专业博士学位。

之后50年,他一直在得克萨斯州阿灵顿分校工作,担任电气工程系教授。

与此同时,他还是IEEE Fellow。

2021年1月15日,拉奥教授挥别人世,享年89岁。

T.纳塔拉詹当时是纳西尔带的博士生,如今在互联网上已经检索不到太多他的相关信息。

可以说相比于大名鼎鼎的DCT,几位发明者称得上是“名不见经传”了。

实际上,40多年来,DCT发明的幕后故事一直鲜有人关注。

甚至连纳西尔的儿子都表示,“从来没想过父亲带来的影响有如此之大”。

而将纳西尔从幕后推至台前的,还多亏了一部美剧中的一波致敬。

2020年,《我们的生活》中有一段剧情是纳西尔以视频通话的方式,讲述了自己和妻子相爱的故事。

片方表示,设计这一桥段的初衷,就是希望更多人意识到,当下我们能够通过互联网快速发送图片视频,都与纳西尔的工作离不开关系。

剧情播出后,不少媒体将DCT定义为“改变世界的算法”,也称纳西尔这位名不见经传的工程师,终于从幕后推到了台前。

不过,纳西尔在自己的回忆视频里表示,当初真的没想到DCT会带来如此大的影响。

我也无法预测技术发展的速度,对于FaceTime这些应用的出现,我感到非常惊讶。

纳西尔年轻时(图左)

要知道,DCT最初可能差一点就被扼杀在了摇篮里。

1972年,当时已经对DCT初有构思的纳西尔向美国国家科学基金会(NSF)递交了一份申请,希望NSF能为他研究DCT提供资金支持。

不过令纳西尔惊讶的是,这个申请直接被毙掉了,评审人给出的意见是“它太简单了”。

但好在纳西尔并没有放弃,他始终觉得这个idea很有新意。

唯一令他有所顾虑的是,他可能是只能利用假期来完成DCT的相关工作了,而且这期间可能没有任何收入

所以,纳西尔回家和妻子说:

我有直觉,这事儿值得做下去。只不过我们需要计划好如何度过一个没有薪水的暑假。

妻子没有任何犹豫就支持了他。

于是,在1973年的夏天,DCT的研究工作正式开始了。

参与到这项研究的,还有纳西尔的好友拉奥和博士生纳塔拉詹。

拉奥也是支持纳西尔研究DCT的重要人物之一。

在纳西尔的申请被毙掉后,他第一时间把自己的想法告诉了好友拉奥。

拉奥给出了这样的回复:

你要立即把这些结果以短文的形式发表。

这就是“How I Came Up with the Discrete Cosine Transform”诞生的始末。

后来,这篇文章几乎称得上是图片视频压缩领域的必读之文。

之后的故事,也就是我们所熟知的了。

1974年,《Discrete Cosine Transform》在IEEE Transactions on Computers上发表。

截至目前,这篇文章的被引次数已经达到5878次。

纳西尔曾在采访中表示,自己人生中最大的礼物,就是人们对DCT的认可。

参考链接: [1]https://spectrum.ieee.org/krrao-tribute https://www.islamicity.org/80703/nasir-ahmeds-algorithm-that-transformed-the-world/ [2]https://cloud.tencent.com/developer/article/1862531 [3]https://mp.weixin.qq.com/s?__biz=MzU1NTEzOTM5Mw==&mid=2247512538&idx=1&sn=57f46386002cf5554681f8ef9f61a3e0&chksm=fbda19f4ccad90e219bf224db522e9999086dff886bae09562e1aeba4450d4ba0247a73c3138&scene=21#wechat_redirect [4]https://blog.csdn.net/freee12/article/details/109953732 [5]https://blog.csdn.net/weixin_52779958/article/details/124413405 [6]https://www.youtube.com/watch?v=I9VXaVVs7WY

人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DCT如此重要,作者当初竟然不知道?
作者 | Alex、赵军 技术审校 | 赵军 Nasir Ahmed 声影传奇 #003# 前段时间,LiveVideoStack发布了一篇文章《视频压缩简史:从1920到2020》,这篇文章获得了很高的阅读量,文章中记录了一个又一个视频压缩历史上的里程碑事件,而其中最引人注目,也最重要的发明之一就是DCT。没有DCT,后面的H.26X, JPEG等一系列压缩标准将无从谈起。 什么是DCT? 随着现代人越来越依赖计算机,需要传输的数据数量和种类也越来越多,比如我们经常分享给别人的照片和视频。如何在不
腾讯云音视频
2021/08/17
1.9K0
90 岁程序员:他的压缩算法改变了世界!
近日,国际电气与电子工程学会(Institute of Electrical and Electronics Engineers,简称 IEEE)宣布,授予 IEEE 终身 Fellow Jacob Ziv 2021 年度 IEEE 荣誉勋章。
GitHubDaily
2021/05/19
4420
90 岁程序员:他的压缩算法改变了世界!
视频压缩标准简史:从1929到2020
多年以来,人们设计出许多不同的算法来压缩视频。视频压缩虽然听起来是一个很现代的词,但其实它从模拟视频开始,已经有很长的历史了。在本篇文章中,我会向大家一一介绍视频压缩史上的里程碑事件,正是这些事件的发生才有了今天的视频压缩。从过去到现在,各类视频压缩方法由最初的概念最终演化成现今的标准。很多压缩标准今天还在使用,人们也一直在继续开发和完善新的标准。
LiveVideoStack
2021/07/30
1.5K0
一场深度学习引发的图像压缩革命
雷锋网 AI 研习社按,2012 年,AlexNet 横空出世,以 15.4% 的低失误率夺得当年 ILSVRC(ImageNet 大规模视觉识别挑战赛)冠军,超出亚军十多个百分点。AlexNet 开启了深度学习黄金时代,随之而来是深度学习在图像识别上的蓬勃发展:
AI研习社
2018/07/26
9010
一场深度学习引发的图像压缩革命
JPEG算法概述及实现
本文将简单介绍下JPEG算法的实现流程,包括图像分割、颜色空间转换、DCT、Quantization、Huffman coding等。 JPEG概述 图像压缩很重要。有这么几种压缩算法: JPEG(非
用户1147754
2018/01/02
3.8K0
JPEG算法概述及实现
干货 | 用深度学习设计图像视频压缩算法:更简洁、更强大
说到图像压缩算法,最典型的就是 JPEG、JPEG2000 等。 图 1:典型图像压缩算法 JPEG、JPEG2000 其中 JPEG 采用的是以离散余弦转换(Discrete Cosine Tra
AI科技评论
2018/03/15
4.7K1
干货 | 用深度学习设计图像视频压缩算法:更简洁、更强大
jpeg编码学习笔记
jpeg编码学习笔记 各种图片格式目的是在网络传输和存储的时候使用更少的字节,即起到压缩的作用。在图片格式解码后,无论图片的格式,图片数据都是像素数组。 本文将尝试通过JPEG这种图片编码格式的学习,了解图片编码的秘密。 ---- JPEG简介 一张100X100大小的普通图片,如果未经压缩,大概在100*100*4*8bits=0.3MB左右,这也是图片在内存中占用的内存大小。 通常JPEG文件相对于原始图像,能够得到1/8的压缩比,如此高的压缩率是如何做到的呢? JPEG能够获得如此高的压缩比是
felix
2018/06/08
2.3K0
腾讯音视频实验室杰出科学家刘杉:我们处于视频编解码标准制定的起点,而非终点。
2017年12月28日,由腾讯社交网络事业群(SNG)主办TSAIC学术&工业交流盛会在腾讯滨海大厦举行,150余位来自麻省理工、斯坦福、卡耐基梅隆、清华、中科院计算机所、微软研究院等海内外知名高校、研究所的学者和研究员受邀出席。 腾讯音视频实验室杰出科学家刘杉作为主讲嘉宾出席此次大会。在会上,她分享了视频编解码领域的核心技术和编解码标准的变迁。她说目前我们所处的阶段应该视为下一代视频编解码标准制定的一个起点,而非终点。在视频编解码方面,我们会持续进行技术研究和标准布局,为用户带来更好的体验。 以下是刘杉演
腾讯多媒体实验室
2018/04/10
2.3K0
腾讯音视频实验室杰出科学家刘杉:我们处于视频编解码标准制定的起点,而非终点。
视觉无损的深度学习前处理算法
在过去几十年中,视频压缩领域取得了许多进展,包括传统的视频编解码器和基于深度学习的视频编解码器。然而,很少有研究专注于使用前处理技术来提高码率-失真性能。在本文中,我们提出了一种码率-感知优化的前处理(RPP)方法。我们首先引入了一种自适应离散余弦变换损失函数,它可以节省比特率并保持必要的高频分量。此外,我们还将低级视觉领域的几种最新技术结合到我们的方法中,例如高阶退化模型、高效轻量级网络设计和图像质量评估模型。通过共同使用这些强大的技术,我们的RPP方法可以作用于AVC、HEVC和VVC等不同视频编码器,与这些传统编码器相比,平均节省16.27%的码率。在部署阶段,我们的RPP方法非常简单高效,不需要对视频编码、流媒体和解码的设置进行任何更改。每个输入帧在进入视频编码器之前只需经过一次RPP处理。此外,在我们的主观视觉质量测试中,87%的用户认为使用RPP的视频比仅使用编解码器进行压缩的视频更好或相等,而这些使用RPP的视频平均节省了约12%的比特率。我们的RPP框架已经集成到我们的视频转码服务的生产环境中,每天为数百万用户提供服务。我们的代码和模型将在论文被接受后发布。
用户1324186
2023/09/09
8900
视觉无损的深度学习前处理算法
JPEG/Exif/TIFF格式解读(1):JEPG图片压缩与存储原理分析
JPEG的全称是JointPhotographicExpertsGroup(联合图像专家小组),它是一种常用的图像存储格式, jpg/jpeg是24位的图像文件格式,也是一种高效率的压缩格式,文件格式是JPEG(联合图像专家组)标准的产物,该图像压缩标准是国际电信联盟(International Telecommunication Union,ITU)、国际标准化组织(International Organization for Standardization,ISO)和国际电工委员会(International Electrotechnical Commission,IEC)共同制定。JPEG标准正式地称为ISO/IEC IS(国际标准)10918-1:连续色调静态图像数字压缩和编码(Digital Compression and Coding of Continuous-tone Still Images)和ITU-T建议T.81。
周陆军
2020/07/24
4K0
部分图像压缩技术的优缺点以及应用
脑图地址 1. 分形图像压缩技术 作者 技术 功能 优点 缺点 应用 结果 Jeng et al. (2009) Huber 分形图像压缩 嵌入线性Huber回归编码 保持图像质量 高计算成本 适用于损坏的图像压缩 由于图像中的噪声HFIC对异常值具有较好的鲁棒性,PSNR为>26.42 dB Thomas and Deravi (1995) 使用启发式搜索分形图像压缩 通过自变换有效利用图像冗余 达到双倍压缩比率 编码排序长度比解码长 多媒体和图像归档 压缩比达到41:1 Kumar et al. (19
繁依Fanyi
2023/05/07
6990
[基础知识] JPEG 中的信号处理
计算机通常的颜色空间是 RGB 模型,每个像素由三个 0-255 的值表示。每个值由 8 位/1 字节来存储,则图像的每个像素需要占用 3 个字节的存储空间。因此,对于一张 2592×1944 的图片,其占用内存空间可达 15M 字节,但是使用 JPEG 压缩后,其只需要 0.8M 字节,并且不会影响图像的视觉效果。
用户1324186
2022/05/25
1.8K0
[基础知识] JPEG 中的信号处理
15.计算机科学导论之数据压缩学习笔记
此部分包含第15、16、17和18章,包含了计算机中传输的数据压缩(有损与无损)、网络数据在传输过程中如何保证其数据安全, 讨论计算理论,即哪些是可计算的,哪些是不可计算的,最后介绍当前热门的人工智能(AI)的观点,加深我们对计算机数据处理的的认识,为后续学习扩展基础认识。
全栈工程师修炼指南
2023/02/03
1.2K0
[强基固本-视频压缩] 第十一章:离散余弦(正弦)变换
让我们回顾一下使用 H.265/HEVC 系统编码时处理视频帧的主要步骤(图 1)。第一步通常称为 "块划分",将帧划分为称为 CU(编码单元)的块。第二步是使用空间预测(Intra)或时间预测(Inter)对每个块内的图像进行预测。在进行时间预测时,CU 块可被划分为称为 PU(预测单元)的子块,每个子块都有自己的运动矢量。然后,从正在编码的图像的样本值中减去预测的样本值。因此,每个 CU 都会形成一个二维(2D)差分信号或残差信号。第三步,将残差信号样本的二维阵列划分为所谓的 TU(变换单元),进行二维离散余弦傅里叶变换(包含内部预测强度样本的 4×4 大小的 TU 除外,对其采用离散正弦傅里叶变换)。
用户1324186
2024/03/20
2200
[强基固本-视频压缩] 第十一章:离散余弦(正弦)变换
点云压缩研究进展与趋势
以激光扫描为代表的主动采集装备在易操作性、机动灵活性、智能化、高效化等方面日益成熟,利用三维成像技术采集密集点的空间坐标、色彩纹理和反射强度等信息,可高保真且快速重建被测目标的三维实体,在工程测量、生物医学、智慧城市、虚拟现实(VR)、增强现实(AR)等科学与工程研究中发挥十分重要的作用[1-4]。
一点人工一点智能
2023/03/13
3.1K0
点云压缩研究进展与趋势
[强基固本—视频压缩] 第一章:视频编码简述
第一个被广泛接受的视频压缩标准MPEG-2于1996年被采纳,随后数字卫星电视得到了快速发展。下一个标准是MPEG-4 part 10(H.264/AVC),它提供了两倍的视频数据压缩率。它于2003年被采纳,导致了DVB-T/ C systems、互联网电视的发展以及各种视频共享和视频通信服务的出现。从2010年到2013年,联合视频编码联合协作小组(JCT-VC)积极致力于创建下一个视频压缩标准,开发者称之为高效视频编码(HEVC);它实现了数字视频数据压缩率的两倍增长。这一标准于2013年获得批准。同年,由谷歌开发的VP9标准被采纳,据称在视频数据压缩率上不逊于HEVC。
用户1324186
2024/02/29
3170
[强基固本—视频压缩] 第一章:视频编码简述
视频编解码学习分享
目录 视频为什么要编解码 视频是否可以压缩 编解码实现原理 编解码标准和国际组织 视频文件封装(容器) 视频质量评价体系 1.为什么视频要编解码? 未经过压缩的视频数据量非常大,存储困难,同时也不便于
MelonTeam
2018/01/04
5.7K1
视频编解码学习分享
视频编码(2):H.265 如何比 H.264 提升 40% 编码效率丨音视频基础
我们在前文《视频编码(1)》中探讨了 H.264 视频编码的基本概念、编码工具、编码流程及码流结构等基础知识,接下来我们来继续探讨在 H.264 基础上迭代而生的 H.265 有哪些改进,看看它是如何在同样的画面质量下将编码码率降下来的。本文内容包括如下章节:
关键帧
2022/06/13
1.6K0
视频编码(2):H.265 如何比 H.264 提升 40% 编码效率丨音视频基础
阿里达摩院实习生立功!何恺明Mask R-CNN精度提升,一半输入数据量就行 | CVPR2020
这就是阿里达摩院提出的图像分析新方法:“频域学习”(Learning in the Frequency Domain)。
Amusi
2020/03/13
9920
浅入浅出谈“视频压缩”
1 我们为什么要进行压缩? 2 视频信息为什么可以被压缩? 3 视频压缩算法概述 (一)我们为什么要进行压缩? 原始的视频数据YUV(RGB)很大,举个例子: 1080p@60fps,2h的电影,其
腾讯多媒体实验室
2022/07/27
2.1K0
浅入浅出谈“视频压缩”
推荐阅读
相关推荐
DCT如此重要,作者当初竟然不知道?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档