
手机厂商的发布会上,像素数字越来越大,从 5000 万到 1 亿,再到 2 亿。每一次发布,都会有一段措辞相近的描述:
更多像素,更丰富的细节,更清晰的照片。
这话听上去没毛病,但有一个地方说错了。
更多像素,不等于更清晰的照片。
这不是在吹毛求疵,这是物理规律决定的事情。像素数首先只是一个采样数量,它记录了你把图像分成了多少个采样位置。只有结合传感器尺寸、输出尺寸或显示尺寸,才谈得上采样密度。它本身并不会告诉你,每个采样位置里的信息是不是准确、完整、没有噪声。
我们平常说一张照片"清晰",其实在同时说好几件事:边缘锐利、层次分明、细节丰富、没有模糊、噪点少。这些是不同维度的描述,背后对应着完全不同的物理机制。
把它们全部压缩进"像素数"这一个数字,就像用一个人的体重来判断他的健康状况一样,有一定参考价值,但远远不够,有时候还会完全误导你。
所以在聊清晰度之前,得先把这件事说清楚:清晰度不是一个参数,它是一个系统性的结果。

有意思的是,我们对清晰度的感知,本身就带有相当大的主观成分。
人眼对图像的判断并不是像扫描仪那样逐像素读取,而是对边缘、对比度、亮度分布这些特征极其敏感。这就是为什么一张图即使像素不高,只要对比度足够强、边缘足够锐,看起来就会觉得"很清晰"。
反过来,一张像素极高但整体发灰、细节被噪声覆盖的照片,看起来就会"糊"。
这个现象在视觉科学里有个具体的描述叫做对比敏感函数(Contrast Sensitivity Function,CSF)。
大意是,人眼对不同空间频率(也就是图像中细节的疏密程度)的敏感度是不均匀的。我们对中等频率的细节最敏感,对极低频和极高频的变化感知都会减弱。这也意味着,单纯堆高频细节,不见得会让人觉得照片更清晰。
理解了这一点,你就会明白为什么专业摄影师通常不会只聊"这相机多少像素"。他们也会在意镜头的解析力、传感器的动态范围、噪声控制的水平。这些同样是真正影响最终感知清晰度的东西。
清晰度究竟由什么决定?光学工程领域有一个相对完整的描述:
清晰度是光学解析力(MTF)、噪声水平、对比度、分辨率与人眼感知共同作用的结果。
这个描述里,像素数量只是"分辨率"这一项里的一个影响因素,而且不能脱离输出尺寸、镜头表现、图像信噪比和对比度单独判断。
这听起来可能有点绕。接下来我们一步一步往前拆,从"像素"这个词本身开始说起。
"像素"这个词,是对 pixel 的中文译名。英文 pixel 来自 pix 和 element 的拼合,常被解释为 picture element,字面意思就是"图像元素",也就是构成图像的最小单元。
这个词第一次正式出现在文献里,是 1965 年。地点不是哪家相机公司或者影像实验室,而是美国航空航天局旗下的喷气推进实验室(JPL,Jet Propulsion Laboratory)。
当时,NASA 正在执行"徘徊者号"和"水手号"深空探测任务,探测器会把月球和火星表面的图像信号传回地球。这些图像不是用胶片拍的,而是通过扫描的方式,把一幅画面拆成一行一行的亮度数值传输回来,地面再把这些数值重新组合成图像。
工程师 Fred C. Billingsley 在处理这些数据时,需要一个词来称呼这些被拆解出来的最小图像单位,于是他在 1965 年的 SPIE 技术报告里使用了 pixel 这个词。
韦氏词典确认其首次书面使用是 1965 年,词源是 pix(pictures 在 1932 年的缩写形式)加上 element。
这个词在 1970 年代随着数字图像处理技术的发展逐渐扩散到学术圈,1980 年代计算机图形产业兴起后,它才真正成为大众词汇。
这段历史有个细节值得停下来想一想:像素这个概念最初不是为了描述"清晰度",而仅仅是为了描述"图像是由什么构成的"。它从一开始就只是一个计数单位,和清晰度本身没有直接关联。
好,现在来认真回答这个最基础的问题:1 个像素,到底是什么?
最简单的理解:1 个像素,是数字图像里能被独立处理的最小单位。
你可以把一张数字照片想象成一张由无数个小格子铺成的网格。每个格子只有一种颜色,而且是均匀的,不能再细分。这个格子,就是一个像素。如果你打开 Photoshop,把一张图片放大到极限,你最终会看到一个个纯色的小方块——那就是像素在屏幕上的可见形态。
但这里有一个重要的区分:我们在屏幕上看到的那些"小方块",是显示系统在渲染像素时产生的视觉效果,不是像素本身的物理形状。像素的本质不是方块,而是一个采样点。
什么叫采样点?想象你要记录一段音乐,你不可能把连续的声波完整储存,所以你每隔一段时间测一次音量,把一连串数值记录下来,这叫做采样。
图像也一样,传感器不可能储存连续的光线信息,它在空间上把场景分成许多个采样位置,每个位置记录一次光强,或者在彩色滤镜之后记录某个颜色通道的滤色光强。这就是空间采样。
所以,最终图像里的 1 个像素记录的是:图像某个位置的颜色和亮度信息;而传感器原始数据里的一个采样位置,记录的通常是滤色后的光强。
一张 2400 万像素的最终 RGB 照片,意味着整个画面被分成了 2400 万个位置,每个位置通常包含红、绿、蓝三个通道的数值。需要注意的是,这说的是已经经过处理后的图像;在常见的 Bayer RAW 原始数据里,每个感光位置通常只记录一个滤色后的亮度值。
这里有一个很多人没有注意过的问题:传感器上的感光单元,天生只能感知光线的强度,不能分辨颜色。
光是电磁波,不同颜色的光对应不同的波长。人眼之所以能看到颜色,是因为视网膜上有三类视锥细胞,通常记为 L、M、S,分别对长波、中波、短波光更敏感。把它们粗略说成"红、绿、蓝"可以帮助理解,但严格来说它们的光谱响应是宽而重叠的,并不是相机 RGB 滤镜那样的三个离散通道。
相机传感器借用了"分通道采样再重建颜色"的思路。在感光元件的每个像素上方,覆盖着一块彩色滤镜,这套滤镜阵列通常叫做拜耳阵列(Bayer Filter Array),由 Eastman Kodak 工程师 Bryce Bayer 发明,相关专利在 1976 年授权。
拜耳阵列的排列方式是:每 4 个像素为一组,2 个绿色滤镜、1 个红色滤镜、1 个蓝色滤镜,呈棋盘格分布。绿色占了一半,因为人眼对绿色最敏感,用更多的绿色采样点能更好地还原亮度信息。
这样一来,每个感光单元只接收一种颜色的光,只记录一个数值。常见 Bayer 传感器输出的核心原始数据,是一张每个位置只有红、绿、蓝其中一个数值的"残缺图",这是 Bayer RAW 数据最关键的特征之一。
要从这张"残缺图"得到每个像素点的完整颜色,需要一个叫做去马赛克(Demosaicing)的算法。这个算法通过分析每个像素周围的邻居的颜色信息,用插值计算推算出这个位置应该是什么颜色。这是相机内部(或者 RAW 处理软件)完成的一个关键步骤,在这一步出问题,会产生彩色摩尔纹等伪影。
现在可以来拆穿这个最常见的误区了。
举一个具体的例子:用一块磨砂玻璃挡在相机镜头前,然后拍一张照片。你得到的依然是足额的 2400 万像素,每一个像素都真实存在,数据完整。但照片里的高频有效细节会大幅丢失,因为磨砂玻璃在光到达传感器之前就已经把大量场景高频信息打散了。
这说明像素只是一个容器,容器的数量不代表里面装了多少有效内容。镜头的光学质量、传感器的物理尺寸、成像过程中的噪声水平,这些才是决定"每个像素里装了多少真实信息"的因素。
所以,当我们说"2 亿像素"的时候,准确的理解应该是:这张图有大约 2 亿个采样位置。至于每个位置里的内容是不是清晰、准确、低噪声的,这是另一个问题。
"分辨率"这个词在日常对话里被用得相当混乱,有时候指像素尺寸(比如 3840×2160),有时候指像素总数,有时候指像素密度,有时候又在说打印质量或光学解析力。
这种混乱是有历史原因的,但它确实制造了很多误解。
在讨论打印、屏幕和光学解析力时,分辨率最终常常要落到密度上:单位长度内有多少采样点,或者单位长度里能区分出多少条细节。但在描述一个数字文件时,"分辨率"也经常只是指宽高像素数。
只用总像素数来描述输出清晰度,容易偷换概念。一张 4000×3000 像素的图,如果打印成 1 米宽的海报,和打印成 10 厘米宽的名片,像素总数完全相同,但输出密度天差地别,印出来的清晰程度也完全不同。
所以更准确的表达方式,应该是"在特定输出尺寸下的像素密度"。这正是 PPI 和 DPI 这两个单位存在的原因。
PPI,全称 Pixels Per Inch,中文就是"每英寸像素数",是描述数字图像或显示屏幕上像素密度的单位。
PPI 怎么计算
计算方式很直接。假设你有一张图,宽度是 3000 像素,你打印出来宽度是 10 英寸,那么这张图的 PPI 就是 3000 ÷ 10 = 300 PPI。
如果同样这张图,你打印成 20 英寸宽,PPI 就降到了 3000 ÷ 20 = 150 PPI。
像素总数没有变,但密度变了。密度越高,印出来的细节越精细;密度太低,肉眼就能看出一个个格子的边缘,也就是我们说的"像素化"或者"马赛克感"。
对于屏幕来说,PPI 的计算是用屏幕对角线的像素数,除以屏幕对角线的英寸尺寸。一块 6.1 英寸的手机屏幕,分辨率是 2532×1170 像素,对角线像素数用勾股定理算出来大约是 2778 像素,2778 ÷ 6.1 ≈ 460 PPI。
PPI 的历史
这个概念的普及,和苹果公司有直接的关系。1984 年,第一代 Macintosh 发布,它搭载了一块 9 英寸的黑白显示屏,分辨率是 512×342 像素,屏幕 PPI 约为 72。
苹果当时做了一个重要的设计决定:让屏幕上的 72 PPI 与传统排版里的 72 point/inch 对齐,并让屏幕显示和当时的打印输出形成方便的整数倍关系,从而让用户在屏幕上看到的内容,和打印出来的尺寸基本一致。
你在屏幕上看到的 1 英寸,打印出来也是 1 英寸,这就是"所见即所得"(WYSIWYG,What You See Is What You Get)的早期实现。
72 PPI 这个标准在此后相当长一段时间里成为行业默认值,尤其在早期网页设计里根深蒂固,以至于现在还有人说"网络图片只需要 72 PPI",尽管这个说法在今天的高分辨率屏幕时代已经过时了。
苹果自己在 2010 年发布 iPhone 4 时,以 326 PPI 的屏幕推出了 Retina Display 的概念,核心论点是在正常观看距离下(约 10 到 12 英寸,约 25 到 30 厘米),人眼已经很难分辨单独的像素。这标志着屏幕 PPI 进入了另一个讨论维度。
PPI 多少才够用
这个问题没有固定答案,因为它取决于观看距离和输出用途。
用于印刷的图像,通常要求 300 PPI,这是在近距离观看(比如拿在手里看)的清晰度标准。用于大幅面海报,观看距离远,150 PPI 甚至 100 PPI 都可以接受。
屏幕显示方面,手机因为观看距离近,对 PPI 要求更高;电视因为观看距离远,55 英寸的 4K 电视 PPI 也只有大约 80,但坐在沙发上看完全不会觉得模糊。
DPI,全称 Dots Per Inch,中文是"每英寸点数",是打印领域的单位,描述的是打印机在每英寸内能喷射或压印多少个墨点。
DPI 和 PPI 的本质区别
PPI 说的是数字世界里图像的像素密度,DPI 说的是物理世界里打印机的输出精度。一个在屏幕里,一个在纸张上,描述的是两件不同的事。
更具体地说:PPI 可以指显示设备自身的像素密度,也可以作为图像文件或排版软件里的输出尺寸元数据,告诉打印或排版流程"这张图希望以多大尺寸输出"。但很多屏幕显示场景并不会严格按图片文件里的 PPI 元数据显示尺寸。DPI 则是打印机的硬件输出能力,说的是"我这台机器在每英寸里能打多少个墨点"。
一台打印机可以用 1200 DPI 的精度,去打印一张 300 PPI 的图像,这两个数字同时成立,并不冲突。打印机会用多个墨点来还原图像里的一个像素,以获得更平滑的色彩过渡。
DPI 的历史从哪里来
这个概念的根在印刷和输出设备领域,而且比你想象的要早很多。
19 世纪中期,平版印刷(Lithography)开始在欧洲商业化普及。这种技术通过在石板上绘制图案来转印,能够实现相对精细的印刷效果,但印刷质量高度依赖于墨迹的密度控制。
真正让"每英寸多少个点或线"这类密度概念变得重要的,是网点印刷技术(Halftone Printing)。在那之前,印刷要还原照片里深浅不一的灰度非常困难,因为油墨要么有要么没有,很难做出连续的过渡。
网点印刷解决了这个问题:用大小不同、密度不同的网点来模拟不同的灰度,远看就像连续的灰阶。不过传统印刷里描述网屏频率通常用 LPI(Lines Per Inch,每英寸线数),而不是 DPI。DPI 更适合描述打印机、照排机等输出设备在每英寸内能生成多少个物理点。
进入数字打印时代后,DPI 的概念沿用下来,变成了描述喷墨打印机、激光打印机输出精度的标准指标。现在常见的家用打印机标称 600 DPI 或 1200 DPI,专业印刷设备可以到 2400 DPI 甚至更高。
日常使用里 PPI 和 DPI 的混淆
在很多非专业场合,PPI 和 DPI 被当成同一件事使用,说"300 DPI 的图"其实意思是"300 PPI 的图"。在日常沟通里,这种混用基本不会造成问题,因为大家明白你在说什么。但在专业的印前处理流程中,把这两个概念搞混确实会出问题,因为它们描述的对象根本不同。
现在把这些概念拼在一起,看一个实际的场景。
你拍了一张照片,准备打印成 A4 尺寸(大约 8.3×11.7 英寸)。专业印刷的标准输出要求通常是 300 PPI,这意味着你需要的像素数大约是 2490×3510,也就是接近 875 万像素。
875 万,不是 2 亿。
很多人没意识到这件事。在常规的打印尺寸下,你根本不需要那么多像素。2400 万像素、约 6000×4000 像素的照片,在 300 PPI 下可以不插值打印到约 20×13.3 英寸(约 50.8×33.9 厘米);如果观看距离更远、输出 PPI 要求降低,还可以覆盖接近 A2 的使用场景,已经远超大多数人的实际需求。
那为什么手机 2 亿像素的照片,印出来反而不如相机 2400 万的?这个问题的答案在第五章会完整展开。现在先继续往下走,搞清楚"清晰度"在光学层面到底是怎么衡量的。
在数码摄影普及之前,光学行业衡量镜头和胶片清晰度的主要方式,是"解析力",单位是线对每毫米(lp/mm,line pairs per millimeter)。
先解释什么是"线对"。一个线对,是一条黑线加一条白线的组合,就是一个最简单的条纹周期。为什么要用线对而不是单独的线?
因为"能区分一条线"这件事在光学上的定义很模糊,而"能区分一黑一白两条线"就有了明确的对比度参考。在 1 毫米的长度内,能分辨出多少个这样的黑白线对,就是这套光学系统的解析力。
测试方法是这样的:拍摄一张包含越来越密的黑白条纹的标准测试卡(比如 USAF 1951 分辨率测试卡),看在哪个密度下,相机或镜头开始无法区分黑线和白线。能区分的最高密度,就是这套系统的解析力。
这个方法直观,容易理解,但有一个问题:判断"能不能区分"这件事,依赖于测试者的主观判断,测同一片镜头,不同的人可能得到不同的结果。这种不够精确的测量方式,后来被一个更严格的指标取代了,这就是 MTF。
MTF,调制传递函数(Modulation Transfer Function),是光学领域衡量成像系统解析力和对比度传递能力的核心物理指标之一。
先理解"调制"这个词。在信号处理里,调制指的是信号的振幅变化,放到图像上,对应的就是明暗对比度。一组黑白条纹,黑色和白色之间的对比度越高,调制度就越高。
MTF 描述的是:一个光学系统,在不同的空间频率(也就是条纹的疏密程度)下,能把场景里的对比度"传递"多少到最终图像上。
具体来说是这样工作的
想象你在相机前放了一组黑白条纹图案。这组图案有的粗、有的细,从稀疏到密集排列。MTF 测量的就是,从粗条纹到细条纹,相机捕捉到的黑白对比度分别保留了多少比例。
比如,稀疏的粗条纹,原本对比度很高,相机拍出来后仍保留了同样的对比度,那这个频率下的 MTF 就接近 1.0,也就是接近 100%,说明对比度几乎没有损失。
随着条纹越来越细,光学系统开始无法完全分辨,黑白之间的差异被压缩,对比度下降,MTF 值也随之下降。最终当条纹细到一定程度,输出几乎只剩均匀灰度,这个频率附近的 MTF 就接近零。
MTF 下降得越慢,说明这套光学系统在高频细节(细小纹理)上的表现越好,也就是通常说的"解析力强"、"锐"。
MTF 的数学根基
更严格地说,光学传递函数(OTF,Optical Transfer Function)是点扩散函数(PSF,Point Spread Function)的傅里叶变换,而 MTF 是 OTF 的幅值。PSF 描述的是:一个理论上的点光源,经过光学系统之后,在传感器上变成了什么形状。在几何光学的理想近似里,点光源会成像为点;但在真实的波动光学里,即使无像差的理想镜头,也会因为衍射形成艾里斑。现实镜头还会叠加像差、装配误差等因素,让点进一步扩散。
你不需要记住这些数学,但需要记住这个结论:MTF 把空间频率和对比度放在一起描述,是衡量光学成像清晰度最重要的指标之一。ISO 12233 则是用于测量电子静态相机分辨率与空间频率响应(SFR)的国际标准;对经过采样和图像处理的数码相机来说,实际测得的往往更准确地称为 SFR。
MTF 解释了一件很重要的事
镜头光学质量的天花板,限制了传感器能"看到"多少细节。你可以在一块传感器上塞进再多像素,但如果镜头的 MTF 在某个频率之上就已经接近零,那些额外的像素只是在记录光学模糊,而不是真实的图像细节。这就像一台超高清电视接了一根信号很差的天线,显示屏再好,信号本身就是糊的,你看到的就是糊的。
光学解析力限定了可记录细节的上限,而噪声会决定这些细节能不能从随机波动中被稳定分辨出来。
噪声是感光过程中不可避免的产物。传感器把光子转化为电信号的过程中,会混入随机的电子波动,这些波动在图像上表现为颗粒感和色彩斑点,也就是通常说的"噪点"。
噪声有几个主要来源。
第一是光子散粒噪声(Photon Shot Noise),光本身就是一个个光子,在任何给定时间段内到达传感器的光子数量有随机涨落,这是物理规律,无法消除,只能通过收集更多光子(更大的感光面积、更长的曝光时间)来相对降低它的影响。
第二是读出噪声(Read Noise),传感器把电信号转换为数字数值的过程中引入的电子噪声。第三是暗电流噪声(Dark Current),传感器即使不受光,也因为热运动产生微弱电信号。
噪点覆盖在细节上,会削弱人眼对清晰度的感知;即使光学解析力很高,高噪声也会让照片看起来模糊、脏。这就是为什么相机传感器的物理尺寸如此关键:在像素数相近、曝光条件相近的前提下,面积越大,每个像素点通常能收集到的光子越多,信号越强,噪声在其中占的比例越低,图像越干净。
对比度的影响比噪声更微妙,但同样重要。
人眼判断清晰的很大一部分依据,来自于边缘处明暗的跳变是否足够干净、强烈。一张整体灰蒙蒙、对比度低的照片,即使像素极高、噪声极低,看起来也会缺乏"锐感"。
这就是为什么 Adobe Lightroom 里的"清晰度"滑块(Clarity),实际上调节的不是像素数,而是中频对比度——它让边缘和过渡区域的明暗跳变更加明显,让照片看起来更"通透"。
反过来,过度锐化(Sharpening)也会适得其反。锐化的原理是在边缘的亮侧加亮、暗侧压暗,人为制造更强的跳变,让边缘看起来更清晰。
但过度锐化会在边缘产生明显的光晕(Halo),让画面看起来"塑料感"很强,反而不自然。
根据光学工程实践和图像质量评价的研究,影响清晰度的要素大致包括:
MTF(光学解析力)、噪声控制、对比度、采样密度、总像素数、后期处理和输出条件。
这些因素没有一个放之四海而皆准的固定排序。光线、输出尺寸、观看距离、题材和处理算法不同,瓶颈也会不同。
但在很多实际拍摄场景里,一块传感器面积够大、光学素质够好、噪声控制到位的 2400 万像素系统,在最终观感上确实可能超过一块传感器面积很小、镜头光学较弱、噪声明显的 2 亿像素系统。
所以问题不在于像素数不重要,而在于它不能脱离光学、信噪比和输出条件单独决定清晰度。在其他要素已经成为瓶颈的情况下,单纯增加像素数带来的收益会迅速变小,有时候还会被噪声和处理副作用抵消。
买相机的时候,你经常会在规格表里看到两个数字:总像素数和有效像素数。两者通常差别不大,比如总像素 2470 万,有效像素 2420 万,但这个差别的存在,揭示了一个很多人没有注意过的工程细节。
传感器上常常会有一部分不参与最终成像的像素,其中包括边缘被遮光的光学黑区像素(Optical Black Pixels)。它们在实际拍摄中不接收场景光线,目的之一是作为"黑色参考基准"。
原因是这样的:传感器即使在完全黑暗的环境下,也会因为电子的热运动、读出电路偏置等因素产生非零信号,其中一部分叫做暗电流(Dark Current)。边缘这些被遮住的像素处于无场景光照的状态,它们记录到的是暗场信号,和真实场景光线无关。
相机可以把这些数值作为黑电平和暗场校正的参考,对有效像素的读数做补偿,从而得到更稳定的图像信号。
所以,有效像素通常指那些实际接受光线、参与最终图像形成的像素。总像素数与有效像素数之间的差异,可能来自光学黑区、边缘校正、裁切、安全边界等工程设计,不宜简单理解为"总像素数减去一圈黑色参考像素"这一种情况。
传感器感光完成,只是成像过程的开始,而不是结束。
以最常见的 Bayer 传感器为例,传感器输出的原始数据叫做 RAW 格式,里面每个感光位置只记录一种滤色后的信息(红、绿、蓝其中一个),整体是一张"颜色残缺"的原始图。要从这张原始图变成你能在手机里查看的 JPEG 照片,中间经过了一整条图像信号处理流水线,通常缩写为 ISP(Image Signal Processor,图像信号处理器)。
ISP 的主要处理步骤大致如下:
去马赛克(Demosaicing),用插值算法把每个像素位置的单通道颜色数据,重建为完整的 RGB 颜色。
白平衡(White Balance)校正,不同光源(日光、荧光灯、白炽灯)有不同的色温,传感器会如实记录这种差异,白平衡处理把颜色校准到"白色看起来是白色"的状态。
曝光和色调调整,把传感器记录的线性亮度值,转换为符合人眼习惯的非线性色调曲线,让亮部不过曝、暗部不死黑。
降噪(Noise Reduction),用算法识别和平滑图像里的随机噪点,让照片看起来更干净。但降噪如果过于激进,会连同真实的纹理细节一起平滑掉,这就是为什么很多手机照片放大后看起来像"油画"或者"涂抹感"。
锐化(Sharpening),增强边缘的对比度,让图像看起来更锐利。过度锐化会产生光晕伪影。
色彩处理,相机厂商会加入自己的色彩风格,让照片的色彩饱和度、色调符合品牌的审美定位。
压缩编码,最后把处理好的图像数据,用 JPEG 等格式压缩编码后储存。JPEG 是有损压缩,压缩比越大,丢失的高频细节越多,模糊越明显。
这整条流水线的处理质量,是手机和专业相机之间差距的重要来源之一。即使传感器硬件相同,ISP 算法的优劣也会直接影响最终照片的清晰度。
很多人不知道的是,手机宣传的 2 亿像素,在大多数日常拍摄场景下,并不以 2 亿像素输出。
这是因为手机传感器的感光单元非常小(后面会详细解释原因),单个像素能接收到的光非常少,在光线稍暗的环境里噪声就会非常明显。
为了改善低光表现,手机会使用一种叫做像素合并(Pixel Binning)的技术:把相邻的 4 个、9 个,甚至 16 个像素合并成一个"超级像素"(Super Pixel)。合并之后,等效的感光面积变大了,收集到的光子更多,信噪比改善了。
合并之后,一个 2 亿像素的传感器在很多场景下实际输出的是 5000 万、约 2200 万或者 1250 万像素级别的照片,具体取决于传感器排列方式和厂商选择的合并模式。
所以,手机标称的 2 亿像素,是传感器物理上存在的感光单元总数,而不一定是你日常默认得到的照片像素数。完整的 2 亿像素输出通常更依赖充足光线和稳定拍摄条件,但即便如此,还受到后面要讲的传感器尺寸和镜头光学质量的双重限制。
这是整篇文章最核心的问题,现在可以完整地回答它了。
差距来自三个层面,叠加在一起。
第一层:传感器物理尺寸
专业相机的全画幅(Full Frame)传感器,物理尺寸是 36×24 毫米,总面积约 864 平方毫米。很多 2 亿像素旗舰手机主摄使用的是约 1/1.3 英寸级别传感器,换算成有效成像面积大致在几十平方毫米量级;以 9.5×7 毫米估算,总面积约 66 平方毫米,和全画幅相差超过 13 倍。需要补一句:手机里也已经有 1-inch type 这类更大的传感器机型,所以这里讨论的是常见 2 亿像素手机主摄,而不是"手机传感器的最大尺寸"。
在传感器面积相差 13 倍的前提下,如果手机的像素数还是相机的 8 倍多,这意味着手机上每个像素感光单元的物理面积,会比相机小得多得多。
具体来说,一块 2 亿像素、1/1.3 英寸传感器的单个像素间距,大约在 0.6 微米左右;而 2400 万像素的全画幅传感器,单个像素间距大约在 5.9 微米。线性尺寸相差将近 10 倍,换成单像素面积则接近百倍差距。
在曝光条件和光学通光量相近时,感光单元越小,单个像素能收集到的光子数量通常越少,信号就越弱,信噪比越容易吃亏,噪声也更容易明显。这是物理规律,不是软件能完全弥补的。这也是为什么手机在光线充足的白天表现尚可,但光线稍暗时更依赖多帧合成和降噪算法;而大传感器相机在同样场景里通常更容易保留干净细腻的细节。
第二层:镜头光学质量
手机镜头的物理尺寸受制于机身厚度,焦距极短,镜头本体直径也极小。要把 2 亿像素的细节真实地传递到传感器上,对镜头的 MTF 要求极高——毕竟像素这么密,你需要镜头能分辨非常精细的细节。
但现实是,当手机镜头的光学分辨率本身就无法支撑这么密集的像素时,多出来的那些像素记录的不是细节,而是镜头本身产生的光学模糊和衍射。
全画幅相机配备优质镜头时,MTF 表现通常更容易支撑 2400 万像素级别的采样密度,每个像素记录真实细节的概率更高。当然,这仍然取决于具体镜头、光圈、对焦精度和拍摄条件,不能理解成所有全画幅镜头都天然"喂饱"所有像素。
第三层:ISP 处理的取舍
面对信噪比本来就差的小像素,手机 ISP 必须做出取舍。降噪力度不够,照片到处是噪点;降噪力度太强,细节被涂抹。
很多手机为了让照片看起来"干净",会主动平滑纹理,导致放大后皮肤像塑料、草地像油画。
而信噪比本来就好的大传感器相机,通常不需要如此激进的降噪,细节可以被更完整地保留下来。
这三层叠加在一起,就是典型情况下"2400 万像素的相机照片,可能比 2 亿像素的手机照片更清晰"的完整答案。它不是无条件定律,而是由传感器面积、镜头 MTF、信噪比和处理策略共同造成的高概率结果。
在讨论人眼之前,有一个物理极限需要提一下。
即使传感器无限好、镜头无限精密,光本身的波动性也决定了成像清晰度有一个理论上限,这叫做衍射极限(Diffraction Limit)。
光在通过镜头光圈时,会发生衍射,在传感器上形成一个弥散的亮斑(艾里斑,Airy Disk)而不是完美的点。光圈越小,衍射越严重,艾里斑越大,成像就越模糊。
这就是为什么镜头不总是光圈越小越好,缩光圈能增加景深,但过度缩光圈会让整体清晰度反而下降,这叫做"衍射软化"。
对于手机镜头来说,衍射问题不能简单归因于"等效光圈小"。传感器上的艾里斑尺寸主要由实际 f-number 和波长决定;手机真正棘手的是像素间距极小,艾里斑、像差和去马赛克误差都更容易相对于像素尺度变成瓶颈。这进一步限制了超高像素在手机上的实际收益。
说到清晰度,最终的裁判是人眼,而人眼的分辨能力是有上限的。
人眼在正常条件下,能分辨的最小细节大约对应 1 弧分(arcminute)的角分辨率,也就是在视角上能区分 1/60 度的间距。
把这个转换成观看距离和像素密度的关系。
在距离 30 厘米的地方,1 弧分对应的实际尺寸大约是 0.087 毫米,换算成 PPI 大约是 291 PPI。苹果在发布 iPhone 4 时使用了类似的营销口径:在约 10 到 12 英寸的观看距离下,约 300 PPI 已接近人眼区分单独像素的实际边界,而 iPhone 4 的屏幕是 326 PPI。这个说法适合作为经验尺度,但不能当成严格生理极限;视力、对比度、子像素排列和观看距离都会改变结果。
对于更大的屏幕或者打印物,观看距离增加,所需的 PPI 就降低。坐在 2 米外看 55 英寸电视,需要的像素密度远低于拿在手里的手机屏幕。挂在墙上的 A1 尺寸海报,在 1 米外观看,150 PPI 就足够了。
这个逻辑的意义在于:像素不是越多越好,"足够"才是目标。把有限的成本和技术资源,用在提升光学质量、增大传感器面积、改善信噪比上,比单纯堆像素数字对实际清晰度的提升更有价值。
像素和细节之间的关系,在信号处理领域有一个精确的数学描述,叫做 Nyquist-Shannon 采样定理。
这个定理的历史并不是某一年由两个人共同完成的。Nyquist 在 1928 年的通信理论工作中提出了关键间隔思想,Shannon 在 1949 年对采样定理做了经典表述和证明,中间还涉及 Whittaker、Kotelnikov 等人的贡献。它是数字信号处理领域最基础的定理之一。
它的核心陈述是:要无失真地重建一个信号,采样频率必须至少是信号最高频率的两倍。
翻译成图像语言来说就是,要清晰地记录一对黑白线条(一个线对),你需要至少两个像素,一个记录黑线,一个记录白线。
如果像素采样频率低于细节最高空间频率的两倍,就会低于奈奎斯特条件,此时会产生严重的混叠(Aliasing)现象,表现为图像中出现不真实的、虚假的纹理或彩色摩尔纹。换成线对的说法就是:一个线对至少需要两个采样点;如果只有一个采样点去对应一个线对,就已经严重欠采样。
这也是为什么很多相机在传感器前面安装了低通滤镜(OLPF,Optical Low-Pass Filter),它的作用是主动模糊掉那些高于奈奎斯特频率的细节,防止混叠,以干净为代价换取画面稳定。
一些相机选择不安装 OLPF,追求更高的解析力,但同时也更容易出现摩尔纹。
奈奎斯特定理从数学层面说清楚了一件事:镜头能提供的光学分辨率,和传感器的像素密度,需要匹配。像素密度远超光学分辨率的上限时,多出来的像素不会凭空创造真实细节;它们可能对降噪、去马赛克或抑制混叠有边际帮助,但对最终清晰度的提升会越来越有限。
最后说一件事。
学术界对清晰度至今没有一个统一的单一定义。不同领域用不同的方式衡量它。
光学工程师看 MTF 或 SFR 曲线,信号处理工程师可能计算 PSNR(峰值信噪比)、SSIM(结构相似性指数)等图像保真度或结构相似度指标,摄影师看实拍样片的纹理还原,普通人凭直觉。PSNR 和 SSIM 并不是专门的"清晰度指标",但它们能从另一个角度描述图像处理前后的保真程度。没有哪一个方法是绝对正确的,它们只是从不同角度逼近同一个复杂的感知现象。
这正是"像素数定义清晰度"这个说法的根本问题所在——它把一个系统性的、多维度的感知,简化成了一个孤立的数字。
一张照片的清晰度,是光穿过镜头的那一刻开始,经过传感器感光、ISP 处理流水线、编码输出、屏幕渲染或打印输出,最终到达你眼睛里,被你的视觉系统解读的,整个链条的系统性结果。
每一个环节都在影响最终的感受。
光学素质决定了细节能不能进来,传感器尺寸决定了信噪比,有效像素数与传感器尺寸、输出尺寸一起决定采样密度,ISP 决定了处理的取舍,PPI 决定了输出密度,观看距离决定了你的眼睛是否还能感知到差别。
像素,只是其中一个环节里的一个参数。它是必要的,但从来不是充分的。