为了能更好的理解后续的音质概念与进一步分析,本文首先带大家回顾并科普一些音频相关的基础概念。
国际惯例先上定义:声是一种波,是一种由物体振动产生的波。可以被人耳识别的声,我们称之为声音。
你应该还记得小时候上自然课老师敲击音叉的实验,老师用小锤敲击音叉,音叉发出高频振动,你就能听到嗡嗡的声音了。
实际上,音叉的振动是通过空气介质传递到人耳的。经过外耳的收集、鼓膜振动传递到中耳;中耳充当阻抗匹配装置,由中耳三块骨头将振动传递到内耳;耳蜗是内耳中最重要的接口,其内充满液体。经过耳朵,音叉的振动最终转化为耳蜗内外淋巴液的液体振动,产生生物电传导到大脑皮层后,人就感知到了声音。
小结一下:物理中声音是由物体振动发生的,物体在一秒钟之内振动的次数叫做频率,单位是赫兹(Hz)。
根据声音频率高低,人耳可以听到的声音又可粗略分位低频、中频、高频三类,通常随着年纪的增大,听觉器官开始衰老退化,人对高频声音的敏感程度会降低,
理论上,人耳朵可以听到频率20~20000Hz的声音,最敏感是200~8000Hz之间的声音。
音量(响度)、音调、音色是声音三要素,三者的不同组合构成了千千万万的声音。
声音频率的高低,称为音调。音调高低取决于声源的频率。通常我们讲的高音低音就是这个维度,男性音调通常低于女性。
《青藏高原》就是典型的高音歌曲,张宇的《用心良苦》就是典型的低音歌曲。
人耳对声音强弱的主观感觉称为音量,音量又称响度。音量跟声源的幅度以及人距离声源的远近有关。
音色是指不同的声音的频率表现在波形方面总是有与众不同的特性,声源的材料/形状等都会影响音色。之所以能分辨不同的发声物体和人身,就是因为他们的音色不同(声音中谐波成本不同)。
看完以上的内容,你应该能拾起来记忆碎片,对声音的一些关键概念有基本的了解了。那么一首歌曲又是如何从物体振动的波录制到你的手机上,转化为数字音频保存与传播的呢,下面继续介绍一下如何对声音进行数字化。
音频属于波,属于连续的模拟信号,数字音频是用一系列的数字对声音进行表示。
数字音频需要用特定设备对声音进行采集,这类设备通常为麦克风。麦克风通过收集声音中的振动,将不同振动的振幅频率转化为电极电信号,从而完成声音到电信号的转换,再通过采样、量化、编码的过程,最后形成数字音频。
下面这张图,很好的解释了这个过程。
通常市面上的麦克风分动圈式和电容式两种。
动圈麦克风是通过电磁感应的原理,利用线圈在磁场中切割磁感应线,讲声音的振动转化为电信号,动圈麦的灵敏度相对较低,产生的音色不够细腻,但同时因为灵敏度低反而不易产生回授和啸叫类的异常,且因动圈麦结构简单结实耐用,常见于各大KTV。
动圈式麦克风的构成:1. 声波(Sound Waves) 2. 振动膜(Diaphram) 3. 线圈 4. 永磁铁 5. 输出信号(Audio Signal)
电容麦克风的极头由超薄金属薄膜与背板组成,薄膜振动造成其与背板产生不同间距,从而产生了不同的电容,在电压作用下形成变化的电信号,所以又叫电容麦。电容麦的灵敏度高,还原度高,说白了就是声音效果一般会更好,所以价格也就更贵,可以去淘宝搜搜看。因其高灵敏度的特性,一般用在周边环境噪音少的地方,常见于录音棚。
电容式麦克风的构成:1. 声波(Sound Waves)2. 振动膜(Diaphram)3. 基板(Back Plate)4. 电池(Battery)5. 电阻(Resistance)6. 输出信号(Audio Signal)
麦克风指向性是主要原因:
指向性是用于描述麦克风对于来自不同角度声音的灵敏度,在以下示意图中,外圆的上面(0°)代表麦克风前方,下面(180°)代表麦克风的后方。
目前主要的几种指向性包括 全指向/心型指向/超心型指向/抢型指向等。
全指向式麦克风对于来自不同角度的声音,其灵敏度是相同的。常见于需要收录整个环境声音的录音工程;或是声源在移动时,希望能保持良好收音的情况,常用于会议室场景。
心形指向麦克风,对于来自麦克风正面的声音有最佳收音效果,但是对于后方收音效果就很差了,适合固定机位的主播使用,不易录入周边环境的杂音。
超心型指向较标准心型指向性麦克风的指向性更強。
枪型指向麦是一种超高指向性的麦克风,利用更窄的指向性吸收较小面积的杂音,来完成较远距离的收音任务。同上是长管行传,可以抑制侧面传来的声音,只专注在一个方向,适合用在开放空间,不适合在小的密闭空间使用。常用于室外主播、新闻记者。
这就是为什么在会议室开会的时候专业设备比你电脑自带麦克风效果强的原因之一,一般笔记本电脑都是枪麦,你坐在电脑前说话对面听得很清楚,但是如果侧边的人讲话,远端用户收听效果就会差很多。
上面提到了声音的三要素:音调、音量、音色,下面讲一下数字音频的三要素:声道(channel)、采样率(sample rate)、位深(bit depth)
什么是声道数量呢?简单说就是发声点的个数。常见声道有单声道(mono)、双声道(stereo)、2.1声道、4声道、5.1声道、7.1声道、9.1声道等;
单声道和双声道好理解,那更多的声道是啥意思呢?
4声道规定了4个发音点,前左、前右,后左、后右,听众则被包围在这中间。如果在4声道的基础上再增加一个低音音箱就是4.1声道。
5.1声道又是在4.1声道的基础上,增加了一个中置单元专门负责发送低于80Hz的低频声音信号。其中我们日常接触到的杜比声就是以5.1声道为基础的。
这就是为什么杜比效果要一大堆“喇叭“的原因。
采样率是把声音从模拟信号转换为数字信号的过程中,每秒对声音进行采集的次数;通常情况下采样越高,声音的还原就越真实越自然(多高的采样率是比较必要的,后文会详细讲解)。常见采样率有8kHz、16kHz、44.1kHz、48kHz,96kHz;其中44.1kHz的采样率又叫CD级标准。
位深又叫做量化位数、采样位数、分辨率,它是指声音的连续强度被数字表示后可以分为多少级。N-bit的意思声音的强度被均分为2^N级。16-bit的话,就是65535级。这是一个很大的数了,人可能也分辨不出六万五千五百三十五分之一的音强差别。也可以说是声卡的分辨率,它的数值越大,分辨率也就越高,所发出声音的能力越强。原则上,这个值也是大一些比较好,但是记录的数据量也会成倍增长。
通常CD 音乐音频使用 16 bit 的位深,DVD 音频使用 24 bit 的位深,而大多数电话设备使用 8 bit 的位深。
本文偏科普向,主要铺垫一些音频的基本原理和概念,便于后续专题内容的理解。
本文主要讲解了声音是如何产生,并被人耳听到或设备记录下来的,也对这个过程中的几个比较关键的概念(声音3要素与数字音频3要素)。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。