【Audio】音频编码介绍

        Hi,大家好!在生活中当我们常常在下载音乐文件的文件格式一般有类似 MP3、AC3 或者 DTS 等,其实这些格式是通过编码器将原始数据压缩存放的常用编码格式,而解码器则是一种能将数字音频数据流解码,还原成模拟成模拟音视频信号的硬件/软件的设备。总而言之,音频编解码器是指能编码或解码音频数字数据流的设备或计算机程序。那么为什么音频需要编解码呢,下面我们一探究竟。

一、音频基础知识

        在这之前我们首先要了解数字声音的三个要素:

              ① 采样率;
              ② 通道数;
              ③ 量化位数。

        如上图所示,声音数字化的过程为:

              ① 采样:在时间轴上对信号数字化;
              ② 量化:在幅度轴上对信号数字化;
              ③ 编码:按一定格式记录采样和量化后的数字数据。

        例如一个音频文件,一路采样率为 44100 Hz,量化位深为 16 bit,声道数为 2 的声音,如果不进行编码压缩,对应的码率是:441000 Hz * 16 bit * 2 = 1411200 bps = 1.346 Mbps。一分钟的时间所需要的数据量是:1.346 Mbps * 60 s = 80.75 Mb = 10.09 MB。
        对于单单一路音频来说,这个数据量还是比较大的,在存储或传输时如果能进行压缩编码,可以一定程度上提高效率。所以,对音频或视频进行编码最重要目的就是为了进行数据压缩,以此来降低数据传输和存储的成本。

二、编码原理

        『数字音频压缩编码在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩,降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号,它们对确定声音的音色,音调等信息没有任何的帮助。冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如,人耳所能察觉的声音信号的频率范围为 20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。
        此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应。一个频率的声音能量小于某个阈值之后,人耳就会听不到。当有另外能量较大的声音出现的时候,该声音频率附近的阈值会提高很多,即所谓的掩蔽效应。如下图所示:

 

频频域掩蔽效应

        一个频率的声音音量(db)小于某个阈值,人耳就会听不到。当有另外能量较大的声音出现的时候,该声音频率附近的阈值就会提高很多,即所谓的掩蔽效应,如上图所示。由图中我们可以看出人耳对 2KHz~5KHz 的声音最敏感,而对频率太低或太高的声音信号都很迟钝,当有一个频率为 0.2KHz、强度内 60db 的声音出现时,其附近的阈值提高了很多.
        由图中我们可以看出在在 0.1KHz 以下、1KHz 以上的部分,由于离 0.2KHz 强信号较远,不受 0.2KHz 强信号影响,阈值不受影响;而在 0.1KHz~1KHz 范围,由于 0.2KHz 强音的出现,阈值有较大的提升,人耳在此范围所能感觉到的最小声音强度大幅提升。如果 0.1KHz~1KHz 范围内的声音信号的强度在被提升的阈值曲线之下,由于它被 0.2KHz 强音信号所掩蔽,那么此时我们人耳只能听到 0.2KHz 的强音信号而根本听不见其它弱信号,这些与 0.2KHz 强音信号同时存在的弱音信号就可视为冗余信号而不必传送。

 


时域掩蔽效应

         在强音和弱音信号同时出现时,还存在时域掩蔽效应。即两者发生时间很接近的时候,也会发生掩蔽效应。时域掩蔽过程曲线如图所示,分为前掩蔽、同时掩蔽和后掩蔽三部分。
              ① 前掩蔽:人耳在听到强信号之前的短暂时间内,已经存在的弱信号或被这笔而听不到;
              ② 同时掩蔽:当强信号消失后与弱信号同时存在时,弱信号会被强信号所掩蔽而听不到;
              ③ 后掩蔽:强信号消失后,需经过较长的一段时间才能重新听见弱信号,这些被掩蔽的弱信号可以视为冗余信号。』(作者:Spark!;出处:原文链接:https://blog.csdn.net/qq_28258885/article/details/120183919

 三、常见音频格式

        下图标明一些音频格式在不同比特率和音质下的表现,下面我主要介绍 MP3、ACC 和 Ogg Vorbis 这三种格式的区别。

           『① MP3 全称是 MPEG-1 Audio Layer 3,它在 1992 年合并至 MPEG 规范中。MP3 能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。
              ② AAC 实际上是高级音频编码的缩写。AAC 是由 Fraunhofer IIS-A、杜比和 AT&T 共同开发的一种音频格式,它是 MPEG-2 规范的一部分。AAC 所采用的运算法则与 MP3 的运算法则有所不同,AAC 通过结合其他的功能 来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法(比如 MP3 等)。它还同时支持多达 48 个音轨、15 个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之,AAC 可以在比 MP3 文件缩小 30% 的前提下提供更好的音质。
              ③ Ogg Vorbis 是一种新的音频压缩格式,类似于 MP3 等现有的音乐格式。但有一点不同 的是,它是完全免费 、开放和没有专利限制的。Vorbis 是这种音频压缩机制的名字,而 Ogg 则是一个计划的名字,该计划意图设计 一个完全开放性的多媒体系统。VORBIS 也是有损压缩,但通过使用更加先进的声学模型去减少损失,因此,同样位速率编码的 OGG 与 MP3 相比听起来更好一些。』(作者:一念之卓;出处:原文链接:https://blog.csdn.net/qq_25675517/article/details/108714087
        相比之下,MP3 格式音频实在是不太好的有损,不过是最先流行起来的,它编码效率不高,但是一般地 320kbps 的 MP3 还是优于 256kbps 的 AAC 音频的,两者音质基本一样。Ogg 格式音频也是十分适合高码率有损音频的,一般建议 128~512kbps 使用,在较高码率下可能优于 AAC。

四、参考资料

        【1】音频之各种有损编码器的比较,AAC 编码器之选择,频谱、差值比较,编码器下载:https://blog.csdn.net/qq_25675517/article/details/108714087
        【2】音频处理——音频编码原理简介:https://blog.csdn.net/qq_28258885/article/details/120183919

★博文内容均由个人提供,与平台无关,如有违法或侵权,请与网站管理员联系。

★文明上网,请理性发言。内容一周内被举报5次,发文人进小黑屋喔~

评论