2.1 音频基本概念

声音是多媒体表现形式中不可缺少的一部分,它使多媒体的表现力更加丰富。声音主要包括语言、背景声、音效和音乐4个部分。

1)语言是人与人之间表达自己内心愿望与情感的工具。在艺术作品中,语言是交代情节、提示思想、刻画人物、感染观众的重要手段,通常有独白、对白、内心独白和旁白等形式。

2)背景声是大自然或周围环境所发出的声响,主要表现出自然环境、生活氛围和时代背景。

3)音效是音响效果声的简称,它包括人们生活中所产生的开门关门声、脚步声等各种动作的声音,也包括现实环境中各种自然界的声音(如风声、雨声、雷声等),各种动物的叫声,各种工具的音响等。它的主要作用是渲染气氛、增强真实感。还有一类音效通常被用在动画片或者喜剧类的作品中,这一类音效通常是人们通过技术手段制作出来的特殊声音,如弹簧的声音、诡异的笑声等。这些音效是为了配合所要表达的故事情节所设计加工的,目的是为了增强特殊的情绪需要。

4)音乐是一门古老的艺术,它能够准确地表达人们的内心感受与情绪。它通常用来烘托情绪、渲染气氛,或者用来填补声音上的空白。

2.1.1 声音的概念

声音源自空气的振动,例如,由吉他的琴弦、声带或者扬声器的振膜所产生的振动。这些振动压缩附近的空气分子,造成空气压力略有增加。受压的空气分子继而推动压缩它们周围的空气分子,被压缩的空气分子再继续推动下一组,如此往复。高压区在空气中向前移动,留下身后的低压区。当这些有高低压变化的波浪抵达时,转换为人耳朵里受体的振动,作为声音被人们接收。声音的波形如图2-1所示。

图2-1 声音波形

自然界的各种声音具有周期性强弱变化的特性,因而也使得输出的压力信号周期变化,人们将这种变化用正弦波曲线形象地表示,如图2-2所示。该曲线是随时间连续变化的模拟量,它有如下3个重要指标。

图2-2 波形曲线

1.振幅

声波的振幅通常是指音量,它是声波波形的高低幅度,表示声音信号的强弱程度。

2.周期

声音信号的周期是指两个相邻声波之间的时间长度,即重复出现的时间间隔,以秒(s)为单位。

3.频率

声音信号的频率是指每秒钟信号变化的次数,即为周期的倒数,以赫兹(Hz)为单位。

声音按频率可分为3种:次声波、可听声波和超声波。人类听觉的声音频率范围为20Hz~20kHz,低于20Hz的为次声波,高于20kHz的为超声波。人说话的声音信号频率通常为300Hz~3kHz,人们把在这种频率范围内的信号称为语音信号。

声音质量用声音信号的频率范围来衡量,频率范围又叫“频域”或“频带”,不同种类的声源其频带也不同。一般而言,声源的频带越宽,表现力越好,层次越丰富。

1)电话质量,频带范围为200Hz~3.4kHz。

2)调幅广播质量,频带范围为50Hz~7kHz。

3)调频广播质量,频带范围为20Hz~15kHz。

4)数字激光唱盘(CD-DA)质量,频带范围为10Hz~20kHz。

2.1.2 声音的数字化

声音是具有一定振幅和频率且随时间变化的声波,通过话筒等转换装置可将其变成相应的电信号,但这种电信号是模拟信号,不能由计算机直接处理,必须先对其进行数字化,然后利用计算机进行存储、编辑或处理。在数字声音回放时,由数/模转换器(DAC)将数字声音信号转换为实际的声波信号,经放大由扬声器播出。

把声音模拟信号转换为声音数字信号的过程称为声音的数字化,它是通过对声音信号进行采样、量化和编码来实现的,如图2-3所示。

图2-3 声音的数字化过程

1.采样

把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值,称为采样,即A/D(模/数)转换,其功能是将模拟信号转换成数字信号。采样频率又称取样频率,是指将模拟声音波形转换为数字音频时每秒钟所抽取声波幅度样本的次数,如图2-4所示。采样频率越高,则经过离散数字化的声波就越接近于其原始的波形,也就意味着声音的保真度越高,声音的质量越好;当然,所需要的信息存储量也越多。

图2-4 两个不同的采样频率

a)低采样率使得原始声波失真 b)高采样率完美地体现了原始声波

根据采样定理,只要采样的频率高于信号中最高频率的2倍,就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20Hz~20kHz,所以在实际采样过程中,为了达到好的声音效果,就采用44.1kHz作为高质量声音的采样频率。

目前最常用的采样频率有3种:44.1kHz、22.5kHz、11.025kHz。

2.量化

把某一幅度范围内的电压用一个数字来表示称为量化,量化的过程实际上也是选择分辨率的过程。显然,用来表示一个电压模拟值的二进制数位越多,其分辨率也越高。国际标准的语音编码采用8 bit,即可有256个量化级。在多媒体中,对于音频(声音),量化的位数(分辨率)可采用16 bit,其对应有65536个量化级。

3.编码

由于计算机的基本进制是二进制,为此必须将声音数据写成计算机的数据格式,称为编码。编码既要按照一定的格式把离散的量化数值加以记录,又要在有用的数据中加入一些用于同步、纠错和控制的数据。

数字音频是一个数据序列,它是由模拟声音经过采样、量化和编码后得到的。当需要时,人们可以将离散的数字量转换成连续的波形。如果采样的频率足够高,恢复出的声音就与原始声音没有什么区别。

2.1.3 音频文件的大小

音频文件要求声音的质量越高,则量化位数和采样频率也越高,保存这一段声音相应的文件也就越大,即要求的存储空间越大。表2-1给出了采样频率、量化位数与所要求的文件大小的对应关系。

表2-1 数字音频文件的大小与相关参数的关系

声音通道的个数表明声音产生的波形数,一般分单声道和立体声双声道,单声道产生一个波形,立体声双声道产生两个波形。立体声的声音有空间感,需要的存储空间是单声道的两倍。决定数字音频文件大小的公式为

数据量=采样频率×量化位数×录音时间×声道数/8

式中,数据量的单位为B/s。

例如,一首5分钟CD音乐光盘音质的歌曲,即采样频率为44.1kHz,量化位数为16位,立体声,文件的大小为

数据量=(44100×16×300×2)/8=52920000B≈50.47MB。

2.1.4 音频的压缩标准

音频信号是多媒体信息的重要组成部分。音频压缩技术指的是对原始数字音频信号流运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。压缩编码的逆变换,称为解压缩或解码。

音频信号可以分为电话音频信号、调幅广播音频信号和高保真的立体声音信号。前两种单频信号的压缩技术比较成熟,例如,ADPCM、CELP和子带编码等压缩技术。国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)先后提出一系列有关音频编码的建议,CCITT(现更名为ITU2T)已为这两种音频信号的压缩编码制定了一些国际标准。

1.G.711标准

1972年CCITT为电话质量和语音压缩制定了G.711标准,使用PCM编码,速率为64kbit/s,使用非线性量化技术,其质量相当于12 bit线性量化。

2.G.721标准

1984年CCITT制定了G.721标准,使用自适应差分PCM编码(ADPCM),其速率为32kbit/s。ADPCM是一种对中等质量音频信号进行高效编码的有效算法之一,它不仅适用于语音压缩,而且也适用于调幅广播质量的音频压缩和CD2I音频压缩等应用。

3.G.722标准

1988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准。G.722标准使用子带编码方案,用滤波器将输入信号分成高低两个子带信号,然后分别使用ADPCM进行编码,经复用后形成输出码流。G.722标准也提供数据插入功能,这样音频码流与所插入的数据一起形成比特流。G.722能将224kbit/s的调幅广播质量的音频信号压缩为64kbit/s,主要用于视听多媒体和会议电视等。

4.G.728标准

为了进一步降低语音压缩的速率,1991年CCITT制定了G.728标准,使用基于短延时码本激励线性预测编码(LD-CELP)算法,其速率为16kbit/s,其质量与32 kbit/s的G.721标准相当。

5.MPEG21音频编码

MPEG(Moving Picture Experts Group,动态图像专家组)是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。MPEG-1是MPEG组织制定的第一个视频和音频有损压缩标准,于1990年定义完成。1992年年底,MPEG-1正式被批准成为国际标准。MPEG-1是为CD光碟介质制定的视频和音频压缩格式。一张70分钟的CD光碟传输速率大约为1.4Mbit/s。而MPEG-1采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并对1.2Mbit/s传输速率进行了优化。

MPEG21音频编码是国际上制定的第一个高保真立体声音频编码标准(ISO1117223)。通过对14种音频编码方案的比较测试,最后选定了以MUSICAM(Masking-pattern Universal Subband Integrated Coding And Multiplexing)为基础的三层编码结构。根据不同的应用要求,使用不同的层来构成其音频编码器。在MPEG21中音频编码的1、2层称之为MUSICAM。MUSICAM的编码过程为子带滤波器先将输入的数字音频信号分成32个子带;在每个子带中,确定一段信号中的最大电平,由此得到编码参数—比例因子。由于比例因子的相对变化很小,因此采用差分熵编码方法。根据人耳的掩蔽效应确定掩蔽门限,据此自适应地分配比特,以高效压缩音频数据。最后,将音频压缩数据、比例因子和比特分配信息按帧结构组合在一起,形成音频比特流。

6.MPEG22音频编码

在MPEG21音频编码中,MUSICAM只能传送左右两个声道。为此,MPEG扩展了低码率多声道编码,将多声道扩展信息加到MPEG21音频数据帧结构的辅助数据段(其长度没有限制)中。这样可将声道数扩展至5.1,即3个前声道(左L、中C和右R)、2个环绕声(左LS、右RS)和1个超低音声道LFE(常称之为0.1)。由此,形成了MPEG22音频编码标准SO1381823。MPEG22音频编码能传送多路声音,并能确保比特流与MPEG21前向和后向兼容。

7.AC23系统

AC23系统是Dolby公司开发的新一代高保真立体声音频编码系统,它继承了AC22系统的许多优点(例如,变换编码、自适应量化、比特分配和人耳的听觉特性等),并采用了一些新的技术(例如,指数编码、混合前/后向自适应比特分配和耦合技术等)。AC23系统的总体性能要优于目前的MPEG22音频算法。

2.1.5 音频文件的格式

数字音频的文件格式主要有WAV、VOC、MIDI、MOD、AIF、MP3和WMA等。下面介绍几种常用的音频文件格式。

1.MID和RMI

这两种文件扩展名表示该文件是MIDI(Music Instrument Digital Interface)文件。MIDI是数字乐器接口的国际标准,定义了电子音乐设备与计算机的通信接口,规定了使用数字编码来描述音乐乐谱的规范。计算机就是根据MIDI文件中存储的对MIDI设备的命令,即每个音符的频率、音量、通道号等指示信息进行音乐合成的。MIDI文件的优点是短小,一个6分钟、有16个乐器的文件,其大小也只有80KB;缺点是播放效果受软、硬件的配置影响较大。

2.WAV

WAV是Windows本身存储数字声音的标准格式,由于微软的影响力,目前也成为一种通用的数字声音文件格式,几乎所有的音频处理软件都支持WAV格式。由于WAV格式存储的一般是未经压缩处理的音频数据,因此体积都很大(1分钟的CD音质约需要10MB),不适于在网络上传播。WAV格式的文件使用Windows中的媒体播放机即可直接播放。

3.MP3(MP1、MP2)

MP3(Moving Picture Experts Group Audio LayerⅢ,动态影像专家压缩标准音频层面3)标准是MPEG-1国际标准中音频压缩层3的简称,单声道比特率一般取64kbit/s,在采样率为44.1kHz的情况下,其压缩比可高达12∶1,是认知度较高的编解码器之一,目前应用广泛。

4.RA、RAM

这两种扩展名表示的是Real公司开发的适用于网络实时数字音频流技术的文件格式。由于RA、RAM文件面向的目标是实时的网上传播,因此在高保真方面远远不如MP3。播放这种格式的音频通常需要使用Real Player播放器。

5.ASF、WMA等

ASF(AdvancedStreaming format)是微软为了和Real Player竞争而推出的一种视频格式,可以直接使用Windows自带的Windows Media Player进行播放。由于ASF使用了MPEG-4压缩算法,其压缩率和图像的质量都很不错。

WMA(Windows Media Audio)是微软力推的一种音频格式,以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1∶18,生成的文件大小只有相应MP3文件的一半。此外,WMA还可以通过DRM(Digital Rights Management)来防止复制,或者加入限制播放时间和播放次数,甚至限制播放机器,可有力地防止盗版。

6.XM、S3M、STM、MOD、MTM等

这些文件格式其实互不相同,但又都属于一个大类:Module(模块),简称Mod。这些文件是由类似于MID文件的乐谱、控制信息和具体的乐器音效数据组合而成的,文件大小适中,5分钟的音乐大小为300KB~1MB。千千音乐、Winamp等音频播放软件支持上述格式的播放。

7.CD Audio格式

CD音乐光盘采用的是以16位数字化、44.1kHz采样频率、立体声存储的音频文件,可完全再现原始声音。一般每张CD唱片保存歌曲14首左右,可播放约70分钟,其缺点是无法编辑,文件太大。CD Audio文件的扩展名为.cda,可以使用Windows的媒体播放机直接播放。