1.4 听觉简介_数字音频原理与检测技术-QQ阅读男生武侠网

书名：数字音频原理与检测技术
作者名：国家广播电视产品质量监督检验中心等
本章字数：2486字
更新时间：2025-02-28 14:03:46

1.4 听觉简介

声音在物理上可以用声压的幅度、频率和频谱3个客观参量来描述。而声音的这3个物理学要素，通过人耳的听觉系统，反映到人的听觉神经中枢之后，引起人的主观感觉，此时则常用响度、音调和音色3个主观参量来描述。

1.4.1 听觉系统简介

人耳分为外耳、中耳和内耳3个部分，如图1.4.1所示。外耳包括耳廓、外耳道，其中止于鼓膜的部位负责收集声音。声波经耳廓反射进入耳道，引起鼓膜振动，鼓膜的振动传送至中耳的3块听小骨（锤骨、砧骨和镫骨），3块听小骨形成机械放大器，把鼓膜上的微小振动放大，使其经卵圆窗进入内耳的耳蜗。耳蜗是听觉系统最重要的一个部分，是由一条骨质细管绕蜗轴盘旋两圈半而成的，形状像蜗牛壳。耳蜗长约35mm，包含3个充满液体的腔室，即前庭阶、鼓阶、蜗管（由前庭膜和基底膜围成）。耳蜗管中充满两种不可压缩的液体——内淋巴液和外淋巴液。耳蜗这些充满液体的部位接受声波的撞击，转换成淋巴液的振动，振动便在耳蜗管中传播开来。这时基底膜会像摆动的旗帜那样波动着。沿基底膜长着大约3万个接受单元（毛细胞），这些接受单元负责感受内淋巴液的流动。毛细胞由蛋白质纤维组成，在达到一定的阈值时，将机械性刺激转为神经冲动，如同光线对视网膜上的视锥细胞刺激一般。神经冲动经由和毛细胞相接触的神经细胞传递至大脑的听觉神经中枢。

概略地说，感知声音全部特征的过程，按时间尺度可分为3个阶段：第一阶段，从开始到0.05s左右，感知的过程是在中耳和内耳里完成的，这基本上是个纯力学过程；第二阶段，从0.05～0.1s，是听觉神经传导过程，信息经听觉神经传递给大脑的听觉神经中枢；第三阶段，0.1s以后，这是大脑听觉神经中枢全面处理声音信息的过程。

图1.4.1 人耳解剖图

1.4.2 音调

音调又称音高，是指人耳对声音音调高低的主观感受。音调主要决定于声音的基波频率，基频越高，音调越高。同时，音调还与声音的强度有关。音调的单位是美（mel），频率为1000Hz、声压级为40dB的纯音所产生的音调定义为1美。

音调与声音强度的非线性关系可由图1.4.2所示的曲线来描述。可以看出，在低频段，音调受声音强度变化的影响较大。

图1.4.2 音调变化与响度级的关系

1.4.3 响度和响度级

响度俗称音量，是指人耳对声音强弱的主观感受，单位为宋（sone）。响度不仅正比于声音强度的对数值，而且与声音的频率有关。

对于强度相同而频率不同的声音，人们会有不同的响度感觉。例如频率为100Hz和1000Hz的两个纯音，声压均为0.002Pa，听起来却不一样响，感觉后者比前者响得多。响度级是由听力正常的听者判断为等响的1000Hz纯音（来自正前方的平面行波）的声压级，单位为方（phon）。响度为1宋的声音同响度级为40方的声音等响。响度级（P）增加10方，响度（S）的宋数约增加一倍，即

S=20.1(P−40)（1.4.1）

利用与基准音比较的实验方法，测得一组一般人对不同频率的纯音感觉一样响的响度级与频率、声压级之间的关系曲线，称为等响曲线。图1.4.3所示是国际标准化组织（ISO）推荐的等响曲线，它是对大量具有正常听力的年轻人进行测试的统计结果，反映了人类对响度感觉的基本规律。最低一条曲线为听阈，也称最低可听声场（Minimum Audible Field，MAF）。过去认为人耳在1000Hz的听阈是20µPa（2×10−5N/m2），故取基准声压为20µPa，即0dB声压级的声压为20µPa，这样最低可听声音为0方。后来随着实验准确度的提高，国际标准公布的平均听阈是4.2方，如图1.4.3上的虚曲线所示。而0dB声压级的声压为20µPa，由于它使用方便仍被保留下来，其相应0dB的声强为1pW/m2，即1×10−12W/m2。

图1.4.3 纯音等响曲线

由等响曲线可见，人耳对中频段1000～4000Hz的声音反应最为灵敏，对低频和高频段的声音反应则比较迟钝。另外，由曲线可看出，响度级增加或减少10方，在不同的频率声压级增减的数值是不同的。这样在不同音量试听时，为使响度平衡，需作不同频率增量的修正。

为了同响度相对应得出噪声评价数，推荐使用40方、70方和100方的等响曲线的反曲线设计的频率计权网络（如图1.4.4所示的曲线A、B、C），由此测量噪声所得的声压级读数称为A声级、B声级、C声级。A声级用于模拟人耳对55dB以下低强度噪声的响度感觉，B声级用于模拟55～85dB中等强度噪声，C声级模拟85dB以上的高强度噪声。A、B、C计权网络的主要差别在于对低频成分的衰减程度，A衰减最多，B其次，C最少。在实际应用中发现，无论是强或弱的噪声，A声级都能较好地反映人们对嘈杂噪声的主观感觉，因此目前基本上都采用A声级来作为评价标准。

图1.4.4 声级计权曲线A、B、C

1.4.4 掩蔽

在寂静的环境里，人耳可以分辨出轻微的风声和小虫的鸣叫声。但是，当清晨人们起来活动的时候，由于环境噪声开始激增，原来那些可以听到的声音就被淹没而听不见了。两种声音同时到达耳际时，一种声音被另一种声音所掩盖而听不见的现象，称为掩蔽效应。较强的声音往往会掩盖住较弱的声音，特别是当这两个声音处于相同的频率范围内时。此时，较强的声音称为掩蔽声，较弱的声音称为被掩蔽声。一般来讲，掩蔽现象依赖于掩蔽声和被掩蔽声的频率以及它们声压级的大小。实验表明，高声压级的低音对低声压级的高音的掩蔽作用显著。

掩蔽效应在音响技术中得到应用。如一些降噪系统就是利用掩蔽效应的原理设计的，信噪比的概念及其指标要求也是根据掩蔽效应提出来的。在数字音源中，可利用人耳掩蔽效应进行压缩编码。在各种音频压缩编码格式的文件里，只突出记录人耳较为敏感的音频信号，而对于不敏感的音频信号则简略记录，从而大大压缩了信号的数据量，方便了数字音频信号的存储和传输。

1.4.5 声音的辨别

人耳不光具有感受声音刺激的功能，更重要的是还能根据声音频率和强度将不同的声音区别开来。辨别阈是指听觉系统能分辨两个不同声音在某种特性上最小差异的能力。能辨别的两个声音的最小频率差称为频率辨别阈，又称为音调辨别阈，该值与频率之间有一定的函数关系。正常人的音调辨别阈在1000Hz以下时为1～2Hz，在1000Hz以上时为频率的0.1%～0.2%。

能辨别的两个声音的最小强度差称为强度辨别阈，又称为响度辨别阈。当声音为中等强度时，正常人的响度辨别阈为5%～10%，或近似地相当于0.5～1dB。此外，听觉系统还具有辨别声音时间特性的能力，例如辨别两个长短不同的声音和辨别两个声音之间的时间间隔以及距离等。这种功能在语言的识别、通信以及音乐等领域具有一定现实意义。