2.2 选读
●罗常培,王均(2002)《普通语音学纲要》选读
●赖福吉(1975)《语音学教程》选读
●杨顺安(1992)《语音合成与语音学研究》选读
罗常培,王均(2002)《普通语音学纲要》选读(10)
◆ 作者简介
罗常培(11)(1899—1958),当代著名语言学家、语言教育家,是中国语言学界公认的“继往开来的一代宗师”。罗常培1919年毕业于北京大学中文系。从1923年起,他曾先后在国立西北大学、厦门大学、广东中山大学、西南联合大学、北京大学任教授,并在美国讲学,讲授的课程包括中国语言学、中国音韵学、中国语音学等课程。1928年他参与了中央研究院历史语言研究所的筹建工作,之后也在研究所内从事专职研究多年。罗常培不仅参与创办了《国文月刊》(1939年),也是《中国语文》创刊后(1959年)的总编辑;他还参与了建国后多项文字规范工作和少数民族语言调查。
罗常培一生勤苦力学。他的语言学著作丰富,专著十余部,文章一百多篇,在汉语音韵学方面和语言学其它方面,特别是语音学方面,有很高的造诣。主要著作包括《汉语音韵学导论》(1949年初版,1956年新版)、《汉魏晋南北朝韵部演变研究第一分册》(与周祖谟合作,1958年)等。这些重要论著,用现代语音学的方法,结合我国音韵学的传统,对音韵学上的一些关键性的术语,做了科学的阐明,使音韵学成为一门比较容易理解的学科。
本选文节选自与王均合著的《普通语音学纲要》,该纲要最初以文章的形式连载于《中国语文》1951年1月到1955年5月,共14期,1957年合并为集子出版。
◆ 正文节选
第二章 语音的基础
第二节 语音的生理基础——发音器官
1.发音器官的三个部分
前面说过,人的发音器官是一个巧妙的乐器。现在还拿乐器来比。一切声音的构成由于物体的颤动,物体的颤动总有一个原动力。胡琴不拉不响,笙笛不吹不鸣,拉胡琴、吹笙笛都是使胡琴的弦和笙簧笛膜颤动的原动力,人类发音的原动力是呼吸的气流;因此,人类发音器官的第一部分就是呼吸器官。
一般地说,气流虽是发音的原动力,但还不是发音体的本身。跟胡琴的弦和笙簧笛膜相当的人类发音的颤动体是喉头里的声带。声带是使气流乐音化的器官,是人类发音器官的第二部分。
人的发音器官跟乐器一样,除了颤动体还有共鸣器。人在说话的时候,主要的共鸣器是口腔。常常用得着鼻腔,有时也用得着咽腔。上一章说过,人体发音的共鸣器,构造复杂,形状不规则,而且变化多端,因此形成人类说话跟任何乐器不同的特殊音色。口腔以及鼻腔、咽腔和喉头是人类发音的共鸣器,同时是节制声音、形成各种音素的重要器官,这是发音器官的第三部分。
2.呼吸器官
呼吸的气流是声音的原动力,所以呼吸器官是声音的发动机。语言的发音和呼吸是分不开的,关于呼吸器官不能不谈—谈。呼吸器官是一连串的管道,从鼻腔口腔开始,经过咽头,通到喉头,再向下由气管、支气管到达肺脏。肺脏是呼吸气流的总仓库,它在发音方面的作用相当于风琴中的风袋。肺的外面是一架鸟儿笼子似的胸廓(由肋骨前连胸骨、后接椎骨构成),下面是一层橫隔膜。肋骨和模隔膜因筋肉的作用,可以上下伸缩推动,协助肺部的呼吸。
呼吸器官中的肺和气管对于呼吸的作用比较明显,用不着细说。肋骨和横隔膜的作用也是不宜忽视的。咱们吸气的时候胸部一定得扩大,呼气的时候胸部自然得缩小。胸部怎会扩大或缩小呢?这就在乎肋骨和横隔膜的作用了。在肋骨之间有所谓“肋间内肌”和”肋间外肌”。肋间外肌收缩可以把肋骨提起而使胸腔增大,帮助吸气;肋间内肌收缩可以让肋骨下降而使胸腔缩小,帮助呼气。横隔膜的膈肌也是行呼吸作用的主要肌肉,当它收缩时,横隔膜就给拉下去,因而胸腔扩大,可以协助吸气;它一松弛,横隔膜又缩上去了,因而胸腔缩小,可以协助呼气。好像拉风箱一样:你把风箱的拉手一抽,里面的空间大了,外面的气自然就会流进去;你把风箱一推,里面的空间小了,风箱里的气就会被驱逐出去。肋肌和膈肌对呼吸的作用就是这样。以上肌肉的运动由肋间神经和膈神经管理。胸部的扩大或缩小,有时肋骨跟横隔膜同时起作用,有时是其中之一起作用。横隔膜起作用比较容易,所以我国唱旧戏的人讲究所谓“丹田之气”,学声乐的人也主张多练腹式呼吸,就是这个道理。(试把手放在腹部之上,或胸腔外边,连发a音;轻重相间,你会感觉那筋肉或肋骨的动作。)
3.喉头和声带
人类发音器官的颤动体——声带——藏在喉头里边。这一部分对于语音的重要性是不用讲的了。咱们且来看看喉头的构造:
从外表看,颈部正中突起的一块,就是喉头。这一部分上通咽喉,下接气管,是由许多软骨衬着一些黏膜互相连接起来造成功的。这些软骨的名字是:甲状软骨,环状软骨,杓状软骨(又称披裂软骨或破裂软骨)。
甲状软骨是喉头最大的软骨。这块软骨卫护着喉头,像个盾甲,所以叫做甲状软骨。左右两片,略成方形,在脖颈的前部正中的地方合而为一,可以用手摸到。男人因为角度较尖,特别突出,称为喉结(北京话叫“颏勒嗦”)。左右两边各有上下两个角。甲状软骨的上面有一块像马蹄铁样的骨头,叫做舌骨。
图8 喉的侧面(甲状软骨的右半已除去)
环状软骨前低后高,像个带着印章的指环,前面在甲状软骨底下,纤维把它跟甲状软骨连在一块儿;下面纤维又把它跟气管的第一节软骨环连接起来。
杓状软骨在环状软骨后面那个印章似的板状部分的上边,左右各一,有点儿像两个椎形的杓儿。它的前角叫做声带突,声带就附着在这里。
在甲状软骨的后边还有一块树叶儿形的软骨,叫做会厌软骨。会厌软骨好比一扇活门,可以开关自如。会厌软骨的柄附着在喉结内璧,当咱们呼吸或说话的时候,它就升起,使气流容易出来;当食物下咽的时候,会厌软骨就被推弯,盖住喉门,不让食物走错了道儿,跑到气管里去。咱们说话跟咽东西的时候就可以看出喉头一上一下地活动。这一套软骨(包括甲状软骨、环状软骨、杓状软骨和会厌软骨)筑成一个很精巧的筋肉的小室,这个小室当中就是咱们发音的颤动体——声带。
喉部两旁的黏膜并不是平坦得像个筒儿似的。有两处皱起,做成皱襞,形成两对门户,上一对门户关不拢,在发音上也不很重要,叫做假声带;下一对形似两唇,是发音上最重要的器官,这就是咱们上面说的,人类发音的颤动体——真声带。这一对声带,左右能分开,也能并合。中间的通路叫做声门,依声带的张缩而开闭:在真假两声带之间,左右还各有一个小窦,叫做喉室,也可以叫做声窦,从声门出来的声音在这两窦间能够发生反响。
图9 喉软骨侧面
以上所讲的声门还可分为两部分:(1)音声门——靠前而窄,前端接于甲状软骨,长度约相当于真声带三分之二。(2)气声门——靠后而宽,刚好在两块杓状软骨的声带突之间,长度约相当于真声带三分之一。男人跟女人的声带长度不同,大约男人的比女人长十分之三弱,所以女人的声音比男人高。
图10 喉的直剖
在喉头各软骨之间有各种肌肉,这些肌肉的作用,能牵引杓状软骨转动,使声带或紧或松,声门也随着呈现出不同程度的开闭状态。
1.声门闭紧,暂时气息完全不通,忽然急激地冲出气来,就发出破裂的声音,最剧烈的就是咳嗽。
2.平时呼吸时因环杓背侧肌的作用,使杓状软骨往外推,声门就张开。一般地声门略呈三角形,深呼吸或喘气时差不多就扩大成菱形。
3.耳语(打喳喳)的时候,因甲杓肌的作用,使声门的前半关闭而后半相接近。这时,气流由声带的后部,气声门的间隙中出来,接触到声带的边缘发出细致的音响,就是耳语。
图11 声门及喉肌的作用(横断面)
4.发声音时因杓肌的作用,使音声门和气声门一齐关闭,气流通过声门时得从声带当中挤出来,因而使声带颤动,这时发生的声音是清晰响亮的,和前面所说唏嘘的气息、细微的耳语完全不同。声带紧而短的时候发高音,松而长的时候发低音。作为人类交际工具的语言主要得靠这种乐音化的声音。
图12 声带的状况
(上图表示喉头镜中所见喉的入口的一部分,下图表示甲状软骨与杓状软骨之间声带开合的情况)
1.会厌 2.会厌破裂 3.声带 4.前联合 5.后联合 6.甲状软骨 7.杓状软骨 8.音声门 9.气声门 4.口腔和鼻腔
人类的语言跟鸟兽的啼叫不同,是因为语言作为人们交流思想的工具,不仅能表现情感,而且能表达思想。人类的语音所以能用来作为交流思想的工具,全由于不同的音素结合起来,在约定俗成的情况下表示出一定的意思。鸟兽也能发音,但是它们发出的声音很少变化,不像人类能发出多种音素的复杂声音。人类语言里多种音素的不同,无论是乐音化的声音还是没有乐音化的气流,都是由于在它们通过口腔或鼻腔的路程上受到节制,发生种种变化。口腔和鼻腔不仅是人类发音的共鸣器,而且是不同音素的制造厂。(当然,有些音素喉头也起节制作用,以后咱们还要讲到;但绝大多数的音素的节制作用是在口鼻。)
图13 发音器官部位图
1.上下唇 2.上下齿 3.齿龈 4.硬腭 5.软腭 6.小舌 7.舌尖 8.舌叶 9.舌面前部 10.舌面后部 11.咽腔 12.会厌 13.甲状软骨 14.环状软骨(后板) 15.环状软骨(前弓) 16.假声带 17.声带 18.气管 19.鼻腔 20.食道
咱们可以把口腔分作三部分来讲:一部分是口壁,包括唇、齿、齿龈、上颚、小舌;一部分是舌;一部分是咽头。
口腔的大门是上唇和下唇。小孩儿开始学话,最先能学会的词就是“妈妈”“爸爸”,因为a是容易发的元音,而别人发双唇音[p]和[m]的动作是看得见的,这也是最容易发的两个辅音。
上齿和下齿是口腔的二门,也是一张开嘴就看得见的。再从牙齿往里看,紧靠着上齿的稍微凸出的部分叫齿龈。上齿龈往里是口腔的天花板,咱们管它明上颚,又叫口盖。上腭前部坚硬,叫硬腭;后部柔软,叫软腭;软腭后边连着一个小肉坠儿,叫做小舌,又叫悬壅垂。
口腔下部最活动的一部分是舌头,舌头是很灵话的,人们所以能发出各种不同的声音,主要就因为舌头的活动造成口腔形式各种各样的变化。
舌头又可分为舌尖、舌叶、舌面、舌根四部分。
舌尖是舌的尖端。
舌叶是舌头放平时,在舌尖的靠上靠后的部分。
舌叶还可细分为前舌叶和后舌叶两部分。
舌面在舌时之后。舌面还可分为舌面前、舌面中、舌面后三部分。当舌头自然平放时,舌面前部和舌面中部正在硬腭的下面,舌面后部正在软腭的下面。过去我国的习惯,称舌面后部为舌根,实际舌根是在舌面后部的下后方。
口腔的后面有一个管状的三叉路口,上通鼻腔,中通口腔,下通喉头,这就是咽腔。咽腔在发音上也是共鸣室的一部分。咽腔的后面叫做咽壁。
口腔上面是鼻腔,鼻腔也是人类发音的一个共鸣室。假如把上腭比作楼板,那么鼻腔是楼上的共鸣室,口腔是楼下的,软腭跟小舌有些像一个活动的楼门。咱们呼吸的时候,小舌悬在当中,既不靠舌根,也不碰到咽壁,这时咽头的三叉路口大开,气流可以分别从口腔和鼻腔直通喉头。咱们咽食物的时候,软腭伸直,挡住咽头上部(所谓鼻咽部)的通路,舌根向下压,把喉头的会厌闭起来,就把食物送进食管,使它不致误入气管。说话的时候如果软腭小舌伸直,抵到咽壁那儿,挡住鼻腔的通路,气流只能从口腔出去,这时发出的声音就是单纯的口音;如果软腭下垂,口腔有一个部位闭塞起来,气流只能从鼻腔出去,这时就会发出一种鼻音来;如果三条路都通,从下面来的气流可以同时从口腔跟鼻腔两路出去,这就造成一种口鼻音(或称半鼻音、鼻化音)了。
唇、舌、软腭、小舌、声带,是发音器官中活动的部分,也是发音器官中最主要的部分,有人管它们叫发音器官中的主动器官。此外,下腭的动作和口腔的开合也颇有关系。人类语言各个音素的造成是跟它们的活动分不开的。
在学习语言的各个音素以前,咱们一定得把发音器官的部位弄清楚,进一步理解并且学会控制咱们的发音器官,才能正确地发出所要发的音来。最好随身带一面小镜子,发音时注意观察它们的活动部位。镜子里看不到声带,有一种语音学仪器,叫做喉头镜,可以用来观察声门开闭的情况。此外,为检查舌头和口盖接触的地带,还可以利用假腭。理解每个音素发音器官的部位是掌握正确发音的必要条件。
赖福吉(1975)《语音学教程》选读(12)
◆ 作者简介
彼得·赖福吉(13)(Peter Ladefoged, 1925—2006),加州大学洛杉矶分校终身荣誉语音学教授,1959年博士毕业于苏格兰爱丁堡大学,1962年创立了加州大学洛杉矶分校的语音实验室,并一直担任实验室主任(1962—1991)。赖福吉曾任美国语言学学会主席(1978)以及国际语音学会主席(1986—1991)。任国际语音学会主席期间,他推动了1989年版国际音标的改革,以更准确地记录世界上新发现的各种语言。
赖福吉热衷于田野语言学记录和实验语音学分析,对世界的语言,特别是非洲的语言尤有深入的研究,与Ian Maddieson 合著了《世界语音》(14)一书。但赖福吉最广为人知的还是《语音学教程》一书,也是以下文章的来源。该书作为语言学专业使用最多的语言学教材,从1975年第一版出版至今已更新修订至第七版(2014),并被翻译成多种语言。
◆ 正文节选
第八章 声学语音学
共振峰
本书第一章讨论了语音在音高、音强和音质上的不同。在讨论音质差异时我们注意到元音音质取决于它的陪音结构,换种说法,一个元音同时包含许多不同的频率。其中一个即所谓基频,其他都是陪音频率,是它们赋予这个元音独特的音质。我们通过这些陪音差异将此元音跟其他元音区别开来。回顾一下前面说过的内容,我们发现每个元音都有三个共振峰,三个凸显的陪音频率。频率最低的共振峰,是第一共振峰,记为F1。当带嘎裂声来发元音时它最易被听见。你可以听到(你自己的发音或CD第一章的录音),当带有嘎裂声(本身并设有真正的音高)来发heed, hid, head, had中的元音时,它们的频率在一定程度上会升高。当低声发这些元音时,能更容易听出第二个共振峰(F2)频率的下降。第三个共振峰(F3),可以增加音质的区别度,但我们没有明显感知它的简单方法。
这些共振峰是如何产生的?答案是,声道中的空气就像音管里或者瓶子里的空气那样运动。当你拍击它时,它就会振动。如果你张开嘴,发一个喉塞音,并朝脖子接近颌下的地方轻弹手指,就会听见一个音,就像拍瓶子听到的声音一样。当你轻弹时,如果把头稍稍向后倾将脖子的皮肤拉紧,你可能会更清楚地听到这个音。要小心保持元音的调音部位,不要将舌根抬起碰上软腭。如果你用这个方法检测发一组完整元音[i,ɪ,e,ɛ,æ,ɑ,ɔ,ʊ,u]的部位,你就会听见前四个元音第一共振峰频率依次抬高,后四个元音依次降低。
可以根据共振峰给元音分类,不同的共振峰是不同声道形状的结果。任何空气,比如声道或瓶子中的空气,会根据由声道大小和形状决定的方式来振动。如果对着一个空瓶子的瓶口儿吹气,你就会发出低频音。如果给瓶子灌点儿水,使瓶子的容积变小,你就能发出带有高频的音。被变小的瓶子容积,跟钢琴的细音管或风琴细琴弦相似,可以形成更高的频率。发元音时声道形状复杂,使不同空气产生许多陪音。
声道里的空气随着声带运动而振动。每一次声带的开合都伴有从肺部出来的气流脉冲。这些脉冲就像声道中的气流受到猛烈拍击一样,使共鸣腔振动,从而产生大量不同的领率。就像你同时敲打不同的瓶子一样。不考虑声带振动频率,只要保持调音器管位置不变,声道中的气流就和这些频率产生共鸣。由于声道形状复杂,空气会同时产生不同的振动。声道后部的气流可能会以一种方式振动,形成如图8.1最上面的波形。同时舌前较小空间里的气流,可以用另一种方式振动,产生图中第二个波形。声道中第三种气流的振动方式可能产生图中第三个波形。实际上我们听到的是这些波形的叠加形式。
请看图8.1上面的波形。它像是在声道上轻拍了一下发出的,是一个振幅递减的波(随着时间变小)。你可以从图底部的时间轴上看到10毫秒内(即一秒的百分之一)有5个气压峰。相当于一秒里有500个峰值。换句话说,这是一个500 Hz的波,大约是元音[ə]的第一共振峰值。图中另外两个波有更高的频率——10毫秒中有更多的气压峰值。它们相当于1500和2500 Hz的波,即元音[ə]的第二和第三共振峰频率。如果声道中的空气振动源单一,会产生像图8.1中比较规则的音波。如果有很多振动源,如气流通过振动的声带,这些波形会重复产生,给这些陪音频率加上一个基音频率。
图8.1 声道中气流轻拍所形成的三个波形
我们在书中不会详细涉及声道形状和共振峰频率之间的关系。我的另一本书《声学语音学纲要》(1996)对这个问题有很好的研究。这种关系实际上比气流以一种方式在声道后部振动和以其他万式在其他部位振动都更复杂。这里我们将只关注一个事实,即在发大多数浊音时,每次声带振动会产生三个共振峰。注意声道中气流振动速率和声带振动速率无关。声带可能振动得更快或更慢,形成一个较高或较低的音高,但是只要声道形状没有变化共振峰频率也就不会改变。
辅音声学
辅音的声学结构通常比元音复杂。在很多情况下,可以说辅音是元音开头或结尾的一种特殊发音方式,辅音本身发音不具有区别性特征。因此[b, d, g]三个音的持阻实际几乎是一样的,[p, t, k]持阻过程也完全一样。因为在持阻阶段几乎是无声的。
每个塞音都通过影响邻近的元音来展现它的音质。我们已经看到,像[æ]这样的元音在发音过程中,共振峰与声道特定形状保持一致,如发音节[bæ]时,它的这些共振峰将呈现为嘴唇开启。嘴唇开启那一瞬间的特定形状决定了这些共振峰的频率。随着嘴唇的张大和声道形状开始变化,共振峰也会发生相应的变化。双唇闭塞导致所有共振峰频率下降。因此,音节[bæ]开始时共振峰频率相对较低,到发[æ]时突然迅速上升,通过这个特征使它不同于其他音节。同样,在[æb]音节中,[æ]的共振峰频率会随着双唇闭塞的形成而降低。因此,无论是闭塞形成时或是闭塞解除时都将出现由特定共振峰频率表示的特定声道形状。
比如,当你说bib或bab时,在词的开头嘴唇甚至还闭合时,舌头就会预先处于准备发元音的位置。除阻瞬间的共振峰频率是由整个发音过程的声道形状决定的,因此元音也会影响辅音共振峰的变化。我们将每个调音部位共振峰的明显起始点称为那个调音部位的音轨(locus)(15)。共振峰起始点决定于邻近元音。这是因为跟辅音闭塞无关的舌头部位大多是邻近元音的调音部位。
图8.7是a bab, a dad, a gag等词的语图,是由图8.3中元音的美式英语发音人念的。他在每个词前发一个a[ə]来给辅音可视段加上浊音(基于同样理由,我也将这张语图做得比通常的要黑)。你可以看到[b, d, g]音标上方接近底线处的模糊带声条纹。这些音节起始处的条纹没有结尾处的明显。在辅音持阻阶段,语图底线附近出现的浊音证据被称为浊音杠(voice bar)。
图8.7 a bab, a dad, a gag 语图
在这三个词中,第一共振峰都从低处上升,这只是一个塞音持阻的标志,而不会在区分调音部位方面起主要作用。这三个塞音的主要区别表现为第二和第三共振峰的首尾。共振峰起首用箭头标在图8.7中。bab开头音的第二和第三共振峰频率比dad开头音的要低。第二共振峰音轨从相对低的[b]开始明显上升。这个词末尾降得不很明显,这是由这个元音复音化造成的。但第三共振峰频率有明显的下降。dad中的第二和第三共振峰开始时都相当稳定。词末第三共振峰频率也相对稳定,不像它在[b]前下降得那么厉害,而且由于元音复音化,第二共振峰在降低后有一个明显抬高。gag最显著的特征是第二和第三共振峰的间隔变窄。第二共振峰上升持续影响到整个元音,使得这个元音不再是一个复化元音。第二和第三共振峰用gag前[ə]音节里的白线标注。它们好像共同指向一个点。第二和第三共振峰非常接近,有时被称为软腭音源点,它很好地体现了软腭辅音的特征。
相应的清塞音[p, t, k]出现在a Pam, a tan, a kang, 如图8.8所示。当然不存在kang这个词,它只是kangaroo一词的前部分。这里再一次将a[ə]放在每个音节之前。送气塞音的除阻标志是噪音爆发起始处的一条尖锐的竖线。噪音模式具有相对的随机性,主要分布在高频区。Pam中[p]的爆发频率最低。语图中[t]和[k]的噪音延伸至4000 Hz以上,这些我们会在后面图中看到。最高频率实际出现在[t]而不是[k]的爆发中。如果悄声以[t, k, p]的顺序发辅音序列[t, t, t, k, k, k, p, p, p],你可以听出最高音是[t],其次是[k],最低是[p]。你也可以听到[t]最响,[k]次之,[p]最低。[p]的音强有时非常低,因此在语图上很难找到冲直条印记。由于送气清塞音后的共振峰音渡发生在送气期间,在图8.8中它们就不像图8.7中浊塞音之后的那么明显。但是你可以看到,在Pam的送气阶段(在[h]之上),第二、第三共振峰上升。此外,也容易察觉到它们之前元音向塞音的音渡。在[p]前的[ə]末尾处,第二和第三共振峰频率下降;在[t]之前第二共振峰频率升高,第三共振峰频率则保持不变。三个词中变化最显著的是,因为软腭音源点的缘故,第二、第三共振峰在[k]之前彼此接近。
图8.8 a Pam, a tan, a kang的语图。箭头表示口腔鼻塞形成鼻辅音。
图8.8还显示了鼻音[m, n, ŋ]。鼻音(或者我们将要看到的边音)的明显标志是调音器官闭塞形成的那一刻,语图会有一个很突然的变化,图8.8用箭头标注在鼻音音标前。鼻音共振峰结构和元音相似,不同地方是浊音杠更弱,并位于由鼻腔共鸣特征决定的特别频率位置上。在鼻辅音中,第一共振峰非常低,通常约为250 Hz。第二共振峰位置较高,在第一共振峰和第二共振峰之间的很大区域里通常没有能量。图中发音人第二共振峰很弱,频率值恰好低于2000 Hz。鼻辅音之间的差异主要取决于它们前面元音末出现的不同共振峰音渡。[m]前元音的第二共振峰下降,kang末尾软腭鼻音之前的软腭音源点使第二和第三共振峰彼此接近,但是它们起始点有时候不是很清楚。
图8.9 fie, thigh, sigh, shy的语图。频率刻度提高到8000 Hz, 箭头指向第二共振峰起始处。语图只将第一个词完全呈现,其他词中复合元音第二部分的语图被删去。
图8.9是用以解释清擦音的fie, thigh, sigh, shy等词的语图。这些语图将频率刻度增加到8000 Hz, 作为擦音发声的最高频率。[s]中随机噪音延伸甚至远远超过这张语图的最高频率限度。第一个词fie的语图显示了词中的复合元音。其中第一和第二共振峰在央低元音的位置开始接近,然后分开,在复合元音结尾处,两个共振峰的间距如同图8.3中的[ɪ]。鉴于复合元音的共振峰模式在fie, thigh, sigh, shy里都一样,所以后面三个词只呈现其中第一部分元音的语图。
所有这些音都拥有频率分布范围很宽的随机能量。[f]和[θ]的模式几乎一样。区分这两个词的是移向后接元音的第二共振峰变化,图中用箭头表示。[f]中第二共振峰变化非常小,而[θ]在大约1200 Hz处开始下降。由于这两个音之间的差别非常小,所以在噪音背景下它们常常混淆在一起,而且在一些英语地方口音中它们被归为一个音。比如伦敦东区考克尼腔中,就不区分fin和thin。
[s]的噪音集中于高频区,图8.9中在5000到6000 Hz之间。[ʃ]要更低一些,下延至2500 Hz。由于[s]、[ʃ]声学强度都相当大,所以它们所形成的语图也比[f]和[θ]更黑,而且也有明显的共振峰音渡标记。在四个词中第二共振峰明显的音渡源点(音轨)依次抬高,shy中已到了跟元音[i]相当的位置,然后再显著降下来。
图8.10 ever, weather, fizzer, pleasure的语图
图8.10是元音之间[v, ð,z, ʒ]的语图。图中浊擦音跟清擦音[f, θ,s, ʃ]的对立不在词首的位置上。清声和浊擦音的语图模式相似,只是浊擦音具有带声直纹。ever的摩擦成分[v]甚至比face的[f]还要弱,它只出现于后接元音的开头。带声直纹在整个发音过程中都很明显。whether中的[ð]也是如此。与含有清擦音[f, θ]的词一样,这些词是由相邻元音的共振峰来区别的。这张图中擦音都出现在[ɛ]和[ə]之间。[ð]前后的第二共振峰比[v]的要高。
在[z]、[ʒ]的高频区,擦音能量非常显著。[z]中有一个很弱的浊音杠,而[ʒ]中却很难看到。在擦音噪音开始时,6000—8000 Hz范围内只有很少的带音直纹。从[z]到元音[ə],共振峰音渡很平稳,但从[ʒ]开始下降显著。最后一个词是pleasure, 它还可以让我们看到,送气塞音(如[p])后接近音(如[ɪ])时会发生怎样的变化。绝大多数[l]是清音,只有在[p]爆发和送气噪音的作用下才能听到它。
最后要考察的英语辅音是边、央近音[l, r, w, j]。图8.11是led, red, wed, yell等词的语图,边、央近音就在其中。所有这些浊近音的共振峰跟元音共振峰几乎一样。在第一个词的词首边音中,三个共振峰中心频率约为250、1100、2400 Hz(强度很低),但到元音开始处音强突变。正像我们上面注意到的,共振峰模式的显著变化是浊鼻音和边音的特点。但在词末,这种显著变化可能要少一些,如图8.11的yell。发词末边音时由于舌尖跟龈接触面可能很小或者根本没有接触,所以所发的音并非一个真正的边音,而是一个后、不圆唇元音。共振峰频率为1100 Hz或1200 Hz左右,这是大多数人发词首边音的典型模式。
图8.11 led, red, wed, yell的语图
图8.11第二个词red解释了近音[r](要记住,本书英语宽式音标[r]是近音[ɹ])。[r]最明显的特征是第二和第三共振峰频率较低,尤其是第三共振峰频率非常低,例中它(显示在[r]音标之上)约开始于1600 Hz。red和wed之间有很多相似点,这就是儿童在学着发这两个音时有时难于区分它们的原因。近音[w]始发时,三个共振峰的位置都很低,但第二共振峰随后陡升。[w]的共振峰滑动就像是从非常短的[u]滑开一样。最后,[j]的共振峰变化,也像距非常短的[i]很远的那个元音的共振峰。如yell或yes。因此,将[w]、[j]称为半元音比较合适。
这里,我希望前面章节很多模糊的解释,能让你认识到语图所呈现的通常也不是非常清晰的。表8.1简要总结了一些调音器官特征的声学关联。但本书不可能给出完整而详细的发声学解释。我们应该将上面的声学描述视作只是一个粗略的指向,而不是对语图所示的一成不变的声学结构解释,任何音段当处于不同语音环境时,可能会有非常不同的声学结构。
表8.1 辅音特征的声学关联。注意:这些描述应该视作只是一个粗略的指向。实际的声学关联在很大程度上取决于一个音中的特定组合以及邻近的元音。
杨顺安(1992)《语音合成与语音学研究》选读(16)
◆ 作者简介
杨顺安(17)(1941—1992),中国社会科学院语言研究所语音研究室研究员。1978年他考入中国社会科学院研究生院语言学系,师从著名语音学家和语言学家吴宗济先生和林茂灿先生,1981年毕业后留任社科院从事汉语语音合成技术的研究工作。
杨顺安结合汉语语言学和语音学的研究成果,开展普通话语音参数合成,特别是在共振峰规则合成技术方面进行了开创性研究,包括普通话的声源动态特性、普通话元音声学特性和动态模型、声调和调连模型、轻声特性及其合成规则。他提出了SIFS合成框架模型,并实现了单音节、多音节词语和语句的合成;在《中国语文》、《声学学报》、Speech Communication等国内外重要期刊上发表了一系列重量级的文章。他毕生围绕汉语普通话合成技术进行研究,集中体现在他的专著《面向声学语音学的普通话语音合成技术》中。
引文着重介绍了由汉语语音特征所决定的汉语语音合成技术的一些重点和难点。
◆ 正文节选
言语是人类特有的、最迅速、最方便和最自然的一种通信系统。在当今的世界上,能力非凡的电脑已迈出试验室,来到了工厂、办公室乃至家庭。如果我们能教会电脑说话和听话,赋予它言语功能,实现人——机——人的言语通信,那么,将会给我们的工作和生活带来多么大的便利和乐趣啊!
语音合成(speech synthesis)技术,是一种教会电脑说话的技术,也泛指利用电脑技术或数字信号处理技术重新产生人类言语声音的技术。语音合成技术与电脑“听话”的语音识别(speech recognition)技术相结合,就有可能实现人——机——人语音通信,那时,人们就无需叩击令人眼花缭乱的键盘,而可以直接用话音向电脑发号施令了;也无需目不转睛地盯着屏幕,因为电脑会用清晰的话音及时向你报告各种信息。
[……]
此外,在语言学中,语音合成又是研究语音特性的一种重要手段。人们可以利用合成技术人为地产生出各种语音,通过对这些语音的听辨,从而进一步探讨语音产生和语音感知的机制。“如今,没有经过合成的验证,没有谁敢于发表语音产生方面的重要理论”(Coker, 1972,p.319)。
下面,我们将着重讨论普通话语音合成技术中的语音学和语言学问题。
语音合成技术的基本原理
就汉语而言,语音合成技术大体上可分为两类:编码式合成和参数式规则合成。在编码式合成中,以语句、短语、词或音节为合成单元,录音后直接进行数字化编码,经适当的数据压缩,这些单元的语音数据就驻留在存储器中,组成一个合成语音库;重放时,根据待输出的信息,由语音库中取出一个一个的单元的数据,串接(concatenation)或编辑在一起,经解码还原出语音。这种合成方式的原理与录音机相似,也叫录音编辑合成。例如,在一种自动报站系统中,设计者事先将下列词语“录入”电脑存储器中:“东单王府井”“天安门”“复兴门”等站名和“车站到了”“下车的乘客请往车门口走”等常用语句。车快到天安门,售票员一按标有“天安门”的按钮,就从存储器中顺序调出下列单元:“天安门”“车站到了”“下车的乘客请往车门口走”等,经解码还原成话音输出出去。采用这种方式的系统,结构简单,价格低廉,开发较容易,在合成的语汇量很少时,其合成音质较好。如今,已陆续用于自动报时、报号、报站或报警等装置中。
在规则合成(synthesis-by-rule)系统中,合成语音库中所存的是较小的语音单位(如音素、双音素、半音节或音节)的声学上的合成参数。合成时,输入一串代码来指定每一语音单元的音色、音高、音强和音长,合成系统中有一套合成规则,对某些合成参数进行必要的修改和调节,而后,由语音合成器合成出连续的语句来。合成器在特定的合成参数控制下,能模拟人们产生语音的三个过程:声源(浊或清)激励、声道(即咽腔、口腔和鼻腔的总合)共鸣和口鼻辐射。
比较而言,编码式合成技术对语音学的依赖性不大。而参数式规则合成系统的开发却一步也离不开语音学的研究。下面,我们就开发普通话规则合成系统中的合成单元的选取、合成音质的流畅性和自然度等方面,来讨论一下语音学研究的作用问题。
普通话语音的特点与合成单元的选取
这里所说的合成单元是指在一种合成系统中,为了合成无限词语的语句而选取的语言学上的某种基本单元或基本单位。这种单元选定后,就可以在该合成系统中为这些基本单元建立一个合成参数的数据库,要合成一篇文本(text)或一句话时,从数据库中取出有关合成参数,这些参数经过有关规则作适当的修改后,送入语音合成器,就可以合成出语句来。
合成单元的选取是开发语音合成系统中的关键问题之一。合成单元的大小要兼顾到:(1)合成音质的好坏;(2)数据库的大小;(3)合成程序的复杂性或硬件实现的难易。
我们可选音位做基本单元,对任何一种语言来说,语音学上的音位数目总是很少的。普通话中,只有21个辅音和十来个元音,这样的语音数据库是很小的。然而,在自然的语流中,五花八门的音变无所不在,在人们头脑中,可能存在着像音位这类的分离的语言学单元,但输出的语音波却是一种连续的声学信号。各语音单元间会相互作用,使某个单元出现或多或少的变异。一个音位会有许多个音位变体。目前,从声学语音学来看,我们对普通话中音位这一级上的音变规律,知之甚少,所以无法选取音位来做合成单元。
与其他语言(如英语等)相比,普通话中的音节有如下几个特点:首先,它是普通话中最自然和最基本的语音单位,除极少数例外,普通话的一个音节,写下来就是一个汉字,而且还具有一定的意义,也就是说,一个音节是形音义的结合体;其次,在音节相连的语流中,虽然同样存在着音节之间的协同调音效应,但效应的作用范围较小,在听感上,基本上可以分出一个个音节,每一音节的声学表现有其相对的稳定性;第三,普通话的音节数较少,不计声调只有四百多个,而英语多达4030个,俄语也有2960个(高汉平等,1983,p.70)。
据资料统计,在大多数普通话语音合成系统中,都是以音节作为合成单元的。在合成语句时,就将一个个单音节串接起来。这些系统的合成音质,清晰度尚好,但是其自然度和流畅性恐怕就差一些了。为了使合成的词语更连贯些,可以选用单词做合成单元,但普通话中的基本词条的数量是相当大的,所以,这恐怕是一条实现不了的途径。
为了开发出合成音质较好的普通话语音合成系统,我们应当选取比音节更小的语音单元,多在声学语音学方面下功夫,寻找出各种语音层次上的音变规律,适时地调整合成参数,这样就有可能获得较高音质的合成语句。普通话语音体系中的声母和韵母就可以充当这种意义上的合成单元。
声学分析表明,普通话中的声母和韵母,虽然没有什么一成不变的声学表现与之一一对应,但还是可以进一步划分出若干“特征音段”。在大量分析了普通话中有代表性的音节的语谱图以及反复的合成试验后,我们提出了一种用于合成普通话音节的“音节—声母/韵母—音段框架模型(Syllable-Inatial/Final-Segments Model),简称SIFS模型(图1)。
图1 普通话音节的SIFS模型
根据这种SIFS模型,从普通话的一个音节里可划分出7种特征音段,如果按照表示出现先后的序号排列,它们是:(1)无声段,(2)声母辅音段,(3)送气段,(4)前过渡段,(5)元音段,(6)后过渡段,(7)鼻尾段。对某一个具体的音节来说,可能具有1—7种音段,也可能只具有其中某几段。表1列举了几个音节的声母、韵母及其在SIFS模型中的配列。
由表中的例子看到,任何音节都少不了元音段,而且只要声母不是零声母,一般都会有前过渡段。在最后一个例子中,因为声母辅音/tɕ/和韵母元音/i/的调音部位相同,通常无过渡,所以也就无前过渡段。在模型中,不论单元音韵母,还是复合元音韵母,都只有一段元音段,至于复合元音中的共振峰频率的动态变化,另有别的模型来处理(杨顺安,1986a)。整个音节的声调由字调模型来处理(1986b)。
应该说明的是,这种模型中的音段,并不对应着语音学中的某一种公认的语音单位,它们只是从合成的需要出发,以普通话音节的声学特性为依据,人为地划分出来的。它既可比音位大,如一个元音段(5)中,可以包括三个音位组成的复合元音,也可以比音位小,如一个送气塞音须由模型中的无声段(1)、声母辅音段(2)、送气段(3)和前过渡段(4)组成。
根据对大量语谱图的分析和反复的合成调试,我们建立了一个以60个声母变体和40个韵母为存储单元的合成参数库,用此参数库不但能合成出普通话的全部单音节(Yang & Xu, 1988),还能按规则合成出普通话中颇具特色的儿化音节和轻声音节(杨顺安,1991a; 1991b)。
表1 一些音节的声母、韵母及其在SIFS模型中的配列
音节的协同调音效应与合成语音的流畅性
如前所述,用一串单音节拼连出来的合成语句是不流畅的,是不自然的。因为在自然的语流中,一个个语音的调音和发声是会相互影响的,存在着大量的复杂的发生在音系学层面上的和语音学层面上的音变效应,即协同调音(co-articulation)效应和协同发声(co-phonation)效应。这里,协同调音是对语音的音段特征(即音色)而言的,协同发声是对超音段特征(即音高、音长、音强)而言的。
先讨论协同调音效应。对普通话来说,传统语音学家(如徐世荣,1980,p.159)早已注意到属于协同调音效应的所谓连读音变现象,如“面/mian/”和“包/pao/”连读时,/n/会被同化为/m/等。调音动作的不同必然会在语音声学特性上产生不可忽略的差异。近年来,还通过声学分析,从不同的角度考察了普通话的协同调音效应现象(许毅,1986;Chen, 1989;Wu & Sun, 1990;1991、杨顺安,1990)。
要改善合成语句的自然度和流畅性,就必须寻求到协同调音效应的规律,在合成参数的过程中设法模拟它。对那些以音节为合成单元的合成系统来说,要模拟协同调音效应是比较困难的,在我们开发的以特征音段为合成单元的合成系统中,这种模拟就比较容易。我们通过对几百个双音节词的语谱图的观测,初步归纳出音节间的协同调音效应的一些明显规律,在所开发的普通话语音合成系统中,增添了五条协同调音规则(Yang, 1990a),合成出音质比较清晰和流畅的多音节词语。下面举一例来说明。
图2 音节间的协同调音效应的模拟
图2示出了合成单音节“翻”/fan/和“案”/an/(图a)以及双音节词“翻案”/fan an/(图b)时各音段的控制参数。图中,竖实线表示音节界线;竖虚线表示音段界线;实曲线自下而上分别表示共振峰频率F1、F2和F3的轨迹;XXX线表示鼻音或鼻化元音的极点频率轨迹;OOO线表示零点频率轨迹。为便于比较,音节时长方面没有处理。根据协同调音规则,合成双音节的前音节时:(1)增添后过渡段,取后音节元音/a/的共振峰频率作目标值;(2)前音节鼻尾脱落,后音节元音被鼻化;(3)后音节元音/a/的共振峰频率降低与前音节的共振峰平滑衔接。这样一来,就比较圆满地模拟了语流中音节间的协同调音效应,改善了合成词语的流畅性。
普通话的韵律特性与合成语句的自然度
在普通话的自然语流中,每一音节的音高、音长和强度都会随语境而变,人们说出来的话,抑扬顿挫、轻重相随、缓急相间、节奏分明,有如唱歌一般。这样的韵律特性对于合成语句的自然度关系极大。到目前为止,关于普通话的韵律的研究多限于一般语音学的范围,声学语音学方面的研究刚刚开始,尚无适合于合成应用的韵律模型。因此,几乎所有的普通话语音合成系统的合成音质,其自然度和流畅性都不尽如人意,一听就有一股子“机器味儿”或“洋腔洋调”。
为了改善合成语句的自然度,人们进行过许多探索。例如,李子殷(1985)采用了15种双音节调型的基频曲线来合成双音节词。张家禄(1990)在其开发的系统中,借用了瑞典语的Lund语调生成模型,以手工方式为该模型中的参数附加语调标志后,再由模型生成出所需要的语调曲线。在四川大学的系统中,有6条调节能量的规则,有6条调节音节时长的规则,有3种停顿,6种声调模式(于鸿洋等,1990)。在台湾大学开发的“国语”语音合成系统中,有14种音节调型和8条变调规则、重音规则、语调规则、音节时长规则和能量调整规则(Leeet al, 1989)。
韵律特征涉及语音中的音高、音长和音强等方面的属性,千头万绪,从何入手?传统语音学的研究指出,“汉语的重音首先扩大音域和持续时间,其次才是增加强度”(赵元任,1968,p.23);“重音音节的音量大。音量的增强,影响主要元音变得长些,声调调值特别分明,或者显得高些”(徐世荣,1980,p. 133)。这就告诉我们,普通话中的重音是一个影响着声调、时长和强度的重要参量。一些声学分析也证实了这种看法(如林茂灿等,1984;陆致极,1984;颜景助等,1988)。因此,在研究多音节词语的合成中,我们就把语流中各音节的重音等级,当作控制韵律特性的主要参量,根据每一音节的轻重等级,调节这个音节的调域、声韵母时长和浊声源幅度。
一个词语的轻重格式,是在长期使用过程中“约定俗成”的,经过语音学家的归纳,从音系学的角度加以标定。例如,在“头昏眼花,不辨南北和东西”和“他去买东西”这两句话中,前一句话中的“东西”,要读成“中重”格;后一句的要读成“重轻”格,否则,会引起语义上的误会,或者听起来不自然。一个词语的轻重格式虽然被定下来了,但在语流中还会有语音学层面上的变化。仍以上面两例句来说,同一字形的“东西”,在音系学上被变成两种轻重格式的读法;如果把第一句改为:“……不辨东西和南北”,则这个“东西”的轻重格式,要发生语音学层次上的音变,不再是“中重”格,“西”反比“东”读得轻。
我们把按音系学规定下来的某一音节在一个词中的重音的轻重程度,称之为重度(stress degree),表为Sd。在语境中,该音节的轻重格式发生了变化。目前,关于普通话中“一个”的轻重格式尚无定论,拿双音节词来说,一般认为,有中重格和重轻格两种。但也有人认为,还有重中格和重次轻格,音节的轻重等级要分成四级:重、中重(或次重)、次轻和轻声(如:殷作炎,1982;徐世荣,1982;陆致极,1984;俞敏,1988)。根据我们的实验,音节轻重分为四级是必要的,即:4(重)、3(中)、2(次轻)、1(轻声)。
在普通话语流中,一个语句(尤其是较长的语句)是被分成为一个个短语说出来的,一个短语一般由几个词组成。在由词组成短语的过程中,短语中的各音节的重度会发生语音学层次上变化,此时各音节的重度分配受所谓“位置效应”和“音节数效应”的支配,某一音节的重度Sd′由下式算出:
Sd′=Sd-Dp-Dn (1)
式中Sd为该音节原来的重度,Dp和Dn分别叫作“位置效应减量”和“音节数效应减量”,它们皆可用经验公式求得(Yang, 1990b)。在几个短语组成句子时,各音节的重度还会受停顿、意群重音、强调重音、感情重音、句长效应等的影响,而改变其值。
在我们的合成系统中,合成词语的韵律特性参数是通过声调协调规则、时长协调规则和幅度协调规则来调整的。下面,举个实例来说明声调协调规则的作用。
现在,要合成的语句是“姐姐和我去看绘画展览”,图3示出了用此声调协调规则最终生成整句话的基频曲线的全过程:
图3 同声调协调规则最终生成整句话的基频曲线的过程示意图
(a)单音节处理:首先给定每一单音节的调整型码和重度,这是由音系学上定下来的。图中每一小框表示一个音节的基频曲线,框长代表该音节的时长,框中的纵虚线代表清声母和韵母的分界线,框高代表该音节的调域,这里的单音节的重度都被标定为4,框中横虚线代表音节的调基值。在此阶段,因为都作单音节处理,所以,各音节不相连,各小框互相分开。
(b)词处理阶段:按音系学上的约定,在由单音节组成词的过程中,为每一音节分配一个调型码和重度。此例中有如下词:“姐姐”“和”“我”“去”“看”“绘画”“展览”。在此阶段有几条音系学层面上的变调规则。例如,“展”和“览”组成“展览”时,“展”变成阳平,“姐姐”的后音节是轻声音节,后音节就变阴平,前音节变半上声。
图(b)中的小框有大有小,这是因为各音节的重度不同,因而时长和调域随之不同。另外,同一词中的几个音节的调基值也要依次略降。
值得一提的是,用这种声调规则可以较合理地解释许多语音学中讨论的连读变调现象,例如:语音学指出,两个去声音节组成一个“中重”格的词时,前音节的声调要变为半去,其调值为53。按我们的模型,这种变调属于语音学层次上的变调,由于前音节的重度小于后音节,其调域相应地小些,所以,其调值自然是53,并非发音人刻意产生的(参见图b中“绘画”一词的调形)。再如,语音学指出,一般三音节词按“中轻重”格读音时,第二音节会变成阴平,用本模型来解释,这也是由于该音节的调域减小的缘故。
(c)短语处理:按公式(1),重新分配各音节的重度,进而计算调域。
(d)句子处理:该句为陈述句,主语“姐姐和我”比谓语略轻,重度稍减,句尾音节“览”的调基值略降。
(e)声调曲线自然化和光滑化:所谓“自然化”,是给每一音节的声调曲线,加上适当的“弯头”和“降尾”,使得合成音质更加自然;而“光滑化”是对那些浊声母或零声母音节而言的,如此例中“我”和“览”,它们的基频曲线应与前一音节的光滑相连。合成程序会自动地判定应进行光滑处理的音节。
应用包括了声调协调规则、时长协调规则和幅度协调规则在内的韵律规则,在我们的普通话语音合成系统上,合成了大量的多音节词、短语和短句,合成音质在自然度和流畅性上,都比用单音节拼接的有较明显提高,有些合成词语几乎听不出什么“机器味儿”。但由于规则还不够完善,所以合成出来的有些词语,特别是较长的句子,还不那么自然。
从上述规则的描述中,可以看出,这些规则还是相当粗糙的,规则的制定缺乏充足的定量的实验数据,带有很大程度的经验性。例如,在这种声调协调规则中,虽然也有句子处理阶段,但到目前为止,关于普通话中各种语气的语句的语调规律以及语调和字调的纠葛问题,还在研究和争论之中(沈迥,1985;吴宗济,1982;胡明扬,1987),尚无定论。最近,还发现音节间有协同发声效应(Lin & Yan, 1991)。所以,合成语句时的声调处理还需深入探索。再者,普通话语流的音节的时长特性是较为复杂的,就单个音节而言,音节的时长与该音节的构成有关,还与该音节的声调有关。进入语句平面,某个音节的时长就会与该音节读音的轻重、所处的位置、上下文的语法结构关系等因素密切相关。而且,时长特性还与若干非语言学的因素有关,如语速、个人习惯等。通过声学测量研究普通话音节的时长特性的工作已逐步展开(冯隆,1985;Cao, 1991;王晶、王理喜,1991),这些研究对进一步完善时长协调规则是有益的。