摘要介绍从知觉、认知和语料库分析角度对汉语韵律特征进行的一系列研究。(1)韵律特征知觉:用实验心理学和知觉标注的语料库分析方法,研究汉语语调和音高下倾与降阶问题,语句和语篇中知觉可以区分的韵律层级及相关的声学线索。研究结果支持汉语语调的双线模型理论和语句音高下倾的存在;证明语篇中知觉可以区分的韵律边界是小句、句子和段落,及其知觉相关的声学线索。(2)韵律特征与其他语言学结构的关系:在标注的语料库的基础上,用常规统计方法研究语句常规重音分布规律、语篇信息结构与重音的关系、并用决策树方法研究根据文本信息确定韵律短语边界和焦点的规则。(3)韵律特征在语篇理解中的作用:用实验心理学方法和脑电指标研究韵律对语篇信息整合和指代理解的影响,揭示其作用的认知和神经机制。讨论了这些研究结果对语音工程、语音学理论和心理语言学研究的实践和理论意义。
关键词韵律特征,语调,韵律边界,重音,语句,语篇。
分类号B842
韵律特征是语言的一种音系结构,与句法和语篇结构、信息结构等其他语言学结构密切相关。韵律特征可以分为三个主要方面:语调、时域分布和重音,通过超音段特征实现。超音段特征包括音高,强度以及时间特性,由音位或音位群负载。韵律是人类自然语言的一个典型特征,具有许多跨语言的共同特点,比如:音高下倾、重读、停顿等都普遍存在于不同的语言之中。
韵律特征是语言和情绪表达的重要形式之一[1,2]。理解口语需要韵律特征,阅读文本语句和语篇时,也要借助韵律特征[3,4] 。由于在语言中的重要地位,韵律特征研究受到语言学、心理学、认知神经科学和语音工程等诸多领域的重视。国际上对韵律特征的研究起步于上世纪70年代。在语音工程发展的推动下,研究的规模越来越大。“言语韵律”系列国际会议,自2002年开始,每两年举行一次。
近年来,我们围绕韵律特征的知觉、韵律特征与句法和信息结构的关系,以及在口语语篇理解中的作用,开展了一系列研究。希望这些研究结果对于语音合成与识别系统的研制、语法成分间问题界面的理论探讨以及发展口语理解和口语产生的心理语言学理论有所贡献。
1 韵律特征知觉
在语流中,韵律特征通过基频、时长和强弱等超音段特征的系统变化实现。但韵律特征归根到底是知觉的产物。研究证明,知觉结果与这些因素之间不是简单的对应关系。汉语语调、重音和韵律边界的特点,知觉相关的声学语音学线索,以及这些线索之间的关系是我们研究的主要问题。
汉语是一种声调语言。声调是音节基频变化的时间模式,具有区别意义的功能。语调是语句层次的基频变化模式。关于汉语语调的结构及其与基频变化的关系,特别是语调与声调之间的关系,是语音学研究的重要理论问题。赵元任提出音域概念和橡皮带假说[5]。在此基础上,吴宗济和沈炯提出各自的语调理论,二者存在明显分歧。吴宗济(1993)认为,带有强调重音的语调是以基本单元调型连读变调为基础的,全句调域扩大,声调起伏加大,或全句的调域提高[6]。人们对声调的感知不是辨析其绝对频率的高低,而是各调类的相对音高关系。沈炯(1985)认为在音域单元构成的高音线-低音线双线语调模型中,语调对音域的上限和下限分别起调节作用[7]。高音线和低音线是两种独立的因素。上限的调节变化和语义的加强相关,下限的调节变化和节奏的完整性相关。
王蓓等通过语调知觉实验和语料库样本分析研究重音的声学线索,同时对两种语调理论进行了检验[8]。结果发现,在汉语语调的双线模型中,高音线与重音的变化相关;低音线与韵律层级结构相关。高音线的起落变化反映了音节的重读程度;低音线的下倾和重置反映了韵律单元的大小和相互包含关系;并且在段落以内,低音线对韵律单元有着组织作用。汉语语句音高的下倾和重置是由音域下限的移动实现的。研究结果明确支持双线语调模型的理论。这一研究为汉语语调理论研究提供了重要的实证数据,受到语音学和语音工程界的重视。
针对语调理论中下倾和降阶问题,黄贤军等设计了特定声调组合的实验室语句,对汉语语调中的音高下倾和降阶模式进行了探讨[9,10]。结果发现,高音成分除了受整体的下倾影响外,还受局部的降阶作用。降阶的同化和逆化作用主要使语调曲线的高音成分产生变化,而不影响语调曲线中的低音成分,低音点的下降主要受全局性的下倾的影响。在不同声调组合的汉语平叙陈述句中,低音线清晰地呈现出以韵律短语为基本单元的有规律的下倾现象。而且随声调组合的不同,以及承载音高下倾特征点的音节在韵律词中位置的不同,低音线的斜率和相对于频率轴的位置不同。当低音点处于韵律词词首时,低音线斜率的绝对值大于低音点处于韵律词词末时;韵律短语音高下倾程度还受它在句中所处位置的影响,位于句首的韵律短语下倾程度大于句末的韵律短语;主句包含多个韵律短语时,它们的低音线起点是依次单调递降的。
言语信号在时间上展开,具有一维性。通过语言学成分之间的时间关系,即韵律结构,表达语句句法结构这样的二维层级结构。韵律结构知觉有助于句法结构解析,可以说是语言理解的前提之一。语句中知觉可以区分的韵律层级是什么?不同层级的韵律边界如何表达?这些语音学和语音工程关注的重要问题,目前研究尚不充分。
我们在实验室语句研究的基础上又用语料库方法进行了探讨[11]。语料库由500个慢速朗读和37个快速朗读语句组成。按照三个等级对语句中每个音节后的间断进行知觉标注。结果表明,句内的主要韵律成分有韵律词、韵律短语和语调短语;知觉等级的划分与语法单元基本对应,但也不是简单的一一对应。对韵律层级边界进行声学分析,结果证明:汉语语句音高的下倾和重置是由音域下限的移动实现的;韵律词边界的声学线索是低音线的不连续性和边界前音节的延长,一般没有无声段;韵律短语和语调短语边界的声学线索是低音线重置和无声段,边界等级越高,低音线重置程度越大,无声段也越长;知觉等级与无声段成对数增长关系。可以说,边界前音节的延长和音高的不连续是弱边界的声学线索,音高重置和无声段是强边界的声学线索。
语篇是由若干句子构成的完整语言单位。如同语句具有句法结构一样,语篇是由大尺度信息单元或语段组成的等级结构。这种等级结构同样可以借助韵律特征表达。在语篇中有哪些知觉上可以区分的韵律层级?这些层级的声学语音学表现是什么?语篇层面上的韵律知觉问题国内尚无人涉及。我们通过大规模语料库的韵律结构知觉标注和语音分析,对这些问题进行研究[12]。分析了语篇内小句、单句、复句和段落四种信息单元的韵律特征,这些单元边界等级的知觉差异、边界的音高和无声段的变化规律、语篇内音高下倾的趋势等。研究结果表明,语篇中有韵律意义的大尺度信息单元有小句(对应语调短语)、句子(包括单句和复句)和段落;单句和复句边界没有知觉等级和声学特征上的显著区别,对应同一韵律单元。这些边界等级通过边界前后音节的音高对比实现,即音高重置程度。段落和复句内的语调短语基本以平行的模式存在,没有明显规律性的整体语调下倾现象。信息单元越大,无声段越长,且变化的自由度越大;在小句边界处无声段与音高重置程度显著正相关。
2 韵律特征与句法和信息结构的关系
作为一种音系结构,韵律特征与语法结构和信息结构等其他语言学结构之间存在相关和相互制约的关系,这使得韵律特征在语言产生和理解中具有重要地位。对这些关系进行研究,具有理论和现实意义。在语音工程中,要把一个文本转换成口语,除了要把每个字对应的音节生成出来,还必须根据文本的语法和语义,加上韵律特征,才能合成一段可以接受的自然语言。韵律处理的好与不好,对合成语言的准确与自然度有决定意义。因此需要研究韵律与句法、语义的关系。我们用语料库方法对常规重音分布规律、重音分布与语篇信息结构的关系问题进行了初步探索。
常规重音是由句子的语法结构特点决定的。它在表达上具有提示、突出话语中某些句法成分的作用。作为常规重音的成分,一般是语意较强的实词。这些充当句子重音的句法成分在句子中担负传递重要信息或新信息的任务。语言学家对汉语语句常规重音分布规律有许多不同的看法。我们对它们进行梳理和检验,并考察了常规重音的声学语音学线索[13]。通过构建中等规模的“句法-韵律-声学参数”关系库,探讨句法与常规重音、重音与声学相关物之间的关系。还研究了这些规则在自然话语中使用的条件与优先级别。研究结果表明,常规重音分布规则可分为三类:基本规则,特殊规则和优先规则。配置常规重音时,应当最先使用优先规则,凡符合优先规则条件的语句按照优先规则进行常规重音的配置;当搜索完所有优先规则仍没有匹配规则时,可进行较低优先级的特殊规则的搜索;在前两类规则均无符合使用条件时,最后使用基本规则进行条件匹配和常规重音配置。这些规则,为我们构建文语转换系统的韵律模块提供重要的实验基础。无论是文本还是口语都具有信息结构。每一个句子可以划分为两部分,如新信息/旧信息、焦点/背景等。新信息指在语篇中刚刚加入的新内容;旧信息指前面语境中出现过或可以根据背景知识推论出的信息。在口语中,信息结构与重音分布存在一定的对应关系。通常,新信息重读,旧信息不重读。这样,听者对韵律合适度评价高,理解也更快。对新旧信息与重读的关系,已有研究多基于推理,缺乏大量数据的实验证据。
我们对10个语篇构成的语料库进行重读程度标注,探讨词性与负载新旧信息的关系,以及对新旧信息更细的分类是否具有韵律上的意义[14]。对重读程度的标注分为三级,明显、较明显和不明显。新旧信息的标注以词为单位,分为二分的和连续的定义。研究发现,新信息的重读程度高于旧信息,当旧信息在句子中处于对比或焦点位置时,也会被重读。负载信息新旧状态的主要是名词,动词的重读程度比较低,即使是新信息也常常不被重读。形容词重读程度比较高,它的信息状态对重读程度没有显著影响。还发现,在连续的概念下区分新旧信息是有意义的,全新的信息重读程度高于一般的新信息,因为它更容易成为语篇的焦点和注意的中心。这一研究结果对于语言合成的韵律建模,特别是重音设置规则具有重要的启发意义。
对信息结构的研究代表了对语言研究的一种独特的视角,在国际上正越来越多的受到重视。德国波斯坦大学等组织了有40余位学者参加的大型国际合作研究,对信息结构从语言学、心理学等不同角度进行研究,并预期在这个领域将有重大突破性进展。而国内的相关研究还很少。
与信息结构密切相关的是语句和语篇的焦点问题。在言语交流过程中,焦点起着很重要的作用。说话者通过焦点将语义中最重要的信息表达出来;在理解过程中,听话者通过表层的语音信息将焦点中的核心信息和重要信息确定下来。在文语转换系统中,重音的位置和语调曲线的生成都有赖于焦点的确定。如何确定文本语篇中焦点所在位置?我们在研究中对文本语篇进行了信息状态、句法、焦点敏感算子、逻辑关系等多维标注,然后用知识发现的方法提取规则。研究初步发现,各种聚焦手段是相互影响的,在不同的语境下其优先级别不同。
我们还通过语料库分析研究了如何根据文本确定语句韵律边界。语言学研究证明,话语韵律与句法之间实质是一种相互制约的关系。韵律特征在某种程度上反映句法内容,同时句法内容也在一定程度上左右着韵律特征的形成,但这种制约关系并不具有强制性。我们的研究发现,句法结构与韵律结构并不是一种平行或同步关系,韵律结构和句法结构的不一致主要发生在低级层次上;而在高级层次上,两者的一致程度较高。以上是使用语料库方法获得的一些统计规律。应该看到,韵律特征与语法和信息结构的关系是相当灵活的。而且,除了语言学功能之外,韵律特征还有语用、情绪表达等多种功能。语言中韵律特征的预测和实现,是一个十分复杂的问题,有待今后进一步深入研究。
3 韵律特征在语篇理解中的作用
我们从语篇信息整合和指代理解两个角度对韵律特征及其与其他语言学结构之间的关系在语言加工中的作用进行了探索。
我们首先对重读与信息结构之间的对应关系对语篇加工的影响进行研究[15]。实验研究发现,与无重点条件相比,如果新信息重读而旧信息不重读,即重读与信息结构一致,会促进语篇加工;如果不一致,会阻碍语篇加工。用跨通道词汇再认任务研究实时加工过程中重读对所标示信息的激活水平的影响,表明重读会促进信息的激活水平。在一致性重读条件下,重读会提高新信息在语篇表征中的激活水平;这种影响在重读词汇1000ms之后出现,持续相对较长的时间。在不一致性重读条件下,重读提高旧信息在语篇中的激活水平,但同时抑制新信息的激活;这一促进和抑制作用在关键词汇后的500ms出现。用ERP研究词的信息状态不同时,重读怎样和何时影响口语语篇理解,得到了一系列有趣的发现。重读在双字词开始后120~130豪秒即对N400的幅度产生影响,双字词开始后350~360ms重读与信息状态间的交互作用开始出现。不论是新信息还是旧信息,重读比不重读诱发更大的N400;但对于新信息,重读引起的N400的差异小于旧信息。结果说明,在口语理解中,听者能够很快把重读的意义与先前的语境相匹配;影响重读词汇与先前语境的语义整合,听者在新旧的语义水平上解释重读的意义。
重读和句法结构、重读和动词隐含因果性如何影响歧义代词的理解,作用是否是即时的,以及这些不同种类的因素在理解过程中是如何相互作用的?我们采用多种方法相结合进行了一系列探讨[16]。
首先,采用延时判断法研究了重读和句法结构对歧义代词指认的影响。结果表明,在不同的句法结构中,重读对听者注意焦点的转移有不同的作用。在平行结构的句式中,重读使听者的注意焦点转移到前行语句中突显度较低的实体上;但在不平行结构的句式中,没有观察到重读引起注意焦点转移的作用。这表明,重读对指代理解的作用在一定程度上受句法结构的影响。
在进一步的研究中,我们优化实验设计、对语料进行了更严格的控制,结合听觉动窗法和跨通道探测词再认法,探讨了重读和动词隐含因果性对代词加工的影响及其时间进程。研究表明,重读在不平行结构的句式中会即时地影响代词可能先行词的激活水平,引起听者注意焦点的转移,为“注意驱动理论”[16,17]提供了实验证据支持,加深了我们对重读作用的认识;动词隐含因果性即时地影响代词可能先行词的相对激活水平,并且影响代词先行词的指认,倾向于支持焦点假设[18,19],实验结果为语言加工系统的即时性假设提供了支持性证据;此外,重读和动词隐含因果性在汉语句子理解和代词加工过程中存在相互作用。
近年来,我们从知觉和认知的角度对韵律特征开展的研究,系统探讨和回答了韵律与声学语音学参数、韵律与广义语法其他成分(句法结构、信息结构等)之间的关系,以及韵律在语言理解过程中的作用。这些研究结果深化了我们对汉语韵律的认识,也丰富了我们对语言(特别是口语)理解和产生的认识。这对于语音学和语音工程的理论和实践问题的探讨和解决,对于构建语言认知的理论模型提供了实验研究基础。
参考文献
[1] Crystal D. Prosodic Systems and Intonation in English Cambridge University Press, 1969
[2] Kent R D, Read C. The Acoustic Analysis of Speech. CA, Singular Publishing Group, Inc. San Diego, 1992
[3] Koriat A, Greenberg S, Kreiner H. The extraction of structure during reading: Evidence from reading prosody. Memory and cognition, 2002, 30(2): 270~280
[4] Fodor G. Psycholinguistics can’t escape prosody. Proceedings of the Speech Prosody 2002 Conference. Aix-en-Provence, S. 83~88
[5] 赵元任著,吕淑湘译. 汉语口语语法. 北京:商务印书馆,1979
[6] 吴宗济. 普通话语调分析的一种新方法:语句中基本调群单元的移调处理. 语音研究报告,中国社会科学院语言研究所,1993
[7] 沈炯. 北京话声调的音域和语调. 见:林焘,王理嘉 主编. 北京语音实验录. 北京大学出版社,1985
[8] 王蓓, 杨玉芳, 吕士楠. 汉语语句中重读音节音高变化模式研究. 声学学报,2002,27(3): 234~240
[9] 黄贤军, 杨玉芳, 吕士楠. 韵律短语的音高下倾实验研究. 第八届全国人机语音通讯学术会议论文集.声学技术,2005. 24: 360~364
[10] 黄贤军,杨玉芳,吕士楠. 汉语语调降阶的实验研究. 声学学报,待发表
[11] 王蓓,杨玉芳,吕士楠. 汉语韵律层级结构边界的声学分析. 声学学报,2004, 29(1): 29~36
[12] 王蓓, 杨玉芳, 吕士楠. 汉语中大尺度信息单元的声学线索. 声学学报,2005, 30(2):177~183
[13] 郑波, 杨玉芳. 常规重音分布规则. 应用声学,2006,待印刷
[14] 王蓓,杨玉芳. 第六届全国语音学学术研讨会论文集,2002
[15] 李晓庆, 杨玉芳. 不一致性重读对口语语篇加工中信息激活水平的影响. 心理学报,2005, 37(3): 285~290
[16] 申敏,杨玉芳. 动词隐含因果性与韵律特征对语篇指代理解的影响. 心理学报,2006,待印刷
[17] Cahn J. The effects of pitch accenting on pronoun referent resolution. In: Proc of the Association for Computational Lingustics (ACL). Cambridge, Massachusetts, 1995. 190~193
[18] Kameyama M. Stressed and unstressed pronouns: complementary preferences. In: Peter Bosch, Rob van der Sandt ed. Focus: Linguistic, Cognitive, and Computational Perspectives, Cambridge University, 1999. 306~321
[19] Gordon P C, Grosz B J, Gilliom L A. Pronouns, names, and the Centering of attention in discourse. Cognitive Science, 1993, 17: 311~47
Studies on Speech Prosody
Yang Yufang, Haung Xianjun, Gao Lu
(Institute of Psychology, Chinese Academy of Science, Beijing 100101, China)
Abstract: Prosody is the phonological structure of spoken language, plays important role in speech production and comprehension. This paper reviewed a series investigations on prosody conducted in the Lab of Spoken Language Processing in recent years. (1) The intonation and declination of fundamental frequency in Chinese sentences, prosodic boundaries in discourses and their perceptually relevant acoustic cues were investigated with both psychological experiments and speech corpus analyses. The results give a support in “two contours theory” of Chinese intonation and the existence of F0 declination; (2)The relations between accentuation, syntactic structure, and information structure, as well as the rules of assignment of prosodic phrase boundaries and focuses in written sentences and discourses were investigated with the methods of both statistical analyses and knowledge discovery on the bases of labeled speech corpus. (3)The roles of prosody in information integration and pronoun understanding in discourses were explored with both behavioral and ERP experiments. The consequence of the results for the development of speech engineering system and implications for the theories of spoken discourse processing were discussed.
Key words: prosody, sentence, discourse, speech corpus analysis.