第一章 绪论

第一节 词与语素、短语的纠结与离析

语素、词、短语和句子是语言的基本结构单位,语素是最小的语音语义结合体;语素的上一级语言单位是词,词是最小的能够独立运用的语言单位;短语是词和词的组合,跟词一样,也是构成句子的材料;词和短语的上一级语言单位是句子,句子是最小的语言交际单位。可见,“词”在语言的层级单位中起着承上启下的作用。由于“词”下连语素,上接“短语”,与语素和短语都有诸多的纠葛。百年来,学者们借鉴西方现代语言学的理论和方法,在我国传统研究的基础上,对词加以特征定义,出现诸如“理论词”“形式词”“结构词”“临时词”“句法词”“词汇词”“语法词”“语音词”“韵律词”“分词单位”“工程词”“字组”等说法。可见,学界对“词”的界定和内涵还没有一个一致的标准,还是仁者见仁,智者见智。

本节重点讨论汉语词与语素、短语的纠结与离析。

一 词与语素的纠结和离析难点

(一)词与语素的纠结

语素是最小的语音语义结合体,是语言中最小的有意义的单位;词是最小的自由活动的语言片段,语素与词既有不同又有交叉,二者是交集的关系。具体分为三种情况:a.不成词的语素,即:不属于词的那一部分语素;b.成词语素,即:语素和词的交集部分;c.多语素组合体,即:不属于语素的那一部分词。a、b、c三者可以用“自由活动”和“意义分解”两项指标予以区别。

自由活动,包括单说和独用两种情况。单说,指可以单独作为一句话来说;独用,指可以在句法层面上独立充当某个成分或者起到某种语法作用。

“单说”的如:

(1)一个孩子忽然惊叫起来:“!”

(2)您猜对了,

(3)缴一份钱变三份,

(4)!真扫兴!

以上加点部分都是可单说的成分。[1]

“独用”的如:

(1)我才不想

(2)他回来

(3)一张床

(4)二十三

(5)红通通

以上加点部分都是可独用的成分。

意义分解,指一个单位能否在其内部进行语义分析(不包括汉字内部的构造部件的意义解析)。如“人民”,由“人”和“民”构成,“人”“民”都单独具有意义,共同参与构成“人民”的词义,可见“人民”的语义可以在其内部得到进一步的分析,即“人民”的词义是可以进行分解的。与之不同,“人”在表示“能制造工具并使用工具进行劳动的高等动物”意义时,语义无法进行内部分解。[2]

不成词的语素、成词语素、多语素组合体三者的差别可以通过表一显示出来:

表一 语素与词的差异

续表

不成词的语素,不能自由活动、意义不能分解。只能充当构词语素,主要包括词根语素、词缀语素两种。前者如“飓风”的“飓”、“泥鳅”的“鳅”,后者如“石头”的“头”、“椅子”的“子”。不成词的语素都是单音节的。

成词语素,能够自由活动、意义不能分解。成词语素主要包括:(1)单音节的实词语素,如:鱼、狗、人、山;(2)单音节的虚词语素,如:呢、吧、了、着;(3)构成单纯词的多音节语素,又可具体分为:a.联绵词,如:忐忑、尴尬、犹豫、踯躅、倜傥、蹊跷、参差、龌龊、徘徊、逍遥、囫囵、葫芦、灿烂、怂恿;b.音译词,如:沙发、尼龙、吉普、吉他、雷达、马达、拷贝、吐司、高尔夫、奥林匹克;c.叠音词,如:蛐蛐、猩猩。成词语素有单音节的,也有双音节和多音节的。

多语素组合体,可以自由活动、意义可以分解。多语素组合体可以由词根语素与词根语素相互组合构成,如:学习、国家;也可以由词根语素与词缀语素相互组合构成,如:老师、作者。多语素组合体都是双音节及以上音节的。多音节象声词整体是一个语素,如:乒乓、布谷、扑通、喀嚓、咕咚、嘎吱。

(二)词与语素的离析难点

1.因“自由活动”造成的语素与词的离析困难

不成词的语素和成词语素都属于语素,通过表一两者在自由活动、意义分解这两项指标上的差异可以看出:a.意义不能分解是所有语素必须具备的共同特征;b.能否自由活动,是语素与词产生瓜葛的原因所在。

有些单位一般不能单说或单用,但在特殊领域里或者作为简称时可以单用,如:

氧(化学,指氧气)         云(书面语,指云彩)

唐(历史,指唐朝)         英(新闻,指英国)

前怕狼,后怕虎(成语)       你一言,我一语(熟语)

汉(汉族的简称)          辽(辽宁省的简称)

上述这一部分语素具有语素和词的双重属性,在书面语(特别是专业领域)中倾向于是词,在口语中倾向于是语素。

2.因“词缀”造成的词与语素的离析困难

汉语学界描述词缀的几个常见术语有:前缀、后缀、中缀、类前缀、类后缀。

前缀:阿、第、初、老、小;

后缀:子(名词后缀)、儿、头、巴、者、们、然;

中缀:得(看出、来及)、不(看出、来及);

类前缀:可、好、难、准、类、亚、次、超、半、单、多、不、无、非、反、自、代、裸;

类后缀:员、家、人、民、界、物、品、具、件、种(军种)、类、别(国别)、度、率、法、学、体(导体)、质、力、气(脾气)、性、化、门。

对于由词缀或者类词缀参与构成的单位,由于人们对词缀或者类词缀有不同的认识,使得对由它们构成的单位是否是词也产生了不同的看法。倾向性的观点如下:

(1)由词缀或者类词缀参与构成的四音节以上单位,倾向性为短语,如“世界战争不可避免论者”、“准国际性会议”。

(2)由词缀或者类词缀参与构成的非临时性组合单位,四音节以下的,倾向性为词,如:副本、副班长、副研究员;由词缀或者类词缀参与构成的不常见的双音节,倾向性为短语,如“昏然”。

(3)有些类推性不强,如“阿猫阿狗”中“阿猫”“阿狗”一般不能单用或者单说,“阿猫阿狗”倾向为词;有些类推性强,如“X主义”等,倾向短语。

(4)对于由“得”“不”参与构成的动补式,以下情况为词,如:去掉“得、不”,动补式不能成立,如:经得起、经不起——*经起;只有肯定或者否定一种形式并且复现率高,如:怪不得——*怪得,了不起——*了起,饿得慌——*饿不慌,上述这些倾向认为是词的动补式,可以归入惯用语。

(5)可以有限列举的、高频的“初X”“第X”等为词。

3.因“音节”造成的词与语素的离析困难

单音节有时会对词与语素的离析造成困难,具体情况如下:

(1)一般不单用,也不用作简称或别称的地名构成成分,不是词,如“亳州”的“亳”,“郴州”的“郴”。[3]

(2)通常只用于构词、不能单用的不认为是词,如“茈”可以构成“凫茈”“茈湖口”,单用不常见,不是词。

(3)一般只作为词的构成成分、不能单独使用,但是有时也可以单用的,认为是词。如“碍”,可以构成“对……有碍/无碍”“碍于情面”等,倾向于是词。

(4)只要有一个意义为词,就认为是词,如“埃”,有“长度单位”的意义,可以认为是词;又如“艾”,可以表示“姓”,是词。又如“绰”,读chāo时是词,不管其他读音时的情况。

(5)一般只作为单纯词的构成部分出现,不是词,如“萝卜”的“萝”。有些单纯词的构成部分可以单用,认为是词,如“蝴蝶”的“蝶”,可以单用,如“蝶恋花”,认为是词。

总之,在人为判断单音节是不是词时,标准较宽。因为说一个单音节完全不能单用,是武断的,很可能在大规模语料库里或者在某种特殊语境下,一个感觉不大可能单用的单音节就单用了。

4.因“形态”和“类形态”造成的词与语素的离析困难

鉴于汉语的构形形态不发达,通过构形得来的单位也倾向认为是词,称之为“构形词”。包括:形容词的ABB、AABB、A里AB、A不XY重叠式,动词的AABB重叠式、副词重叠以及象声单位,如:毛茸茸、慌慌张张、慌里慌张、脏不叽叽、偷偷摸摸、常常、扑通、咕嘟嘟、哎哟哟。成语内部的重叠形式不是词,如“惴惴不安”中的“惴惴”、“谆谆教导”中的“谆谆”。

对于“X地/的”,以下情况倾向认为是词,如:

(1)X不能单用的常见双音节“X地”,如:蓦地、霍地、忽地、倏地、突地;

(2)X可以单用的常见双音节“X地”,如:陡——陡地、猛——猛地;

(3)可以做副词使用的常见双音节“X的”,如:“他真的来了”中的“真的”。

(4)单音节疑问词充当X构成的常见“X的”,如:咋的、怎的。

“他妈的、奶奶的、去你的”归入惯用语;具有名物化作用的“的”构成的“X的”,倾向于为短语,如:家里的、相好的、掌柜的、跑堂的、老不死的。

二 词的典型特征

关于“词”的最初的研究主要着眼于意义,诸如“一个词表示一个观念”[4]、“语言的最小意义单位”[5]等观点;20世纪50年代后逐步从注重意义转到注重形式、形式和意义结合,如“如果我们企图用一个并且只有一个手段来划分所有的词,显然是不可能的”[6],通过这一时期的讨论,学者们认识到意义的完整性、结构的定型性和语音的重音和停顿都对“词”的界定有重要影响;20世纪80年代开始,随着计算机技术的使用,逐步开展了词语的计量研究,诸如北京语言学院完成的“现代汉语词汇的统计与分析”、北京航空学院等单位完成的“现代汉语词频统计”等,又引入了频率等观念。因此,当前对“词”的认识主要是基于四个维度:结构、意义、音节和频率,要求“词”结构紧密、意义融合、音节适中、频率较高。

从语言事实来看,词和短语之间具有模糊地带,很难一刀切开。但现实的语言应用,如词典编撰、词语教学、中文信息处理等,又要求词和短语有个较为明显的界线,为了操作的方便,假设在技术层面上词与短语之间没有重合,二者的交集为空。词的判定原则是结构紧密、意义融合、音节适中、频率较高。与之不同,短语的结构比较松散,短语的意义是其构成成分的意义按照内部结构关系组合而成的,韵律可短可长,频率可高可低。其中的结构紧密、意义融合是判定词的比较硬性的标准。

总之,我们在判定一个单位是不是词时,既要考虑到语言学家对词的认识,又要照顾到一般大众的词感,是一种实用主义、经验主义的做法。对词的认定不仅是定性的,更是定量的,频率原则依托于大规模语料库中的统计数据。词与短语的界限是模糊的,这一点毫无疑问,问题是现实的应用需求要求给出一个明晰的答案,要求在二者之间人为地划出界线,下面是对汉语“词”的典型特征的认识。

(一)结构紧密

由于结构紧密而可以判定为词的,包括以下两种情况:

1.非独用语素参与构成

非独用语素的黏附性强,由它们参与构成的音串,结合往往紧密。因此,直接构成成分中有一个或者两个都是非独用语素并且常见的音串,倾向于为词。如:

(1)“X+类后缀”:作者     (2)“类前缀+X”:老师

(3)单纯词:蹒跚        (4)外来词:沙发、蒙太奇

(5)象声词:乒乓        (6)并列式:人民

(7)动补式:使得        (8)定中式:佐证、侍婢

(9)状中式:耸立、纵使     (10)动宾式:动员、赏月

(11)三音串:畜产品(非独用语素在前)   创汇额(非独用语素在后)

非独用语素参与构成的不常见的音串,倾向于认为是短语,如:食者、罪情、弑父、昨宵、尊之、昨晨。

2.内部不可拆分

内部不可拆分也是结构紧密的表现,因此,内部不可拆分的常见音串是词。如:

(1)定中式不能用“的”等拆分:白菜——*白的菜

(2)动补式不能用“得”“不”等拆分:壮大——*壮得大/*壮不大

(3)并列式不能用“和”等拆分:坟墓——*坟和墓

(4)状中式不能用“着、地”等拆分:热爱——*热地爱/*热着爱

(5)动宾式中“动”与“宾”之间很难被各自的扩展成分拆开,如:做人——*做了一个人。

需要说明的是,某些句法结构也具有“内部不可拆分、频率趋高”的特点,需要排除,如:最大、很高。

(二)意义融合

由于意义融合而趋向判定为词的,包括以下三种情况:

1.虚化语素参与构成

由意义虚化的语素参与构成的常见音串,意义融合的程度高,倾向于认为是词,如:

(1)“X+类后缀”:作者        (2)“类前缀+X”:老师

(3)动补式:看来

2.构成成分没有确切意义

构成成分没有确切意义,或者虽然具有意义但与双音串的整体义无关,倾向于认为是词,如:

(1)单纯词:芙蓉            (2)外来词:雪茄

3.“整体义”不等于“组合义”的常见双音串

“整体义”不等于“组合义”的常见双音串,倾向于认为是词。包括:

(1)音串的整体义不是由构成成分的共时凸现义按照内部结构关系组合而成的,如:

定中:“黄瓜”不是“黄颜色的瓜”,“金钥匙”不是“金的钥匙”。

动宾:“钻心”不是“心被钻”。

并列:“开关”不是“开和关”。

状中:“直译”不是“笔直地翻译”。

主谓:“月亮”不是“月是亮的”。

(2)音串的整体义中缺乏构成成分的共时凸现义,即:构成成分的共时凸现义无法在整体义中体现,如:

醉乡:“乡”非“乡下”义,而指“境界”。

走红:“红”非“红色”义,而指“知名度高”。

(3)音串的整体义是构成成分组合义的转指,如:

司令:转指施事         尊长:转指主体

绑腿:转指工具        包打听:转指施事

构成成分之一意义发生转指后参与构成的常见音串,也是词,如:拾零、拾遗。

(4)双音串的整体义是构成成分组合义的引申,如:

埋头:专心、下功夫。      碰头:会面。

撞车:冲突。[7]        食粮:可指精神食粮。

最近:指时间而非空间。

(5)双音串的整体义是其某个构成成分的共时凸现义,也是词:

国家<国+家           妻子<妻+子

(6)音串的整体义是其某个构成成分的共时凸现义再加上某种语法意义得来的,也是词,如:

布匹=布+“多数”        枪支=枪+“多数”

(7)音串的整体义是构成成分的组合义通过比喻得来的,也是词,如:驴打滚。

(三)音节适中

音节适中,主要是音节较短,这是根据汉语词的双音化的总趋势提出来的。由教育部语言信息管理司组织研制的《现代汉语常用词表(草案)》,其音节分布情况见表二:

表二 常用词的音节分布

可见,现代汉语常用词中双音节占绝大多数,占72.05%;其次分别是三音节、四音节和单音节,其他音节仅占0.29%,主要是外来词等。

双音节最符合汉族人的词感,倾向于多收。例如“生于1900年、来自北京、定于今天、驶向北京”中的“生于、来自、定于、驶向”等,倾向于收入词表。以“生于1900年”为例,按照古汉语语法,其内部结构关系是“生/于1900年”,“生”与“于1900年”之间是动补关系。但是,现代汉语更为一般的做法是将其分析为“生于/1900年”,“生于”与“1900年”之间是动宾关系。从古汉语的“生/于1900年”到现代汉语的“生于/1900年”,可以明显看出词汇的双音化导致了句法结构的重新分析,人们已经不再意识到“生/于1900年”这种动补关系的存在。鉴于此,在判定一个双音节单位是不是词时,标准可以适当放宽。

一般而言,三音节名词性单位的词感强于三音节的谓词性单位,如“中小学”的词感强于“上下班”。造成这种词感差异的原因,可能与相比较而言名词对音节的容忍度比动词高有关。鉴于此,三音节的名词性单位可以适当从宽,三音节的动词性单位则适当从严。

四音节突破了人们的词感音节极限,除了重叠等特殊单位外,一般不认为是词。四音节以上的单位一般倾向于不认为是词。

(四)频率较高

频率较高,是把统计手段运用到词的判定当中的一条补充原则:高频的单位为词,低频的单位为语。比如“白云”,可以说成“白的云”,不符合结构紧密、意义融合的原则,但是“白”与“云”相伴出现的频率远远高于“残云”“彤云”“黑云”“孤云”“绯云”“高云”等,如果把“白云”分开作为两个词,不大符合人们的词感。根据频率原则,可以有效地把“白云”从“残云”“彤云”“黑云”分离出来。因此,这种经常结伴出现的“相依性”高的单位也是词。

在具体运用“结构紧密、意义融合、音节适中、频率较高”这四条特征去判定一个语言单位是不是词时,“结构紧密”是第一道筛子,“意义融合”是第二道筛子,“音节适中”是第三道筛子,“频率较高”是补充手段。有时候各个特征之间会有矛盾,这里以结构特征与意义特征为例:(1)有时候意义融合,结构却可以扩展,如“打倒—打得倒—打不倒”,这时可以以意义特征为准;(2)有时候意义组合,结构扩展的能力却有限,如“逼急—逼得急—*逼不急”,这种意义组合结构有一定的扩展能力,一般为非词;(3)有时候意义组合,结构一般不扩展,如“逼和—*逼得和—*逼不和”,这种意义组合结构一般不扩展,就得再看频率特征了。

三 词与短语的离析难点

词与短语的离析是件比较困难的事情,会涉及到结构方式、专门用语、方位数量、音节单位和其他等因素。下面分别论述。

(一)结构方式

1.动补式

动补式在判定是不是词时,标准从严。以下情况倾向认为是词:

(1)单说或者单用能力差的成分参与构成的常见动补式,倾向认为是词,如:驶出、步入;

(2)某些“动”所表示的语义内容能够自然引发出“补”所表示的语义内容的常见动补式,倾向认为是词,如:降低、提高、减少。

(3)构成成分的语义有引申的常见动补式,倾向认为是词,如:逝去、看中、追上;

(4)句法结构可以重新分析的常见双音节动补式,倾向认为是词,如:卒于。

三音节动补式,如“有利于、来源于”等,倾向为语。

2.动宾式

动宾式在判定是不是词时,标准从严。以下情况倾向认为是词:

(1)单说或者单用能力差的成分参与构成的常见动宾式,倾向认为是词,如:奏乐、驱车。

(2)相依性高、意义有引申的动宾式,倾向认为是词,如:读书(表“上学”)、踢球(表“职业”)。

3.状中式

以下状中式倾向认为是词:

(1)由较虚化的语素构成、通常必须分析为直接构成成分的状中式,如:要是,凡是,如果说;

(2)构成成分的意义有引申的常见状中式,如:只见(“见”为“呈现”义)。

4.并列式

并列式中常见的倾向为词,如:研发;不常见的为语,如:壮硕。

5.定中式

定中式中常见的倾向为词,如:祖坟、总数;不常见的为语,如:祖屋、总院、众仙。

6.主谓式

主谓式中常见的倾向为词,如“腰疼”,不常见为语,如“肉疼”。

7.缩略式

缩略式的标准应从宽,具体情况如下:

(1)意义凝固的缩略式,倾向为词,如:打砸抢。

(2)常见的双音节、三音节缩略式,倾向为词,如:世贸、足协、助研、中小学、青少年。

(3)四音节缩略式不是词,如:多快好省(可归入成语)、大中小学。

(4)有“·”隔开的缩略式,看作语,“·”为词界,如:八·一三。

(5)不加引号或者顿号就可以使用、并且频率高的缩略式,倾向为词。

此外,还有两种特殊的结构,一是跨层结构,不能进行结构分析的高频跨层结构倾向于认为是词,如:的话、似的。二是切割造词,假设“X+Y”是一个固定搭配或者成语,如果“X”不仅能够从“X+Y”中切割出来,而且还有较多的其他单位能够不断地替换“Y”从而与“X”组合构成新的单位,那么“X”为词。如:迎头——迎头赶上、迎头一棒、迎头痛击,又如:毕露——原形毕露、丑相毕露、本性毕露。

(二)专门用语

1.人名

人名分为以下几种情况:

汉族人名包括“姓”和“名”两部分,“姓”是词(如:高、欧阳),普通的“名”不认为是词。

汉族古代人名不能分析为“姓”和“名”两部分的,倾向认为是词,如:庄子、老子。

频率高的外族人名是词,如:宙斯、马克思。有“·”隔开的人名,看作两个词,如:卡尔·马克思。

2.地名

地名较复杂,分为以下几种情况:

(1)音译的地名,倾向认为是词。音译+意译的地名,为词,如:大不列颠。“东西南北+地名”不是词,如:北太平洋。有特定内涵的“南朝鲜、北朝鲜、西柏林”为词。

(2)音译/意译+类名的地名,类名为单音节时为词,类名为双音节及其以上音节时为非词。前者如:阿尔卑斯山、珍珠港、唐人街(与中国地名“XX街”处理不同),后者如:塔里木盆地、阿尔卑斯山脉、法兰西共和国(承认其中的“塔里木、阿尔卑斯、法兰西”音译成分是词)。

(3)汉语地名,如果在构成上没有类名参与,双音节、三音节(小浪底、天安门、王府井、西直门)、四音节(齐齐哈尔)为词,五音节及以上内部可以断开的为语,如:珠江三角洲,不能断开的(断开后无意义)为词。

(4)汉语地名,如果在构成上有类名参与,当类名为“村、庄、乡、镇、县、市、区、省、街、路、铺、堡、陵、关、坪、坝、桥、港、府、寺、湾”时,双音节倾向认为是词,三音节(南京路、十里铺、十里堡、十三陵、山海关、三斗坪、沙坪坝、泸定桥、连云港、开封府、金山寺、杭州湾)和四音节倾向认为是短语;当类名为“河、江、湖、山、岛、潭、岭、峡”时,双音节、三音节(松花江、绥芬河、太阳岛、未名湖、五指山、玉渊潭、上甘岭、青铜峡)倾向认为是词,四音节及以上音节为非词。需要说明,“秦皇岛”认为是词,是基于“秦皇岛市”,虽然其构成成分中有自然地名“岛”。“单音节+单音节通名”,为词,如:长江。其他均为语,如:北京市、王府井大街、雅鲁藏布江。“X口+类名”如果类名未出现则“X口”为词,如:丹江口(市)。否则为语,如:新街口。诸如“新街口”这样的北京地名,都为语,如:中关村、清华园、东直门等。

(5)地名简称+东南西北,不是词,如:赣南。

3.品牌名

品牌名是不是词,主要依据音节,如:红塔山、海尔。

“品牌+类”是不是词,需要考虑“品牌”是否汉化:

(1)非汉化的双音节知名品牌,为词,如:东芝等。

(2)汉语品牌,双音节无类名为词,如:杜康、飞鸽等。

(3)汉语品牌,“单音节品牌+单音节类名”为词,如:汾酒,《现代汉语词典》就收录有“汾酒”一词。

4.其他

(1)机构/组织名,倾向认为是短语,如:北京大学、北京饭店、红色高棉、北洋军阀。

(2)作品名,倾向认为是短语,如:尔雅、本草纲目、百科全书、清明上河图、西游记。

(3)历史事件名,倾向认为是短语,如:安史之乱、明治维新、百色起义、巴黎公社、共产国际。

(4)特定概念名,倾向认为是短语,如:北京猿人、北京时间、剩余价值、上层建筑、格林威治时间。

(5)专业术语,倾向认为是短语,如:聚苯乙烯。

(三)方位数量

1.方位单位

单音节方位词整体是一类。单音节方位词参与构成的单位一般为语,以下情况可以看作是词:

(1)表示常见的固定的时间划分方式,为词,如:史前、晚上。

(2)单音节方位词意义非常虚化以至于无法进行句法分析的,为词,如:实际上、本质上。

(3)方位词相互组配如“东南、西南、西北”等为词。“左上、右下”等为语。“东南方、西北部”为语。

(4)常见的表示处所的“方位词+边/面/侧/部等”为词,如:上边、下面、左侧、南部。

(5)表示处所的“名词+边/面/侧等”,能产性高,为语,如:桌边、桌面、冰面、水面。

2.数量单位

数量单位也比较复杂,具体情况如下:

(1)从一到十的数词、位词(十、百、千、千万等)是词。

(2)“十”以上的确切的表数单位不是词,如:十一、二十三、二百三十四等。

(3)意义有引申的为词,如:八成(八成办成了)、二百五(真是个二百五)、千万(千万别来)。

(4)“三四个”中的“三四”,能产性高,为语。

(5)表顺序的“数词+号”为语,如:二号。表顺序的“头X”为词,如:头天、头号。

(6)亲属称谓中的“数词+X”,为语,如:二哥、三嫂。亲属称谓中的“大+X”“小+X”为词,如:大叔、小弟。“二奶、二老、二婚”为词。时间的“数词+X”为语,如“二更”“二月”等。交通道路的“数词+X”为语,如“二环”等。

(7)小数单位为语,如:五点二。

(8)表示专业术语,为词,如“二审(法律)”

(四)音节单位

在前面讨论词的典型特征的时候,指出在判定一个双音节单位是不是词时,标准可以适当放宽;三音节的名词性单位可以适当从宽,三音节的动词性单位则适当从严;四音节突破了人们的词感音节极限,除了重叠等特殊单位外,一般不认为是词。四音节以上的单位倾向于不认为是词。这是一个总体的特征,特别是其中的三音节单位,处在词与短语的典型音节之间,尤其值得重视。

1.“1+2”模式

(1)构成成分均有意义的“1+2”名词性成分,可以内部扩展的为短语,不能内部扩展的为词,如:大白菜(*大的白菜,为词)、癌细胞(*癌的细胞,为词)、“长镜头”(有特定含义,为词);矮个子(矮的个子,为短语)、车轱辘(车的轱辘,为短语)、车牌照(车的牌照,为短语)。有特定含义为词,如:活菩萨/老狐狸(比喻义);活劳动指物质资料的生产过程中劳动者的脑力和体力的消耗过程、剪刀差(工农业产品交换时,工业品价格高于价值、农产品价格低于价值所出现的差额);急性子(指有急性子的人)、老顽固(指人)。构成成分均有意义的“1+2”谓词性成分,为语,如:挨个儿、爱面子。非习语性质、构成成分均有意义的“1+2”谓词性成分,如果内部无法分析也为词,如:不得了、不得劲、不得已。

(2)意义有虚化倾向的“1+2”成分,倾向为词,如:零增长、半公开、半官方。如果这种定中结构的“1+2”经常充当状语,就更倾向是词,如:超低空(飞行)。

(3)由非字面义构成的“1+2”名词性成分,为词,如:大白天、大白话、大后天。如果还能感受到一些字面义,这种“1+2”仍为短语,即标准从严,如:大半生、大半个、大半年。有特定意义除外,如:大暴雨(有规定标准)、大师傅(厨师)、大团结(钞票)。外部功能有变化除外,如:大不敬、大幅度。

要说明的是,特别常见的符合大众词感的意义组合型的“1+2”仍为词,如:毛背心、棉大衣,但是总的来说,这种情况要标准从严。

2.“2+1”模式

(1)意义实在且构成成分均有意义的组合型“2+1”名词性成分,倾向为短语,如:埃及人、城里人、巴西队。非组合型意义的倾向为词,如:电影人。

(2)“2+1”中,“2”有实在意义而“1”意义虚化的名词性成分或者谓词性成分,倾向为词,如:够受的、忿忿然、菜园子、爱国者、本地化、本质上、比方说等。其中的“1”的虚实程度处于前二者之间,如果常见也为词(在判定时有一定的主观性),如:爱国心、安家费、安全部等。

(3)“2+1”中,可以内扩展的倾向为短语,如:常见病(常见的病)、长江口(长江的口)。有些“2+1”虽然内部可以插入“的”,但是人们词感上认为是一个词,如:裁纸刀(裁纸的刀)、采访车(采访的车),所以这一部分“2+1”也为词。意义组合型为语,如:第一次;有特定意义为词,如:第一手。定中结构的“2+1”,外部功能经常做状语,倾向为词,如:长距离(运输)。

3.“1+1+1”模式

(1)内部没有层次之分的“111”。“111”名词性成分,倾向为词,如:党政军、德智体等;“111”形容词性成分,倾向为词,如:短平快、高精尖、名特优等;“111”并列式谓词性成分,这一类一般功能为体词性的,通常不作谓语而作主宾语,如传帮带等。

(2)内部有层次之分的“111”,包括前面两个首先组合和后面两个首先组合两种情况。前者是前两个音节先并列组合再与第三个音节组合,其中的名词性成分一般倾向为词,如“出入口、初高中”;其中的谓词性成分一般倾向为短语,如“传接球”“存取款”“改扩建”等。后者是后两个音节先并列组合再与第一个音节组合,如“党内外”“国内外”等,这种名词性成分,倾向为词。

(3)比较特殊的“得/不”。一般的谓词性三音节倾向为短语,但由“得/不”构成的三音节有一些却例外。如果其意义是字面义的,倾向为短语,例如跟得上、行得通、吃不饱、离不开等;如果其意义是非字面义的,倾向为词,如“吃不住”中,“吃”是承受的意思,不是“吃”的字面义。又如站得住(比喻意义)、说得来、下不来(特定意义)、靠不住,等等。

(五)其他

1.外来词

(1)“单音节音译成分+类名”为词,如:啤酒。

(2)“双音节音译成分+类名”,根据“双音节音译成分”是否汉化再定,如:吉普车、太妃糖等,前者为语,后者为词。

(3)四音节的“音译成分+类名”,为语,如:丁克家族等。

(4)纯粹的音译成分为词,如:布尔什维克等。

2.词语模

词语模中常见的为词,如:歌坛;不常见的为语,如:书坛等。根据不同的音节看,又可以分为如下这些情况:

(1)四音节及其以上音节的词语模,均不倾向为词,以“部”为例:轻工业部、外经贸部、总参谋部、研究生部、电力工业部。

(2)三音节中,那些在人们的心目中是一个意义整体的,又具体分为两种情况:一是构成能力有限,如:表示一级行政单位的“工业部”,表示方位的“东北部”;二是构成能力无限,如:具体的业务部门“编辑部”。前者为词,后者中常见者为词,如“保卫部、编辑部、党支部”,不常见为语,如“经理部、产品部”。但是,对后者是否常见的判断会因判断者的知识背景的不同而不同,所以要看频率。频率数据有可能反映这些词所表示的概念的认知凸现度,如“人事部”比“群工部”感觉更像词。

总之,汉语的词与语素、短语存在“剪不断、理还乱”的纠结,本节也只是列举性地指出了词与语素、词与短语的纠结。由于汉语的词既是一个共时的概念,也是一个历时的概念;既有内部结构的差异,也有外部功能的差异;既是一个静态的备用单位,也是一个动态的使用单位,不同的学者从不同的角度观察汉语的词,对汉语词的理解自然会有差异。即使是同一个学者,由于汉语词本身的复杂性,在不同的时期面对不同的研究目的也会有认识上的差异。