摘 要: 本文通过对《白鹿原》、《平凡的世界》、《秦腔》进行抽样、切分、标注,建立一个语料库。然后尽量多得从词层面、句层面、标点层面选取计量特征,对三部作品的言语风格进行分析,并得出了上述三个层面中的区别性计量特征。
关键词: 言语风格 定量分析 计量特征
前言
言语风格的定量分析,肇始于20世纪30年代的西方文体学界,这种研究最初是通过手工计算来实现的。直到二战后,计算机的发明使人们可以通过机器更高效和更大规模地对文本进行定量分析。汉语作品的言语风格定量分析,最早始于20世纪七八十年代,和西方采用定量分析研究《圣经》著作权和柏拉图等古典作家著作年代类似,汉语界用词频统计等方法来考证《红楼梦》的作者归属问题。此后这种基于统计的定量分析方法不断发展,并获得了汉语风格学界、汉语语体学界、计算语言学界的认同,不同学界分别从不同角度对这种方法进行了理论上和实践上的发展,乃至有学者认为其已经发展成为一门学科――计算风格学(Computational Stylistics)。可以说,以语言结果的计量特征表示文本的方法加强了语言风格对比及作家判定研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语言结构特征计量研究是汉语语言风格描写研究及作家判定研究的重要方法。
二、实验设计
2.1计量特征选取
通过对前人研究的综合分析,结合作品实际情况,根据可操作性原则、全面原则、可靠性原则。本文选取以下计量特征:
一、词层面
词类比例=各种词类所占总词数比例。
特殊词,比如方位词、时间词、“把”、“被”等。
词长=字数(不含标点)/词数;尽管效果不明显,但本着全面原则还是选此标准。
词型,文本中出现词的种数,反映作品词汇丰富程度。
型例比=词数/词型数;反映作家作品词汇使用情况。
单现词比例=文本中仅出现一次的词/总次数。
二、句层面
句长=字数(不含标点)/句数;句长统计以句号、叹号、问好、省略号为标志。
小句长=字数(不含标点)/句数;小句本位具有较强解释性,因此本文选取此标准。以逗号、分号为标志。
陈述句比例=陈述句数量/总句数。
疑问句比例=疑问句数量/总句数。
感叹句比例=感叹句数量/总句数。
三、标点层面
标点符号比例=标点符号数量/字数。
2.2实验过程
(1)对《白鹿原》、《平凡的世界》、《秦腔》抽样,得到三个100k左右(约4-5万字)的文本,下文用B代表《白鹿原》样本、P代表《平凡的世界》样本,Q代表《秦腔》样本。
(2)利用ICTCLAS2013分词系统进行分词,分词粒度为小,词性标注集为ICTPOS二级,分词方式为自适应分词。然后进行手工修改,建立一个语料库。然后利用PHP脚本、Excel进行词类、特定词、标点的统计,利用超大字符集词频统计和Excel进行词频统计。
(3)数据分析,根据统计的数据,详细分析不同作品的各个计量特征的异同,推断作家的作品风格,归纳区别性计量特征。
三、数据分析
3.1词层面
3.1.1词类
表3.1 词类统计比较
名词、动词使用,三作家基本相同,都是25%左右,差别不大。具体为名词:BP,动词:QP。由这里可以推测,贾平凹用动词最多,而路遥最少。
代词上看,P≈QB,陈忠实用代词的比例比较低,路、贾则大体相同。 数词、量词上看,QP,路遥用数词最多,说明其在数量化表达上可能更偏向于精确化。
副词总体上相差不大,QB,由于副词多修饰动词或者形容词,因此和动词形容词比例可能有相关关系。
介词上,总体差异不大,P助词上,差别也不大,BQ。连词上,也是PQ,P与B差别较小,P与Q差别较大,P比Q多近一倍,这说明,路遥用连词最多,而贾平凹最少,从一方面说明了路遥的文风更书面化,有可能在句长上比较长,而贾平凹则多用单句、短句,少用长句、复句。
叹词上,P≈QB,且差异较大,P比B多300%左右,由此可见陈忠实很少用叹词,而路、贾则使用较多。语气词上,QB,贾平凹使用语气词最多,陈忠实最少。
拟声词上,QP,陈、贾使用比例上类似,而路则很少用拟声词。通过这些可以看出,贾平凹的作品可能口语化比较明显,路遥使用拟声词很少,陈忠实使用叹词很少。
表3.2 特殊词统计比较
时间词、处所词、方位词上,三者总体上相差不大,值得注意的是这三个标准都是P所占比重最大,由此可见,路遥在其作品中使用了较多的时间词、处所词、方位词,由此可以看出其作品可能叙事更加完整,时间、地点等因素交代的较多。
“把”和“被”的使用上,P比例都是最少的,可见路遥可能用处置式的句子比较少。另一个需要注意的地方是,B“被”使用频率较高,可见陈忠实被字句使用较多。
“的”“地”“得”的使用上,有两个值得注意的地方。一是总体来看,P使用最少,特别是“得”,可见路遥较少使用补语。二是陈忠实使用“的”最多,而贾平凹使用“得”最多,可见陈多修饰,文风较为华丽,而贾使用补语较多。
3.1.3其他统计标准
表3.3 词长、词型、型例比、单现词统计比较
词长上,差距不大,BQ,陈忠实作品词长最长,贾平凹作品则词长最短。
词型和型例比上看,B词型最多,P次之,Q最少,与之相对,B型例比最小,P次之,Q最大。由此可见,陈忠实作品词汇更为丰富,路遥次之,贾平凹作品词汇最不丰富。
单现词出现比例,BQ,单现词是另―个可以表示语言中词汇丰富程度的指标,单现词越多语言中的词汇丰富程度越高。而此处的数据与型例比显示的结果相符。
3.2句层面
表3.4 句层面计量特征统计比较
3.3标点层面
表3.5 标点统计比较
从标点总量上来看,QB,B同P之间差异较小,与Q差异较大。对比来看,B使用分号相对最多,分号在组织语言方面也是较为书面化体现,因此陈忠实的作品应该组织也较为严密,排比较多。P使用省略号和破折号最多,这也说明路遥在表达上喜欢用这种“歇后语式”表达,给读者思考空间较大。其他标点都是Q使用最多,其中与其他两人差异较大的是:问号,疑问句标志,上文已经分析过。叹号,感叹句标志,已分析。逗号,小句标志,已分析。冒号、引号,引号比例正好是冒号二倍,这正是话语标志,说明贾平凹的确对话较多。值得注意的是,在本文所选样本中,贾平凹没用破折号。
3.4讨论
综上可见,陈忠实作品言语最大特点是词长较长,词型较多,形容词比例最大,陈述句比例最大,标点比例最小,由此反映出其风格特点是更加书面化,词汇丰富,风格也较为“华丽”;路遥作品最大的特点是时间词、处所词、方位词比例较大,“得”比例最小,句长、小句长较长,由此反映出其风格特点是更加注重场景描写,喜用长句,补语较少,总体作品风格凝重;贾平凹作品最大特点是形容词等修饰词比例较小,连词比例较小,数量词比例较小,连词、助词比例较小,语气词、拟声词比例较大,词长最短、句长最短、词型最少,标点比重大,不用破折号,由此反映出其作品特点是口语化特征明显,文风活泼。
由此可以选择出具有区别性的计量特征:叹词(B明显偏少),引号(B明显偏少,Q明显偏多),被(B明显偏多),分号(B明显偏多,Q明显偏少),括号、拟声词(P明显偏少),冒号(P明显偏少,Q比例明显偏大),感叹句、疑问句(Q明显偏多),得(Q明显偏多),顿号、叹号、问号、(Q明显偏多),破折号Q无。
由此我们可以得到下表:
表3.6 综合分析比较
四、结语
基于统计的言语风格比较及作者判定研究是一项复杂的工作,发展至今虽然还有许多问题,但我们也欣喜地看到这项研究正在快速发展着,本文的实践也是如此。虽然存在着一些这样或那样的问题,但我们想强调是这种研究方法,即尽量多的统计出可以统计的计量特征,然后进行数据分析、挖掘,用数据说话,找到了一些在较多依靠先验定性分析情况下难以发现的、具有区别性作用的计量特征。 通过对言语风格的定量分析,我们发现,作品风格上:陈忠实的《白鹿原》特点是词长较长,词型较多,形容词比例最大,标点比例最小,由此反映出其风格特点是更加书面化,词汇丰富,风格也较为“华丽”;路遥的《平凡的世界》最大的特点是时间词、处所词、方位词比例较大,“得”比例最小,句长、小句长较长,由此反映出其风格特点是更加注重场景描写,喜用长句,总体作品风格凝重;贾平凹《秦腔》最大特点是形容词等修饰词比例较小,语气词、疑问句、感叹句、冒号、引号、“得”字比例明显偏大,词长最短,词型最不丰富,陈述句、分号比例明显偏小,不用破折号,由此反映出其作品特点是口语化特征明显,文风活泼。我们总结出的区别性计量特征为:词层面为叹词、拟声词、语气、“被”字、“得”字、单现词、词长、词型;句层面:句类、句长;标点层面:冒号、省略号、分号、破折号等。
参考文献:
[1]曹聪孙.言语风格统计学试说[J].天津师范大学学报,1988(4).
[2]曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报.2006(1).
[3]陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用――以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用,2012(3).
[4]丁金国.基于语料库的语体风格研究――兼论量化与质化的关系[J].烟台大学学报,2009(2).
[5]钱锋,陈光磊.关于发展汉语计算风格学的献议[A].上海:复旦大学出版社,1983.
[6]钱锋,陈光磊.关于建立语体分类数学模型的构想.语体论.合肥:安徽教育出版社,1987:63-74.
[7]钱锋,陈光磊.关于建立语体分类数学模型的构想[A].合肥:安徽教育出版社,1987.
[8]钱锋,陈光磊.文学・数学・计算机[J].自然杂志,1981(06).
[9]王景丹.从句频分析看八位剧作家的风格异同[J].修辞学习,2003(04).