当前位置: 查字典论文网 >> 论语料库在法律语言学研究中的构建设想

论语料库在法律语言学研究中的构建设想

格式:DOC 上传日期:2022-11-10 01:40:41
论语料库在法律语言学研究中的构建设想
时间:2022-11-10 01:40:41     小编:彭丰平

法律语言学成为独立的学科以来,由于其独特的学科交义性和司法实践性备受关注并发展迅速。中国的法律语言学已经开始由理论研究转向应用研究,而仅仅依靠思辨和内省难以实现其应用于法律实践的目的,需要结合实证和量化的研究,即将理性主义和经验主义紧密地结合起来进行质量结合的研究。因此,研究者们开始建立法律专用语料库研究法律语言,通过概率性的分析得到客观的数据支持相关的研究结论。

法律专用语料库以现实中的法律言语为研究对象,能够为法律语言学研究提供客观、系统而且时效性强的原始语言事实,从形式上反映法律语言的概率、特征和模式,揭示法律语言的一般规律和特殊性。法律专用语料库的建设结合计算机语言学与语料库语言学,注重整体平衡性和代表性,呈现个性化、专业化和智能化的特点,涉及多语种并向多模态多维度转化,能够满足法律语言学应用研究的需要。

本文从语料库在法律语言学研究中构建的理论基础、方法、技术问题以及语料库分类构建四个主要方而展开讨论,展示法律语料库应用的前景。

一、构建的理论基础

语料库之所以能够在法律语言学研究中得到广泛应用,这和法律语言的社会属性、法律语言学研究的应用属性和对研究结果的客观性和科学性需求有着直接的关系。这三者决定了构建法律专用语料库进行法律语言学研究的理论基础。

1法律语言的社会属性。作为专门领域的应用语言,法律语言属于在现实的法律实践领域中构建的语言。法律现实是法律集体言语交际的结果,法律语言在建构、形成和改变法律世界或者现实。语料库的研究方法是一种自下而上的方法,它把语言作为一种社会现象而不是心理现象来分析。其通过研究社会实际发生的具体言语的集合来处理语言,具有社会性,这和法律语言的社会属性不谋而合。二者都是将发生在社会情境中的言语输出总体作为研究对象,揭示语言的规律以及语言与社会的关系。

2法律语言学研究的应用属性。二十一世纪的语言学研究已经走出学术的象牙塔,语言学家越来越关注如何用语言知识和语言研究的成果解决现实问题。法律语言学研究具有立足法律实践、上升到理论认识、重回法律实践的应用性特点,法律语言学追求的最终目标是解决法律领域中一切有关语言的问题。可以上特点决定了法律语言学研究中语言事实第一性,语言理论第二性的前提。应用语料库来研究法律语言,通过分析现实语料并辅之多层次的描写和解释相结合的方法,得出关于法律语言现象的结论,能够将语言学研究的理论结合实际,有助于解决法律实践领域中的问题。

3法律语言学研究的客观性和科学性。法律语言学的研究应用于立法、司法、执法和普法各个环节的法律实践,只有从客观中立的角度和追求科学性的前提下,才能够服务司法实践,实现公平与正义。法律语言学在很多情况下需要客观性和科学性的研究,如文本识别、语音识别、语言证据鉴定等。语料库的研究方法以批量的现实语境中的语料为基础进行数据索引统计与分析,进而归纳概率性的特征,这种方法属于在实际言语中发现和解释意义,更具客观性和科学胜。

二、构建的方法

目前应用语料库的语言研究主要有两种方法,即Tognini-Bonelli (2001)区分的基于语料库(corpus-based)与语料库驱动(corpus-driven)的方法。前者主张对文本进行语法及语义标注,并对语料进行附码,使语料发挥价值;后者是将语料库作为原始文本进行理论建构,不需要对语料进行标注。国内的法律语言学研究多是基于语料库的研究,即通过对法律语料的标注处理展示法律语言的特征和规律。事实上,我们也可以应用语料库驱动的方法,即对法律语料分析之前不做理论假设,通过索引、分类和归纳得到研究结论。如对法律语言中某个法律术语的意义进行总结。基于上述二者相结合的方法,我们构建法律语料库主要涉及以下步骤: 首先是法律语料的建库。该过程涉及对语料的采集提取、组织存储、分类编码和管理、著作权归属和文本格式等。根据法律语言的特点,不同类型的法律语料的取料原则应有所区别并进行分类处理,下文会具体说明。总体的取料原则是研究者需要保持法律语料的代表性、时效性和平衡性。

其次是对法律语料的加工处理。该过程是指对语料进行检索、统计、语法标注、句法语义分析等。我们可根据应用需求,只对生语料设置特定索引,也可以对从词汇、句法、语义、语用到语篇等不同层次的(文本或者多模态)语料标注、附码与索引。常用的语料库索引与附码软件包括AntConc ,AnnoTool, Powercrep, Wordsmith, wordpilot,可以用于生成法律词表及频率(frequency),词语检索并共现上下文(concord-ante)、关键词索引(key words)、词义排歧(word sense disam-biguation)和离散度(dispersion)等等。

最后是针对法律语料的分析。该过程的关键是结合语料的语境信息和功能特征,使定量分析和定性解释有机地结合,保证分析结果的可靠性和可验证性,从而实现定性发现和理论建构。冯志伟(桂诗春等,2010 )认为该过程需要数据挖掘( text data mining)技术,即需要经过去粗取精,去伪存真,由此及彼,由表及里的深思熟虑,而把海量的离散的数据变为精炼的系统化的知识。Hunston (2002)的建议是因为语料库中的材料是脱离语境的,研究者应该清楚地说明所观察到的语言证据和根据观察所做出的解释之间的步骤。例如,语料库应用于法律文本作者识别时,分析者需要注意如何对定量分析的结果进行完备的描述和充分的解释,最后实现适切的定性表达。

三、技术问题与挑战 法律专用语料库在应用于法律语言学研究中存在以下技术问题与挑战:

第一,法律语料库建库的局限性。首先是时间局限。根据建库的应用目的侧重不同,法律语料应涵盖历时特征和共时特征,但是在实际建库中很难把握;其次是建库的手段局限。研究者获取法律语料的手段比较单一,例如侦查讯问语料和庭审语料的采集目前多运用录音设备进行转录和标注,存在精确性局限。

第二,法律语料加工处理的难题。首先是语料的切分歧义的问题。目前大多使用国家标准的现代汉语单词切分规范《信息处理用现代汉语分词规范》。其次是语料库编码标准问题。目前多用的语料库编码方案有TEI文本编码标准以及CES标准,两者均基于SGML ( Standard Gen-eralized Markup Language)标准语言,在我国的标准号是GB14814,符合国际编码标准的语料库有利于与国际语言资源的接轨、交流与合作。最后是检索平台的设置。可以考虑开发专用的检索软件,设置从宇、词到句子不同层次的检索入口,适应不同的检索需求。

第三,对法律语料的应用分析问题。影响法律语料的应用分析结果的因素很多,如语境、统计方式、语料的离散度等,对此可以考虑采用方差分析或者聚类分析方法检验影响变量的因素与程度。同时我们可以考虑用不同的研究方法和理论工具来论证相同类似的法律语言现象,提高结论的信度和效度。法律语料库只能提供语言事实,展示量化特征,而不能提供法律语篇的深层的社会语境信息,对此我们需要结合社会语言学、法社会学等分析。

四、分门别类构建

结合语料库在法律实践中立法、司法、执法、法律翻译和法律英语教学等的不同领域的研究应用范围,我们可以考虑分门别类构建法律专用语料库以实现特定的功能。

1法律法规语料库。法律法规语料库是将目前生效使用的法律法规、国际条约、行政规章和各级司法解释、地方法规,以及有代表性的司法文书等法律范式语言,分门别类储存入库。法律法规语料是有法律效力的语料,属于法律语料中最典型的部分,应遵循取料而非取样原则。通过语料库检索软件,根据特定的法律语言学研究应用需要,设计从词、单句、复句、段落到篇章的有层次的检索模式,提取法律法规等规范化的语言标准,有利于解决长期存在的法律法规中模糊、重叠、矛盾、歧义和漏洞等语言不规范现象,推动法律语言规范化研究。典型代表有宋北平主持建立的中国第一个大规模法律语言语料库,以及陈伟主持建立的台湾海峡两岸三地法律文本汉/英双语平行语料库。另外,研究者可以利用法律法规语料库进行法律术语抽取研究。

2司法文书语料库。司法文书语料库属于特定语域语料库,是侦查、检察、审判和公证等司法机关在处理各类案件的各个环节和步骤形成和使用的专用文书语料库。司法文书语料库的取料应遵循重点性、代表性和时效性原则,即取样而非取料原则,建立平衡结构语料库。鉴于司法文书在实际应用中的特点,其检索设置多以句子和篇章为单位。司法文书有助于法律工作者在实践工作中迅速调取各自需要的范本,对法律专业教学和法律文书的语言结构和语体风格研究有辅助作用。我们也可以根据民事、刑事和行政案件的划分,抽取典型案例建立不同案件类别的司法文书语料库,如民事上诉状、起诉状、反诉状、裁定书;刑事自诉状、控告状、抗诉书、判决书;行政复议申请书、答辩书、行政上诉状、答辩状、判决书,有助于法律工作者进行案例参考。

3司法鉴定语料库。司法鉴定语料库主要应用于口语鉴定和文本作者识别。在司法鉴定实践中,可以建立语料库应用于文本作者识别,通过收集被鉴定者的语料文本建立语料库,统计词长、句长、常用词和语法结构、语法类型(如名词/动词比例等),使用频率和概率的方法进行统计分析文本风格,验证文本作者的年龄、文化程度和职业等社会属性。我国目前还没有应用法律语料库的分析进行司法鉴定的实际案例。目前在司法鉴定领域中文本识别的关键言语特征的分析主要依靠法律从业者的实践经验进行主观判断,没有结合定量的语料分析和定性的价值判断。该应用在国外典型的案例是Maleolm Coulthard (1994)通过将罪犯的供词语料库与英语口语语料库以及警察话语语料库之间的语料比对,来推断警方提交的罪犯的供词非罪犯本人真实供词,为已被执行死刑的罪犯平反。

此种用语料比对证明特定人群的语言特征和社会属性的分析,提高了司法鉴定结果的真实性和可靠性。

4法庭审判语料库。法庭审判语料库的应用范围常广泛。研究者可以分门别类建立不同案件类型的语料库,如民事案件事实调查语料库,下设各子库如离婚财产纠纷语料库;刑事案件语料库,下设各子库如洗钱罪案件语料库、法庭调解语料库等,应用于案件事实分析、犯罪心理分析、语用态度、思想意识、不同身份群体之间语言使用的模式和趋势分析等;法庭审判双语语料库,应用于中外法庭审判的对比研究。

法庭审判语料库的语料来源多为庭审记录文本和口语语料转写文本。该过程比较困难的环节是语料文本的转录和标注。目前转录环节已经有语音软件辅助自动生成书而文本,但是口语中的不流利、停顿、身体语言需要在转录文本中有所体现,并纳入不同的句法分析规则进行分析。另外,对于录音转录语料,需要考虑语音语调因素,可以借助声谱分析软件如praat语音分析软件、International SIL开发的speech analyzer对语料进行精确的分析得出结论。

庭审语料库运用的典型案例是Stubbs(1996)用法官的总结陈述(summing一up}来比对大型通用语料库,通过词语索引判断法官的词汇和语法选择是否会对陪审团的决定产生影响,研究结果发现法官的语言选择对陪审团的判断产生了一定的影响。

5双语平行法律语料库。双语平行法律语料库有大量相互对照的语言实例,有助于建立通用的法律翻译软件和编纂双语法律词典。法律翻译软件可以应用于法律术语、法律法规、法律文书双语翻译及其研究等,还可以应用于法律翻译的研究;法律词典的编纂涉及从选词、释义和举例方而利用语料库所提供的资料,为词汇增加大量的例句。目前有代表性的有中国科学院自动化研究所的英汉双语语料库,收集了香港法律英汉双语语料31万句对供研究者使用。

双语平行法律语料库具有以下优势:首先,在词汇的对等翻译过程中,可利用对比短语学和复现翻译对等的研究成果对比法律词语在形式、意义和功能层而的不同;其次,由于中外法律体系的不同,译者可应用目标语国家的法律语料库对翻译结果进行检验,帮助验证翻译的可靠性。

6法律英语教学语料库。法律英语教学语料库主要应用于法律英语教材开发和课堂教学等领域。首先是法律英语教材的开发。教学者既可以根据法律语料的词频排列,分级建立法律英语常用词汇表,并设计法律英语教学大纲,同时为法律英语教材编写和测试提供依据;也可以建立法律英语教学小型专用(平行)语料库,根据使用频率归纳词语搭配、常用句式的意义和功能,开发法律英语专门教材如法律英汉/汉英词典等。其次是法律英语课堂教学的应用。法律英语教学语料库在法律英语教学设计、凸显教学重点及法律英语实例教学等方而发挥重要作用。教学者通过在教学中所发现的法律言语事实、新的意义和用法模式来建立和更新法律英语教学语料库,提高教学的时效性。例如,教师可以对语料库文本中的词汇等级、语法、语篇宏观和微观结构、信息点、语体等进行附码,同时配以音频等版本链接,通过索引工具引导学生自建语料库应用于法律英语写作、翻译等学习过程;教师也可通过索引,呈现法律英语词汇的分布频率和具体语境,开发制作语料驱动型学习课件。

五、结语

未来,语料库在法律语言学中的应用前景广阔,法律专用语料库的发展将会呈现以下趋势:

1多模态语料库。它不仅包括口语文本和书而文本,还包括视频、图片、声音等等,甚至连身体语言也可以记录进去,并且在视听材料中加入文宇标注和转写文本,从而有助于查明案情。

2多维度语料库。共时语料库与历时语料库相结合,例如多维度语料库可以展示语言中的方言、地域变化,语言进化和演变,有助于鉴定犯罪团伙语言,确定犯罪嫌疑人的属地。多维度语料库需要进行跨学科标注,涉及社会语言学和计算机语言学。

3多语种语料库。随着国际化的深入,研究者通过对多语种语料库开发可共享的加工工具,来应用于跨国法律事务交流和跨国民事刑事案件。

4网络语料库。基于资源共享的前提,相关网民可以参与网络语料库的制作与收集,该过程能够集思广益,并且可以跟踪最新的法律语料变化。网络语料库对于法律词典编纂和地区方言的研究、特别是在语音识别中的应用前景广阔。

5信息处理语料库。杜金榜(2013)依据法律语篇信息理论建立的法律信息处理系统语料库(Corpus for the LegalInformation Processing System)展示了法律语言信息处理的国际水平,其以语篇信息理论为指导探索法律语言信息传递模式及其规律。

目前,法律语料库的加工处理技术研究较少,专门的法律语料库标注、分析和检索软件有待开发。我们应该注重语料库应用于法律语言学的方法、范式和语料处理规范研究,让语料库成为法律语言学研究的一种理论方法,如此有利于法律语言学研究的实践应用。总之,如何高效地利用语料库丰富和加强法律语言学研究是一个随着社会发展而不断完善的长期过程,我们应该保持动态变化和辩证的观点对待语料库在法律语言学研究中的应用。

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多