当前位置: 查字典论文网 >> 近十年国内外学习者语料库建设情况及研究述评

近十年国内外学习者语料库建设情况及研究述评

格式:DOC 上传日期:2022-11-14 02:31:08
近十年国内外学习者语料库建设情况及研究述评
时间:2022-11-14 02:31:08     小编:

摘 要:本文通过对学习者语料库相关文献的搜索和整理,对近十年国内外学习者语料库建设情况进行了重点介绍,同时对基于学习者语料库的二语习得相关研究进行了探讨,旨在对我国学习者语料库的建设和相关研究提供借鉴。

关键词:学习者语料库;二语习得;英语学习

1 . 概述

语料库语言学的研究开始于20世纪50年代,之后该领域的研究者逐渐增多,语料库的研究开始与大多数语言研究相关领域相结合,这一结合的主要贡献之一为变体研究,包括语言媒介变体研究(口语变体与笔语变体),语场变体研究(一般文体与专门化语体)以及地理地位变体研究(世界英语)。然而,对外语/二语学习者语言变体的语料库研究直到20世纪90年代初才逐渐兴起(Granger, 2003: 538)。学习者语料库主要是指经过计算机处理的外语学习者的语言产出的数据库(Leech, 1998: 3),本文将对近十年国内外学习者语料库的发展现状和基于学习者语料库的二语习得相关研究作一个评述。

2 . 学习者语料库的建设情况

经过三十多年的发展,学习者语料库的建设在全世界范围内掀起一股热浪。在学习者语料库研究颇有建树的研究团队代表是由比利时Louvain-La-Neuve大学的Sylviane Granger教授所创建的英语语料库语言学中心(Center for English Corpus Linguistics),简称CECL。根据CECL的不完全统计,截止到2014年11月14日,全世界学习者语料库已经达到136个,涉及的语言包括英语、汉语、捷克语、阿拉伯语、荷兰语、法语、德语、匈牙利语、朝鲜语、挪威语、西班牙语、意大利语等十几种,媒介方式由之前的以笔语为主逐渐向多媒介方式转变,包括口语(spoken)、笔语(written)、多媒体(multimedia)以及计算机中介交流(computer-mediated communication,简称CMC),收录的语料丰富多样,例如学生习作、访谈、演讲、测试等,涵盖了从语言初学者到熟练使用者不同层次的语言学习者(http:// www.uclouvain.be/en-cecl-lcworld.html)。在统计的语料库中,以英语为学习目标语言,母语为汉语的学习者语料库共有15个,5个来自中国大陆地区,6个来自香港地区,3个来自台湾地区,1个来自新加坡。

2 . 1 国外学习者语料库的建设发展情况

2.1.1 CECL开发的学习者语料库

由比利时著名的英语语料库语言学中心CECL开发的学习者语料库主要有五个:ICLE、LINDSEI、LONGDALE、VESPA和FRIDA。除了FRIDA是法语学习者语料库以外,其余四个语料库都是英语学习者语料库。

国际英语学习者语料库(The International Corpus of Learner English,简称ICLE)是由CECL在20世纪80年代末启动建设的,是世界最常用的学习者语料库之一。2009年ICLE已经升级为第二版本,其涵盖的学习者母语类型由第一版的11种语言增至16种。该语料库主要收录来自非英语国家的中高级英语成年大学生学习者所写的议论文(占85%)以及其他文体(Granger, 2003: 539),有限时作文与非限时作文之分。目前该语料库正在建设第三版本。

英语学习者追溯型数据库(The Longitudinal Database of Learner English,简称LONGDALE)是2008年1月正式启动建设的项目,目前还在建设中。该语料库旨在搜集与英语学习者学习过程中不同阶段的语言输出,因此数据的搜集对象是在两三年的一个时间段内持续搜集的同一批英语学习者的语料,以此控制语言掌握熟练水平的发展过程,并且这些语言学习者具有不同的母语背景,一般在研究初期语言水平为中级。目前数据库建设已搜集到同一批学习者在2008、2009及2010年三个时间段所撰写的议论文,但该语料库最终目的是涵盖尽可能多的文本及口语的语言输出数据类型,包括散文,摘要,图片描述,口头访谈等等。

专门用途英语多类型数据库(The Varieties of English for Specific Purposes Database,简称VESPA)同LONGDALE一样是2008年1月起开始的,旨在建成一个以英语为二语学习不同课程的学生的ESP文本产出语料库,课程包括语言学、法律、医学、生物等等,文本体裁包括报告、论文、硕士毕业论文等等,学生的语言水平不同,从大学一年级学生到博士生不等。

Louvian国际英语口语数据库(The Louvain

International Database of Spoken English Interlanguage,简称LINDSEI)是在ICLE其后1995年开发的口语语料库,其语料来自于14个背景的不同母语的中高级英语学习者的口头访谈。

2.1.2 其他国家的新兴学习者语料库举例

除了比利时以外,近十年来世界上其他国家的学习者语料库建设如雨后春笋般蓬勃发展,主要集中在欧洲(英国、德国、法国、西班牙、意大利、波兰、荷兰、瑞典、芬兰、挪威等国家),北美洲(美国和加拿大),亚洲(中国、日本、韩国等国家);另外巴西、以色列、南非等国家也开始投入建设学习者语料库。以下是近年来具有代表性的新兴学习者笔语语料库,目前这些语料库还在不断更新发展之中。

亚洲大学生英语短文语料库(The Corpus

of English Essays Written by Asian University Students,简称CEEAUS)是日本神户大学的石川慎一郎研究室2008年开始开发的新的语料库。CEEAUS由几个模块构成,如CEEJUS模块(日本学生所写英文短文),CEECUS模块(中国大学生所写英文短文),CEENAS模块(英语母语者短文)等。该语料库目的是为多层次的中介语对比分析提供支持,通过此语料库研究者可以比较日本的POS标签和语义标签系统,便于分析本族语者和非本族语者的词汇和语法使用情况。CEEAUS目标是发展成为更全面大型的国际亚洲英语学习者数据库网络(the International Corpus Network of Asian Learners of English,简称ICNALE),石川慎一郎研究室计划和来自中国、韩国、新加坡、马来西亚、香港、台湾等国家和地区的研究者合作完成这一网络的建设,对比分析英语学习者和英语母语者的语言,中国英语学习者和英语母语者的语言,日本学习者和中国英语学习者的语言等等。CEEAUS区别于其他语料库的独特之处在于其搜集语料过程中对写作条件的严格控制,写作的主题仅有两个,即①“It is important for college students to have a part time job.”②“Smoking should be completely banned at all the restaurants in the country.”语料库中两个话题的文章各占一半,而且写作时间为20到40分钟,期间禁止使用词典。

此外,随着越来越多的国际学生使用英语参与学术课程学习及科研,学术专业英语的学习者语料库兴起,代表为德国约翰内斯・谷登堡大学的Marcus Callies教授团队正在建设的学术英语学习者语料库(The Corpus of Academic Learner English,简称CALE),英国华威大学和雷丁大学在2000~2005年期间联合建设的不列颠学术口语语料库(The British Academic Spoken English (BASE) corpus)以及华威大学、雷丁大学和牛津布鲁克斯大学在2004~2007年间建设的不列颠学术笔语语料库(The British Academic Written English corpus)。在建的CALE数据库中搜集的主要是大学英语相关课程要求高水平英语学习者所写的七种学术文章类型,例如研究论文、读书笔记、摘要、评论等。BASE语料库中包括了160场讲座和40场研讨会的视频资料(华威大学摄制)和音频资料(雷丁大学录制),分为四个大的学科类别:艺术和人文,生命医药科学,体育科学以及社会科学,每个学科含40场讲座和10场研讨会。最后,BAWE语料库含2761篇写作熟练程度评价较高的学生习作,长度从500字到5000字不等,同样归属于BASE语料库中提到的四项学科类别,共35个课程类别。学生水平从本科生到研究生横跨四级。BASE和BAWE的文本均通过牛津文本存档(Oxford Text Archive http://ota. ahds.ac.uk)免费下载。除以上三个学术英语数据库以外,英国兰开斯特大学在建的LANCAWE语料库,美国密歇根大学的MICASE学术口语语料库(http://quod.lib.umich.edu/m/micase/)和MICUSP高水平学生论文语料库(http://micusp. elicorpora.info/)同样可以供研究者借鉴,尤其是密歇根大学的两个语料库的所有资料包括音频和相应文本均可以在网站上获得并且可以根据不同标签进行搜索和浏览。

除了口语和笔语两种媒介方式以外,在C E C L统计的136个现有的学习者语料库还有采用了多媒体媒介方式和计算机中介交流(CMC)的学习者语料库。从2001年起开始建设的成人英语二语学习者多媒体语料库(The Multimedia Adult ESL Learner Corpus,简称MAELC)是美国波特兰州立大学应用语言学系的Lab School研究项目的一部分。该语料库包括了四年里几个成人ESL班级超过3600个小时的课堂互动实录录像,可以为成人英语学习者的深度个案研究提供丰富的数据,同时由于录制过程是在每个班级设置六个录像机,每个班级两名学生佩戴无线麦克风,该数据库对小组交流和同伴交流模式的研究具有独特的优势,同时可以追溯研究单个学生在这期间的语言发展状况。此外,以计算机中介交流作为媒介方式的学习者语料库代表为在建的意大利帕多瓦大学的Padova学习者语料库。该语料库的数据搜集对象为学习英语、法语和西班牙语的意大利学生,学生在混合语言课堂上使用FirstClass软件学习语言,用计算机输出笔语语料,语料形式有日记、辩论、报告以及个人简历等。此外,由FirstClass软件可供学习者连续使用3到5年,因此该语料库属于回溯性语料库,可以长期搜集学习者语料供研究教学所用。

2 . 2 国内学习者语料库的建设发展情况

近十年我国的学习者语料库建设发展迅速,语料搜集由以书面为主转向书面口语并重,同时也出现了一些学术英语的专业语料库及针对英语翻译专业的平行语料库;此外,大陆、香港和台湾地区的研究机构和研究人员数目也有显著的增加,还建立了一些非英语学习者语料库。

国内学习者语料库中笔语语料库依然占绝大部分。大陆地区的代表是由桂诗春、杨惠中编著的我国第一个英语学习者语料库――中国学习者英语语料库CLEC(CLEC―Chinese Learner English Corpus),该语料库已于2003年由上海外语教育出版社出版。该语料库由我国中学生、大学生的一百多万词的书面英语语料组成。编者将库内所有的语料进行语法标注和言语失误标注,是世界上第一部正式对外公布的含有言语失误标注的英语学习者语料库。CELC为编辑词典、编写教材、语言测试的英语工作者提供了丰富而翔实的资源,使用者可利用这些工具和语料获得中国学习者书面英语第一手的资料。此外,香港科技大学建设的HKUST(The Hong Kong University of Science & Technology learner corpus)和香港大学建设的TSLC(The TELEC Secondary Learner Corpus)以及台湾中山大学建设的TLCE(The Taiwanese Corpus of Learner English)均是通过搜集学生笔头作文建立的语料库代表。

在笔语语料库的基础上融入口语语料库也是近十年国内学习者语料库建设的一个亮点。由文秋芳、王立非、梁茂成等建设的中国学生英语口笔语语料库(SWECCL―Spoken and Written English Corpus of Chinese Learners)是国内首个大型英语专业学生口笔语语料库。它包含1148个中国学生的英语口语语音样本,以及200多万词的英语口语和笔语文字样本。所有文字样本均经过词性赋码,可作为英语教学研究和学习、教材编写、教学测试、师资培训、网络课程建设等的重要参考依据。

随着技术的发展,独立的口语语料库建设近年来在国内颇有潜力。由杨惠中和卫乃兴等建设的中国学习者英语口语语料库(College Learners’ Spoken English Corpus,简称COLSEC)包含70万单词量和语音、语调、话轮、话语结构等学生的口语信息。该语料库在2005年由上海外语教育出版社出版的书中还分析了基于该语料库进行的初始研究成果,包括中国学生的英语发音错误特征、口语中的话语结构特征、词块使用特征和会话策略特征等。此外,陈桦、文秋芳、李爱军合作建设的中国英语学习者语音数据库(The English Speech Corpus of Chinese Learners,简称ESCCL)是口语语料库建设在语音研究方面的一个创新体现。该语料库建设以方言区为点、以地域分布为面、以国内4个不同层次受教育群体(初中、高中、英语专业本科、英语专业硕士)作为录音对象、以朗读和自主对话为任务而完成,并结合英美标注系统对学习者录音进行多层音段及韵律标注,对我国英语语音教学具有较大的借鉴意义。

国内还建设了一些专门用途的语料库供英语研究教学使用。例如,为促进翻译教学与研究,文秋芳等建设了我国首个大型学习者英汉、汉英口笔译语料库――中国大学生英汉汉英口笔译语料库(Parallel Corpus of Chinese EFL Learners,简称PACCEL),收录了2003~2007年全国18所高等院校英语专业三、四年级学生的英汉、汉英口译和笔译翻译测试语料。PACCEL分为两个子库:口译平行语料库(PACCEL-S)和笔译平行语料库(PACCEL-W),其中口译部分约50万词,笔译部分约160万词。除了针对英语专业翻译教学的语料库,香港城市大学的David Yong、Wey Lee等还通过搜集英语语言学和应用语言学的本科生毕业论文建立了中国学术英语笔语语料库(The Chinese Academic Written English corpus,简称CAWE)以及城市大学学术口语英语语料库(The City University Corpus of Academic Spoken English,简称CUCASE)

3 . 基于学习者语料库的二语习得研究

学习者语料库与二语习得研究紧密相关,近十年来学习者语料库已经成为二语习得研究的一个重要范式(Granger, Hung & Tyson, 2002; Mukherjee & Rohrbach, 2006; O’Keeffe, McCarthy & Carter, 2007)。学习者语料库的数据驱动模式决定了基于学习者语料库的二语习得研究有着不同于其他研究模式的特点:第一,使用语言统计的分析技术,不依赖于绝对的逻辑规则;第二,将重点放在大量的中介语真实材料上,而不是仅仅依靠零星的例证;第三,可以深入和真实地描写中介语的微观层面,为抽象的定量统计分析和精细的个案文本分析之间架起一座桥梁;第四,大量的中介语语料可以长期保存、复制、检索,为验证性研究提供了可能(王立非、孙晓坤,2005:23)。近十年来,基于学习者语料库的二语研究的深度和广度也在不断拓展,主要体现在语料库分析新技术的开发和研究视角的多元化两个方面。

3 . 1 分析技术的新发展

随着语料库建设和分析实现手段的不断更新,国内外学习者语料库研究者开发了更便于进行大规模分析的新型分析软件及技术。例如,比利时的英语语料库语言学中心CECL近年来研发了自己的错误标记系统及软件,例如包含了详尽的错误标记手册的“error toolkit”以及用来插入错误标记和修改数据的UCLEE软件。错误标记是计算机辅助错误分析法(CEA)(Dagneaux et al., 1998)的研究基础,对教学、测试和词典编纂都有重要的借鉴功能。例如,Macmillan英语学习者高级词典(MED2)中的get-it-right部分就是根据ICLE的错误标记版本所编写的。另外,随着当今学习者语料库研究对短语和搭配越来越重视,梁茂成(陈功&梁茂成,2010)针对目前常见主题词分析工具存在的计算缺陷,设计并实现了一种新型研究工具Keywords+。该工具突破“词”的界限,将语料库对比中的分析单位扩展到词簇乃至词性赋码序列,根据词簇或结构的频数和n元组的总频数来发现观察语料库中的主题词、主题词序列(keyword sequences)乃至主题词性赋码序列(key POS tag sequences),该方法对于有效分析文本特征具有重要意义。

3 . 2 研究视角的多元化

利用学习者语料库研究二语习得的内容范围近年来也不断扩大,从以往的以本族语与中介语单词用法频率不同比较以及对中介语词语用法错误分析为主的量化研究为主逐步向多维度多角度的针对语言更高层次的量化质化相结合的研究。

利用学习者语料库的研究不再拘泥于单个词语的使用问题研究,而是扩展到短语搭配等语用方面的研究。例如,卫乃兴(转引自陈功、梁茂成,2010)提出的学习者语料库研究的多维度模型从词语搭配、类联接、语义倾向和语义韵多个层面对学习者语言中的短语做对比研究,进而观察短语的形式、语义和语用等特征。在此研究的基础上,他指出高级英语学习者语言使用的主要问题不是语法,而是语言搭配、语义倾向和语义韵的选择。

国内外一些研究者还以学习者语料库为基础,利用主题词等分析方法对语言学习者自身的动机、学习策略以及自我身份认同等进行探索性的质性研究。例如,许家金(2009)从社会学角度结合语料库和话语分析,利用框合结构和关键主题词结合的分析方法探讨了中国英语专业大学生自我形象的构建。从主体特征、社会网络、互动语力三个维度构建了中国英语专业大学生“施惟可”(SWECCL)的自我形象(胡海鹏、邓丽静,2010)。此外,Flowerdew(2009)利用学习者数据库中的反思日记得出一系列主题词并将其分为积极主题词和消极主题词,分析学生在学习过程中的心理状态,是语料库中词语频率(word frequency)和语料库检索(concordancing software)在学生动机和学习策略方面的质性研究的应用。

学习者语料库研究更加重视与教学实践与研究的结合,指出将学习者语料库的研究成果应用于改进教学实践的可能性。如河南师范大学的李文中教授在2009年底的“全国首届学习者语料库专题研讨会”的专题发言中提出了一个基于开放平台的“学习者电子档案袋语料库”的设想(a Learner English Portfolio Corpus on the Open Corpus Platform),与CECL开发的英语学习者追溯型数据库LONGDALE有异曲同工之处。李文中指出该语料库可以应用于对语言学习者的个性和语境化的持续评价,并提出个性化解决方案(胡海鹏 & 邓丽静,2010)。

4 . 学习者语料库研究的发展趋势

学习者语料库经过二十年的发展,技术不断得以完善,研究领域不断得以拓展,同时基于学习者语料库的理论也逐渐在形成酝酿之中。

首先,学习者语料库由普通用途L G P(language for general purpose)的学习者数据库向专门用途LSP(language for specific purpose)的学习者数据库发展。我们注意到CECL统计的136个学习者语料库中近十年涌现出了一批专门用途语料库,如BAWE, BASE, CALE, CAWE, VESPA 等。随着越来越多的非英语国家学生使用英语学习课程及进行科学研究,专门用途语言学习者语料库的建设重要性得以凸显。未来的英语教学不再只局限在为了学英语而教学英语,而是将其融合在具体自然社会科学的科目教学中,因此LSP语料库的建设非常必要。研究者可以研究LSP学习者语料库的语料搜集,标注和自动分析,或者对普通(general)学习者语料库和LSP学习者语料库,不同学科的LSP学习者语料库进行对比分析,甚至可以设计基于LSP学习者语料库研究新的教学工具和方法或者测试手段。

其次,学习者语料库的建设由共时性向历时性发展。以LONGDALE为代表的追溯性语料库的建设表明未来的学习者语料库将朝着动态性、长期性的目标发展。目前大多数的学习者语料库基本上都是以中高级语言学习者为主的,未来的追溯性学习者数据库的出现可以搜集从初级到高级跨度更长时间的同一批语言学习者的语料。追溯性的学习者语料将为语言发展或者语言退化(language attrition)现象的研究提供真实可靠的数据来源和研究平台。

此外,学习者语料库的标注逐渐向多模态多层次发展。新加坡南洋理工大学洪华清博士在2009年“全国首届学习者语料库专题研讨会”做了题为“Multimodal Learner Corpus Construction: Challenges and Directions”的主题发言。他以自己建设的语料库“Singapore Corpus for Research in Education”(SCORE) 为例讲述了多模态和多层次标注学习者语料库的建设和应用中的问题,探讨了多模态语料库应用于学习者的可能性以及多层语料标注的意义, 并具体就语料库的设计、标注、索引和查询进行了论述。通过发展多模态的学习者语料库可以更宏观地研究学习者因素,突破以往的单方面研究学习者产出语料的模式,客观性更强,研究角度更全面。

最后,学习者语料库建设目前趋向于发展为面向多个国家多母语背景的语料搜集。前文中提到的CEEAUS向ICNALE发展的建设目标以及国际英语学习者语料库ICLE的不断扩大更新均体现了先进学习者语料库建设中国家地区间合作的重要性。在英语逐步成为世界英语(world Englishes)的今天,每个国家和地区的英语变体聚合为大型的学习者语料库供研究者进行对比比较研究可能会成为今后世界英语研究方向的一个新的趋势。

目前,我国的学习者语料库的建设还仅仅局限于搜集国内大学生尤其是英语专业学生的口语笔语的语料,缺乏对我国学习英语的广大中小学生的语料搜集,远远不能反映我国英语学习者的整体语言面貌;此外,国内学习者语料库的建设也缺乏与其他国家和地区间的合作,欠缺与语料库相关的计算机基础知识和先进的软件开发技术,因此要真正与国际接轨还需广大语料库研究者的共同努力。

参考文献

Dagneaux, E. & Denness, S. & S. Granger. Computer-aided error analysis[J]. System,1998(2): 163-174.

Flowerdew, J. Computer-assisted analysis of language learner diaries: a qualitative application of word frequency and concordancing software[A]. In Kettemann & Marko. (eds.) Teaching and Learning by Doing Corpus Analysis[C]. 北京:世界图书出版公司北京公司,2009. Granger, S. The International Corpus of Learner English: A new resource for foreign language learning and teaching and second language acquisition research[J]. TESOL Quarterly, 2003(3): 538-546.

Granger, S. & Hung, J. & Petch-Tyson, S. Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching (eds.)[C]. Amsterdam: John Benjamins, 2002.

Leech, G. Learner corpora: What they are and what can be done with them[A]. In Granger, S. (eds.). Learner English on computer[C]. pp. xiv-xx. London: Addison Wesley Longman, 1998.

Mukherjee, J. & J. M. Rohrbach. Rethinking applied corpus linguistics from a Language-pedagogical Perspective: New Departures in Learner Corpus Research[A]. In Kettemann, B.& Marko, G., pp. 205-232. Planning, Gluing and Painting Corpora: Inside the Applied Corpus Linguist’s Workshop (eds.)[C]. Frankfurt am Main: Peter Lang, 2006.

O’Keeffe, A. & McCarthy, M. J. & R. A. Carter. From Corpus to Classroom[M]. Cambridge: Cambridge University Press, 2007.

陈功、梁茂成.首届全国学习者语料库专题研讨会综述[J].外语电化教学,2010(4):77-80.

陈桦、文秋芳、李爱军.语音研究的新平台:中国英语学习者语音数据库ALearnerCorpus―ESCCL[J].外语学刊,2010(1):95-99.

桂诗春、杨惠中.中国学习者英语语料库[M].上海:上海外语教育出版社,2003.

胡海鹏、邓丽静.全国首届学习者语料库专题研讨会简述[J].现代外语(季刊),2010(3):326-327.

王立非、孙晓坤.国内外英语学习者语料库的发展:现状与方法[J].外语电化教学,2005(105):19-24.

文秋芳、王金铨.中国大学生英汉汉英口笔译语料库[M].北京:外语教学与研究出版社,2009.

文秋芳、王立非、梁茂成.中国学生英语口笔语语料库[M].北京:外语教学与研究出版社,2009.

杨惠中、卫乃兴.中国学习者英语口语语料库建设与研究[M].上海:上海外语教育出版社,2005.

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多