当前位置: 查字典论文网 >> 英汉非等值习语分类知识库的构建及应用

英汉非等值习语分类知识库的构建及应用

格式:DOC 上传日期:2015-08-19 17:43:16
英汉非等值习语分类知识库的构建及应用
时间:2015-08-19 17:43:16     小编:

摘要文章主要探讨英汉非等值英语习语分类知识库的构建和应用问题。根据英汉习语非等值现象的特点进行分类,并在此基础上进行多视角分类标注,采用标识、括注、警示和说明等显性补偿手段补充必要信息。所建知识库数据采用XML语言标记;应用模块可实现精确查询和模糊查询功能,查询效率比纸质词典高,自动分析功能超越现有网络词典。英汉非等值习语分类知识库在英语教学,尤其是英汉翻译教学和实践中具有很好的应用前景。

关键词英语习语知识库词典非等值补偿

一、引言

英语和汉语词语之间的非等值现象普遍存在。本文着重研究英汉非等值的英语习语。汪榕培(2000)曾指出:由于人们对英语的idiom这一语言学术语有多种不同的理解,汉语中有不同的翻译对应词(例如:成语、习语、熟语、惯用语、习惯用语)。我们研究的习语是广义上的idioms,也就是所有具备整体性和稳定性的习惯表达用语。我们把所有在汉语中没有完全等值的对应汉语成语或习惯表达用语的英语习语称为英汉非等值习语。英语习语是英语词汇的重要组成部分,已经逐步引起词典编纂者的重视。《牛津高阶英汉双解词典》第6版和第7版就收录了大量英语习语。可是,在普通纸质英汉语文词典和英汉学习词典中,习语通常是作为内词条设置的,如果再为习语配置多种分类和说明信息,整个词条就会显得非常臃肿且比例失衡。李明(2012)指出:“近年来双语词典的规模有不断膨胀的趋势;双语词典越编越大,纸质词典正变得越来越厚、越来越重;有必要在保证质量的前提下缩减双语词典的篇幅。”在词条信息需要提炼压缩的背景下,继续为纸质词典添加习语的分类信息和说明信息确实有困难。我们认为,构建英汉非等值习语分类知识库可以系统地丰富习语的相关信息,并能编制类似网络词典但专项功能更强大的应用程序。知识库建成后,既可用于独立的专用习语知识查询程序,也可供在线词典的习语模块调用,它不仅容量大,还可执行多种分类查询任务,采用可收展折叠的显示方式还可保持界面简洁。英汉非等值习语分类知识库在英语教学,尤其是英汉翻译教学和实践中具有很好的应用前景。下面首先介绍英汉非等值习语及其分类,然后探讨英汉非等值习语分类知识库的构建方法及其应用。

二、英汉非等值习语及其分类

从英汉对比的角度看,英语中存在形式和意义上都与某一汉语成语或习惯表达用语对等或等值的习语。例如:strike the iron while it is hot与汉语中的“趁热打铁”就是等值的。但是,大多数英汉习语的对等只能在形式或意义的某个层面实现,所以是非等值的。例如: green with envy与汉语的“眼红;非常嫉妒”意思相同,但英语表达中没有“眼”也没有“红”。有不少英语习语常因被误解而用错。例如:go out like a light不是“迅速出去”,而是“迅速入睡”的意思。还有些英语习语负载了很强的文化特征,无论是形式上还是意义上都不存在对应的汉语成语或习惯表达用语。例如touch wood就是这样的习语。这些易用错及在汉语中没有对应习惯表达用语的英语习语也是非等值习语。

习语的分类方法有许多种,角度各有不同。汪榕培(2000)从语言层面总结划分出九种常见的习语分类方法:主题分类法、语义明晰度分类法、交际功能分类法、句法功能分类法、结构分类法、主词分类法、语域分类法、语源分类法和类型分类法。这些分类法可以继续细分。例如:根据类型分类法,英语习语可分为隐喻习语、明喻习语、短语动词习语、成对词和谚语,共五种基本类别。

数量最多的英汉非等值习语是部分对等习语。与汉语成语或惯用表达用语在形式和意义上都完全对等的英语习语(complete/full equivalent English idioms)数量不多,但许多英语习语在汉语中有大致对等的成语或惯用语。例如:the apple of ones eye与“掌上明珠”喻体不同,但喻意相同。有些在某个方面(如:语域、语体、语义韵等)存在语义的细微差异。例如:a square peg (in a round hole) 这个英国英语中的习语与汉语成语“方枘圆凿”喻体相同,但喻意有区别;a square peg (in a round hole) 指的是a person who does not feel happy or comfortable in a particular situation, or who is not suitable for it (用非所长的人),即“从事自己不适合的职业的人”,这与“格格不入”的意思并不完全相同。

需要引起高度注意的是伪对等习语。这类习语的字面意思看似与汉语的某个成语或习惯表达用语对应,但实际含义不同,甚至相去甚远。人们很容易错误地把它们等同起来,结果导致词不达意,甚至闹出笑话。例如:看到eat ones words,可能马上会想到汉语中的“食言”,然而这两者却是伪对等。英语中的eat ones words是指“(不得不)承认自己说错了话;(被迫)收回前言”。 第三种是零对等习语。有些英语习语在汉语中没有对应的成语或惯用表达用语,因为它们所指称的事物或概念是英语国家特有的。这类习语通常是文化负载型习语,反映的是英语国家特有的历史或社会文化。例如:英国人交了好运常用手触碰木质物品并说touch wood,这是当事人希望自己继续交好运的意思。这种习俗和表达法是汉语中没有的,了解了语源才能正确理解touch wood这个习语的意思。

三、英汉非等值习语分类知识库的构建

1.知识库简介

周群芳和吴云标(2008)介绍过知识库(Knowledge Base)的概念。不同行业对知识库的定义有所不同。从知识工程的观点来看,知识库是结构化、易操作、易利用,全面有组织的知识集群,是针对某一领域或某些领域问题求解的需要,采用某种或若干知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识集合。这些知识包括与某领域相关的理论知识、事实数据和由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。

知识库的优点是使信息和知识有序化,能加快知识和信息的流动,有利于知识共享和交流。构建知识库需要对已有的信息和知识进行挖掘、整理和分类。这样,隐含的知识经编码而数字化。信息和知识从混乱状态变为有序结构,从而为检索和有效利用奠定基础。知识库的结构应方便存取和检索,知识库内容的一致性和完备性也要能够检验。我们采用XML语言描述英汉非等值习语分类知识库的数据。XML的优缺点在下文的“数据结构”中继续介绍。

2.习语条目的选择

3.分类标注

英汉非等值习语分类知识库采用XML数据结构,这样习语条目及其内容可接受多种分类标注,检索时根据需要选择分类标注或分类关键词即可。

分类以英汉非等值的英语习语的三个类别(部分对等习语、伪对等习语和零对等习语)为主线,采用习语分类标签(tags)多视角标注。分类标签使用固定的关键词;多个分类标签并列而且顺序固定。下面是三种主要的分类:

(1)根据英汉非等值习语的类别特征分为三类:部分对等、伪对等、零对等。

(2)根据类型分为五类:暗喻、明喻、成对词、短语动词习语、谚语。

(3)根据主题分类:身体部位,动物,食品,金钱,衣服,体育,时间,颜色,建筑物,宗教,自然,植物和花,战争、武器和冲突,天气,运输和旅行 ……

地域变体、语体和语法信息标识(labels)既是非等值显性补偿手段(见下文),也可用作知识库分类的关键词和检索条件。地域变体和语体标识置于实心方头括号“【】”内。习语的句法功能(名词词组、动词词组、形容词词组、副词词组等)分别用英语(Noun Phr,Verb Phr,Adjectival Phr,Adverbial Phr等)标注。其他语法信息(例如:常用于被动语态)采用固定描述用词直接标注,描述用词置于方括号“[]”内。

4.显性补偿

(1)部分对等习语的显性补偿

用汉语中的对应习语直接替换附加简明提示是最常用的部分对等习语显性补偿手段。例如:英语习语as stubborn as a mule是个明喻,与汉语的“倔得像头驴”喻体不同,但喻意相同。英语中的mule(骡子),不是汉语中的“驴(donkey)”。意象不同并不影响理解。这类英语习语直接用汉语中的对应表达用语替换即可。为防止用错喻体,可附加简要说明,提示英语中用的是mule,甚至可再提供几个类似习语以加深印象。

有些英语习语有对应的汉语成语,喻体相同,但其他用词有差异。这类习语的汉语对应成语还应配有解释性释义。如对于burn ones boats这个英语习语,仅给出汉语“破釜沉舟”还不够。因为“破釜沉舟”虽然表明了该英语习语的意义,但是这两个习语中的动词词义不匹配(英语用的burn是“烧”的意思,而汉语的“破”是“劈;砍”的意思)。在这种情况下,可采用汉语对应成语与释义联合补偿的方法:破釜沉舟;不留退路;背水而战。另一个习语fling/throw away the scabbard,与“破釜沉舟”的意思类似,应先释义再配上类似的汉语成语:丢开剑鞘决心作战;破釜沉舟。 字面翻译加汉语对应的习惯表达用语和简短解释也是有效的补偿手段。例如:there are plenty more fish in the sea的意思是“还有很多一样好的人或事”。在知识库中可以这样处理:海里的鱼有的是;天涯何处无芳草(常用于安慰失恋的人)。

词的感情色彩及其适用的地域、语境和语体等都是词义的一部分,习语也不例外。此类信息的标注有助于避免误用习语,也能起到补偿的作用。例如:hang by a hair/thread (命悬一线;气若游丝;危在旦夕)没有明显的语境要求,但hang (on) in there用于非正式语体中,这一信息需要用语体标识这样标注:hang (on) in there 【非正式】 坚持下去;保持信心;不气馁。再如习语burn ones bridges (不留退路;破釜沉舟;背水而战)在英美等国通用,但英国人也用burn your boats。习语pull wires和pull strings (for sb)都是“凭影响(为某人)谋利益;(为某人)活动,走后门”的意思,但是pull wires是美国英语中的习语,在英国英语中用pull strings (for sb)。此类信息应该用地域变体标识【英】、【美】、【主英】或【主美】注明。

习语的语法信息很丰富。标明习语的语法信息有助于防止误用。例如:带定冠词的习语pull the strings的意思是“幕后操纵;暗中控制”,不能把它与不带定冠词的习语pull strings (for sb)混淆。throw sb in at the deep end 的意思是“(使)陷入未曾意料到的艰难处境;一筹莫展”,这个习语用于非正式场合,通常用于被动语态,end用单数形式。go to the ends of the earth “走遍天涯海角;历尽千辛万苦”中的ends必须用复数形式。有的英语习语与汉语对应表达用语在语法结构上有细微差异,需要配置警示信息。例如:汉语里使用“给某人泼冷水”,但英语中用 throw cold water on sth,on的宾语不是sb,而是sth(如the idea,it等)。

有些扩展用法信息也是必要的。例如:roll out the red carpet的字面意思是铺上红地毯,用来比喻“热烈欢迎;隆重接待”;roll out the red carpet 并不一定要用在高官显贵身上,对普通人也可以这么说,也不是非要铺红毯才能用这个习语。表达同样的意思还可以用give someone the red carpet treatment;表达将会受到隆重接待就用will get the red carpet treatment。

有的英语习语已经过时,应提醒使用者注意。例如:take leave of ones senses (发疯;神经失常;脑子有毛病了)不仅需要标注“[常用于完成时]”,还应标明“【过时】”。有的英语习语适用于特定的语境或对象,或带有某种感情色彩,不能任意套用。标注语用信息有助于避免误用。例如:do the decent thing是人们身处困难境地时才会做出的行为。此类信息应有提示,可用括注注明:(尤指在困境中)做人心所向的事,做体面事。对于文化负载习语,文化特性可以简要说明的,首选用括注标注,这样可以简单明了高效传达关键信息;不适合用括注的就采用“用法说明”,介绍语源或用法。

(2)伪对等习语的显性补偿

碰到习语不能只看它的字面意思。邵贵君(2005)指出:熟悉习语的字面意思、喻意、由来或典故才能避免犯“望文生义”的错误。像前面提到过的eat ones words这类英汉伪对等习语容易因错误理解而被误用。有必要提供警示或用法说明信息。例如:eat ones words (不得不)承认说错了话;(被迫)收回前言(≠食言)。括注已经能够提示eat ones words 不是汉语中“食言”的意思,但仍可在用法说明中继续补充说明,表达“食言”应该用break ones word。括注中提供简明信息,可起到警示或提示的作用。如果内容较多就放入警示信息栏。例如:throw/fling down ones arms的意思是“放下武器;缴械投降”,但throw down the gauntlet 不是“缴械投降”,而是“挑战”的意思。下列语源信息可放在用法说明栏内:欧洲中世纪时,参加决斗的人将自己的长手套扔在对方面前表示(提出)挑战。用法说明的内容还可以更丰富。例如:英语中还有个类似的习语throw (down) the glove,意思是“挑战;邀请比赛”。这两个习语中的gauntlet和glove都用单数形式。另一个习语the gloves are off 中的gloves用的是复数形式,意思是“准备动手打架;做好战斗/辩论准备”。

(3)零对等习语的显性补偿

英汉零对等习语通常是文化负载型习语。这类英语习语在汉语中没有对应的成语或惯用表达用语,有适当的补偿解释才好理解它们的意思。如果用括注不易解释清楚,可在用法说明栏内介绍语源、文化背景、用法等信息。以a bakers dozen为例。如果仅仅解释a bakers dozen的意思是“十三”,该习语的文化特征没有交代清楚,就不易理解该习语为什么不是“十二”的意思。除了添加括注“十四世纪英国的面包师们为避免因缺斤短两受罚,在出售面包时每打多加一个面包”进行解释之外,还需标注【过时】以提醒这个习语现在很少用。零对等习语的适用语境也不能忽视。例如:英国人在谈话过程中提及自己很走运的事,就会紧接着用手触碰木质物品并说touch wood,表示希望继续走好运。了解这个习俗才能正确理解和使用touch wood这个习语。相关介绍可精简成括注:(在讲过走运的事之后用手触碰木质物品,表示希望继续走好运,同时说)但愿好运常在。也可单列说明:西方人认为触拍象征护符的木质物品可以消灾免祸,尤其是在交好运或讲过走运的事希望继续走好运时说。用法说明还可添加其他相关信息。例如:同样是表达希望继续交好运,美国口语中用knock on wood这个习语。

(4)例证的选取及配置

虽然对应词、标识、括注、警示和说明能揭示英语习语的意义及用法,但是最能体现习语适用语境的还是例证。选取例证应尽量遵循将习语的相关信息具体化的原则。《牛津高阶英汉双解词典》第6版和第7版为touch wood这个习语提供的例证就清晰地体现出了其适用语境: Ive been driving for over 20 years and never had an accident―touch wood! 我开车20多年从来没有出过车祸,但愿老走好运!

配置例证时,应区分是否是典型例证,重视整合搭配及结构信息。如果例证的种类和数量较多,就将最典型的例证放在“双语例句”的“典型例句”部分,其他例句放到“更多例句”部分。例如:green light这个习语常用于give the green light to sb/sth这种结构,表达“为某人或某个项目开绿灯;允许做某事”的意思;表达“得到许可(做某事)”,常用get the green light结构。很显然,下面的例①适合放在green light这个习语双语例句的“典型例句”部分,例②则适合置于“更多例句”部分:

①The US Senate voted to give the green light to the health care reform bill. 美国国会参议院投票表决,给医保改革议案开了绿灯。

②The Danish doctors behind the research said that the findings should not be taken as a green light for pregnant women to start binge drinking. 进行这项研究的丹麦医生认为,上述发现不应被孕妇当作酗酒的理由。

5.数据结构

为便于数据交换和共享,我们采用XML数据结构构建英汉非等值习语分类知识库。XML是可扩展标记语言。这种信息的对象化语言侧重于结构化地描述信息。XML数据格式冗长,但其数据结构是开放的、自我描述性的,描述的是数据本身,不涉及数据的表现形式,便于维护。XML数据允许在任何平台上读取和处理,适合用于数据交换。

下面以习语eat ones words为例介绍知识库习语条目的基本结构:

〈EntryRoot〉

〈Idiom〉eat ones words〈/Idiom〉

〈ConciseBlock〉

〈IdiomStress〉eat ones words〈/IdiomStress〉

〈SyntacticFunc〉Verb Phr〈/ SyntacticFunc〉

〈Tags〉

〈TagEquivaType〉【英汉伪对等】〈/TagEquivaType〉

〈TagMetaphor〉【隐喻】〈/TagMetaphor〉

〈/Tags〉

〈Labels〉

〈LabelStyle〉【非正式】〈/LabelStyle〉

〈/Labels〉

〈CnDef〉(不得不)承认说错了话;(被迫)收回前言(≠食言)〈/CnDef〉

〈/ConciseBlock〉

〈WarningNote〉

eat ones words 的意思是“(不得不)承认说错了话”,而不是“食言”之意。表达“食言”,应该用break ones word,这里的word用单数。

〈/WarningNote〉

〈UsageNote〉

eat ones words的意思是“不得不承认自己先前说过的话或所做的预测是错误的”,不用被动式。

〈/UsageNote〉

〈BilExamples〉

〈EnExample〉He had to eat his words in public. 〈/EnExample〉

〈CnExample〉他被迫当众承认自己说错了。〈/CnExample〉

〈EnExample〉

This time, you have to eat your words, because, like it or not, you lost.

〈/EnExample〉

〈CnExample〉

这次你必须承认自己说错了,因为不管你喜欢还是不喜欢,事实是你输了。

〈/CnExample〉

〈/BilExamples〉

〈/EntryRoot〉

四、英汉非等值习语分类知识库的应用

英汉非等值习语分类知识库采用XML可扩展标记语言构建,特点是结构清晰,多视角分类标注,数据调用和交换都很方便。该知识库的检索模块运行速度快、效率高。检索方式支持精确查询和模糊查询。还可根据分类标签,以及语体、地域变体或语法信息等标识进行多种分类查询。分类查询采用下拉菜单选择方式。检索结果分区显示,界面简明。习语条目的基本信息(如:释义、分类标签和标识)处于常开状态。警示、说明和双语例句板块都有展开和收起功能,为了突出习语的整体信息要点,默认处于收起状态;展开即可显示相关板块内的信息;折叠收起后腾出空间显示其他板块内的信息。图1是习语eat ones words的条目内容全部展开显示的界面截图。

多视角分类检索或查询是英汉非等值习语分类知识库应用模块的特色功能。习语分类标签(例如:部分对等、伪对等、零对等;暗喻、明喻、成对词、短语动词习语、谚语;身体部位、动物、食品、金钱等)都可用作分类查询条件。此外,语体标识(如:【正式】、【非正式】),地域变体标识(如:【英】、【美】、【主英】),语法标注(包括习语的句法功能)也可用作习语分类查询条件。输入习语的一个或连续多个单词进行模糊查询同样可检索到相关习语。图3展示的是三种查询结果(知识库测试用习语数量为500条),其中①是以eat为查询单词模糊匹配检索到的含有eat的习语条目;②和③分别是以Noun Phr和Adverbial Phr为查询条件的分类检索结果。点击列表框内的条目即可在知识库应用模块查询单元的右侧栏内显示选中习语的内容(见图4)。 英汉非等值习语分类知识库应用模块的查询功能与网络词典类似,但具有自动分析输入文本是否含有英语习语的专项功能。应用模块采用功能二合一模式:界面上部是查询单元,下面是文本自动分析单元。查询单元可单独使用。文本自动分析单元自动分析并检测输入文本中的习语,检测到英语习语后自动高亮显示并在左侧列表框中按字母顺序列出。人工点击列表中的条目后自动查询知识库并显示结果。自动分析和标识输入文本中的习语是个很实用的功能。现在采用的实现方法和步骤是:遍历非等值英语习语的索引条目;逐条在输入文本中查找是否有匹配项;查找到匹配项立即对文本进行格式化处理并高亮显示;在处理下一条习语之前把有匹配项的习语条目添加到输入文本中用到的非等值习语列表框中(列表框自动排序属性设置为True)。将来考虑采用N元组统计分析的方法提高分析速度。知识库应用模块的查询单元和自动分析单元界面截图如图4所示。

英汉非等值习语分类知识库适合用于英汉口译习语专项训练的选材和分析、英汉口译译前准备、英汉笔译参考或其他英语课程的教学。目前,还需要进行下列两个方面的研究,以提升英汉非等值习语分类知识库的应用效果:一是构建英语习语变体知识库,支持自动分析文本时识别习语的变体形式。二是对模糊查询的显示结果进行细化分类,解决近义习语和相关习语混杂在一起的状况。英语习语变体知识库还需要分类标注或分类存储。我们正在根据相关文献及语料库分析结果确定变体类别。习语变体聚类处理采用计算机辅助加人工筛选确认的方法实施。例如:the last straw已成为the last straw that breaks the camels back的合法变体;习语条目列出的是the red carpet,但是在真实文本中使用的是will get the red carpet treatment或其他形式。像the last straw和the red carpet这样的公共子序列是习语变体间的纽带之一;采用最长公共子序列(LCS)等算法(或稍加改造)就能找出相关的变体形式,但需要人工甄别确认。模糊查询的结果经分类优化后参考价值更高。例如:burn your boats是burn ones bridges的地域变体,两者存在近义关系;但是eat ones words与eat ones hat只是在用词和结构上相关。我们计划将来建立习语间的语义及形态关联关系网络以支撑实现优化分类显示的目标。

五、结语

我们提出的构建英汉非等值习语分类知识库的设想是可行的。根据英汉习语非等值现象的特点对英语习语进行多视角分类标注,采用标识、括注、警示和说明等显性补偿手段补充必要信息,可以系统地充实和英语习语相关的重要信息。知识库的习语条目内容采用XML可扩展标记语言标注,适合数据交换和共享;知识库应用模块功能分区明确,显示界面简洁实用。英汉非等值习语分类知识库及其应用模块在内容容量、检索方式和检索效率上优于纸质词典,查询功能与网络词典类似,但查询方式更多,还具有自动识别输入文本内英语习语的专项功能,因而适合用于英语教学,尤其是英汉翻译教学和实践。

参考文献

3.骆世平. 英汉双语词典不应轻视习语信息.∥曾东京. 双语词典研究――2003年第五届全国双语词典学术研讨会论文选. 上海:上海外语教育出版社, 2003.

4.马红军. 翻译补偿手段的分类与应用. 外语与外语教学, 2003

(10).

5.邵贵君. 英语习语翻译切莫望文生义. 安徽农业大学学报, 2005

(2).

6.汪榕培. 英语成语新探. 外语与外语教学, 2000

(11).

7.韦忠生, 胡奇勇. 不可译现象和翻译补偿手段的应用. 福建医科大学学报, 2004

(1).

8.周群芳, 吴云标. 自助式咨询知识库的组织设计. 图书情报工作, 2008

(3).

10.Glser R. The Translation Aspect of Phraseological Units in English and German. Papers and Studies in Contrastive Linguistics , 1984

(18).

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多