当前位置: 查字典论文网 >> 面向跨语言知识组织的词典信息编纂与发布

面向跨语言知识组织的词典信息编纂与发布

格式:DOC 上传日期:2015-08-11 16:41:35
面向跨语言知识组织的词典信息编纂与发布
时间:2015-08-11 16:41:35     小编:

摘要:通过统计双语词典中的编纂、出版与内容构成,本文全面分析了针对跨语言,即汉英两种语种的词典编纂流程、界面、词典数据库、词典各种呈现界面,即纸质的、网络的和手机的。通过本文提出的整个框架,在全媒体、多数据类型呈现的大数据时代,可以在一定程度上解决跨语言词典编纂的相应问题。

关键词:全媒体;跨语言;词典界面;信息服务

一、引言

二、双语词典的全媒体发展状况

据中国互联网信息中心2009年7月发布的第24次《中国互联网络发展状况统计报告》显示:“截至2009年6月30日,中国网民规模达到3.38亿人,普及率达到25.5%。而且手机网民规模也达到1.55亿人,占整体网民的45.9%”[7]。这么巨大的市场需求,势必刺激并引导着数字技术创造新的数字出版运用领域,网络出版、手机出版等全媒体出版定会得到日新月异的发展。在双语词典的全媒体出版方面,国内一些大型的IT公司也做了一些有益的尝试,并取得了相对有效的成果。从技术的角度上看,国内做的比较好的在线双语辞书见表1;

三、面向全媒体的双语词典编纂

面向全媒体的双语词典编纂由语料库、词典编纂界面和词典数据库三个主要内容组成。这三个功能模块是相互联系和紧密结合在一起的,词典编纂界面是核心,是语料库和词典数据库服务的对象;语料库检索界面是基础,脱离语料库和检索界面,词典编纂过程中的例证获取、词频统计和词汇提取等语言学知识获取的功能就无从谈起;词典数据库是最终成果的载体,脱离词典数据库,不但后续开发是空中楼阁,就连词典编纂成果也成为镜中花和水中月了。词典编纂系统是一个多用户协作的软件系统,为了协调用户间操作及提供相关的功能服务,软件采用C/S(客户/服务器)结构进行组建。在构建过程中,将不同的功能模块分别安排在客户端和服务器端,并利用MVC(模块、视图、控制器)设计方式将其联系起来。

1.词典编纂界面

从词典数据库中根据权限分配给词典编纂者、初审、二审和主编相应的词条。这些词条有下列四种:仅仅有词目;初审词条;二审词条;三审词条;词典各级别的编纂者有权对词条进行修改、增加和删除;这一部分显示在词典编纂界面的左边,为了便于词典编纂者在类似word界面里编纂,在选定好某个词条后,可以隐藏。

自动显示在类似word的编纂界面中,不同的词典编纂者可以像在word中一样,任意的对这个词条进行编纂、修改、删除和添加其他语言信息。为了便于后续的词条数据抽取,可以做一个严格意义上的词条模板,这个模板包含最全面的词条组成元素,基本模板主要包括:词目、音标、罗马字符、词性、【阿拉伯数字、释义例证】(黑框里面的部分是一个多个循环,这个循环值给它一个接近最大值即可);也可以不做固定模板,词典编纂者按照词条的基本框架进行编纂,然后把这个词条自动保存到词典数据库中。

2.语料库及检索功能

首先,常规的语料库统计功能:词频统计、词性统计、句子长度统计;其次,例句检索,主要有下面的检索,关键词检索、关键词和词性结合检索、例句长度检索、搭配检索、形态变换检索。最后,自然语言统计知识获取功能,计算词的搭配度、互信息、Z值、卡方值等。检索功能模块的放置,作为一个模块,放到类似word编纂界面的工具栏里面去,展开分三部分:常规统计功能;例句检索功能;自然语言统计功能。检索结果界面可以自由的控制大小。对于数据库的查询,一定程度上可以依赖于数据库管理系统自身的查询功能,但数据库所提供的查询是原始的,基于SQL(关系型查询语言)的,实际应用中还需要对原始查询进行封装、优化、检查,在获得查询结果后,基于兼容性及开放性考虑,还需要对查询结果进行二次处理,使之表示成如XML等扩展性较强的数据格式。

3.词典数据库

对于词典数据,有着不同的逻辑结构,如词典中,一个词可能有多个词性,作某一个词性时又可能有多个释义,一个释义可能有多个例证等。从逻辑结构上,词典中每个词条的结构均是树形的,对应的字(词)为根,按词性、释义等一层层分支下去。此种情况下,最适宜使用面对对象的数据库进行数据存储,但由于在实际应用过程中,为了方便系统的统一管理,如数据备份等,这里选择使用关系型数据库进行实现,通过精心设计的结构来记录数据中层次关系。通过分析数据规模,权衡软件管理复杂度及使用成本,选择MySQL作为数据库管理系统。MySQL具有较好的平台通用性,同时能在低系统开销的情况下获得较好的执行效率。

四、面向全媒体的双语词典出版

1.网络版双语词典

在词典数据库和光盘版的基础上,结合相应的网络技术,推出相应的网络版双语词典。网络版双语词典主要提供双语词典和相应语料库语料的的检索。网络版的主要功能如下。基于网络良好的交互性,用户可以自行向词典数据库添加词条。在已经制作好的添加模板中,用户自行填写各项内容即可,如词目、释义、例证等。在网络双语词典中,用户可以自行设置查询结果和关键字的字体颜色,同时基于英语不规则的形态变化特性考虑,在整个检索功能设置中,网络版双语词典支持动词、形容词、名词和副词的各种形态变化查询,如当用户输入“go”时,返回的不仅仅是“go”的结果,还有“went、gone、going、goes”的结果。

2.手机版双语词典

在光盘版和网络版双语词典的的基础上,基于3G的相应技术,开发手机版双语词典。手机版主要支持双语词典和部分语料库语料的查询。其功能主要有下面几点。提供简单的全文、布尔逻辑和模糊检索,基于数据量的考虑,手机版双语词典目前不支持不规则形态变换的查询。对于查询的结果,适当地控制显示的数量。为了方便查询,配置相应的智能输入法,并支持同音词检索,专门设置一个同音词检索功能按钮,如果用户需要的话,可以获取该词的同音词检索结果,例如输入“right”,在同音词检索功能的帮助下就可以得到“right、rire、writ”等几个词的检索结果。手机版双语词典具有发音的功能,考虑到手机版词典的特殊性,目前仅支持合成音的发音功能。

全文阅读已结束,如果需要下载本文请点击

下载此文档

相关推荐 更多