蒙古语是我国重要的少数民族语言,也是蒙古国的官方语言,在国际上具有很重要的地位。作为我国蒙古族自治地方的官方语言,使用的范围是非常大的。这样,蒙古语的信息处理就成为了语言信息处理的重要研究方面。其中,汉蒙机器翻译是将汉语资料翻译成蒙古语的重要工具。但是,由于蒙古语自身的原因,以及研究投人不够的问题,导致汉蒙机器翻译的研究进展相对比较缓慢。
目前,国内外汉英机器翻译的研究如火如荼,我们正好可以借鉴这些技术,加快汉蒙机器翻译的研究。目前国内的少数民族语言机器翻译的研究还处在初级阶段,主要的研究还是集中在基于规则的方法上[2]。在蒙古语机器翻译的研究上,国内外的研究和相关文献都比较少,目前的研究还主要集中在研究的基础阶段[1 。尤其是在基于语料库的方法上还没有深入的研究,而且,在由内蒙古大学和中国科学院计算技术研究所合作研究的基于规则的汉蒙机器翻译,是目前我们能够了解到的真正达到部分实用的汉蒙机器翻译技术,但是其方法上能够取得的进展也依然比较有限,无法达到比较好的实用效果[2]。因此,基于语料库的汉蒙机器翻译方
............
2 总体架构
我们知道,EBMT具有以下的主要优点: 不需要编写规则, 系统维护容易,容易产生高质量的译文,需要的相关语言知识少,通过以往的尝试,我们发现,由于汉语和蒙古语分属不同的语系,语言的差别相对比较大,编写规则相对来说比较困难,调试起来T作量比较大。因此,选择基于语料库的机器翻译方法就是比较合适的。通过分析论证,考虑到我们以前研究的汉蒙双语对齐的技术基础,我们采用了基于对齐的EBMT系统。
在系统的架构中包含几个主要的处理步骤:
(1)分词和对齐
将待翻译的句子切分成以词为单位的片段。在本系统中,汉语的分词采用的是中国科学院计算技术研究所研发的ICTCLAS汉语分词系统。在最终系统中,蒙古语按空格分词,不做特殊处理。将双语语料库中的汉蒙句对进行词对齐。这里是利用汉蒙双语词典及共现概率为基础的方法进行词对齐。经过对齐后,将双语语料库转换为实例库,为机器翻译提供实例。
(2)实例搜索
从实例库中所有最接近的实例。这一步的主要内容包含相似度的计算和搜索两个部分。
(3)片段匹配、分割和组合
本文从以下几个方面进行了研究和实验:
(1)通过加入汉蒙双语词典和对蒙古语名词的格、复数及领属等形式附加成分的形态分析,解决了译文中出现的大量未登录词问题。
(2)提出了基于蒙古语语序的汉语句子调序方法,解决了基于短语统计机器翻译中出现的大量的语序错误。首先把汉语句子进行句法分析;然后
根据调序规则进行调序,让汉语句子的语序尽量接近蒙古语句子的语序;最后把调序后的汉语句子送到统计解码器中进行单调解码。