当前位置:首页 > 机器翻译研究现状与展望概要
机器翻译是建立在语言学、数学、信息学、计算机科学等学科基 础上的多边缘学科。 现代理论语言学的发展、 计算机科学的进步以及 概率统计学的引入 , 对机器翻译的理论和方法都产生了深刻的影响。 Weaver 机器翻译思想的提出 , 开始了机器翻译的研究热潮。 Chomsky 在 50年代后期提出的短语结构语法 , 给出了“从规则生成 句子” 的原则。由于短语结构语法采用单一标记的短语结构来描述 句子的构成 , 描述粒度过粗 , 因此存在约束能力弱、 生成能力过强问 题 , 人们逐渐意识到仅依靠单一的短语结构信息 , 不能充分判别短 语类型和确认短语边界 , 于是 , 复杂特征集和词汇主义被引入自然 语言语法系统 , 广义短语结构语法、 词汇功能语法、 中心语驱动的短 语结构语法等语言学理论也相应地产生。 在这个发展过程中 , 基于规 则方法一直是机器翻译研究的主流。
在基于规则的方法中 , 语言规则的产生需要大量的人力 , 而且大 量的语言规则之间往往存在着不可避免的冲突。另外 , 规则方法在保 证规则的完备性和适应性方面也存在着不足。 而此时 , 统计学方法在 自然语言处理的语音识别领域取得了比较好的效果 , 于是 , 基于统 计的机器翻译应运而生。 随着双语语料的大量增加、 计算机性能的提 高 , 基于实例的机器翻译方法被提出, 并由此泛化产生了基于模板的 机器翻译方法。
下面我们分别介绍几种典型的机器翻译方法: (1基于规则的机器翻译方法
从 Chomsky 提出转换生成文法后, 基于规则的方法一直是机器翻 译研究的主流, Chomsky 认为一种语言无限的句子可以由有限的规则 推导出来。
早期的机器翻译系统 , 从体系结构上可以分为直译式、 转换式和 中间语言式 , 它们的不同之处在于对源语言分析的深度 , 它们的相 同点是都需要大规模的双语词典、 大量的源语言推导规则、 语言转换 规则和目标语言生成规则。 其中 , 转换式的基于规则方法对源语言分 析得比较深 , 它涉及到词汇结构分析、 语法分析、 语义分析 , 并完成 词汇、 语法、 语义三层结构从源语言到目标语言的转换 , 而且转换式 的方法又充分考虑了源语言和目标语言之间的特征联系 , 它比中间 语言方法
更容易获得高质量的翻译结果。 因此 , 转换式的方法更多地 被应用在早期的机器翻译系统中 , 整个翻译过程被分为 , 源语言分 析部分 , 转换部分和目标语生成部分。 而早期的系统 , 如德国西门子 的 METAL 系统、美国的 SYSTRAN 系统、日本日立公司的 ATHENE 系统 以及中国中软公司的 HY-1汉英系统 , 都是基于转换的机器翻译系 统。
基于规则的机器翻译的优点在于 , 规则可以很准确地描述出一 种语言的语法构成 , 并且可以很直观地表示出来。 机器可以按照一组 规则来理解它面对的自然语言 , 这组规则包含了不同语言层次的规 则 , 包括用以对源语言进行描述的源语言分析规则、用以对源语言 /目标语言之间的转换规则以及用于生成目标语的生成规则。
由此可见 , 基于规则的机器翻译的核心问题是构造完备的或适 应性较强的规则系统。 但是 , 规则库的建立需要花费大量的人力和物 力 , 即使如此 , 规则的完备性仍然不能得到保证 , 规则库很难覆盖 所有的语言现象。随着规则数量的增加 , 规则之间的冲突很难避免; 很难用系统化的规则分类体系、 恰当的规则粒度去刻画语言特征。 而 且早期的规则系统采用的都是确定性规则 , 即 , 非此即彼的规则 , 系统的适应性很差。
基于上述问题 , 如何自动地获取语言规则、 如何更好地表示规则 以及如何更好地增强系统的适应能力成为研究人员关注的焦点。 随着 大量语料库的产生 , 统计方法为我们提供了很好的从己有的语言资 源中自动得到我们所需要的语言信息的工具。 复杂特征集和合一运算 的提出也使得我们能以更细的粒度、 更加准确的知识表示形式来描述 规则 , 而词汇化的信息也更多地来自于标注语料库。 针对确定性规则 降低了系统的鲁棒性的弱点 , 概率上下文无关文法川从全局最优的 角度考虑 , 产生最优的翻译结果 , 为机器翻译系统的实用化奠定了 基础。 随着这些方法的引入 , 传统的基于规则的机器翻译方法研究逐 步发展成为对以规则为基础、 语料库方法为辅助的高性能机器翻译方 法的研究。
(2基于统计的机器翻译方法
除了在某些特定的受限领域 , 基于规则的机器翻译 , 取得了比 较好的效果之外 , 在大部分的实验中 , 基于规则的机器翻译远远没 有达到人们的要求。 而随着语料库语言学的发展和统计学、 信息论在
自然语言处理领域的应用 , 人们尝试着用统计的方法进行机器翻译 的研究。 对于机器翻译来说 , 基于统计的方法可以从两个层面上来理 解 , 一种是指某些概率统计的方法在具体的机器翻译过程中的应用 , 比如用概率统计的方法解决词性标注的问题、 词义消歧的问题等; 另 一种较狭义的理解是指纯粹的基于统计的机器翻译 , 翻译所需的所有 知识都来源于语料库本身。
(3基于实例的机器翻译方法
基于实例的机器翻译思想最早是由 Nagao 提出,其基本思想是 , 在已有的源语言实例句库中 , 待翻译句子按照类比原理匹配出最相 似的实例句 , 取出实例句对应的目标语句子 , 进行适当的改造 , 最 终得出待翻译句子所相应的目标语句子。 整个翻译过程实际上是一个 匹配过程。 它的特点是不需要对源语言进行任何的分析 , 仅仅是通过 类比进行翻译。
从翻译过程来看 , 句子一级对齐的双语语料库是基于实例的机 器翻译系统的知识源 , 在基于实例的机器翻译系统中 , 双语对齐语料 库被称为翻译记忆库(Translation Memory 。
对于基于实例的系统 , 首先 , 待翻译句子需要从翻译记忆库中 找出最相似的源语言句子 , 一般根据词典或者语言的本体知识 (Ontology , 根据句子中词汇或者词类之间的语义距离来计算句子 的相似度。
基于实例的机器翻译系统的翻译质量取决于翻译记忆库的规模 和覆盖率。 因此如何构建大规模翻译记忆库成为基于实例的机器翻译 研究的关键问题。
现阶段 , 由于缺少大规模的双语对齐语料库 , 基于实例的机器 翻译方法匹配率并不是很高 , 而基于实例的机器翻译如果匹配成功 , 可以获得高质量的译文 , 因此基于实例的机器翻译一般和基于规则 的机器翻译结合使用。 对于匹配命中率过低
的问题 , 我们试着做到短 语级的双语对齐 , 以提高匹配命中率 , 通过短语结构的局部匹配 , 组合相应的目标语句子框架 , 完成句子的翻译 , 这种方法进而泛化 为基于模板 (Template-based 的机器翻译 , 通过大规模的双语语料 , 自动抽取翻译模板 , 翻译过程匹配模板库。 这种方法增加了匹配的命 中率 , 模板库规模比实例库要小 , 因此也提高了系统的效率。 而模板 的自动获取仍然是翻译的关键。
基于实例的机器翻译方法依然面临着很多的问题 , 对于相似度 计算 , 如果计算词类或者短语级的相似度 , 则需要首先对我们的翻 译记忆库本身进行标注。 而且很难定义一个相似度标准选出最合适的 相似句 , 此外随着翻译记忆库规模的扩大 , 需要一个高速的查询匹 配算法 , 同时需要在增加翻译记忆库的规模、 提高匹配率的同时 , 保 证翻译记忆库的冗余度。
在机器翻译研究的过程中 , 各种机器翻译方法层出不穷 , 其它的 还有基于模式的机器翻译、 基于神经网络的机器翻译、 基于对话的机 器翻译、基于原则的机器翻译等等。
现有的各种机器翻译方法在现阶段的机器翻译研究中被广泛采 用, 它们之间已经没有严格的界限。 基于规则的机器翻译方法结合语 料库的方法, 大量使用统计方法获取语言信息,而基于统计的机器翻 译和基于实例的机器翻译更是相互渗透 , 这两种方法统称为基于语 料库的方法, 因为它们同样依靠双语语料库。 基于混合策略的机器翻译方法研究 根据上面对几种机器翻译方法的介绍 , 可以看出, 不同的机器 翻译方法有各自的优势和局限性 , 基于规则的方法优势在于可以很 准确地描述语言特征规律, 符合理性思维; 而基于统计的方法可以缓 解知识获取的瓶颈问题。 因此如何发挥各种机器翻译方法的优势, 把 各种方法有效地结合起来 , 从而改善机器翻译系统的性能 , 成为我 们研究的重点。 在现阶段, 把传统的基于规则的方法和基于语料库的 方法相结合, 己经成为机器翻译研究的主流。 在结合策略上, 一种策 略是进行多引擎的机器翻译, 结合各种机器方法 , 充分发挥各种机 器翻译方法的优点, 生成高质量的译文。 还有一种策略是在基于规则 的机器翻译方法中, 利用语料库资源 , 采用统计学和机器学习的技 术解决机器翻译中的局部问题, 进而提高整体性能。 在基于单一方法的机器翻译中 , 不管采用哪种方法, 总是不能 取得理想的效果,
共分享92篇相关文档