admin 管理员组

文章数量: 887021


2024年1月24日发(作者:c语言sqrt函数的使用方法)

机器翻译

1 概述

机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理 (Natural Language Processing)的一个分支,与计算语言学(Computational

Linguistics )、自然语言理解( Natural Language Understanding) 之间存在着密不可分的关系。

2 国内外现状

机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins) 在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical

Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。

真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、 “雅信” 、 “通译” 、 “华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。

近来, 我国机器翻译的研究也发展很快。几年来许多公司都推出了高科技机器翻译软件,

如天津通译、中软译星和北京高立翻译软件等。最近, 南京月亮公司、实达铭泰公司、雅信译霸公司都先后推出汉化软件翻译产品。中国科学院计算所等单位联合开发研制了“ 智能型英汉翻译系统” 。该系统实现了对原文的语法、语义和常识的一体化分析, 具有面向多文种翻译软件环境。我国台湾地区的“ 功学电脑自动翻译系统” , 可使用户在“ 电子资讯” 、“ 历史法律” 、“ 军事” 等方面进行计算机翻译。机器翻译的发展如雨后春笋展现出勃勃生机。

3 主要方法

基于规则( Rule-Based )的机译系统

系统划分

机译系统可划分为基于规则( Rule-Based )和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。机译系统是随着语料库语言学的兴起而发展起来的,世界上绝大多数机译系统都采用以规则为基础的策略,一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说,所有机译系统的处理过程都包括以下步骤:对源语言的分析或理解,在语言的某一平面进行转换,按目标语言结构规则生成目标语言。技术差别主要体现在转换平面上。

语法型机译系统

研究重点是词法和句法,以上下文无关文法为代表,早期系统大多数都属这一类型。语法型系统包括源文分析机构、源语言到目标语言的转换机构和目标语言生成机构3部分。源文分析机构对输入的源文加以分析,这一分析过程通常又可分为词法分析、语法分析和语义分析。通过上述分析可以得到源文的某种形式的内部表示。转换机构用于实现将相对独立于源文表层表达方式的内部表示转换为与目标语言相对应的内部表示。目标语言生成机构实现从目标语言内部表示到目标语言表层结构的转化。

语义型系统

研究重点是在机译过程中引入语义特征信息,以Burtop提出的语义文法和Charles

Fillmore提出的格框架文法为代表。语义分析的各种理论和方法主要解决形式和逻辑的统一问题。利用系统中的语义切分规则,把输入的源文切分成若干个相关的语义元成分。再根据语义转化规则,如关键词匹配,找出各语义元成分所对应的语义内部表示。系统通过测试各语义元成分之间的关系,建立它们之间的逻辑关系,形成全文的语义表示。处理过程主要通过查语义词典的方法实现。语义表示形式一般为格框架,也可以是概念依存表示形式。最后,机译系统通过对中间语义表示形式的解释,形成相应的译文。

知识型系统

目标是给机器配上人类常识,以实现基于理解的翻译系统,以Tomita提出的知识型机译系统为代表。知识型机译系统利用庞大的语义知识库,把源文转化为中间语义表示,并利用专业知识和日常知识对其加以精练,最后把它转化为一种或多种译文输出。

智能型系统

目标是采用人工智能的最新成果,实现多路径动态选择以及知识库的自动重组技术,对不同句子实施在不同平面上的转换。这样就可以把语法、语义、常识几个平面连成一有机整体,既可继承传统系统优点,又能实现系统自增长的功能。这一类型的系统以中国科学院计算所开发的IMT/EC系统为代表。

基于语料库(Corpus-Based)的机译系统

机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。

整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。

在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。

迄今存在和正在研制的机器翻译系统按其加工的深度可以分为3种类型:第1类是以词汇为主的机器翻译系统;第2类是以句法为主的机器翻译系统;第3类是以语义为主的机器翻译系统。

第1类机器翻译系统

从美国乔治敦大学的机器翻译试验到50年代末的系统,基本上属于第1类机器翻译系统。它们的特点是:①以词汇转换为中心,建立双语词典,翻译时,文句加工的目的在于立即确定相应于原语各个词的译语等价词;②如果原语的一个词对应于译语的若干个词,机器翻译系统本身并不能决定选择哪一个,而只能把各种可能的选择全都输出;③语言和程序不分,语法的规则与程序的算法混在一起,算法就是规则。由于第一类机器翻译系统的上述特点,它的译文质量是极为低劣的,并且,设计这样的系统是一种十分琐碎而繁杂的工作,系统设计成之后没有扩展的余地,修改时牵一发而动全身,给系统的改进造成极大困难。

第2类机器翻译系统

60年代以来建立的机器翻译系统绝大部分是第2类机器翻译系统。它们的特点是:①把句法的研究放在第一位,首先用代码化的结构标志来表示原语文句的结构,再把原语的结构标志转换为译语的结构标志,最后构成译语的输出文句;②对于多义词必须进行专门的处理,根据上下文关系选择出恰当的词义,不容许把若干个译文词一揽子列出来;③语法与算法分开,在一定的条件之下,使语法处于一定类别的界限之内,使语法能由给定的算法来计算,并可由这种给定的算法描写为相应的公式,从而不改变算法也能进行语法的变换,这样,语法的编写和修改就可以不考虑算法。第2类机器翻译系统不论在译文的质量上还是在使用的方便上,都比第1类机器翻译系统大大地前进了一步。

第3类机器翻译系统

70年代以来,有些机器翻译者提出了以语义为主的第3类机器翻译系统。引入语义平面之后,就要求在语言描写方面作一些实质性的改变,因为在以句法为主的机器翻译系统中,最小的翻译单位是词,最大的翻译单位是单个的句子,机器翻译的算法只考虑对一个句子的自动加工,而不考虑分属不同句子的词与词之间的联系。第3类机器翻译系统必须超出句子范围来考虑问题,除了义素、词、词组、句子之外,还要研究大于句子的句段和篇章。为了建立第3类机器翻译系统,语言学家要深入研究语义学,数学家要制定语义表示和语义加工的算法,在程序设计方面,也要考虑语义加工的特点。

目前世界上绝大多数的机器翻译系统都是第 2类机器翻译系统,研究的重点主要放在句法方面。有些系统以句法为主,适当增加了一些语义参数,以解决句法上的歧义问题。由于语义研究还不成熟,建立第3类机器翻译系统还有相当大的困难。

基于统计的机器翻译

基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。

实际上, 用统计学方法解决机器翻译问题的想法并非是 20 世纪 90 年代的全新思想,1949 年W. Weaver 在那个机器翻译备忘录就已经提出使用这种方法,只是由于乔姆斯基 (y) 等人对计的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。

另外,限于当时的计算机速度,统计的价值也无从谈起。而现在,计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个

人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。

统计机器翻译方法的数学模型是由国际商业机器公司 (IBM) 的研究人员提出的。在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型,称为 IBM 模型 1 到

IBM 模型 5。这五种模型均源自信源-信道模型,采用最大似然法估计参数。由于当时(1993年)计算条件的限制,无法实现基于大规模数据训练。其后,由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视,该模型被用来替代IBM Model 2。在这时的研究中,统计模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。

在此文发表后6年,一批研究人员在约翰·霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。Franz Joseph Och 在随后对该软件进行了优化,加快训练速度。特别是IBM

Model 3 到 5的训练。同时他提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++,直到现在,GIZA++还是绝大部分统计机器翻译系统的基石。针对大规模语料的训练,已有GIZA++的若干并行化版本存在。

基于词的统计机器翻译的性能却由于建模单元过小而受到限制。因此,许多研究者开始转向基于短语的翻译方法。Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高,在此后数年,该方法的性能远远领先于其他方法。一年后Och又修改最大熵方法的优化准则,直接针对客观评价标准进行优化,从而诞生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。

另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现,为翻译结果提供了自动评价的途径,从而避免了繁琐与昂贵的人工评价。最为重要的评价是BLEU评价指标。绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。

Moses 是目前维护较好的开源机器翻译软件,由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。

目前,Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google 采用的技术是先进的,但它还是经常闹出各种“翻译笑话” 。其原因在于:基于统计的方法需要大规模双语语料,翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。因此目前通用领域的机器翻译系统很少以统计方法为主。

基于实例的机器翻译

与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他

提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。

基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。

这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。

4 评价方法

机器翻译评估与机器翻译是相辅相成的,机器翻译的发展决定了机译评估的进展,反之机译评估又促进机器翻译的发展。五六十年代机器翻译研究蓬勃兴起,机译评估也由此诞生。1959年,Bar-Hillel发表了“美国与英国机器翻译现状的报告”,翌年他又发表了著名的“自动翻译语言研究的现状”,在这篇报告中,他评价了美国、英国、前苏联、意大利以及以色列机器翻译研究的情况,最后得出一个悲观的结论,即完全自动的高质量翻译(FAHQT)是不可能实现的(Bennet,1994)。因为Bar-Hillel的报告中没有提到任何评价标准,所以真正的有重大影响的机器翻译评估应该始于1966年的ALPAC报告。这个报告从以下几个方面评价了机器翻译: (1) 机器翻译的花费以及对机译的需求。(2) 对翻译人员的需求。(3) 一些机译系统的译文质量。(4) 译后编辑的花费。(Pierce & Carroll, 1966)。ALPAC中所采用的评估方法现在还具有很高的实用价值,但具有讽刺意味的是,正是这第一个机译评估报告否定了机译研究,导致机器翻译停滞不前。直到七十年代末机器翻译研究才有所恢复。所幸的是八十年代,机器翻译又开始蓬勃发展,机译评估也随之发展迅速。人们逐渐认识到ALPAC报告是存有偏见的,比如说它比较机器翻译与人译的费用并且批评机器翻译需要译后编辑,但实际上,ALPAC报告没有注意到这样一个事实,即机译和人译各司其职,机译可帮助提高翻译效率,应用于翻译大量科技文献及模式较固定的文章,而人译应集中于有创造性的作品,譬如文学作品等。也许机译在研制过程中以及使用初期花费较高,但从长远来看,它还是省时、省力、省财的。因此,八十年代有人提出机译评估系统应是适用范围广、客观的、应该能用来比较各个机译系统而不是单纯比较人译与机译。(Nirenburg, 1987)。但遗憾的是,实践证明,到目前为止,要开发这样一个理想的评估系统还是困难重重

5 关键问题

虽然语言学专家经过长期的研究和努力, 创建了含有成千上万条的语料规则库, 覆盖了相当范围的语言现象, 但是, 由于语言的复杂性及其特殊性, 使得所创建的规则库无论

多么庞大, 都不可能涵盖所有的语言现象。而且, 目前的机器翻译系统, 多需人工参与调整。有鉴于此, 很多语言学家及软件商推出各种由人工参与调整的翻译系统, “ 雅信” 就是一例。“ 雅信’’不依赖于计算机的自动翻译, 而是在人的参与下完成整个翻译过程, 其翻译的质量和人工翻译相差无几, 但效率却提高了一到四倍。很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们解决任何问题。其实其误差在所难免,原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的,比如《大话西游》中“给我一个杀你的理由,先”之类状语后置的句子。机器毕竟是机器,没有人对语言的特殊感情,它怎么会感受“最是那一低头的温柔,像一朵水莲花不胜凉风的娇羞”的韵味?毕竟汉语因其词法、语法、句法的变化及其语境的更换,其意思大相径庭,就连很多国人都是丈二和尚——摸不着头脑,就别说机器了。

中国数学家和语言学家周海中在《机器翻译50年》一文中指出:要提高机器翻译的质量,首先要解决的是语言问题而不是程序问题。单靠若干程序来做机译系统,肯定是无法提高机译质量的。

国际上有关专家分析认为:机器翻译要想达到类似人工翻译一样的流畅程度,至少还要经历15年时间的持续研究。也就是说,在人类对语言研究的同时,还无法明了“人脑是如何进行语言的模糊识别和判断”的情况下,机器翻译要想达到100%的准确率是不可能的。

6 总结和展望

机器翻译的目标是通过计算机实现不同自然语言的自动翻译, 以解决人类社会的语言障碍。然而, 由于语言与机器的矛盾, 想要用计算机把丰富多彩的语言描写得淋漓尽致, 惟妙惟肖尚待时日。难怪有人指出用程序法重新组织表层话语结构, 推出尽善尽美的译文, 使翻译程序达到标准化, 是一种乌托邦式的空想。人类对自然语言的认识是无尽的, 对机器翻译的研究也是无尽的。但不管怎么说, 机器翻译的质量将会越来越好, 越来越成熟。以机器翻译为核心的语言信息处理产业, 将是世纪最有生气的先导产业, 而高性能机器翻译无疑又是这一先导产业之中最为重要的高尖科技领域章国英, 。因此, 我们要满怀信心,迎接挑战。机器翻译的发展也将对英语教学和研究产生深刻的影响。首先, 机器翻译的发展将促进语言学科和学科的融合。如上所述, 机器翻译的很多问题都不是单纯靠学科所能解决的, 它需要语言学科, 特别是对比语言学科的强力参与。这将为外语教学和研究提出许多崭新的课题, 带来许多挑战和机遇。第二, 随着机器翻译质量的提高和电脑的普及, 与机器翻译相关的课程, 如“ 机译原理” , “ 机译应用” 等将成为外语专业学生的必修课程。二十一世纪的合格译员, 必然是既能熟练掌握口笔译技能, 又能熟练操作、应用机译软件的新型人才。第三, 机器翻译的深人发展将对外语学科中许多门类的教学与研究产生推动作用。机译需

要建立庞大的语料库, 这将推动词汇学、词典学的发展, 同时也为这些门类的教学研究提供丰富的素材。机译需要研究双语的结构异同, 这将促进对比语言学在更深、更精的层次上发展。此外, 语法学、文体学、术语学和普通翻译理论本身都会在解决机译问题中面临挑战、发挥作用, 并籍此得到自身的发展和飞跃。


本文标签: 系统 翻译 语言 机译