机器翻译中的机器学习技术应用研究
【摘 要】本文论述以实例归纳和以类比归纳为手段的机器学习技术原理,分析基于类比的机器学习相关理论,从完全实例翻译、实例句型转换翻译、类比近似翻译等方面研究机器翻译中类比机器学习技术的应用,旨在进一步优化机器翻译的智能技术。
【关键词】机器翻译 机器学习 技术应用
【中图分类号】G 【文献标识码】A
【文章编号】0450-9889(2018)08C-0190-03
随着我国科学技术的不断革新,越来越多产品的智能功能为人们的工作生活提供了更多的助力与保障,机器翻译正是重要的智能化功能之一。现如今,机器翻译软件正不断涌现,大多遵循自然语言处理规则。要想在翻译质量和效率上做到精益求精,应对语言中的各种歧义展开准确处理,提高翻译速度,同时还应该加强机器翻译的拟人化,不断增强机器对人类语言的认知。因此,加强机器学习技术的研究非常重要,坚持让机器学习的技术应用来帮助机器掌握自然语言的不同歧义,是一个重要的研究课题。
一、机器学习技术简述
机器学习方法的目的在于帮助计算机等机器能够不断优化程序,进而按照人类的思维在面对不同问题时可以搜集历史数据,增强对问题的全面思考,提高复杂逻辑的准确度,图1所示代表了机器学习与人类思考之间的机制吻合。
基于实例的机器学习技术,在于为程序设定特定目标概念的正确例子或错误例子,程序经过理性分析归纳,形成相对完整的概念体系,从而面对新的例子中能够识别正确,排除错误。基于类比的机器学习技术,是更接近于人类思维和行为习惯的重要学习方法,简言之就是对不同事物个体之间所存在的相似关联性进行比较和辨识。一旦新问题出现后,主导程序仍然会快速回顾并梳理历史数据,对于曾经处理过的类似案例进行排列分析,可从中挖掘与当前问题最为相似的处理方案来参考解决新问题。
二、基于实例的机器学习
(一)技术思路
基于实例的机器学习可设置为单次行为,也可设置为累积行为。在单次行为中,无论是正确的例子还是错误的例子都应一次性显示;在累积行为中,系统程序则更容易在有用数据库中分多次假设案例概念,并在陆续添加案例的过程中不断修正和调整概念假设,从而使得例子所代表的准确度更高。实例累积的机器学习行为以仿人类学习思维为目标,并在技术上致力于无限接近与人类的学习能动性。一旦机器学习启动,处理程序将会梳理已掌握的各种理论概念,这些概念可以直接进行内涵与外延的拓展,也可以帮助程序引导实现新的案例。机器操作人员在编写新程序的过程中,可以在已掌握概念的基础上,完成对新概念基本点的描述。从实践效果看,累积行为比单次行为的准确度更高,单次行为往往在重塑概念的过程中会选择一定比例的错误例子,这样并不利于机器的有效学习。
基于實例的机器学习应以归纳思维为主,尽可能完成对案例对象的一般性描述。所谓机器学习中的归纳学习系统模型转换过程,如图2所示。
图2 机器归纳学习的系统模型示意图
所谓一般性描述,即能够对各种输入数据进行必要的解释,并根据解释行为结果来推算新信息。机器程序的编写中,需要将一般性描述使用某种规范性的描述语言变得更加形式化。只要涉及不同的数据输入或描述语言,就能够以形式化的一般性描述来概括,随之形成更有约束性与代表性的关系描述集合,整个集合的最小元素都能在特定的描述语言中看作是特点输入值,而集合的最大元素就称之为是代表性的一般描述。故而按惯例可先描述特征输入值,再以归纳手段组织完成一般描述。
(二)基于案例的问题描述
通常,脚本、框架、层次结构、规则产生、语义结构、推演网络等都可以用来进行事件问题描述。其中,微词演算的方法更为严格,其产生的语法语义也更为精巧。当前不少人工智能的归纳学习都倾向于沿用谓词演算的方法,人们在相关归纳动作的理论问题上得到了更多的研究实践经验。当然,很多学习方法对于如何进行一般性描述的形式进行了约束。如在某学习系统虽然理论上能够直接描述,但并未构建描述机制。
(三)基于案例的机器学习执行规则
对一般性差异化半序描述体而言,可指明由非一般描述转为一般性描述的具体方法。这就需要进行必要的归纳分析与逻辑推理,应对整个语言描述中的初始量与中间量制定一般性执行规则,即称之为转换规则。逻辑上可表述为:若一般规则可执行分类规则出现S1∶∶>K时,会产生更为普遍的分类规则S2∶∶>K2,则S1→S2的推导成立。S2与S1之间的描述字符或量化值相对比后,若前者描述内容全部映射在后者描述符中则称之为选择性规则,若前者描述内容在完成对应映射外还有其他描述符则称之为构造性规则。由此可见,出现构造性规则将意味着一般性描述空间的变化,而选择性规则没有空间变化异象。
降低条件规则的做法,实属一般性规则的低级操作,主要靠降低合取条件来对合取式完成一般化处理。如对“黄香蕉”类别在执行条件规则的降低后,将条件因素“黄”去掉,则会产生不分颜色的所有香蕉的类。可表示为:yellow(V)&banana(V)∶∶>K,经一般化处理后应为:banana(V)∶∶>K。
上述简式代表了选择性规则,因为在整个描述中结论部分并未再出现新的描述要素。而对于构造性规则的产生过程,可引入“偏序极元”的规则进行处理,主要思想就是找准有序链条结构中的不同节点,并对节点元素展开描述,从而提升结构性。
三、基于类比的机器学习
(一)技术思路
机器类比学习在近些年来更得到了研究者的高度关注,成为人工智能发展的核心技术之一。研究基于类比的学习技术,能够有效掌握新知识的学习形式,更能够为解决问题提供重要的参考。当前,人类的智能逻辑体系中所要求的技能包括类比推断,运用类比推断的方法,能够客观且合理地梳理不同对象之间的相似或相悖关系,从而由已知属性或功能的对象来推导得到其他对象的某些对应属性。
类比推断模式的逻辑表述为:若甲属性为abc,乙属性为abcd,则甲可能有属性d。这就表明基于类比的机器学习方法能够对早期的系统知识进行合理优化,并将其作为基础来总结得到更大系统的原理或规律。类比推断所应遵循的客观要素就在于事物个体所经历的过程与系统各要素之间的联系是普遍存在的。
我们可以用数学语言来表述基于类比的方法:当存在A1与B1确保对象S1成立,存在A’1与B’1确保对象S2成立,而对象S1与S2之间的相似关系为Φ,则有:
S1:A1、A2、…An→B1,相似性Φ。
S2:A’1、A’2、…A’n→B’1,相似性Φ。
在上述式子中,只有当Φ的定义明确,并且可以列出两个对象求相似性的公式,同时得到B1ΦB’1时的B’1值,才能确保类比推理实现真正意义上的可行。
(二)基于类比的机器学习步骤
机器类比学习主要按以下步骤完成:第一步,遭遇新问题后以回忆或联想的方式迅速查找已经解决的相似问题,可借鉴其解题原理。第二步,筛选相似问题中与新问题最接近的,相似度越高越能提高学习效率。第三步,在已解决相似问题的解题方法与新问题之间建立对应链路。第四步,对解决新问题的方法或知识进行验证。出错则重复以上步骤修正直至正确。当然,在实际运行过程中,基于类比的机器学习还应加强类比系统建设以提供更大保障。
四、机器翻译中的机器学习技术应用研究
我们主要来探讨机器翻译中基于类比学习技术的应用。
(一)应用思路
类比学习的技术方法就是拿早已翻译过的文本来加强对新对象的类比翻译。机器翻译过程中,往往通过富有结构化的案例将各种含大量已翻译案例的知识源信息与新的翻译目标进行对接,重点是完成其中短语与各句式的对应,虽然在对应过程中因方法不同会导致各种步骤的差异性,但并不影响知识源信息与目标信息之间的语言转换,其基本的思路就是形成从词到词、从短语到短语、从长句到长句、从语法树到语法树之间的映射。
简言之就是基于类比学习思想的机器翻译实现过程,可表述为:若给出某一待译句子S,则在语料数据库中可查找一个最相近翻译句子S’,S’的译文即可成为S的译文。可见,机器翻译在类比学习状态下,就成为查找、对应、重现的过程,查找的例子越是接近,就越能够提高新句子的翻译准确性,机器要掌握好历史翻译句子的翻译手法与特点,从而在新句子的翻译中作为重要的参考点。
(二)类比学习应用下的机器翻译形式
1.完全实例翻译。此翻译形式在于对待译语句进行分析后,在已建翻译实例数据库中可搜索到对应的语句,与待译语句的结构组成一致,因此,完全实例翻译就转变为搜索动作,而由翻译实例组成的数据库信息量就显得十分重要,这些实例应该是中英文都有包含的双语文本。数据库的建立初期,需要人员先组织一定量的常用语句形成双语文本,然后输入到数据库或翻译系统的某一模块内,并且要确保整个数据库可以随时填充翻译好的文本信息,成为后期开展机器翻译的重要参考样本。理论上,若待翻译语句是由若干个最为常见的单次或短语组成,实现搜索翻译的成功率和准确率更高。然而事实上,很多自然语言并非简单地词组短语堆砌,结构句子的数量较多,且在各种词句的组合中增添了语法与语义的差别,这样的信息量并不是翻译实例数据库或其他计算机系统模块能够加载完全的,也就意味着完全实例翻译的处理方法并不具备更高的实用性。
显然,完全实例翻译还无法满足人们实现机器智能化翻译的要求,但是我们在实际系统开發中仍然会保留这一形式,并在数据库中大量累积存放相对稳定成熟的双语翻译实例,这就在必要的时候能够对待译语言中的翻译步骤进行有效省略,特别是对自动分词、句法和语义解析、译文转换等内容,所以对于各种待译语句而言,翻译的成功率也会得到明显提升。
2.实例句型转换翻译。显然,完全案例翻译的翻译质量较高,但成功率却不尽如人意,已建翻译实例数据库中的双语本文量数也不能代表完全案例翻译成功数。当然,若换一角度以句型实例来替代数据库中的完全实例,则可提升成功率。其主要思想就是将原有长语句中的部分单词与句型进行结构映射,从而形成译文中的单词与句型,可见,句型结构是否表达一致,将是双语对译的重点。在该形式下,首要考虑一种情况:句型转换顺序吻合。此时,句型翻译要实现自动分词和语法语义无错就可确保质量。同时,还需要考虑另一种情况:句型转换顺序有别。与完全实例翻译相比,实例句型转换翻译在技术应用上更显一筹,然而无法越过自动分词、语法语义解析等步骤。
3.类比近似翻译。若上述两种方式无法解决翻译问题,就需要计算机系统开启近似翻译逻辑模式。该形式的翻译思想就在于主张加强对句型表达语句的近似匹配,在数据库中找出与待译语句在结构上最为相似的实例,并定义好两者中间的相似度,比较不同语句之间的相似度,择选最优项。此时,相似度的计算则需要作为系统运行中的重点关注点。系统可编入距离程度计算方法,实行罚分概念,分值以趋小为佳,系统选择最小分值的表达式来开展译文翻译。
需要注意的是,类比近似翻译中的运算复杂度要想降低,应在罚分上加强处理,如可对句型表达式的元素进行增减,并由增减元素在决定罚分分值。若要删减某元素,则元素是原语句中的关键词,则可取3分罚分值,若是量词、助词等辅助元素,则罚分值控制在[0.1,0.3]区间内,具体删减元素可提前由数据库中已存的句型表达式来决定。若要增加某元素,则罚分分值将按词性来分配,具体操作机理有待进一步完善。
总之,机器翻译已经成为当前各类翻译工作的得力助手,甚至可在质量效率上取代人工翻译,但是此目标的实现还有待加强机器翻译的智能化来完成。机器学习技术的研究,能够为机器翻译带来更大的升级变革,加强基于案例和基于类比的机器学习,无疑是优化机器翻译的有效保障。以上阐述了以实例归纳和以类比归纳为手段的机器学习技术原理,并基于类比的机器学习相关理论研究了机器翻译中类比机器学习技术的应用,可为进一步优化机器翻译的智能技术提供有益的参考与借鉴。
【参考文献】
[1]杨宪泽,肖明.一种混合式机器翻译方法的分析研究[J].计算机工程与科学,2012(2)
[2]王莎.统计机器翻译译文错误检测方法研究[D].西安:西安理工大学,2013
[3]薛松.基于机器学习的文本处理技术研究与应用[D].北京:北京邮电大学,2015
[4]文佳胜.基于机器学习的少数民族语言翻译关键技术研究与实现[D].成都:电子科技大学,2016
[5]尚刘刚.基于统计的译文质量评估技术的研究[D].沈阳:沈阳航空航天大学,2016
[6]马国来,尹长青,宋善.威基于机器翻译语块的命名实体翻译方法研究[J].硅谷,2015(3)
[7]丁亮,李颖,何彦青.统计机器翻译领域自适应方法比较研究[J].情报工程,2016 (4)
【基金项目】2016年度广西中青年教师基础能力提升项目“基于跨文化交际理论的英文门户网站翻译研究”(KY2016YB769)
【作者简介】邹 蓉(1983— ),女,广东韶关人,硕士,柳州城市职业学院讲师,研究方向:英语教学与研究;覃潘燕(1982— ),女,广西宜州人,学士,柳州城市职业学院讲师,研究方向:英语教学与研究;董 健(1983— ),男,湖北洪湖人,学士,柳州城市职业学院讲师,研究方向:英语教学与研究。
(责编 黎 原)
下一篇:函数凸性在高考中的应用例谈