精华内容
下载资源
问答
  • 针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。
  • 机器翻译现状简介

    千次阅读 2019-06-29 00:57:37
    1. 机器翻译现状 1.1 什么是机器翻译? 什么是机器翻译?...首先我们从机器翻译历史发展的角度来对它进行大致的讲述一下,机器翻译的历史大致经历了三个阶段: 基于规则的机器翻译(70年代) 基...

    1. 机器翻译现状

    1.1 什么是机器翻译?

    什么是机器翻译?
    说白了就是通过计算机将一种语言转化成其他语言,就是机器翻译。
    这对我们同学们而言都很熟悉了,那么机器翻译背后的理论支持到底是什么呢?而且几十年前的机器翻译和现在我们天天口中说的神经网络到底有什么区别呢?
    首先我们从机器翻译历史发展的角度来对它进行大致的讲述一下,机器翻译的历史大致经历了三个阶段:

    • 基于规则的机器翻译(70年代)
    • 基于统计的机器翻译(1990年)
    • 基于神经网络的机器翻译(2014年)

    基于规则的机器翻译(70年代)

    基于规则的机器翻译的想法第一次出现是在70年代。科学家根据对翻译者工作的观察,试图驱使计算机同样进行翻译行为。这些翻译系统的组成部分包括:

    双语词典(俄语->英文)
    针对每种语言制定一套语言规则(例如,名词以特定的后缀-heit、-keit、-ung等结尾)

    如此而已。如果有必要,系统还可以补充各种技巧性的规则,如名字、拼写纠正、以及音译词等。
    感兴趣的同学可以去网上仔细查看一下相关的资料,这里就贴上一个大致的流程图,来表示基于规则的机器翻译的实现流程。
    在这里插入图片描述
    根据规则调整句子结构,然后去字典中查找对应的词片段的意思,重新组成新的句子,最后利用一些方法来对生成的句子进行语法调整。

    基于统计的机器翻译(1990年)

    在1990年早期,IBM研究中心的一台机器翻译系统首次问世。它并不了解整体的规则和语言学,而是分析两种语言中的相似文本,并试图理解其中的模式。
    统计模型的思路是把翻译当成机率问题。原则上是需要利用平行语料,然后逐字进行统计。例如,机器虽然不知道“知识”的英文是什么,但是在大多数的语料统计后,会发现只要有知识出现的句子,对应的英文例句就会出现“Knowledge”这个字。如此一来,即使不用人工维护词典与文法规则,也能让机器理解单词的意思。
    在这里插入图片描述
    这个概念并不新,因为最早Warren Weave就提出过类似的概念,只不过那时并没有足够的平行语料以及限于当时计算机的能力太弱,因此没有付诸实行。现代的统计机器翻译要从哪里去找来“现代的罗赛塔石碑”呢?最主要的来源其实是联合国,因为联合国的决议以及公告都会有各个会员国的语言版本,但除此之外,要自己制作平行语料,以现在人工翻译的成本换算一下就会知道这成本高到惊人。
    现在我们自己的系统使用的2000万语料有一大部分是来自联合国的平行语料。
    https://cms.unov.org/UNCorpus/zh#format
    在14年之前,大家所熟悉的Google翻译都是基于统计机器翻译。听到这,应该大家就清楚统计翻译模型是无法成就通天塔大业的。在各位的印像中,机器翻译还只停留在“堪用”而非是“有用”的程度。

    基于神经网络的机器翻译(2014年)

    神经网络并不是新东西,事实上神经网络发明已经距今80多年了,但是自从2006年Geoffrey Hinton(深度学习三尊大神之首)改善了神经网络优化过于缓慢的致命缺点后,深度学习就不断地伴随各种奇迹似的成果频繁出现在我们的生活中。在2015年,机器首次实现图像识别超越人类;2016年,Alpha Go战胜世界棋王;2017年,语音识别超过人类速记员;2018年,机器英文阅读理解首次超越人类。当然机器翻译这个领域也因为有了深度学习这个超级肥料而开始枝繁叶茂。

    Yoshua Bengio在2014年的论文中,首次奠定了深度学习技术用于机器翻译的基本架构。他主要是使用基于序列的递归神经网络(RNN),让机器可以自动捕捉句子间的单词特征,进而能够自动书写为另一种语言的翻译结果。此文一出,Google如获至宝。很快地,在Google供应充足火药以及大神的加持之下,Google于2016年正式宣布将所有统计机器翻译下架,神经网络机器翻译上位,成为现代机器翻译的绝对主流。

    简单介绍一下基于神经网络的机器翻译的通用框架:编码器-解码器结构。
    用通俗的话来讲,编码器是将信息压缩的过程,解码器就是将信息解码回人能够理解的过程,这种过程信息的损失越少越好。
    结构如下图所示:

    图1 gnmt机器翻译框架
    在这里插入图片描述
    这个是16年谷歌发表的gnmt框架的结构,使用lstm+attention的机制实现,感兴趣的同学可以去查看论文或者百度相关的博客。

    图2 transformer机器翻译框架
    在这里插入图片描述

    Transformer是谷歌在17年的一篇论文https://arxiv.org/pdf/1706.03762.pdf提出的具有开创性的架构,这个结构不同于之前所有的机器翻译网络结构,仅仅依靠模型的优势,就取得了state of the art的结果,优于以往任何方法的机器翻译结果。

    1.2 相关论文

    如果想更深入的了解其中的原理,还是需要阅读一些理论性的文章。如果仅仅想搭建这样一个系统,按照下一篇实践的内容,一步步的进行操作,你就可以拥有搭建基于世界上最先进模型的机器翻译系统的能力了。

    这里整理了一些机器翻译中做需要的理论性介绍,包括以下一些内容:
    词嵌入向量简单介绍:https://blog.csdn.net/u012052268/article/details/77170517
    机器翻译相关论文:
    Sequence to Sequence Learning with Neural Networks(2014)
    Attention机制的提出(2016)
    谷歌基于attention的gnmt(2016)
    自注意力机制:transformer(2017)

    1.3 相关会议

    机器翻译最著名的顶级会议也是比赛就是WMT,世界上所有著名的具有机器翻译引擎技术的巨头公司都在该比赛中取得过名次,该比赛从17年开始,所有取得前几名的队伍都是通过搭建transformer模型来进行优化迭代的。

    其中一些队伍提出的方法和技巧,也被各个具有机器翻译技术的公司搜集整理,尝试在自己的翻译引擎中去。

    除此之外,国内外一些重要比赛解决方案,也是我们要需要参考的一些点。
    http://www.statmt.org/wmt18/

    1.4 相关工具

    通过整理WMT18比赛中各大公司使用的框架,整理了最常用的几种机器翻译框架,及通用的机器翻译基线系统的训练流程。
    表1 常用机器翻译框架
    在这里插入图片描述
    图3 机器翻译基线系统训练流程
    在这里插入图片描述

    展开全文
  • 机器翻译技术的现状

    2015-04-21 09:54:00
    基于规则 基于规则的机器翻译早在几十年前即已开发出来,是最早的实用... 基于规则的机器翻译的优点是十分精细的翻译引擎可翻译广泛的文本,而不需要像统计机器翻译一样使用大量的范例文本训练翻译引擎。基于规...

    基于规则


    基于规则的机器翻译早在几十年前即已开发出来,是最早的实用自动翻译方法。这类翻译引擎的工作原理是解析源语言句子,分析其结构(例如,确定哪些词汇用作动词或名词),接着将句子转换为中间的、机器可读的代码,然后再将它们转换为目标语言。


    基于规则的机器翻译的优点是十分精细的翻译引擎可翻译广泛的文本,而不需要像统计机器翻译一样使用大量的范例文本训练翻译引擎。基于规则的翻译引擎的缺点是,必须为每个语言对建立自定义的解析软件和词典,并且是相当“脆弱”的。例如,它不能很好地处理俚语或隐喻文本。出于这个原因,基于规则的机器翻译已在很大程度上被统计机器翻译或混合系统所取代,虽然它在不太常见的语言对中比较有用(因为对应这些语言对,往往没有足够多的平行文本训练统计机器翻译引擎)。


    产品与提供商


    此类机器翻译的主要供应商包括Systran、PROMT、Lucy Software(商业软件)和Apertium(开源)。针对特定语言的供应商包括CCID(中文)和Toshiba(日文)。Systran从业已经有几十年历史,是网页翻译的先驱(早在20世纪90年代他们的翻译引擎就为Babelfish提供网页翻译服务了)。Systran覆盖大多数主要语言对,最近发布了混合规则/统计的翻译引擎,以提升他们的产品线。



    Apertium是由西班牙Universitat d’Alacant主导的开源项目。他们已开发出一种基于开源规则的翻译引擎,使用户能够创建面向任何语言对的自定义翻译引擎。这为基于规则的翻译引擎解决了一个重要的问题,即商业供应商不用再投资开发不太常见的语言对的规则机器翻译引擎,例如,西班牙语←→加泰罗尼亚。开发自定义的引擎是一项庞大的任务,因为其中涉及到开发词典、解析规则等,这需要有精通源语言和目标语言的语言学家参与。



    基于实例


    基于实例的机器翻译类似于统计机器翻译,因为前者也需要使用大量的平行文本(源句段及其翻译)来训练系统。基于实例的翻译的逻辑是将句子视为经常重复的短语的组合,这些短语可以单独翻译并组合起来形成一个译文。


    这种方法的问题是,你需要有一个非常庞大的短语及其译文的语料库。这需要大量的数据,还需要短语及其译文精确配对,而这将需要人工参与,而统计机器翻译系统的训练是一个完全自动化的过程。


    基于实例的机器翻译还没有作为商业服务被广泛部署。但是,有一个开源平台Cunei使开发人员能够建立自己的基于实例的机器翻译引擎(类似于基于规则的机器翻译平台Apertium)。大部分开发中的和商业用途的翻译引擎是统计或混合系统。



    产品与提供商


    基于实例的机器翻译还没有独立的商业化产品或服务,但是你可以找到两个开源项目Cunei和Marclator。这些开源项目只适用于专业软件开发人员和系统管理员,并不是面向最终用户的交钥匙解决方案。他们都是非常优秀的试验项目,但是如果你要找一个供用户使用的平台,还是得找统计机器翻译平台。



    统计


    统计机器翻译是当今使用的最流行的机器翻译。它的工作方式是使用非常庞大的平行文本(源文本及其翻译)以及单语语料库训练翻译引擎。系统会寻找源文本和译文(针对整个句子、句段内的较小的短语或N-grams)之间的统计相关性。然后对源语言句子,去查找概率最大的译文。翻译引擎本身没有规则或语法概念。


    统计机器翻译的主要优点是,不需要像基于规则的机器翻译一样,针对每个语言对打造专门的翻译引擎,只要你有收集有足够多的文本,你就可以训练针对任何语言对的通用翻译引擎。


    统计机器翻译的主要缺点是,如果在翻译训练语料库中没有相似的资料的文本时,得出的译文不行。例如,一个使用技术文本训练的翻译引擎,在翻译口语化的文本时效果会很差。因此,需要持续使用与待翻译材料相似的文本来训练引擎。但即使有庞大合适的训练语料,统计机器翻译通常也不能生成出版质量的文本。统计机器翻译经常是在不管上下文的情况下翻译原文,而且译文语序往往不对。但是,通常情况下,它翻译的还可以,适合理解。如果你需要出版质量的译文,则需要对机器翻译译文进行人工编辑,很多商业机器翻译引擎提供了这样的机器翻译编辑方案。



    产品与提供商


    很多公司提供统计机器翻译,他们大部分使用的是开源翻译引擎Moses。Moses是机器翻译行业的一个重要发展里程碑,因为他们不需要重新开发翻译引擎,只用建立自定义的机器翻译引擎,并提供平行文本训练引擎。这使很多公司可以最小的代价推出定制的机器翻译产品。



    - BeGlobal (SDL):BeGlobal是SDL的机器翻译产品,源自SDL几年前收购的Language Weaver。BeGlobal使用户可以将机器翻译、专业翻译及机译编辑结合在一起。一个常见的工作流程是先用机器翻译引擎翻译文本,然后再让翻译员和编辑审核和修改机器译文。最后更正的译文可以回馈到翻译记忆库中,以便进一步训练翻译机器引擎。


    - Google Translate(免费):Google Translate是谷歌基于自有的翻译引擎和研究技术,提供的免费在线翻译服务。Google Translate可以翻译50多种语言,并且被视为非专业化翻译引擎翻译质量的标杆。


    - Microsoft Bing Translator(免费):微软也提供类似Google Translate的免费在线翻译服务,但它还包括供使用者使用互动(WYSIWG)编辑工具给译文评分和进行译后编辑的很多选项。对于大量读者群体的公司来说,这些是特别有趣的选项。这些公司可以利用读者群来编辑和改进译文,以使其他用户受益。除免费在线服务外,Google Translate和Bing Translator还提供付费的机器翻译API。微软最近还推出了可免费定制的Microsoft Translator Hub。


    - Moses(开源):是一个开源的统计机器翻译引擎。它已被业界广泛应用于构建定制的机器翻译引擎。因为Moses是开源的,所以希望开发定制引擎的业者可以集中精力获取训练语料,而不需要编写自己的统计机器翻译引擎(这是超越大多数开发人员的能力的一项艰巨任务)


    - 越来越多的厂商出售使用Moses为核心引擎的机器翻译解决方案。这些方案通常为SaaS产品,可为特定的行业提供定制的机器翻译,例如,Capita Translation and Interpreting、DoMY CE、Firma8、Let’s MT、PangeaMT、Safaba Translation Solutions、Simple Shift和Tauyou。其中最早的供应商之一,是拥有客户端服务器产品的Asia Online。产品的复杂度取决于所针对的客户群。厂商们都在致力解决Moses中的设计缺陷,确保其易用性。另一方面他们将其他自然语言处理技术与Moses进行了整合,来提高翻译的质量。



    混合
    机器翻译技术的现状

    混合翻译引擎结合了基于规则的机器翻译和统计机器翻译的元素,以利用每种方法的长处。


    这是一个正在发展中的领域,我们预计很多系统将演变成混合平台。混合系统主要有两类:


    使用统计翻译进行译后处理和清理的基于规则的引擎、以及以基于规则的引擎引导的统计系统。


    在第一种情况下,首先使用基于规则的翻译引擎翻译文本,然后使用统计机器翻译引擎对译文进行处理,纠正基于规则的翻译引擎产生的错误,或直接替换整个文本(如需要)。在第二种情况下,基于规则的翻译引擎不翻译文本,而是为统计机器翻译引擎提供协助,插入插入元数据(如名词/动词/形容词,现在/过去式,等)。



    产品与提供商


    有几家公司提供混合机器翻译平台,主要面向企业市场,其中包括:


    - LinguaSys:Developed Carabao,混合翻译引擎,针对企业市场。


    - PROMT:最初开发的是基于规则的翻译引擎,之后升级为混合翻译引擎。


    - Systran:开发机器翻译软件已有40年历史,其系统已升级为整合统计和基于规则的混合平台。

    原文链接:http://www.locren.com/current-and-future-in-mt.html

    转载于:https://www.cnblogs.com/helinzi/p/4443520.html

    展开全文
  • 主要内容分为机器翻译的研究方法现状,内容比较全面,可以作为机器翻译这方面的参考资料
  • 基于对引入复述技术的统计机器翻译研究现状的分析,提出具有研究价值的课题方向。...最后指出提高复述资源的精确度、建立复述与机器翻译的联合模型、采用新方法解决稀疏问题等是有待进一步研究的课题。
  • 机器翻译市场需求调研报告

    千次阅读 2008-07-05 15:12:00
    王文峰 刘鸣洋1 机器翻译的现状1.1机器翻译及其发展历程机器翻译(machine translation),又称自动化翻译,是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。是一种...

                      机器翻译市场需求调研报告

    该文章属原创,如转载请于作者联系!

    王文峰  刘鸣洋

    1 机器翻译的现状

    1.1机器翻译及其发展历程

    机器翻译(machine translation),又称自动化翻译,是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。是一种高级的人工智能技术, 它是计算机科学、数学和语言学等多学科共同参与研制的结晶。机器翻译之所以成为可能,一是因为两种语言之间存在着可译性,二是因为人的翻译过程具有可模拟性。

    机器翻译并不是一个简单的过程。它并不仅仅是选定文本的各个单词的翻译而是用目标语言把给定的句子或文本的所有单词都进行翻译,以达到对整篇文章的理解。自然语言根据各自的形态学,语法结构和语义学分成不同的语言,并且这些语言还包含了很多的模糊性。(所以机器翻译很难达到一个理想的程度)

    最早的机器翻译起源于1933年,苏联人P.P.特罗绛斯基提出借助机器进行翻译的详细步骤,并设计出由一条带和一块台板依靠机械原理进行翻译工作的样机。1954年,美国乔治敦大学和国际商用机器公司(IBM)首次联合试验使用电脑机译系统,将250个词的俄文材料译成英文,这次试验的成功标志着机器翻译系统的真正诞生。

    从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着机器翻译已经在某些领域达到了实用化的程度。   进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。

    我国从1956年也开始了机器翻译的研究,在“六五”、“七五”、“八五”和高技术研究发展计划(863计划)期间国家均把机器翻译列入重点发展项目。早期机器翻译主要以研究机构的学术开发为主,到了1992年,我国迈出了机器翻译软件商品化的步伐。中国软件与技术服务股份有限公司(以下简称“中软公司”)在 JFYⅢ翻译系统之上成功推出了“译星”1号软件产品,从而带动我国机器翻译进入了一个发展热潮期。

     

    1.2机器翻译的方法

    机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以称为理性主义方法,与之相对,基于语料库的方法又可以称为经验主义方法。

    基于规则的方法:机器翻译的主流方法一直是基于规则的方法。国际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也有规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广的方法。其优势在于可以很准确的描述语言的特征规律,符合理性思维。但是,语言规则的产生需要大量的人力,而且大量的语言规则直接往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。

    基于统计的方法:基本思想是,把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。它为我们提供了很好的从已有的语言资源中自动得到我们所需要的语言信息的工具。基于统计的方法不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文的选择,避开了语言理解的诸多难题,但是语料的选择和处理工程量巨大,而且存在着数据稀疏问题。因此通用领域的机器翻译系统很少以统计方法为主。,

       基于实例的方法:其基本思想是,在已有的源语言实例句库中,待翻译句子按照类比原理匹配出最相似的实例句,取出实例句对应的目标语句子,进行适当的改造,最终取得待翻译句子所相应的目标语句子。其特点是不需要对源语言进行任何的分析,仅仅是通过类比进行翻译。基于实例的机器翻译对于相同或相似的文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中已有的文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造近似的翻译结果。但由于语料库规模的限制,基于实例的机器翻译很难达到较高的匹配率。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译作为多翻译引擎中的一个,以提高翻译的正确率。 

     机器翻译除了上述三种主流方法之外,还有基于模式的、基于神经网络的、基于对话的、基于原则的等等机器翻译方法。

     

    1.3 机器翻译产品及现有水平(存在的问题)

    总体上说,机器翻译产品可以归为如下几类,一是传统的文本自动翻译产品;二是网页翻译,它常常与网上搜索引擎捆绑在一起;三是机器辅助翻译产品,它主要是帮助专业翻译人员提高翻译效率;四是电子版的双语词典,如著名的金山词霸,它主要是帮助熟悉外语的用户在计算机上阅读外语信息;五是口语自动翻译。

    基于个人的机器翻译系统从1990年代初期开始出现,Systran Pro(专业版),Systran Classic(家庭版)环球衔接公司(Globalink)研制的Power Translator,语言工程公司(Language Engineering Corporation)研制的Logo Vista等,从大型机系统改造而来的有Systran Pro(专业版),Systran Classic(家庭版),Langescheidt(源自METAL)等,国内的系统有译星、通译、环宇通、华建译通、东方快译、金山译霸等。

    基于网络的机器翻译系统从1990年代中期开始大量出现,目前提供在线机器翻译服务的知名公司有:Systran,Logos,Fujitsu,LANT,AltaVista,CompuServe以及国内著名的华建、桑夏等公司。

    采取翻译记忆(TM)技术的计算机辅助翻译系统目前成为专业翻译市场的首选,最为典型的是德国TRADOS公司的Translator’s Workbench和国内交大铭泰公司的雅信CAT等。

    大规模的口语翻译系统许多人多年的努力,将有为数众多的口语翻译的应用被作为小领域自然语言的应用,例如,数据库的询问(尤其是财政和股票市场数据),商业谈判的相互交往,公司内部交流等等。

    现今发达国家已开发出的文字翻译机器,有日本理光公司推出的数字式翻译复印机能逐字逐句地把英文译成日文,每分钟约 可翻译半页信纸打印稿,还可发送图文传真。

    语音翻译方面,日本ATR研究所、美国梅隆大学和德国西门子公 司共同研究,已于1993年试验成功自动翻译电话,并进行了10多分钟对话。日本还研制成功一种通过计算机与 通信网络连接的自动翻译电话。此外,一种用5种语言(英、法、德意和西班牙)进行交谈的语音翻译机也已被推出,它内存有1万个单词,6.5万个短语,发出的声音标准、清晰、易懂。

    最近美国又有公司推出一种旅游用的名为"WORLD MATE"的袖珍翻译机器,它准备了2250个常用短语(15种语言,每种各150个短语),几乎能帮助你到世界各国旅游而不会发生语言障碍。 

    可以看到,机器翻译经过几十年的发展,取得了很大的进展,特别是作为人们的辅助翻译工具,机器翻译已经得到大多数人的认可。但是,至今仍然没有一个完善、实用、全面、高质量的自动翻译系统出现。目前的机器翻译还只是基于对语言的表层的句法分析,没有对语言进行深层的语义分析,缺乏对自然语言的深入认识,因此翻译结果很难达到预期的目标。

    机器翻译存在的主要问题:

    l         一句一句处理,上下文缺乏联系;

    l         对源语言的分析只是求解句法关系,完全不是意义上的理解;

    l         缺乏领域知识,从计算机到医学,从化工到法律都通用,就换专业词典;

    l         译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚;

    l         翻译只是句法结构的和词汇的机械对应

     

    2 机器翻译的需求与用户分析

    2.1基本需求

    第一种传统型,它要求翻译结果和人(翻译家)翻得一样好,即翻译结果达到出版水平;第二种需求对翻译质量的要求稍低一些,尤其是对文体的要求较低,用户这时最感兴趣的是了解某篇文章的基本内容,因此希望翻译速度越快越好;第三种需求是对话双方一对一的交谈(打电话或者在Internet聊天室里聊天)或无需写在纸上的演讲(如外交场合的谈话);第四种需求是在信息检索、信息抽取、数据库访问等多语言系统里所需进行的翻译。

           第一种机器翻译需求是为了传播思想。自机器翻译系统出现之日起,这种需求可以说在某种程度上得到了满足。然而,要想达到用户需要的质量,机器翻译输出结果常常还需要由翻译家修改或进行"后编辑"。在很多情况下,这些修改都是必需的,因此机器翻译系统实际上只是产生了一个"草稿型"译文。因为此时对翻译质量要求不高。翻译家不打算而且也很反感被要求"粗略"地翻译科学技术资料。当一个人只是想大致了解一下某篇文章的内容,并不想知道该文的一切细节,而且他也并不讨厌看到译文文体拙劣、语法错误百出时,机器翻译足可满足这种需求。

    第二种需求是为了了解信息而使用机器翻译系统,这一需求实际上已经作为第一种需求的副产品得到了实现。既然机器翻译系统尚不能直接产生高质量的译文,因此用户能从未经编辑的译文中找出或猜出他们需要的东西也是很有帮助的,毕竟翻译出一部分总比一点没有翻译要好。在这种情况下,尽管机器翻译的译文结果很糟糕,但随着PC价格越来越低廉,这类机器翻译系统的需求量也大大增加了。翻译工作者会望而却步,因为工作量太大,且重复度太高,而且还要保持术语的一致性。简而言之,机器翻译适合于处理大量的、重复度高的技术资料、软件本地化手册、实时天气预报等资料,而人工翻译在语言非重复性的复杂文本方面有着无可替代的作用。

    第三种需求是以交流信息为目的的机器翻译。由于信息更新速度很快,不可能由人来翻译,用户需要马上得出翻译结果以便传达信息的基本内容。例如基于Internet的在线翻译系统,它能实时进行翻译,但翻译质量难尽人意。有些机器翻译系统目前正在探索,机器翻译自然"地扮演自己的角色。另一种用于人际交流的机器翻译系统是口语翻译系统,它可以用在电话交谈、商务会谈等场合。目前有很多专家正在研发这类系统,其难点在于语音合成和自动翻译。这一领域的研究尽管进展缓慢,但我们仍然可以希望将来在非常受限的领域里应用在线口语机器翻译系统。但对个人信件来说,机器翻译可能会用得越来越多。而对电子邮件、网络页面的信息提取以及基于计算机的信息服务来说,机器翻译可能是唯一可行的解决方案。常用信息的访问和发布对于一些具有重复性却有效期较短的信息,如股票价格,天气预报以及财务信息等,可以使用机器翻译来完成。如,加拿大政府利用机器翻译系统,将天气报告内容从英语自动翻译为法语。

    第四种机器翻译需求是信息访问系统提出的。在这里,机器翻译软件被集成到一系列子系统中,这些子系统包括如下几类数据库的全文搜索和检索系统,一般是科学、医学和技术期刊杂志的电子版,或文献信息检索系统;从文本,特别是新闻报道中提取信息;对文本进行综述的系统;查询非文本数据库系统。

    目前,这方面有几个项目正在欧洲进行,目的是使所有欧盟成员国都能访问数据和信息源,无论用什么源语言。

    2.2 机器翻译用户分类

    根据以上需求,我们可以把翻译软件用户分为普通用户和专业用户:针对普通用户的翻译软件要为用户提供计算机应用过程中的阅读或写作帮助,这类软件的通用性较强,市场份额也较大;而针对专业用户的翻译软件必须具有较强的专业适用性和语言分析功能。

    普通用户不希望使用相对复杂TM,不想自己创建翻译数据库;他们不需要计算百分之几的准确率,只是想汉化一些非中文版的软件,简单翻译一下外国网站,或者简要了解一篇文章的大概意思,对于这类用户,金山词霸、东方快车、中软译星和华建等一类的MT软件仍然是他们关心的对象。

    专业用户主要使用TM(Translation Memory,翻译记忆),主要面向专业翻译人员和机构设计,主要是起翻译得辅助作用,其口号“相同的句子永远不需要翻译第二遍” 从而提高了工作效率。比较有名气的雅信CAT、塔多思等。

     

     

                                                                                                            

    3 机器翻译的市场分析

    3.1机器翻译市场总体概况

    随着科学技术的发展,计算机和网络技术已经深入我们工作、生活的每一个方面。 而语言不通妨碍了因特网时代普通人之间的信息交流,同时也促进了软件信息翻译服务市场持续快速发展。目前,中国翻译市场的年产值约为120亿元人民币,但去年中国翻译服务市场的营业额尚不足2亿元。很显然,二者很不相称。 翻译软件可以帮助人们实现无障碍沟通的梦想。预计到2010年,全球翻译类软件市场可达400亿美元,对于所有翻译件厂商来说,这绝对是一个巨大的成长空间和机会。中国加入世界贸易组织(WTO)后,国内外市场交流与融合步伐进一步加快,翻译市场正以前所未有的速度迅猛发展。2008年北京奥运、2010年上海世博会的举行更给翻译市场带来难得的发展机遇。据资料显示,目前全球年翻译产值超过130亿美元,亚太地区占30%,中国市场约为127亿人民币。美国权威机构对世界翻译市场的调查显示,翻译市场的规模将在2005年达到227亿美元,而中国将达到200亿元人民币的销售额。国内做机器翻译比较好的公司有中软译星,华建集团,金山快译。国外做的比较好的有systran、google在线翻译、Babel Fish Translation、http://worldlingo.com/wl/translate 、http://www.systransoft.com/

    3.2市场上的机器翻译软件

    目前国内的机器翻译软件主要有三大类:词典翻译类、汉化翻译类和专业翻译类。

    词典类翻译软件相当于一种电子词典,它可以迅速查询英文单词或词组的词义,并提供单词的发音,为用户了解单词或词组含义提供了便利。这类软件占主导地位的是金山软件公司的《金山词霸》。《金山词霸》堪称是多快好省的电子词典,它可以迅速查询英文单词或词组的词义,并提供单词的发音,为用户了解单词或词组含义提供了极大的便利。

    汉化翻译软件主要满足用户汉化英文软件、英文网页,实现对屏幕英文信息的了解和文章的初步翻译等,对信息获取、了解文章大意有实际作用。典型代表是北京实达铭泰公司开发的《东方快车2000》,它首先提出了“智能汉化”的概念,改变了过去“即时汉化”的不足,也使人们对翻译软件有了更新的认识,使翻译软件的辅助翻译作用更加明显。《东方快车 2000》为用户提供了“智能汉化集成环境”,为不会英语或英语水平不高的人提供了“语言障碍的全面解决方案”,包括内码转换、动态汉化和电子词典等,很好地满足了用户汉化英文软件、英文网页,实现对屏幕英文信息的了解和文章的初步翻译等,对信息获取、了解文章大意有相当实际的作用。

    专业翻译系统以译星、雅信译霸为代表,是面对专业或行业用户的翻译软件。这类软件具有传统语法规则的翻译内核,其自动翻译的可读性效果如何,一直是翻译软件企业的努力方向。在自动翻译方面,译星具有一定的优势,但其专业翻译的质量与人们的实用性还有很大差距,所以,在好长一段时间里,专业翻译软件一直处于徘徊不前的状态。

     

    预计到2005年,全球翻译类软件市场可达300亿美元,对于所有翻译软件厂商来说,这绝对是一个巨大的成长空间和机会。而对于中国的翻译软件厂商来说,这是梦升腾的地方。

    3.2 机器翻译产品的应用

    (1)、企业级市场:更大的蛋糕(企业版)

    随着中国与国际贸易往来、商务谈判、交流合作的日益频繁,翻译软件企业级市场前景应该是非常广阔的,因为需要翻译的东西越来越多,需求在迅速增长,企业如果还只是依据一己的力量来翻译往来文件和信函,是远远不能适应和满足需要的,甚至很可能会降低效率,贻误商机。而且随着人们正版意识的增强和政府扶持力度的加大,翻译软件企业级市场将不象一些人所断言的那样是个成熟产业和夕阳产品,而是酝酿着大发展的勃勃生机。软件企业的发展方向,更多的是从单机产品走向企业应用和服务,从渠道竞争转向创新竞争。确实,对于诸多翻译软件开发公司来说,更大和更有诱惑力的地方是企业级市场。这个市场非常大,竞争也相当激烈。翻译解决方案灵活多样,可帮助小型企业改进多语信息的管理方式,同时简化员工、客户和合作伙伴之间的通信。

    对于小企业而言,要不断努力提高效率和生产力,来理解和管理多语内容并与世界各地的客户接洽。但因为单机软件的利润比较低,所以未来将以为企业和厂商提供翻译解决方案为主要方向。能满足中小型企业翻译需求和预算能力的桌面产品,可提供可信赖的翻译以帮助企业在当今多语市场中保持竞争力。为当今专业翻译师设计的桌面产品,其中的语言及后期编辑工具包内容众多,可创建并管理多语文档以获得最佳的翻译品质。该服务器端翻译产品可用于公司内部网、外部网或局域网,既能让员工以独立或协作方式翻译、编辑和管理多语言文档。基于服务器的即时联机翻译服务可对您的网站和应用程序本地化企业解决方案。当今,随着发展节奏不断加快和竞争日益加剧,各企业为谋求发展出路,纷纷将目光投向了国际市场,并制定了快速进入市场的战略和应对客户需求的一揽子计划。毋庸置疑,语言在这其间扮演了重要角色。由于需要翻译的信息量在不断增加,因此创建、编辑、发布和维护多语言信息也需要投入更多的精力。一个企业的网站、技术文档、知识库、政策和其它信息倘若无法向遍布世界各地的员工、客户和合作伙伴传达或者他们无法理解,则这些信息就毫无价值可言。

    (2) 个人和办公室工作者(单机版)

    主要为个人和办公室工作者使用,主要特点是预算较低,快速翻译文本、网页、电子邮件等。突破语言障碍,快速翻译个人文本、网页, 消息价格也较为便宜,可以镶入文本和INTERNET。文件、电子邮件、网页、报表。在用户词典的基础上可以自己增加专业词条。

    (3) 在线服务

    网页翻译工具其实就是在线网页翻译服务的程序版本,它可以随时将需要翻译的内容翻译为你所需要的语言。有了如此方便的工具,以后在浏览外文网站时就算不能完美理解其内容,但起码也能大致明白其意思了。要使用网页翻译工具必须连接到互联网。访客可以用自己的母语来浏览网站。也可以选择词典,翻译本地的文档,翻译网页,也可以转换为私有文件、网页, 和纯文本。 在几秒钟内, 您的转换被显示在您的浏览器或被发送到电子邮件。也可以选择词典,翻译本地的文档,翻译网页,全球每天40万人使用在线服务,多语种交互,已建成投付使用的机器翻译解答系统。此系统可以直接把她们的翻译按钮镶入自己的网站。为了满足日益增长的即时多语信息需求,为个人和各类企业提供网页、书面文本和 Microsoft Office 文件的随选翻译服务。这些订购用户可为其客户、雇员及网站访客提供服务,即无需安装其他软件即可在个人电脑上将信息实时翻译成多种语言。联机服务以高容量服务器网络为依托,提供低成本高效益、服务于客户的翻译解决方案。您可通过 Internet 访问“联机服务”,并且无需 IT 工作人员协助即可轻松设置在线服务选项。

    (4) 网络服务器版

    网络服务器是运行在Linux 、windows的一套可升级的客户服务器软件(其它Unix 平台可利用) 。这种系统以及延伸的过滤器可以进行查寻、处理电子邮件、网上聊天等和包含HTML 和RTF 过滤的支持为XML 、SGML 和其它类型文件,包括翻译记忆服务器、术语管理服务器、全球化流程管理服务器、全球化内容管理服务器。该服务器端翻译产品可用于公司内部网、外部网或局域网,既能让员工以独立或协作方式翻译、编辑和管理多语言文档。该服务器端翻译产品可用于公司内部网、外部网或局域网,既能让员工以独立或协作方式翻译、编辑和管理多语言文档。基于服务器的即时联机翻译服务可对您的网站和应用程序(如搜索工具)进行实时的多语言本地化。通过即时在线翻译服务,用户可实时翻译您网站(或门户)中的文本或网页内容,使其成为用户喜爱访问的网站(或门户)。通过即时联机翻译服务,您可用桌上型电脑实时翻译纯文本、网页和个人文件。

    (5) 网站和商品的多语化

    确保您网站的所有访客都能通过所提供的翻译服务,选择用其母语来读取所需的网页内容,包括搜索工具、电子商务平台和其它服务。还可以联机翻译服务可对您的网站和应用程序(如搜索工具)进行实时的多语言本地化。

    (6)客户支持知识库的本地化

    公司是提供在线客户支持还是通过内部知识库提供客户支持?提供多语支持信息和知识库,有助于客户实时获取所需语言的产品支持。可与您的企业内容管理系统、数据库或其它应用程序整合使用。

    有数据显示,去年中国翻译服务市场的营业额尚不足2 亿元。很显然,这与飞速发展的中国市场是很不相称的。随着中国与国际贸易往来、商务谈判、交流合作的日益频繁,翻译软件企业级市场前景应该是非常广阔的。

    4 机器翻译的前景预测

    4.1机器翻译软件的未来需求

    如何针对用户需求,开发不同应用层次的翻译软件是软件面临的主要挑战,用户的需求是推动技术发展的原动力。

    面临挑战的另一个应用领域是将用户的输入译成用户所知甚少或未知的外国语,这时用户并不想充当双语翻译家的角色。机器翻译系统可以给出大致"粗略"的译文,至少可以告诉用户大致说的是什么。但对那些不知道目标语言的翻译,目前还没有什么解决办法。最近日本研制出一些廉价的产品,可以对特定的"外语授权(foreign language authoring)"提供服务。例如,写一封商务信函(基于标准短语和文件模板),但对其他领域或较长的文件,因为"规矩套路"很少,所以还不能编写。目前有几个研究小组正在研究交互式系统,发送者按照模板要求编写文档,如果输入文件足够"正规化",机器翻译系统就能保证语法和语言风格的正确输出。

    同样,将机器翻译技术与信息访问、信息提取和文摘软件结合在一起的尝试也处于研究阶段,目前市场上还没有商用产品,但开发商已经意识到其潜在的市场。例如,AVENTINUS项目是专门为警察部队在辑毒和执法方面开发的,用欧盟任何一种语言都可以访问中央数据库并查询关于毒品、犯罪和嫌疑犯的信息。目前,世界各国对这类跨语言应用的兴趣越来越大。最吸引人的应用是"跨语言信息检索",即允许用户用自己的语言搜索外语数据库。在这一系统中,大部分工作集中于如何建立和操作合适的翻译字典,以便将查询词串与数据库文档中的词和词组相匹配。相信在不久的将来会有这方面的商用软件出现。

    未来还有一种应用是公众迫切需要的,这就是口语翻译。但从商业角度或者研究角度看,全自动口语翻译还是一件十分遥远的事情。口语翻译下一个10年可以预测发展最广泛的是口语翻译。目前的研究项目(ATR、C-STAR、JANUS、Verbmobil等等)都是在80年代末和90年代初开始的。实际应用在下个世纪前可能不现实。这些系统都限制在小领域中。不管期望值多么高,再用20年时间或更长,出现实用的,面向非受限领域的口语机器翻译都是不可能的。比较实际的情况应该是受限领域的应用,比如财经和股票市场数据的查询系统,商业谈判的交互式系统,公司内部交际系统等等。    口语翻译可能是目前机器翻译研究中最富有创新意义的领域,吸引了最多的资金和公众注意力。但观察家们并不相信这一领域在近期能取得迅速进展,因为书面语机器翻译花了数十年才达到现在的水平。口语翻译方面的另一项努力始于1993年5月由德国科学技术部出资支持的VERBMOBIL项目。该项目的目标是开发一个便携式商务谈判的辅助工具,好几所德国大学参与了这项对话语言学、言语识别和机器翻译设计的基础性研究工作。目前系统原型的开发已经接近尾声,很快将有演示产品出现。

    机器翻译系统正在开拓新的领域:帮助需要用外语写作的作家生成文章草稿、在线电视解说词翻译、翻译数据库信息等。中国GDP的持续增长,PC和手机用户的增加,internet的高速发展,语言翻译、手机翻译、互联网翻译(电子邮件、跨语言的查找和搜索引擎结果的翻译等等)、多语言写作和生成技术等等的需求会持续增加。这样,随着市场和收费系统的完善,翻译软件的销量会大幅度提高。

    4.2 嵌入式让翻译软件机器翻译又一春

    几年前,翻译软件等面向个人的应用软件在IT市场非常活跃。但由于盗版猖獗,这类软件价格日益走低,软件的嵌入式得出现,开辟了一个更大的市场。听说某种嵌入式翻译软件品牌的人并不多,甚至很多它的使用者都不知道。为客户持续地提供翻译产品和翻译服务,包括国际短信翻译网关及其平台、翻译引擎、全文翻译器、电子词典、移动应用软件开发、移动产品测试等。这就是嵌入式软件的一个特点,它总是在幕后为用户服务。在学习机、手机上、翻译机、旅游机、智能手机、数字电视、以及汽车电子的嵌入式应用,是这次机遇中难遇的切入点;机遇与挑战并存。

    首先一个市场是数字电视市场。中国有8000万户有线电视网用户、1亿以上有线电话网用户、3亿多台彩色电视机、7000多万台VCD/DVD机,据估计,未来十年是机顶盒的黄金时期,十年间总量可达到1~1.5亿台,总产量将达到600~1500亿元人民币。

    第二个市场是移动通信市场。中国是全球第二大手机消费国,今年,中国手机的用户将达到7000万,据预计,明年,中国将成为全球第一大手机消费国;国内GSM手机定点厂家已达到14家,如果每个手机定点厂家的年产量达到100万台(盈利点),则总产量将达到1400万台。

    第三个市场是掌上电脑(PDA)。计算机正在向微型化和专业化方向发展,PDA在5年内总销量将达到3000万台,总产值达到300亿元。

    机器翻译(整句翻译)引擎还应用在电子词典产品、学习机产品、手机等PDA产品,还可在学习机领域进行平台的移植。随着中外交流的发展,中国GDP的持续增长,PC和手机用户的增加,internet的高速发展,语言翻译、手机翻译、互联网翻译(电子邮件、跨语言的查找和搜索引擎结果的翻译等等)、多语言写作和生成技术等等的需求会持续增加。这样,随着市场和收费系统的完善,翻译软件的销量会大幅度提高。

    5.对未来市场机器翻译的一些看法

    综合以上分析,可以看出机器翻译的市场前景极其广阔,结合具体的调研谈一下自己的看法。

    (1)嵌入式软件市场前景广阔,目前市场上的机器翻译软件众多,而且都有了一定的积累和客户群。而国内开发的各种专业翻译软件,操作方便程度及翻译准确性、可读性都相差不大,翻译机理大同小异。而嵌入式机器翻译软件是未来机器翻译软件的一个新的突破点。

    (2)寻求合作,充分利用我们在自然处理方面的优势和成果,与一些大的技术公司寻求合作,共同开发。以华建为例,与台湾HTC(中文名称为“宏达国际”)集团合作生产中文WinCE掌上电脑,为其提供嵌入式软件,该电脑半年内销量即达30多万台,产值达到10亿元,成为世界销量第一的中文WinCE产品。与中国电信、中国联通、中国吉通、鲁能集团等合作建设网站,并为其提供网络集成平台。

    (3)应当把技术和应用相结合,关键是如何把现有资源利用起来。根据用户需要的改变随时改变自己的研究方向,同时也要学会培育市场,引导市场。

    (4)任何一种软件,只要能满足某一部分人需求就是好东西。不能过于追求大而全,从技术上来说。以德国的TRADOS为例,它的成功并不仅仅是靠技术,而是其按专业定制,细分市场的营销模式, 高端产品取决于软件水平,而低端则取决于价格,做好低端市场是非常必要的。

    由此可见,机器翻译具有极其广阔的应用前景。机器翻译技术具有巨大的应用需求,随着经济全球化时代的到来,如何克服语言障碍已经成为国际社会共同面对的问题。可以说,多年来机器翻译始终是国际学界、商界甚至军界共同角逐的必争之地。机器翻译技术被列为21世纪世界十大科技难题的第一位。世界上各发达国家聚集各路高手,不惜以亿万重金投资,都试图率先突破机译的难关,抢占翻译机器的巨大市场。

    展开全文
  • 首先对机器翻译进行了定义,接着对机器翻译的发展历程进行了梳理, 对我国机器翻译现状进行了介绍。 机器翻译技术原理。机器翻译的技术原理可以概括为基于理性主义的方法和基于经验主 义的方法两种,分别对两种方法...
  • 点击上方“中兴开发者社区”,关注我们每天读一篇一线开发者原创好文作者简介作者戴...1.机器翻译的发展上世纪80年代之前,机器翻译主要依赖于语言学的发展,分析句法、语义、语用等;之后,研究者开始将统计模型应用于
        

    点击上方“中兴开发者社区”,关注我们

    每天读一篇一线开发者原创好文

    640?wx_fmt=png

    作者简介

    作者戴硕是深度学习爱好者,主要关注NLP方向。这篇文章向对深度学习感兴趣的初学者介绍了机器翻译当前的现状,及其涉及的基本原理和流程。


    本文只对相关应用作简要介绍,不涉及公式推导(本文部分图片来源于网络)。


    1.机器翻译的发展

    640?wx_fmt=jpeg


    上世纪80年代之前,机器翻译主要依赖于语言学的发展,分析句法、语义、语用等;

    之后,研究者开始将统计模型应用于机器翻译,这种方法是基于对已有的文本语料库的分析来生成翻译结果;

    2012年至今,随着深度学习的兴起,神经网络开始被运用在机器翻译上,并在短短几年取得了非常大的成果。


    2.神经网络机器翻译(Neural Machine Translation)

    2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构。2014 年,Sutskever等开发了一种名叫序列到序列(seq2seq)学习的方法,google以此模型在其深度学习框架tensorflow的tutorial中给出了具体的实现方法,取得了很好的效果(见https://www.tensorflow.org/tutorials/seq2seq)。


    2.1 (预)最快速度介绍神经网络

    深度学习(名字很高大上),就是指多层神经网络。上图。

    640?wx_fmt=png

     

    这是一个单层的神经网络,多层神经网络就是在中间再插入若干个隐层,每个隐层有若干个结点。但输入输出层都只有一层。

    传统的编程是给了输入,确定每一个步骤,最后得到输出。神经网络的做法是给定已知的多组输入输出,称为训练样本,要做的步骤(即模型)是未知的,那怎么确定步骤(模型)呢?“回归/拟合”,用最简单的方程模型来打比方。。。直接上式子!

    640?wx_fmt=jpeg

    神经网络的训练过程与此相似,也是通过训练确定隐层结点中的若干个系数。只不过神经网络模型本身是非线性的,比较复杂。前馈、误差反向传播、梯度下降这些名词,都是训练过程中用到的方法。


    2.2 基础的seq2seq模型

    640?wx_fmt=jpeg

    基础的Seq2Seq模型由Encoder、Decoder以及连接两者的中间状态向量三部分组成,Encoder通过学习输入,将其编码成一个固定大小的状态向量C,继而将C传给Decoder,Decoder再通过对状态向量C的学习来进行输出。


    2.2.1 RNN与LSTM

    Encoder、Decoder编解码器一般采用循环神经网络(Recurrent Neural Network,RNN)的变种——长短时记忆神经网络(Long Short-term Memory,LSTM)。LSTM与普通RNN的不同之处在于,对于长距离的状态存储有着较好的效果。见下图。

    640?wx_fmt=jpeg

    (a) 普通RNN

    640?wx_fmt=png

    (b) LSTM

    普通的多层神经网络(DNN)中隐层的状态信息h(就是隐层结点的输出形式的一种)独立的。

    RNN在当前某一时刻的隐层状态信息ht受到来自前一时刻的隐层信息ht-1影响,即RNN能够保存之前的部分记忆。对于机器翻译来讲,例如输入”My coat is white, hers is blue”,使用RNN模型,翻译后半句时,前半句的”coat”就提供了一定的信息。但是这种记忆会随着序列间隔的增大而大幅减弱。具体原理这里不作详细说明。

    LSTM的在每个隐层的单元中使用了加法器(门控思想)实现记忆的有选择存储,类似于我们对于小时候的记忆也是有选择的记住一样,从而大幅度地规避了使用RNN产生的问题。翻译”My coat is white, hers is blue”,翻译到”hers”,之前的”My coat”的信息就通过加法器的门控逐级保留了下来。

    640?wx_fmt=jpeg

    2.1.2 Encoder-Decoder模型

    640?wx_fmt=jpeg

    上图即为机器翻译中的基本seq2seq模型的基本结构,可以看到Encoder编码器接受输入(例如:我是学生),通过序列间状态的传递,得到状态信息C。然后将C分别输入到解码器当中得到翻译后的输出。

    这种模型运用于机器翻译中存在一个问题,就是解码器中接受的信息C全局只有一个。如果翻译“我是学生”,当翻译到“学生”,其实并不需要关注之前的“我是”,而且翻译的句子如果很长,C是个有限的量,很难保存住所有信息。所以我们希望Encoder能有所侧重地输出给Decoder。类似于下图。

    640?wx_fmt=jpeg

    Decoder端可以在翻译序列的不同时刻接收不同的状态信息。这就是Attention机制。


    2.2 Attention机制

    Google的Tensorflow框架中使用了Luong在2015年提出的attention机制,上图中的Ci就可以表示为Encoder中每个hi的加权和。权重参数wi的确定又可以用到一个小的神经网络来训练。Attention机制的提出大幅提高了机器翻译的准确性。


    3.Facebook与Google的较量

    2017年5月,Facebook首次将卷积神经网络(CNN,现在在计算机视觉大行其道,背后又是一堆原理公式...)用于机器翻译,利用CNN的可并行化,再套上一堆RNN的优点,模型(名为Fairseq)训练速度快(提升9倍),翻译准确性又好(衡量指标BLEU)。

    紧接着,一个月后,Google开始打脸,祭出一篇《Attention is all you need》。提出一种新的Attention机制,并舍弃CNN和RNN,直接建立翻译模型,BLEU继续提高。

    这两种模型的原理,可以搜索相关论文。


    4.一个完整的seq2seq模型的流程

    前三部分是对当前NMT的相关研究的简要介绍。下面将给出一个完整的seq2seq模型的步骤说明,依然不涉及公式推导,但因为机器翻译属于自然语言处理(NLP)的一部分,所以会提到一些NLP的相关知识。

    1) 获取到原始数据集,作训练样本,数据集中包含大量的英文——中文的翻译句子,分为train_source,train_target 两个文件。

    I am a student      我是一名学生

    You are so clever    你真聪明

    ...

    2) 以单个单词为单位构造映射表,也可以称为词典库,key:value格式,key为索引。

    1. {

    2.     0 :  I,

    3.     1 :  am

    4. }

    5. {

    6.     0 :  我,

    7.     1 :  

    8. }

    3) 这样就可以转换成类似于a=[2, 45, 2, 5, 6]这样的索引向量形式。这些向量本身都是独立的,因此还需要把训练样本中各个单词之间的相关性都找出来这就是embedding,embedding是一个矩阵,原始的向量经过embedding矩阵的映射,转换成另一个向量。

               

    640?wx_fmt=jpeg

    经过映射得到的embed向量之间就有了相关性(至于原理,这又是一堆让人抓狂的公式)。比如,训练样本中出现”go”, ”went”, ”walk”就可以表示成具有相关性的三个向量,相关性的衡量有多种(余弦相似度...)。

    4) 就此得到了向量化的训练样本,计算机就可以认识并处理。因为样本太大了,可能有几百万组,一次性全部训练,时间太长,并且效果也不好。所以将样本分为多组,每一组叫一个batch,按照batch进行训练。

    5) 训练过程如下:

    1. for i in 总训练轮数(100000次):

    2.     for j in batches(64个):

    3.     

    4.         编码器(Encoder)    入参:训练样本输入train_source,隐层结点数,隐层层数

    5.                         输出:编码器输出,隐层状态向量C

    6.         解码器(Decoder)    入参:训练样本输入train_target,隐层状态向量C

    7.                         输出:预测输出

    8.                          

    9.         计算损失函数(误差,用于训练校正)

    10.         

    11.         梯度下降法(对误差求偏导,求全局极值点,校正模型参数的具体方法)

    12.         

    13.         不断寻找最优的模型参数

    14.         

    15.         得到最优的模型参数

    16.         

    17. 保存模型

    6) 输入测试样本,”you are so handsome”,得到翻译输出“你真帅”。


    5.总结

    以上就是基本的seq2seq模型的翻译流程,seq2seq不止可以用在机器翻译领域,在语言生成等领域也有较好的应用效果。

    本文力求以简洁的方式介绍机器翻译领域的深度学习,文中可能存在一些表述不太贴切的地方,欢迎指正。

    640?wx_fmt=png

    展开全文
  • 本演讲将包括以下内容:1....2. 人工翻译是否真会被机器翻译取代;3. 人工+智能三个时代——规则时代、语料库时代、人机交互时代;4.计算机辅助翻译工具原理和应用现状、语言服务行业技术发展趋势。
  • 本次分享机器翻译技术成长路线与技术现状,解析搜狗机器同声传译技术、神经机器翻译系统,以及搜狗机器翻译的落地应用。并介绍WMT&CWMT2017;搜狗冠军系统,参赛系统使用的技术。
  • 再到现在神经机器翻译NMT,机器翻译技术在过去60多年的时间里一直不断的更新,特别是在2012深度学习技术进入人们视野之后,机器翻译的准确率不断刷新,今天就主要盘点一下各类深度学习机器翻译里面的应用现状,给出...
  • 机器翻译】transformer 2018-05-01|ML,app,nlp,translation,2. 主流model-研究现状,2. NMT,transformer|3129 本文字数:|阅读时长 ≈ 简介 在2017年5月Facebook发布了ConvSeq2Seq模型吊打了GNMT一个月...
  • 针对维汉统计机器翻译中未登录词较多现象和维吾尔语语言资源匮乏这一现状, 结合维吾尔语构词特征以及相应字符串相似度算法, 提出了一种基于字符串相似度维汉机器翻译未登录词识别模型。该模型借助短语表和外部...
  • 针对维汉统计机器翻译中未登录词较多现象和维吾尔语语言资源匮乏这一现状, 结合维吾尔语构词特征以及相应字符串相似度算法, 提出了一种基于字符串相似度维汉机器翻译未登录词识别模型。该模型借助短语表和外部...
  • 本次分享机器翻译技术成长路线与技术现状,解析搜狗机器同声传译技术、神经机器翻译系统,以及搜狗机器翻译的落地应用。并介绍WMT&CWMT2017;搜狗冠军系统,参赛系统使用的技术。...
  • 将这些基础设施与强大人才库和热情、随时可获得资本以及客户采用人工智能 / 机器学习高度意愿结合起来,你就有了一些特别东西。我们正在迈向一个新十年,在这个十年里,人工智能 / 机器学习将以更快速度...
  • 自然语言理解和自然语言生成是自然语言处理两大内核,机器翻译是自然语言理解方面最早研究工作。自然语言处理主要任务是:研究表示语言能力和语言应用模型,建立和实现计算框架并提出相应方法不断地完善...
  • 语法纠错研究现状

    2020-07-28 11:04:34
    引言语法纠错(Grammatical Error Correction, GEC)...目前语法纠错任务主要是采用类似于机器翻译任务Seq2Seq框架来实现。具体来说,输入错误句子为源语句,输出正确句子为目标语句。例如下图中,“A B C D”
  • 自然语言理解和自然语言生成是自然语言处理两大内核,机器翻译是自然语言理解方面最早研究工作。自然语言处理主要任务是:研究表示语言能力和语言应用模型,建立和实现计算框架并提出相应方法不断地完善...
  • 近年来,随着人工智能技术迅速...本文以NLP领域中的机器翻译与文本抑郁识别任务为例,通过对其发展历史、研究现状、面临问题与挑战进行分析,进而推广至整个人工智能领域,得出了机器智能不会超越人类智能结论。
  • 简单单层神经网络不能解决异或问题————Back Propagation算法,BP算法————卷积神经网络用于自然图形中物体识别————千层机器学习模型相继被提出,支撑向量机(SVM),Boosting,最大熵权法(LR,Logistic...
  • 最近看了Adam Geitgey的机器学习系列文章。寻思着闲着也是闲着,干脆翻译以下,顺便学习下英语啥哈哈哈。第一次做这种事,有不到位地方欢迎指教噢。 前言  你是否已经厌倦了在查阅了无数有关深度学习文章...
  • 结合一个基于格语法的日汉机器翻译系统,针对现有系统日语动词格框架缺乏的现状,提出一种日语动词格框架自动构造方法。该方法基于类比与统计思想,从现有的少量人工构造的动词格框架和大量生语料出发,自动构造日语...
  • NMT系统搭建手册.pdf

    2019-05-09 15:45:31
    1. 机器翻译现状 4 1.1 什么是机器翻译? 4 1.2 相关论文 7 1.3 相关会议 8 1.4 相关工具 8 2. NMT系统搭建指导 9 2.1 获取数据 9 2.2 数据预处理 10 2.3 模型训练 12 2.4 模型解码及bleu计算 13 3. 系统优化 15...
  • 机器翻译伴随着世界上第一台计算机诞生而出现,随后成为人工智能领域最具挑战性研究课题之一。70 多年来,以机器翻译、人机对话系统、文本自动分类、自动文摘和信息抽取等为代表性应用人类语言技术所走过...
  • 一直在写一篇关于人工智能和机器学习在网络安全应用现状的文章,由于时间忙,而且这个领域发展太迅速,迟迟没有成稿。借着年初Gartner分析师Augusoto Barros发表一个博文,先谈一个问题:即建立对AI/ML应用网络...
  • 主要内容: 总结目前已经知道关于NLG内容 关于解码算法更多内容 NLG任务和神经网络方法 ... 机器翻译 概要 对话 创造性写作:讲故事,诗歌生成 自由形式问答:回答是生成,而不是从文本中...
  • 文本处理资料.zip

    2019-07-05 11:11:29
    内容包括形式语言与自动机及其在自然语言处理中应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和...
  • 共指消解(一)

    千次阅读 2020-02-24 15:08:10
    共指消解技术综述摘要重点引言基本概念共指消解研究现状 摘要重点 共指消解旨在识别指向同一实体不同表述 ...作为自然语言历届基础技术被广泛应用于:文本摘要、机器翻译、自动问答和知识图...
  • 统计自然语言处理

    2019-01-06 11:24:52
    内容包括形式语言与自动机及其在自然语言处理中应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、...

空空如也

空空如也

1 2 3
收藏数 55
精华内容 22
关键字:

机器翻译的现状