熟悉300首唐诗,不会写诗也会唱歌。看到大量的模型文本后,机器真的能通过暴力学习来取代人类的工作吗?事实上,优秀的翻译应该是灵活和创造性的,希望通过大数据统计路线推广机器翻译的想法是不可预测的,因为这个翻译过程不包括对句子内容及其语言行为的理解,这一主要缺陷不能通过技术的改进来克服。
谷歌最近改用了神经网络技术。做过测试的人有两个共识:一是翻译质量比以前的技术好很多,二是离人的翻译水平还很远。有趣的是,在此基础上,专家对机器翻译的前景有相反的估计。乐观主义者认为,如果以这种速度发展,机器迟早会接管所有的翻译工作;悲观主义者认为,根据机器翻译中暴露的缺陷,可以看出,无论技术如何发展,都有很多因素无法掌握。
这让我们想起了半瓶水可以说是半满或半空。一般来说,对于正在发展的技术,这两种说法都是合理的:一方面,技术的进一步发展将弥补一些缺陷;但另一方面,任何技术都有其根本的局限性,因此并非所有的问题都将在技术框架中得到解决。为了预测机器翻译的发展空间,必须具体分析现有技术对翻译过程的描述。
机器翻译流派
参考资料[1]介绍了机器翻译领域及其主要技术流派。翻译是人工智能研究中最早考虑的实际应用之一。当人们发现计算机可以用来编码语言时,很快就会有人认为它可以用来翻译。类似于人工智能的其他子领域,这里的故事也是跌宕起伏。
一开始,受当时语言学界主流(乔姆斯基理论)的影响,机器翻译主要采用基于规则的路线。简而言之,这是为每种语言组织一本词典和一本语法书,然后在两种语言之间建立相应的关系。以英语翻译为例,每个英语句子的翻译过程如下:
(1)分析每个单词的语法结构和角色(主语、谓语、宾语等)。在这个过程中,主要考虑单词(名词、动词、形容词等),而不考虑每个单词的意思。
(2)分析其语义,即将句中的英语词汇及其语法关系表示为独立于语言的概念关系。
(3)用汉语重新表达这些概念关系。
语言学家总结了这些步骤中遵循的规则。虽然语言学家和人工智能工作者付出了巨大的努力,但这条路径并没有导致预期的进展和实际水平。这主要是因为人类的语言,即所谓的自然语言,太复杂了。与人工构造的数学语言或计算机语言不同,自然语言的使用非常灵活。因此,几乎所有的语法规则都有例外,几乎所有的单词都有多种意义,因此不同语言的句子或单词之间没有符合规则的对应关系。
由于对基于规则的计划感到失望,自然语言处理研究人员逐渐转向了基于统计的路线。这种方法是将大量的实际句子整理成语料库,然后用统计方法找到一些规则,如单词之间的频率(如这之后的概率)或可替代性(如语料库句子中的狗变成猫,有多少结果仍在语料库中)。为了实现句子预测、完成、纠错等功能。在机器翻译中使用统计方法是使用大量现有的翻译模型(如联合国文件)来生成一个培训数据的翻译系统。这种翻译技术直接在两种语言的单词和句子之间建立相应的关系,而不依赖于人工组织的语法规则和词典。当然,这种方法需要大量的数据和计算,但这些现在并不令人满意。
谷歌的神经网络翻译系统是实现统计方法的具体途径。谷歌网站的下面动图简要表示了该系统将中文句子翻译成英语的过程。首先,一个编码网络将逐字加长的输入字串表示为一系列值向量。然后,一个解码网络根据这些向量逐字生成一个英语句子。在解码过程中,系统对每个向量的关注程度不同,表现为两个网络节点之间的连接强而轻,并随着翻译的进展而变化。
声明:本文内容采编自互联网,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请点击举报,一经查实,本站将立刻删除。