【新旧约全书】Holy Bible, Chinese Union Version (GB), Textfile 20010201.

“因为我对党和政府的观点,他们认为我是精神病患者”

  图像加注文字, 张俊杰举起一张白纸以象征审查制度,随后被送往精神病院。 Article information Author, 尼玛‧普拉滕(Nyima Pratten) Role, BBC之眼 2025年1月23日上午9点16分 当张俊杰17岁时,他决定在校外抗议中国政府的...

2023年2月26日星期日

机器翻译的过去、现在和未来

 


machine
人类的大脑给每个句子赋予了多层含义,而机器只能识别一连串的命令。 

从图灵到谷歌翻译,Julia Errens 追溯了机器增强翻译的历程。

道格拉斯·亚当斯创造了巴别鱼(Babel Fish),《神秘博士》中则是由 TARDIS 为其乘客完成这项工作。这整个过程基本上是虚构的,几乎不讲什么科学;而《黑客帝国》里的反叛者可以在几秒钟内下载语言技能。

现代神话中充满了能够帮助人类夺回巴别塔的机器(或耳居生命体),克服地球上6000-7000种人类语言之间的障碍。

自动翻译的设想在理论上非常诱人,而且似乎比以往任何时候都更接近我们,因为智能手机已经给我们提供了通往已知星系的搭便车指南,让我们可以用手持设备获取大多数的人类知识。但在我们考虑我们可能会去哪里之前,我们应该先看看我们从哪里来,因为原点决定了我们的轨迹。

1947 年 3 月 4 日,纽约洛克菲勒基金会自然科学部门的主管、数学家 Warren Weaver 致信同事控制论学家 Norbert Wiener,反思战时机器解码的成就:“会怀疑翻译问题是否实际上可能是一个密码学问题。”

像二战的解码机器(由阿兰·图灵等人开发,用于破解德国军事通信的密码)一样,最早的机器翻译(机翻)系统是由政府资助的。一个原因是,在冷战紧张局势不断升级的时期,各国政府感到有必要这么做。此外,因为在那个时候建造一台计算机需要花费相当多的钱(更不用说要占相当大的办公室了)。当时还没有个人电脑市场,而且技术成本太高,无法使机翻成为经济的商业追求。

将这些露营车大小的机器全球联网的设想甚至还没浮出地平线。最初的努力是建造能够在自己的范围内执行基于规则翻译的计算机。从本质上讲,这样做的目标是教会机器掌握多种语言的全部词汇和语法,这样它就可以作为一个封闭的系统进行自主翻译。

1954 年,IBM 701 能够将 49 个关于化学的句子从俄语翻译成英语,通过运行最早的非数字的计算机应用程序之一。它也占据了 IBM 纽约总部的两个房间。在最初对这些可能性欢欣鼓舞之后,不健全的语法和缺乏语法纠正的现实很快导致美国政府削减了资金。随之而来的是 20 年相对沉默的赛道,以及外界公众兴趣增长的缓慢,直到下一个完全出于民用目的、基于规则的机翻高峰出现,1976 年,加拿大气象系统开始为这个法英双语国家翻译天气预报。这比一般的翻译更容易实现,因为天气预报用的是相当有限的常用词(“整个四月,有零星阵雨”)。

随着冷战的结束,显然机翻正从军事利益转向民间利益。这一点在 Jonathan Slocum 1985 年的文章《机器翻译》(Machine Translation)中也很明显。他指出,当时,日本人在推动市场,因为他们认为翻译 “对他们的技术生存是必要的,但发现用人力手段实现翻译极其困难——而且代价高昂”。与此同时,在西方,机翻的最大努力是欧盟委员会的 Eurotra,旨在提供欧洲经济共同体的九种官方语言之间的翻译。

到了 1990 年代,由于苏联的解体,以及全球化的加速为品牌树立了面向外国市场的本土化产品的挑战,国际交流的需要被提上了全球意识的前沿。此外,个人消费者在将近十年的时间里一直把个人电脑放在家里,现在他们把电脑连上了互联网。

第一个在线机翻服务于 1992 年上线,当时 Compuserve 开始向其订阅用户提供将论坛内容从英语翻译成德语的服务。

随后,Altavista(现属于雅虎旗下)于 1997 年推出了声名狼藉的 BabelFish(巴别鱼,得名于道格拉斯·亚当小说《银河系漫游指南》中具有通用同声传译技能的耳居生物)。BabelFish 可以在英语、德语、法语、西班牙语、葡萄牙语和意大利语之间进行翻译,并且可以免费使用,这为机翻的大众市场打开了大门。然而,尽管 BabelFish 很新颖,它仍然存在相当大的性能问题。当一个词在目标语言中有多种含义时,翻译出来的句子在语义上是有挑战的,而且在选择正确的翻译时并不可靠。

Yehoshua Bar-Hillel 在他 1960 年的开创性文章《全自动高质量翻译的非可行性论证》(A Demonstration of the Nonfeasibility of Fully Automatic High Quality Translation)中,就机器翻译中的消歧问题作了更广泛的论述。在文中,他提到了这句话:“小约翰在找他的玩具盒。最后他找到了。盒子在 ‘pen’ 里。” 他接着阐述说,“没有任何现存的或可以想象的程序能让电子计算机” 得出这样的逻辑结论:此处的 “pen” 是指孩子们的游戏场,而非书写工具,因为这一结论依赖于存在于文本之外的人类常识。

“[机翻的设想]相当于……要求翻译机器不仅要拥有字典,还要具备通用百科全书。这完全是无稽之谈,根本不值得进一步讨论。”

好吧。我们原谅 Bar-Hillel 先生没有预见到互联网的到来。互联网让大数据变得触手可及,无处不在;而现代的处理器有足够的运算能力来管理和引导它。但在这些可获取的知识中,计算机仍然不够聪明,无法利用文本外的知识,自动建立起帮助我们消除自然语言中单词歧义所需的那种联系。换句话说,“钢笔”(pen 指一种 “书写工具”)并不能在其尺寸下容纳一个盒子,而 “游戏场”(指 “围合出的区域”)则可以。

当然,计算机是用来根据明确的命令做出明确的决定的。以不可预测的方式运行的计算机被视为故障。然而,当我们探索合成创造性思维的方法时,随机性正成为一个令人信服的挑战。

1949 年,当英国计算机科学家阿兰·图灵试图使计算机模拟人类的思想时,他在他的 Manchester Mark 1 机中加入了随机数发生器,以便它可以在严格的计算答案之上提供偶尔的大胆猜想,他说 “如果一台机器能够被预期是可靠的,那它也不可能是智能的。”

可控制的失败是人类的一种特性。据估计,大脑的神经元有 30% 到 90% 的时间是不活跃的。这是一个很大程度的失败。因此,人类的思维过程并非通过可靠的算法来运作,而是通过不断的试错。据科学作家 Carl Zimmer 总结,合理估计,人类大脑的运行需要大约每秒 10 瓦的能量。就人类生物能量而言,这意味着每天 250-300 卡路里。你的大脑靠着巧克力能量棒运转。

与此同时,斯坦福大学的 Kwabena Boahen(他正追随图灵的道路,从事 Neurogrid 的研究,这是一个模拟大脑内皮层工作的硬件平台)估计,按照目前的方式构建一个可以模仿人类智力水平的处理器大约需要 10 兆瓦的功率。这是一个中型发电站的能量输出。

当然,图灵还提出了图灵测试的概念,以确定机器表现出与人类相当的智能行为的能力。要解决的任务是什么?用自然语言与人交谈。到目前为止,还没有机器通过了这项测试。

也许让我们之前构建的计算系统掌握人类大脑的主要参考框架有点像盼鱼爬树。所以,我们没有使用互联网继续我们的尝试,教计算机人类语言,我们选择让它说计算机用语:原始的数字数据。

驱动谷歌翻译的 Statistical MT 基于这样的想法:如果你将足量的、两种语言间平行文本形式的数据喂给电脑(其具有庞大的存储,但不存在即兴创作和逻辑上的跳跃)。它将能够发现并重新创建它们之间的统计模式。这种方法的好处是,系统自主学习,不像基于规则的机翻一样需要强烈的人工管理。一旦命令下达,你需要做的只是将材料喂给机器,从而增长其语料库——就像《疯狂花店》中的食人植物 “奥黛丽二世” 一样。(所谓 “语料库”,是指两种或两种以上语言的平行文本的集合。就像罗塞塔石碑一样,但体积要大得多;任何包含 3000 万个以上平行单词的内容都被认为是不错的训练语料库。)

这里机器的工作方式是,从两种语言的大约 100 万个平行文本中搜索句子,并将它们分解成两到三个小单词组,称为 n-gram。一旦完成,系统就可以区分两个平行文本之间的模式,根据 n-gram 在两端出现的顺序勾勒翻译规则。

在这样做的过程中,系统从语料库中获取所有线索,而不经语法指导。它并不需要。机器所能看到的,只是那一堆乱七八糟的英语字母与那一堆乱七八糟的法语字母之间的关系,以及与它最近的第二堆单词之间的关系。

人类的大脑给每个句子赋予了多层含义,而机器只能识别一连串的命令。

然而,正如格式塔理论(一种来自视觉文化的思想学派)所教导的那样:仅仅通过检查部分来理解整体是不可能的。统计学的做法是存在问题的。

James Fallows 为《大西洋月刊》(the Atlantic)解释了一个中心问题:谷歌翻译从它所吐进去的同一个碗里——即互联网——来喂给自己:“计算机的翻译总比没有好,但充其量也只是相当粗糙。你自己试一下吧:去人民日报的中文版主页;将任何一篇文章的 URL 接入谷歌翻译网站;看看结果和真实英语几分相似。你只能勉强明白这篇文章的要点。此外,由于这些并置的版本反映了计算机系统目前的技术水平,理论上讲,它们无法提供改进的机会。”

这就是问题所在。这种自动翻译的材料在世界各地的网站上泛滥得越多,计算机可以学习的优秀翻译的比例就越小。以工程术语来说,信噪比越来越差……在计算机世界里,这相当于草率地滥用抗生素,产生新的耐药细菌菌株。

在一个更微妙但同样有害的层面上,还要考虑这样一个问题:依赖旧文本来阅读新文本,旧的思想结构会破坏内容。例如,德语名词分两性,包括职衔。男工程师是 Ingenieur,女工程师则是 Ingenieurin。已有文本的语料库的问题是,它们是陈旧的。
 
“纵观历史,在大多数语言和文化中,男性代词的比例一直过高,机器翻译往往反映出这种历史上的性别偏见。” 基于云计算的企业翻译管理公司 Smartling 的副总裁 Nataly Kelly 表示。这意味着,统计学的机翻在折腾的过程中无视了女工程师和男护士。

目前,在线机翻依赖于分析。但是自然语言,即使在官方标准级别,也不是分析性的。自然语言中的词汇含义会随着时间、语境和语调的变化而变化,因为人类对语言本身的使用并不一致。

由此可见,目前,机翻在科学和技术写作方面取得了最好的成绩,任何严格遵循公式的写作都是如此。只要语言的使用偏离了标准,变得更加口语化或艺术化,机翻就会出现问题。这影响了具有强烈文化根源的概念。今年夏天,加州大学洛杉矶分校(UCLA)的研究人员发出了警示,提请人们注意一个事实:在翻译过程中漏掉了许多传统中药,因为其中的许多概念与英语语言没有关联;它们与对中国语言文化的理解紧密相连,而这种理解离不开文化的浸没。

假设机翻已能够生成准确的、语义上合理的文本文档,我们仍然需要人工,因为内容翻译并不会以真正的文本文档结束。

在最简单的层面上,文本的压缩和扩展:不同语言占据不同长度的空间——稍长或稍短,或者只是单词数量不同——来传达相同的内容。德语文本比英语长30%,如果不经过设计师的注意就自动进行换行重排,可能会严重影响布局。更不用说德语中大写字母的密度对文本颜色的影响了。然后是引号,它以各种各样的文化应用和形式出现。当我们谈到标点符号时,也要考虑一下书面西班牙语中倒立的感叹号和问号。

并且这只是说使用拉丁字母的语言之间的翻译。表意文字(如简体中文)往往很难平衡统一的颜色,这是由于字符并不均一。在任何情况下,这些文种都需要更大的行间距来保证易读性,因为每个字符中的有更高的笔画数更多,很像韩文的音节块。在阅读方向上,日文的竖排(縦書き)格式是从右到左阅读的。阿拉文也是如此,此外,阿拉伯文没有连字符,但有其他方法来解决行长对齐的问题。称作 “Kashida” 的对齐方式会将字符(而非其间距)拉长,来补偿文本颜色。

简而言之,文本表达及其含义会随着语言的变化而变化,就像说话时的手势一样。为了适当地排印翻译文本,你需要自己的翻译引擎。或者,更现实地说,一个精通字体排印的人。

在不断朝着幸福的大一统前进的过程中,谷歌进行着一个这样一个项目,旨在设计一个支持每种自然语言的通用字体系列。这个家族被称为 Noto,目前涵盖了 30 个不同的文种,由 100 多款字体组成。

文本对文本的翻译仅仅是个开始。谷歌正在全力开发将即时语音翻译集成到 Android 手机中的产品,而三星已经收购了机翻的巨头 Systran,以保持其自身产品的领先地位。与此同时,微软在 2014 年展示了一款突破性的 Skype Translator 演示版,它能以超过 45 种语言对 Skype 视频通话进行实时翻译。YouTube 应该对此非常感兴趣,因为它一直致力于为聋人用户提供即时字幕选项。微软同样紧随其后,其中国开发团队利用 Kinect 摄像头提供即时手语机翻,令人印象深刻。2013 年,全球翻译市场价值约为 340 亿美元,预计每年将以超过 5% 的速度增长。

机翻绝对不是一个小众市场,但在过去的二十年里,专注于降低翻译成本,将其教给并不适合此项工作的计算系统,意味着我们正在一个需求不断增长的领域中使用一套懒散的工具。

为了满足这一需求并整理数据,谷歌翻译有一个改进功能,可以让用户输入建议,让翻译更流畅。这是一种非常直接的互动,却有着不同的、激励的方式来让人类集体致力于改善机翻数据集。

免费语言学习应用多邻国(Duolingo)被其开发者雄心勃勃地描述为 “翻译互联网” 的推动力。多邻国的创始人 Luis von Ahn 以前曾为人类提供一项特殊服务,让他们帮助机器处理人类输出的信息:他的 reCaptcha 验证系统可以让在线用户通过辨认电脑无法识别的扫描文本来证明自己是人类。是电脑 “现在还不能识别” 的文本——因为人们输入系统的数据教计算机在未来做这项工作,这大大提高了图书数字化的准确性。

多邻国是一个游戏化的学习环境,促使学生参与其中,尤其是在早期阶段。一旦用户达到了更高的熟练程度,他们就会获取文本块进行翻译,这样他们就可以磨练自己的技能。然后,多邻国对用户的累积翻译应用算法,以确定最终的商业版本。

只要计算机不能模拟依赖巧克力能量棒、会失败还会即兴创作的神经元网络,我们就需要提供这样的神经网络。

从 5 到 10 年的范围来看,机器辅助的翻译网络肯定会被证明是非常成功的,因为它将翻译众包给用户社区。实现这种合作的一种方法是传统的报酬。然而,这在经济上不太可能大规模实施。另一个原因是多邻国采用了一种智能的知识交换系统来激励帮助。第三种方法是依靠善意和热情。
 

在线粉丝社区 Viki.com 的成员组成了志愿者标签团队,为视频内容制作超过 200 种语言的字幕——许多人认为做这些的消耗甚至不足一块巧克力棒。在韩国电视剧、墨西哥肥皂剧或英国迷你剧的最新一集在其国内市场播出后,Viki 拥有这些内容的地区或国际版权,并在其网站上提供视频流媒体服务。一组一组的志愿者涌入视频中,将其拆分成可管理的单元,开始撰写字幕并对齐时间轴。与此同时,在前端等待内容的粉丝可以实时收到视频中以他们喜欢的语言进行字幕的比例的信息。最受欢迎的节目通常都有 10-20 个翻译团队,他们在第一次播出后的几个小时内就为内容配上了完整的英语字幕,而其他语言的字幕在一周内就添加好了。

Viki 的翻译们在这些项目上投入了大量的时间和精力,只是为了好玩。为了获得社区的认可,以及向他人展示他们喜欢的内容的乐趣。

这种爱是一种强大的动力和质量的保证。Viki 社区主任 Mariko Fritz-Krockow 说:“因为社区对内容非常热情,他们真的很关心如何将原始语言的细微差别及其含义传达出去。” 也就是说,Viki 为其信誉良好且最可靠的社区成员提供了一个令人垂涎的好处:合格贡献者的身份——最大的好处是可以通过 Viki 网站访问所有可获得的内容,不受地区许可限制。这是一个合法的 “我全都要” 的奖励。

自从最初的视频种子出现开始,粉丝们就在为其他粉丝翻译视频内容了。这意味着,试图将内容传播到国外市场的传统牌照持有者,面临着一支由志愿者组成的强大网络大军的挑战。这些志愿者为消除世界其他地区的语言障碍而感到高兴和自豪。开发高功能的机翻系统是文化部门的一个有利可图的目标,因为它可以加快翻译速度,以满足消费者对快速周转的期望,而 Viki 已经成功地驯化了这大军,并使之合法化。

Viki 的公关总监 Michelle Laird 强调了该网站翻译过程的社会性,并没有自动化的计划:“看到社区的涌现和发展真是太好了。其中最活跃的一个是在罗马尼亚。它的成员在利用和教育彼此如何翻译成罗马尼亚语方面绝对是惊人的。自 2010 年推出测试版本以来,我们已经开发了超过 200 种语言。目前许多台湾地区的内容非常受欢迎,现在也有许多从未在中国以外发行的中文内容。反过来,好莱坞的内容在亚洲越来越受欢迎。看到这些进展令人兴奋。”

当被问及为了进一步改善这个过程,未来最理想的发展方向时,Viki 认同其重点是继续强调辅助社区交流的工具。通过这样做,志愿者可以更好地一起使用习语和隐喻。

与此同时,图灵层次的机翻会消除文化背景上隐喻和修辞思考的重要性。它能使日常互动更有效,但可以说无助于加深文化之间的理解。

“因为语言在把我们每个会思考的人与周围世界联系起来的过程中起着如此重要的作用,语言的细微差别(即使在相似的语言中也不尽相同,比如源自拉丁语的西班牙语和葡萄牙语)实际上塑造了我们看待世界的方式。学习一些其他国家的人是如何说话的,实际上可以帮助你了解他们的心态。” 关于谷歌对同声翻译的尝试,Kit Eaton 这样写道。

我们距离通用机翻远非一步之遥。早在 1954 年,IBM 701 的开发人员就相当自信地认为,在完成了 49 句关于俄语的化学科学论文之后,“未来几年内”,翻译就将完全应用于计算机电路中。六十多年后的今天,我们在哪里呢?目前,谷歌翻译只涵盖了地球上大约 6000-7000 种语言中的 80 种。说我们还有很长的路要走,这并非听天由命。部分原因是,从翻译中去除人类思维可能根本就不是乌托邦。

哲学家 Alan Wilson Watts 说:“我们确实很难注意到任何可用语言无法描述的东西。” 这对应了中医药信息在翻译中丢失的问题。

最终,在翻译中丢失的点点滴滴,会在人们的文化后院留下一条面包屑痕迹。如果这些面包屑消失了,我们就不太可能追随它们走上新的道路。

没有评论:

发表评论