主页 > 观点科技 >号称打败 Google 翻译的 DeepL 究竟可不可靠? >

精选文章


随机推荐


号称打败 Google 翻译的 DeepL 究竟可不可靠?


2020-06-24


号称打败 Google 翻译的 DeepL 究竟可不可靠?

鉴于数据、计算力、演算法等诸多门槛,自神经机器翻译(NMT)产品化以来,很大程度上便是网际网路巨头的竞技场。

如今,又一个新的挑战者高调加入,直接把矛头指向堪称行业技术标竿的 Google、微软及 Facebook。

上週,来自德国的 DeepL 翻译上线,号称实现了 NMT 技术的新突破,打造出「世界上最精确、语言组织最自然的机器翻译系统」;并宣布在自家组织的盲测中,打败了 Google 翻译、微软与 Facebook 的 NMT 系统,挑衅意味十足。

目前,DeepL 翻译已支援英德法西等 42 门欧洲语言,正在训练汉、日、俄等语言,并计划将来发表一款 API,让开发者能将 DeepL 翻译整合入其应用。

公司前身

首先要说,这家公司的来历并不简单。

公司前身是营运近十年的线上外语词典 Linguee,DeepL 翻译也完全由 Linguee 团队打造。Linguee 在中国没什麽存在感,至于在海外……有 Google 翻译专美于前,存在感也不是很高,但还是有一批认可它的用户。

号称打败 Google 翻译的 DeepL 究竟可不可靠?

Linguee 的英汉、汉英词典介面。

不过,Linguee 的成败现在已不重要了,它在今年正式更名 DeepL,以「Deep」提醒 VC 自己是一家正经的深度学习公司。

真正重要的是 Linguee 的技术积累。Linguee 由 Google 翻译前研究员 Gereon Frahling 在 2007 年离职开发,2009 年正式上线。Linguee 的核心优势是它的爬虫和机器学习系统,前者抓取网路上的双语对照翻译,后者评估这些翻译的品质。两者结合,使 Linguee 成为当时「世界上首个翻译搜索引擎」。十年积累,Linguee 无论数据或演算法的研究都不可小觑。

号称打败 Google 翻译的 DeepL 究竟可不可靠?

去年在伦敦 Noah 演讲的 Gereon Frahling。

一年前,研究团队着手欲实现一个新目标:利用在机器翻译领域的多年专业积累,打造一套业内最先进的 NMT 系统。这便是 8 月 29 日上线的 DeepL 翻译。

三大优势

既然底子厚实,我们来看看这些积累给 DeepL 带来哪些资源优势。以下资讯均是 DeepL 一家之言,尚无第三方背书,大家得自行判断真实性。

数据

Linguee 的数据集有逾十亿组对照翻译语句,号称世界最大的人工翻译资料集。 Linguee 能随时搜寻近似翻译结果。

计算力

DeepL 在冰岛搭建了一台超级电脑,号称在全球 HPC 中性排名第 23 位,浮点运算能力达 5.1petaFLOPS。因而能实现让 DeepL 十分自豪的计算速度:每秒处理百万量级的词语翻译。

演算法

採用 CNN 而不是 NMT 产品通用的 RNN。DeepL 宣称其技术积累使他们克服 CNN 的主要短板,因而实现比基于 RNN 的竞品演算法更精确、自然的翻译结果。

效果展示

DeepL 宣称其翻译系统的表现打败 Google 翻译、微软、Facebook 的 NMT 系统, 是基于两个指标:盲测反馈和 BLEU 分数。

盲测

DeepL 邀请职业翻译者,对 DeepL 翻译、 Google 翻译、微软翻译以及 Facebook 的 NMT 系统盲测,要求测试者选出最好的翻译结果。测试语言为 3 组,分别是英德、英法、英西互译,样本为 100 个句子。DeepL 并未公布每组参与测试的职业译者数量。测试结果如下:

号称打败 Google 翻译的 DeepL 究竟可不可靠?

如图所示,每门测试中,选择 DeepL 的测试者都最多。 DeepL 在英译德、英译法、英译西的优势尤其明显。官方统计是:选择 DeepL 为最佳翻译结果的次数,与选择另外 3 家 NMT 服务的平均比例为 3:1 。

BLEU

BLEU 是业内评估机器翻译品质最常用的评分演算法,被认为与人类的评判结果有较大相关性。

DeepL 宣布,其英译德、英译法的 BLEU 得分超过所有已发表的 NMT 研究,包括 Google Transformer。结果如下:

号称打败 Google 翻译的 DeepL 究竟可不可靠?

如图,在英译法项目上,DeepL 的 BLEU 分数超过次优方案约 3.5%。

业内观点

踏入江湖第一天,DeepL 就自封「天下第一」,同行对此怎麽看?雷锋网谘询了搜狗语音互动中心总监陈伟、商鹊网 CEO 邹剑宇,以及 Facebook 机器学习工程师王杨。需要说明的是,3 位老师均表示:由于缺乏关于 DeepL 演算法、资料库的第一手资料,也没有来自第三方的资讯,无法对其翻译水平客观判断。商鹊网的 CEO 邹剑宇评论:「从相关报导中,对演算法的描述并不详细,没有论文揭露细节,所以不好理解。」

因此,以下仅为这 4 个看到 DeepL 宣传讯息后的一些个人看法。

在 Facebook 从事应用机器学习的工程师王杨,听到这件事的第一反应是怀疑──单是同时胜过 Google 翻译和 Facebook NMT 这一点,不拿出有足够说服力的证据就难以取信于人。Google 的NMT 积累深厚,Facebook 的 NMT 也在快速发展。一个新的产品想要如其宣传那样实现大幅超越,很难。

若 DeepL 确实在技术上有突破,那麽不排除他们有全新的多语种(multilingual)模型。

至于 DeepL 的演算法模型基于 CNN 而不是 RNN,王杨表示「这从侧面支持 Facebook 的研究」。FAIR(Facebook AI Research)一直认为 CNN 在机器翻译的潜力远大过 RNN,尤其是计算速度,这也是 Facebook 在 NMT 领域的主要研究方向之一。

搜狗语音互动中心总监陈伟的机器翻译团队,刚在 WMT 2017 评测获得中英、英中两个翻译方向的第一名,他认为数据对 DeepL 的贡献可能远大过其他因素。而 Linguee 的数据爬取和积累,是一项不小的优势。

陈伟评论:

据一名德语系译者说,DeepL 德英互译的体验确实不错,这丝毫不意外──身为一家德国公司,顺理成章的,DeepL 重点关注的是德英、法英这些语种的翻译。这为 DeepL 在这几门语种的数据积累也提供了一定的聚焦和便利。

DeepL 公布的盲测、BLEU 评分,衡量的均是德、法、西这三门欧洲语言与英语间的互译。

在演算法方面,陈伟表示:

他并不认可「CNN 是神经机器翻译未来」说法:

最后,陈伟总结,根据 DeepL 公布的报告,目前的评测有 3 个地方导致难以评估技术:

    人工评测的测试数据量仅有 100 句,而一般人工评测或者 BLEU 评测会採用几千句。DeepL 对比其他家并没有使用相同的训练数据集,因此性能无法评估。更多技术细节没有公布,很难把握具体的情况。

商鹊网 CEO 邹剑宇十分认同数据和计算资源对 NMT 产品的重要性:

对于 BLEU 值究竟能在多大程度上客观反映翻译品质,邹剑宇强调,需要合理看待其参考价值,不可等同于普通人面对翻译结果的直观体验:

他最后忍不住拿自家产品对比,表示商鹊网的新引擎甚至达到比 Google 翻译高出 6 个百分点的 BLEU 值。



上一篇:
下一篇: