如果你以为查单词必须正确拼写,再通过快译通、电脑软件,更时尚一点的是用手机软件查询,那你就out了。极客的做法是,只要你的手机上装有谷歌翻译的APP,你对着它说自己的母语,它就能立刻翻译成当地语言,并直接帮你读出来。谷歌翻译为什么能超越其他翻译产品,更酷更聪明?近日,谷歌翻译研发经理陈雍昇为我们揭开了谷歌翻译背后的技术面纱及其所承载的谷歌整体产品战略的重要使命。
智能的机器翻译
2004年,谷歌创始人之一塞吉·布林使用市面上的网络翻译服务来翻译韩国粉丝的邮件,结果显示:“生鱼片带着它的愿望,用谷歌搜索绿洋葱!”。这一与原意风马牛不相及的翻译结果使塞吉下定决心要使谷歌做出靠谱的翻译产品。
如今,作为一项免费的翻译服务,谷歌翻译可提供57种语言之间的即时翻译。它可以提供所支持的任意两种语言之间的互译,包括字词、句子和网页翻译。目前,谷歌翻译可以帮助用户阅读搜索结果、网页、电子邮件、YouTube视频字幕以及其他信息,用户甚至还能在Gmail内进行实时的多语言对话。
“值得注意的是,谷歌翻译是个自动翻译机,也就是说,它借助的是技术而非人力。”谷歌翻译研发经理陈雍昇指出,谷歌翻译是先往计算机内输入大量的文字文本,涵盖目标语言的文本和对应翻译文本中现在的人工翻译数据,然后构建统计翻译模型。
每年,谷歌都会从一些政府部门、学术机构搜集翻译信息,完善自己的平行语料库,所谓的平行语料就是两种语的对应词组或者句子,比如,“long”的平行语料是“长”、“time”的平行语料是“时间”,但词组“long time”的平行语料却不能只是两个单词的简单拼接,而是“很久”,句子“I have been here for a long time”的平行语料则是“我已经在这里很长一段时间。”
分布式计算和整合信息
从表面上看,支持的语言种类多和必须在线使用是谷歌在功能上与市面上同样流行的金山词霸、有道词典等翻译工具的功能区别,但背后最大的不同却是,谷歌在云计算支撑下的统计翻译模型。谷歌翻译之所以采用统计翻译模型一个重要原因就是谷歌的云计算架构。机器翻译需要海量的数据存储空间以及高效的运算能力,而谷歌拥有谷歌MapReduce(分布式计算系统)和BigTable(分布式存储系统)。
“整合全球信息,使人人皆可访问并从中受益,这是谷歌公司始终秉持的信条,也是它的产品战略”,陈雍昇表示谷歌翻译虽然并不是谷歌最大的研发部门,但它与Android、Chrome甚至Youtube一样,都是为谷歌实现整合全球信息的目标服务的。
谷歌希望将分散在全球各地的,所有可以数字化的,不同语言、不同格式、不同类型、不同版本的信息,进行分析处理后,以最简便的方式提供给用户使用,无论这些内容是来自某个地区的方言、书本或多媒体的内容,还是地图等基本的生活信息。这也可以解释为什么每次技术论坛上,谷歌都会在翻译这款产品上大费唇舌,因为它代表了一种理想化的沟通形态,即全球信息的无障碍流通。