重磅谷歌大脑养成记从识别猫到突破性机器翻_华盛顿机票

重磅谷歌大脑养成记从识别猫到突破性机器翻

微信营销求职招聘微信群 http://liangssw.com/shishang/13036.html

选自NYT机器之心编译

谷歌如何使用人工智能来改进谷歌翻译等许多谷歌服务？《纽约时报》杂志今日发布了一篇重磅长篇《TheGreatA.I.Awakening》全面解读谷歌利用机器学习重塑自身的战略。机器之心编译时进行了适当的删减。

序言：你即你所读

十一月一个周五的晚上，东京大学著名人机交互教授JunRekimoto（暦本純一）正在准备演讲，他开始留意到社交媒体上出现了一些奇特的博文。谷歌公司颇受欢迎的机器翻译服务已经突然有了大幅提升。JunRekimoto开始亲自测试这一服务。结果让他惊讶不已。他在一篇博文中写下了一些发现。他比较了两个版本的《伟大的盖茨比》（一个年TakashiNozaki的版本，一个是HarukiMurakami近期的修订版本）中的几个句子，选择了谷歌翻译能够翻译的句子。他后来对我解释道，HarukiMurakami的翻译非常优美，但显然是Murakami风格的。谷歌翻译后的日文尽管有点小小的不自然，但是，读起来感觉更加易懂（transparent）。

接着，博文的第二部分从另一个方向（日文到英文）检查了谷歌翻译。他把自己翻译的海明威《乞力马扎罗的雪》的开头输入进去，让谷歌翻译成英文。结果发现翻译的准确度难以置信。

Rekimoto将自己的发现放在了Twitter上，几个小时后，数以千计的人也贴出了自己的实验结果。一些翻译结果很赞，另一些的翻译结果颇有喜剧效果。每个人都好奇：谷歌翻译是怎么变得如此惊艳的？

谷歌公司的人工智能研究机构谷歌大脑（GoogleBrain）成立于五年前。成立原则是：通过试错熟悉周围世界的人工「神经网络」或许会发展出类似人类的灵活能力。这个概念不是新东西。不过，其大部分历史，在绝大多数计算机科学家看来，有些狼藉甚至神秘。

尽管如此，年以来，谷歌大脑已经证实深度学习方法可以解决传统手段无法解决的难题。语音识别之前并不理想，直到谷歌大脑更新了这一技术；机器学习的应用在谷歌移动平台安卓上的表现堪比人类。同样，图像识别也是硕果累累。不到一年前，谷歌大脑首次开始充满热情地更新整个产品线。

翻译工具声名鹊起的那一年是年，打那时起，它就成为谷歌最可靠也最受欢迎的资产；月用户量达5亿多人，每天需要进行亿词的翻译。它不仅自成一体，也是谷歌邮件、浏览器以及其他产品的一部分，是该公司数字业务中浑然天成的一部分。Pichai解释说，不仅仅是难民危机，公司也估计翻译的地理政治重要性：他身后的屏幕上出现了一幅图表，一个陡峭的曲线表明最近阿拉伯语和德语之间的翻译需求翻了五番。谷歌翻译团队一直在稳定地为产品添加新的语言和功能，不过，过去四年的质量提升已经明显放缓。

直到今天，翻译工具引进了人工智能技术。首轮尝鲜的语言包括英语、西班牙语、法语、葡萄牙语、德语、中文、日语、韩语和土耳其语。接下来还有上百种语言——大概每个月处理八种，直至明年年底。翻译工具的焕然一新仅花了九个月的时间。人工智能系统一夜之间取得的成果相当于旧的技术一辈子成果的总和。

谷歌决定以人工智能为中心的策略也反映出整个业界范围内的机器学习热。过去四年中，特别是谷歌、Facebook、苹果、亚马逊、微软和百度这六家公司已经启动了人工智能人才争夺战，特别是争夺大学里的人才。公司许诺的资源和自由已经让顶尖学术机构的人才越来越少。硅谷谁人不知MarkZuckerberg用电话、视频聊天等糖衣炮弹亲自督导公司最想要的研究生。诱人的七位数年薪并非罕见。参加这一领域最重要的学术会议的人员已经翻了四倍。利害攸关的不仅是渐进创新，还要控制住能够代表未来全新计算平台的东西：无处不在的人工智能。

Part1:学习的机器

1.大脑的诞生

虽然JeffDean的职称是高级研究员（seniorfellow），但却是谷歌大脑实际上的负责人。作为医疗人类学家与公共健康流行病学专家的儿子，Dean在世界多个地方长大——明尼苏达州、夏威夷、波士顿、阿肯色州、日内瓦、乌干达、索马里、亚特兰大。

在高中和大学的时候，他写的软件被世界卫生组组所使用。从年开始，他就加入了谷歌，从此他几乎插手了谷歌的每一个重大业务中的核心软件系统。谷歌公司文化的一个可爱伪影就是JeffDeanFacts，模仿「罗礼士的真相」写下：JeffDean的PIN是pi的后四位；在贝尔发明电话之后，他看到有一通JeffDean的未接电话；在系统最大等级是10的时候，JeffDean提升到了11级（这一个确实是真的）。

年的一天，Dean走进谷歌的休息区碰见了吴恩达。当时吴恩达还是斯坦福大学计算机科学教授，也是谷歌的顾问。吴恩达告诉了Dean关于ProjectMarvin的事，这个项目是吴恩达最近帮助建立的实验「神经网络」的一次内部尝试。Dean自己也在年在明尼苏达大学上学时做过简单版本的神经网络。如今，研究神经网络的学术人员5年来又开始发展，从屈指可数的几个增长到了几十位。吴恩达告诉Dean由谷歌神秘部门X实验室正在做的ProjectMarvin已经取得了一些惊人成果。

Dean对此非常感兴趣，愿意在此项目上付出「20%」的工作时间，也就是期望每个谷歌员工在自己核心工作之外的项目上付出的工作时间。不久之后，他建议吴恩达让另一个有神经科学背景的GregCorrado加入进来。在春末，吴恩达最好的毕业生之一QuocLe也加入了进来，成为了第一个实习生。然后，一些谷歌工程师喜欢称ProjectMarvin为谷歌大脑。

因为人工智能一词是年才被首次提出，一批研究员一直以来在思考创造人工智能的最佳途径，写出很大的、综合的程序，能同时展示逻辑推理与世界上足够知识的规则。

例如，如果你想要从英语翻译到日语，你要把英语的所有语法规则编程到计算机，然后是牛津英语词典中的所有定义。接下来你还要把日语的语法规则与单词编程，只有所有的语句用源语言输入之后才能让它把语句翻译成目标语言。这种观念通常被称为符号人工智能，因为它对认知的定义是基于符号逻辑的。

但这种老旧的方法主要有两个问题。第一个就是这样做非常耗费人工时间。第二个就是这种方法只能处理规则和定义都非常清晰的问题，比如数学问题和国际象棋。对于翻译来说，这种方法完全失效，因为词语不仅只有词典上定义，而且语言的使用中常常有很多特殊用法，尽管有很多语法规则。

一份年的文摘强调人工智能研究的前提：如果你可以编程让计算机模拟高级的认知任务如数学和象棋，那么你终将找到让计算机实现模拟意识的途径。

这个系统所能做到的事情是有限的。20世纪80年代，卡内基梅隆大学的一位机器人方面的研究员指出，让计算机去做那些成人能够做到的事情很容易，但是让它们去做那些1岁孩童做的事情几乎是不可能的，像是拿着一颗球，或者是辨别车辆等。在20世纪90年代前，计算机象棋方面取得了一些进展，但我们离强人工智能还很远。

谷歌大脑是首个投资人工智能所能呈现的可能的重大商业机构。Dean、Corrado和吴恩达用兼职时间工作，协作实验，但他们很快就取得了进展。他们从近期的理论基础以及上世纪80年代、90年代的思路中获取设计灵感，并利用公司无与伦比的数据资源和大量计算基础设施，在大量的银行标记数据（例如，准确录音的语音文档）上构建网络，结果计算机的回应和真实情况实现了很好的匹配。

Dean相当保留地说，「进化中动物发育出眼睛是一大进步。」当时，我们像往常一样坐在一间带有白板的会议室，他在白板上密密麻麻写上谷歌大脑的时间轴，以及与近期神经网络的历史拐点的关系。

「现在计算机有了眼睛，我们可以围绕现有的能力建造眼睛从而理解不同的难题。」

他们建造的这些能力看起来很简单，但影响很大。

图：GeoffreyHinton

2.想像不到的实习生

Dean说，在谷歌大脑诞生的一两年左右，该部门在开发一岁儿童智能水平的机器上取得非常好的结果。其语音识别团队将他们的旧系统和神经网络结合了起来，实现了近20年来最好的提升。他们的系统的物体识别能力也提升了一个数量级。这并不是因为谷歌在这一年突然想出了什么突破性的方法，而是谷歌开始向其中投入更为显著的资源和人才。

作为当时一些概念的提出者和优化者，GeoffreyHinton在谷歌大脑成立的第二年加入谷歌大脑，和吴恩达共事（吴恩达现在在百度领导着人的人工智能团队）。当时，Hinton只想离开其在多伦多大学的岗位3个月，所以因为一些合同上的原因他的身份是实习生。在「实习」培训期间，Hinton还问了「什么是LDAP（一种用户登录方法）？」这样的问题。那里有很多25岁左右的聪明学生一起培训，他们只是对深度学习有所耳闻而已，他们会问：「这个老头子是谁？为什么他在这里实习？」

Hinton说：「在午餐时间，有人大叫：『Hinton教授，我上过你的课！你在这里做什么？』自那以后，一切都变好了。」

几个月后，Hinton带着两个学生在ImageNet图像识别竞赛上展现出了真正激动人心的成果。谷歌很快就接触了Hinton，要给他和他的学生工作邀请。他们接受了。Hinton说：「我认为他们对我们的知识产权感兴趣，结果发现他们感兴趣的是我们。」

Hinton来自一个老式的英国家庭，希望在天文学或流体动力学领域做出一些小的贡献。他有一位伟大的曾曾外祖父乔治·布尔——计算机基础的布尔逻辑的提出者，还有一位曾曾祖父是著名外科医生，他的父亲是一位有冒险精神的昆虫学家，他的叔叔是洛斯阿拉莫斯国家实验室研究员……他在剑桥和爱丁堡上学，然后在卡内基梅隆任教，最后落脚多伦多大学，并在那里度过了他的半生时间（他的研究工作得到了加拿大政府的大力支持）。我在当地的谷歌办公室拜访了他，他会说一些奇怪的话，比如说：「计算机会比美国人先理解讽刺。」

自60年代末Hinton在剑桥的本科阶段以来，他就一直在研究神经网络，被视为这个领域的先驱。但在那个时候，当他谈论机器学习时，人们看他就好像在谈论托勒密球或水蛭。那时候神经网络被当作是未经证实的愚蠢想法。造成这种看法的主要原因是当时一个被炒作过度的项目：Perceptron（感知器）——康奈尔大学心理学家FrankRosenblatt在50年代末开发的一个人工神经网络。该研究的资助者美国海军预期其「能走路、说话、看见、书写、复制自己和意识到自己的存在」。结果没让任何人满意。

美国的人工智能元老MarvinMinsky也在他年普林斯顿的论文里研究过神经网络，但自那以后，他渐渐地就对Rosenblatt对神经范式的夸张说法感到厌倦了（他们当时也在竞争美国国防部的资金）。后来，Minsky和他的MIT同事出版了一本书，证明有一些非常基本的问题是感知器无法解决的。

Minsky对感知器的批评只扩展到了一层（layer）的网络，而后来，他却又阐释了和当代的深度学习非常相似的思想。但那个时候Hinton已经明白使用很多层的网络可以执行复杂的任务。对于神经网络的最简单的描述是：基于发现数据中模式的能力来进行分类和预测。如果只有一层，你只能发现一个简单模式；有更多的层时，你甚至能发现模式的模式。比如图像识别，现在这项任务依赖于一种被称为「卷积神经网络」的技术（该技术是由YannLeCun在其年的开创性论文中提出的，他是Hinton的博士后）。该网络的第一层学习非常简单的「边（edge）」，意味着一个off-pixel之后跟着一个on-pixel，或相反。后续的每一层都会在前一层中寻找模式。边的某一个模式可能是圆或三角形，而圆或三角形的模式又可能是一张脸……这种技术有点类似于人类视觉系统处理到达眼睛的信息的方式。在每一个感知步骤，不重要的细节会被丢弃。如果边、圆、三角形之类的模式能够组合成一张脸，那么我们的目的就达到了。

多层的深度神经网络的问题在于试错（trial-and-error）的部分会随着深度的增加而越来越复杂。这就像让孩子学习把玩具放进身边的箱子A，一下子就学会了。如果让他学习带着玩具走过一段很多分支的路然后放进A箱，那就可能会在中间走错路。怎么让机器学会这样复杂的指令呢？为了解决这个问题，Hinton及其同事在70年代末和80年代的停滞期发明（或者说重新发明）了一个解决方案，然后计算机科学家对神经网络的兴趣有了短暂的恢复。Hinton说：「人们对此感到兴奋，但我们炒作过度了。」不久之后，计算机科学家又继续将Hinton看作是怪人和神秘主义者了。

但这些思想却受到了哲学家和心理学家的欢迎，他们将其称为「联结主义（connectionism）」或「并行分布式处理（paralleldistributedprocessing）」。Hinton说：「少数几个人的想法就让这个思想继续燃烧，这是一个不错的神话。在人工智能领域这确实是事实，但是在哲学领域，很多人相信这是正确的，他们只是不能实践。」尽管Hinton得到了加拿大政府的资助，但他自己也不能做到。「那时候的计算机算力和数据都不够。我们这边的人常常说：『呃，如果我有一台真正大的机器，它就有效果。』这可不是什么很有说服力的论据。」

3.深度学习的深度解释

人脑中神经元的平均数量的数量级大概是亿。其中每一个神经元都与其它0个神经元相连，这意味着突触的数量是在万亿到万亿之间。我们目前仍然远远不能构建那么大规模的网络，但谷歌大脑的投资已经帮助实现了大约小鼠大脑的人工神经网络。

为了理解为什么规模会如此重要，你首先要理解这项技术的细节。有些人认为人工智能可以直接从图书馆或网络上读取理解知识，但事实并非如此。它们的工作是在数据中寻找模式——先是基本模式，然后寻找更复杂的模式。

如果这个简短的解释不够说明问题，没有技术背景的读者可以阅读下一节关于猫的故事（当然这一节也有猫）。

假设你要在老式的符号式人工智能模型上编程一个猫识别器。那么你需要花大量的时间来帮机器定义什么是「猫」——四条腿软软的毛、尖尖耳朵喵喵叫……所有这些信息组合起来构成了一只猫。然后你向其展示一张图片用于识别。首先，该机器需要分解图片中不同的元素，然后再将这些元素和它记忆中的信息进行比对。如果有四条腿、尖耳朵、有胡须、有尾巴、表情傲慢，那么这就是一只猫。但是这个模型却不能识别苏格兰折耳猫——这种有基因缺陷的猫的耳朵耷拉在头上。

现在让我们来尝试用神经网络识别猫。我们并不会人工编写猫的定义，它们的定义存在于大量互连的「开关」之中，就像一条带有大量分岔路的道路。在这团开关的一边是输入的图片，在另一边则是对应的输出标签。然后你让网络自己通过调整其中的每一个开关来将一个输入映射到对应的输出。这个训练过程就像是走隧道迷宫一样，目的就是要将输入和合适的输出连接到一起。训练数据越多，隧道的数量和复杂性就越大。一旦训练完成，这团开关之中就有了大量的隧道，可以在其从未见过的数据上做出可靠的预测，这就是所谓的「监督学习」。

为什么这样的网络需要如此之多的神经元和数据呢？因为从某种程度上讲，该网络的工作方式就像是一种「机器民主」。可以假想你想要计算机进行5种分类，你的网络由数亿个神经元「投票人」组成，他们可以进行5个选项的投票：猫、狗、蜘蛛猴、勺子和除颤器。然后你拿出一张图片问：这是猫、狗、蜘蛛猴、勺子和除颤器中的哪一个？投票者开始投票，然后网络统计员根据大多数的意见认为这是狗。

然后你告诉他：「不对，这是猫。再投一次。」

然后，统计员回头检查哪些投了猫，哪些选了其它的。选了猫的投票者获得了加权——「一票可当两票用」（至少在选择猫的时候，选择其他分类时权重可能不同）；这样不断调整知道得到正确的答案。所以重要的不是单个神经元的票，而是整个投票的模式。你的投票者越多，你就能获得越多的模式。如果你有数百万个投票者，你就能获得数十亿种模式。每一种模式都可以对应一种结果，这些不同的模式归类成不同的类别。训练的数据越多，网络就越了解一种模式属于哪一个类别，就能在未来遇到没有标注的图片时做出更准确的分类。

计算机科学领域对这些思想有如此大的抵触的部分原因是其输出只是基于模式的模式（patternsofpatterns)的预测，这不会是完美的，而且这样的机器也不能为你定义到底什么是一只猫。只有当它看到一只猫时，它才能知道那是猫。但这个方法的最主要缺点还是数据量。要让神经网络理解一只猫是在懒洋洋晒太阳还是躲在阴影里注视世界，我们需要给神经网络送入大量大量的数据，需要大量大量的投票者。而这是很难满足的需求。

值得一提的是，神经网络的概率性本质使其无法胜任某些任务。但有些情况我们又需要它完美，比如自动驾驶汽车的应用。但这不是唯一的缺陷。监督学习是一种基于有标签数据的试错过程。也就是说，机器的学习使用了人类最先设计的分类，这个过程有很大程度上的人类参与。如果你的训练数据存在对女性或少数族裔的偏差，那么最后得到的模型也会是有偏见的。

4.猫识别论文

在最初的一两年，谷歌大脑设计出了具有1岁孩童智力的机器，这些努力让其最终从X实验室毕业，进入了公司更宽阔的研究中。（谷歌X负责人曾提到谷歌大脑曾支付过X的所有花费）。而那时的谷歌大脑团队依然不足10人，也不清楚最后会得到什么。但即使如此，他们仍在思考接下来会发生什么。人的思想不需要多少时间就能学会识别球和其它东西，时间或长或短。然后，开始进军语言。

谷歌大脑在这个方向迈出的第一步是一篇关于猫的论文，也让谷歌大脑出名了。

这篇论文证明的是带有十亿「突触」连接的神经网络（要比当时公开的任何神经网络都要大数百倍，当然也要比我们大脑小无数数量级）能观察原始的未标记数据，从而为自己挑选出高级的人类概念。

谷歌大脑研究员像网络展示了YouTube视频的数百万张静止图片，无论是翻滚的猫，还是面部清楚的猫，神经网络会先剥离出一个稳定的模型，能毫不迟疑地识别出这是猫。机器之前从未被编程过有关猫的先验知识，它直接接触世界、为自己抓取想法。

当时大部分的机器学习还受限于标记数据的质量。猫识别论文证明机器也能过处理原始为标记数据，即使这些数据人类之前从未建立先验知识。这不仅是猫识别研究上的重大进展，也是整个人工智能的重大进展。

这篇猫论文的第一作者是QuocLe。他在越南顺化城边长大，父母都是农民，家中甚至没有电。但艰苦的环境没有埋没QuocLe的数学天赋，他很小就被送到科学院学习。在上世纪90年代后期，他还在学校中的时候，他尝试开发了一个聊天机器人。他想看看这到底有多难。

「但事实上，」他对我悄悄说道，「这实在是难。」

QuocLe从越南的农村一路走来，进入了堪培拉的澳大利亚国立大学。在那里，他进行了人工智能的一些研究。时间主导的方法，例如给机器传递边缘这样的概念，让他感觉有点像是作弊。QuocLe当时并不知道，这一领域当时在全世界有几十位学者正在做着同样的研究，很多人都不约而同想到了机器可以从头开始学习。在年，QuocLe在德国大学城Tübingen的马克斯·普朗克生物控制论研究所任职。在一个读书小组中，他接触了GeoffreyHinton的两篇论文。

「当时出现了一次很大的争论，」他对我说道。「一次非常大的争论。」我们坐在一个小型会议室里，一个狭窄的有着很高天花板的空间，配备了一个小桌子和两个白板。他看着他在他背后白板上画的曲线，轻声说道，「我从没有见过这样激烈的辩论。」

他记得他在读书小组中站起来发言，「这就是未来。」他表示，发表这种言论在当时那种情形下可不是一个很好的选择。他在澳洲国立大学的前导师，在小组里坐在他的旁边，事后发来电子邮件质问：「你为什么要这样做？」

「我当时没有办法回答这个问题，」Le说，「我只是好奇。那是一个成功的范式，但实话说我只是对这个新范式感到好奇。」年时，此类讨论活动还屈指可数。」很快他进入了吴恩达的门下，在斯坦福大学开始了追随Hinton理念的旅程。「到年底，我已经非常确定马上将有变革会发生了。」

随后发生了什么？不久以后，Le成为了GoogleBrain的实习生，在那里，他继续着自己的研究——最终成就了这篇猫的论文。在一个简单的层面上，Le希望看到计算机是否可以训练自己识别给定图像中最重要的信息。他的神经网络训练了从YouTube中获取的大量数据。之后，他命令神经网络丢掉图像中包含的一些信息，但他没有指定抛弃哪些信息。机器开始服从命令，抛弃一些信息，一开始，被抛弃的内容是随机的。随后他说：「好了，现在根据保留的信息尝试重新构建原始图像。」这就像他在让机器「总结」一张图片的内容，然后再从总结描述中还原这张图片。如果图片描述中包含的是不相关的信息——如天空的颜色而不是胡须——机器就不能有效地重建原始图像。

这就像一个原始人，需要在剑齿虎附近隐蔽自己的行踪，这个过程不能发出一点声音。Le的神经网络不需要原始人那样小心，它可以无限次地试错。每一次它都会在数学上「选择」一个新的最优解试图让信息的处理更加准确。

神经网络在某种程度上来说是一个黑箱。它识别模式，但识别模式的过程对于人类观察者而言并不总有直观意义。同样的网络既能识别猫，也能识别出某些形式的家具和动物的组合，比如一条长椅和一只山羊重叠在一起

Le并不认为自己是一个语言学者，但他认为这项研究和他早期的聊天机器人有一些相同之处。在猫论文之后，他意识到如果你要求神经网络总结一张照片，你应该要求它生成一句完整的话来形容照片的内容。这个问题是Le和他在谷歌中的同事TomasMikolov在之后两年里的主要研究内容。

在那个阶段，谷歌大脑发展迅速。有一段时间，他们在大楼的同一层办公，可以随时和高管们分享自己的想法。他们后来收到了一封电子邮件，信中要求他们禁止团队成员在LarryPage和SergeyBrin的套房前面的沙发上睡觉，因为这会让来访的客人们感到尴尬。随后，他们被分配在街对面的一个大楼中，在那里，他们在厨房中交流，不会被繁文缛节所拖累。在那段时间，谷歌的竞争对手们纷纷加快了追赶步伐。

Le一直向我强调他与TomasMikolov的密切合作，他以一种奇怪的方式重复Mikolov的名字，听起来有点可怕，他在说这个词的时候表现出了前所未有的庄严，我终于无法抑制住自己的好奇心，问道：「他是...？」Le点了点头。「他现在在Facebook了。」

GoogleBrain团队的图片小组在年发布著名的「猫论文」，展示了神经网络对于未标记数据的分析能力

他们花费了很长一段时间构建这个神经网络架构，使其不仅可以进行简单的照片分类，也可以识别各种静态的，但同样复杂的结构，如语言和音乐。其中用到的许多方法在20世纪90年代已被提出，Le和他的同事们回到那些长期被忽视的研究成果中去寻找。他们明白，一旦建立起了具有基本语言预测能力的系统，你就可以用它从事其他各种智能的任务——例如自动回复电子邮件或预测一个谈话流程。你会发现它看起来很神奇；在外行眼里，看起来它就像是在思考。

PartII：语言机器

5.语言学的转向

目前谷歌大脑团队不像是一个巨大的企业层次分明的科技公司的一个部门，而更像是一个社团或者一个学术集体，或者说是一个「星际酒店」。这些年来谷歌大脑团队的成员一直是整个谷歌内部比较自由且广受赞誉的员工。

当我6月份开始进驻谷歌大脑团队的时候，办公室里还有成排的空工位，但已被贴上便利贴，上面大多写着类似「Jesse，6/27」（新职工及将要入职时间）这样的标注。现在这些空工位都已满。

谷歌大脑团队的发展使得团队的负责人Dean开始有点担忧公司对需求的掌控。他想一改谷歌以往「成功毁灭者」的形象，而外界对谷歌的这个印象是由于谷歌在产品开发落地上的能力远不及其在理论研究上的能力。他曾做过简单的估算，并用一个只有2页的PPT向执行董事汇报了他的估算。「假设未来使用安卓手机的用户每人每天和手机语音对话的时间为三分钟，那么这就是我们所需服务器的总量。」也就是谷歌需要将他们的全球计算能力扩增1到2倍。「这个数量听起来有些吓人，但是我们必须去做——去建造新的数据处理中心。」他不愿去设想如果不这样做的后果。

但是还有另外一种解决方案：只需设计芯片，成批量的设计出让所有计算过程更快的芯片并在全球各地的数据中心使用。这些芯片将被称为「张量处理单元（TPU）」，这些芯片区别于普通芯片在执行计算过程时是非精确计算，这也是体现芯片价值之处。如在计算12.乘54.的时候，芯片会给一个12乘54的近似计算值。在数学层面上，一个神经网络只是一组成百上千或者成千上万的矩阵的有序计算。对这些矩阵的计算过程而言，计算速度比精确计算更重要。「一般情况下，为某一特别任务而设计硬件是一个不明智的做法。因为这样设计出来的硬件只能加速该项任务的计算过程。但是由于神经网络的普适性，你可以在很多其他的任务执行时运用专为神经网络而设计的硬件。」Dean说。

当芯片的设计过程即将完成的时候，Le和两个同事终于证明出神经网络可以用来构造语言模型。他的结论是基于「词向量」而得出的。当你看到图像的时候，大脑会从边缘到图形依次概括图像主要内容。语言概括的过程也与此类似，你本质上也是在构建不同维度的距离图。在构建的时候，依据惯用使用规则，构建一个词和其他单独的每一个词的距离。计算机并不是以人认知语言的方式进行语言分析的，而是在构建的距离图里转移、偏转或者倾斜词向量。二维的向量图是没有价值的。比如在地图中你希望cat在dog附近，同时cat也在tailsuperciliousmeme附近，因为你需要构建这些词相互之间的关系而且一个词（这里是cat）对于其他所有词的关系有强弱之分。如果一个词与其他所有词之间的关系各自成为一个独立的向量维度，那么一个词与其他词之间的关系就能一步构建出来。但是创建一个维度为16万的向量不是一件容易的事，所幸的是某种语言的词向量图完全可以用一个只有一千维度的向量图来很好的构建出来。换句话说来说，在这个词向量图的空间里，每个词是由一组个数值来定位的。

但是在这样构建的空间里，并不能很好地显示出不同种人的称呼之间的区别。如果把定位「king」的那组数对应的减去定位「queen」的那组数中相同位置的数那么得到的新向量将会同定位「man」的那组数对应减去定位「man」那组数的向量相同。如果让机器学习整个英语词汇所构建的向量空间图以及整个法语词汇所构建的向量空间图，在理论上你是可以训练出这样的一个神经网络，从英语中选取一条语句对应的生成法语中向量值相同的语句。在训练时，你只需要先将大量的英文语句作为网络的数据输入，然后将对应的法语语句作为网络的输出，进行一个监督学习的过程，在机器完成这个监督学习之后神经网络将会习得词语之间的关系，这就跟图像分类器能识别不同像素点之间的关系一样。词语和像素之间的主要区别在于一副图像中的像素点在时间上是没有先后之分的，而词语的使用是有时间先后的。你需要时刻让神经网络记住它是以时间先后的顺序来处理语句，即从语句的第一个词至最后一个词的顺序进行。在年9月的某周里，这种处理方法的所有理论工具在三篇论文中被提出来。一篇来自Le，另外两篇来自加拿大和德国的研究者。他们的研究催发了一些开发式的项目如谷歌大脑的Magenta项目，这个项目是对机器如何创作艺术作品和音乐作品的研究。同时也为工具性的研究（如机器翻译）扫清障碍。

6.伏击

Le的论文表明神经翻译是靠谱的，但是他只使用了一个相对较小的公共数据集。（对于谷歌来说很小，要知道谷歌拥有世界上最大的公共数据集。过去十年旧的翻译系统已经积累了比其使用的数据集大上成百上千倍的生产数据。）更重要的是，Le的模型对于超过7个单词的句子就不怎么管用了。

MikeSchuster那时是Brain团队的一名研究科学家，接管了这项研究。他明白如果谷歌找不到一种能将理论见解拓展到产品层面的方式，其他人也会找到的。这个项目花了他两年的时间。Schuster说，「你想要翻译一些东西，你就要有数据、做实验，并且你做了，效果未必如你所愿。」

Schuster是个时刻保持紧张专注，大脑永远灵活的家伙，皮肤黝黑，肩膀不宽，穿着窄口过膝迷彩短裤，脚踩一双闪着荧光的NikeFlyknits。Schuster在前西德blast-furnace区的杜伊斯堡长大，研究的是电子工程，后来去京都研究早期的神经网络。上世纪90年代，他做了一个会议室大小的神经网络机器实验；花费数百万美元，训练了好几周才能做一些你现在一个小时内就能在台式电脑上训练出来的东西。年，他发表了这篇研究的论文，之后的十五年都几乎没有人引用过；今年，这篇文章被引用了次左右。他不乏幽默，但穿着上总是流露出一种严肃的感觉，他的签名带着一种日本人和德国人特有克制感。

这个非解决不可的问题很棘手。一方面，Le的代码是自定义编写的，与谷歌之后新开发的开源机器学习平台TensorFlow不兼容。年秋天，Dean给Schuster介绍了另外两名工程师，YonghuiWu和ZhifengChen。然后他们花了两个月将Le的结果复制到这个新系统上。Le就在旁边，但是他从头到尾都没有给过他们一点指导。

就像Schuster说的那样，「很多工作都不是在完全清楚的情况下完成的。他们不知道自己为什么要做。」今年二月，谷歌的研究组织——谷歌的一个松散部门，大约有名员工，做的都是前瞻性和一些未知的研究——将总部外的各个带头人召集到联合广场上的WestinSt.Francis酒店，奢华程度略低于谷歌自己在东部一英里之外三藩市里的那家店。上午是几轮的「闪电会谈」，快速汇报最新的研究进展，下午是悠闲的跨部门「促进讨论。」这次召集是为了提供一个场合能促进不可预测的、不明朗的、贝尔实验室风格的交流，期望这种交流能给公司带来更多的生产力量。

午餐时间，Corrado和Dean两人在找谷歌翻译的负责人MacduffHughes。Hughes一个人用餐，两名谷歌大脑的成员坐在离他有点距离的两边位置上。就像Corrado说的那样，「我们伏击了他。」

「O.K.」Corrado想放松Hughes的警惕，让他的呼吸恢复平稳。「我们要和你谈点事。」

他们告诉Hughes年是个不错的时机，可以用神经网络重整一下谷歌翻译——数百名工程师超过十年编出来的代码。这个旧系统采用的是30年来所有机器翻译系统采用的方法：它能将连续的句子片段隔开，在一个大型统计衍生词汇表中检索句子中的单词，然后使用一组后处理规则附上适当的结果，再重新排列起来组合成句子。这个方法叫「基于短语的统计机器翻译」，因为直到该系统获取下一个短语，它才知道这个短语是什么。这就是为什么谷歌翻译的输出有时像一对抖动后的冰箱贴。如果谷歌大脑团队的神经网络能用到翻译中来，就能实现阅读并在一个草稿上呈现完整的句子。它会扑捉整个语境，这和句子表达的意思紧密相关。

赌注似乎很低：谷歌翻译带来的收入最小，而且这种情况可能会一直持续下去。对于大多数以英语为母语的用户来说，即使是激进地升级一个服务，也不会给他们带来任何用户体验上提升。有个案例可以说明这个问题，人类水平的机器翻译不仅是短期内的必需品，长期来看其发展也很可能会带来颠覆性的变化。在这中间，公司打什么样的战略至关重要。谷歌估计，英语中有50%的使用来自20%的世界人口。如果谷歌打算进军中国——这里大多数搜索引擎流量的市场份额属于它的竞争对手百度——或印度，得体的机器翻译将是基础系统不可或缺的一部分。年7月，百度也发表了一篇关于神经机器翻译的开创性论文。

在更远的将来，机会更多，机器翻译可能是迈向一个使用人类语言的通用计算设备的第一步。这将在真正的人工智能的发展道路上代表一个主要的转折点，或许它本身就是主要的转折点。

硅谷的大多数人都意识到机器学习是一条捷径，所以Hughes预料到Corrado和Dean会来找他谈这个事情。他仍然保持怀疑。这个温和强壮刚刚步入中年的男人，蓬乱的褐色头发，两鬓却已斑白。Hughes是一个典型直线条的工程师，就是那种上世纪70年代出现在波音飞机草稿桌上工匠。他知道，多年来在谷歌其他岗位上或者谷歌之外其他地方的很多人一直试图做神经翻译的研究，不仅是实验室里的还有能投入量产的，但是收效甚微。

Hughes听了他们的案例，最后小心翼翼地说，这听上去就好像他三年内就能做出来一样。

Dean却不这么想。「如果我们真的想做，今年内就能做出来。」人们喜欢并崇拜Dean的一个原因就是他总能成功地实现自己的想法。另一个原因是，他能轻松地说一件很严肃的事情，「我们能不能把我们的想法加进去。」

Hughes那时肯定神经翻译不会那么快实现，他个人不关心是一个原因。「我们来为年做准备，」他回去告诉他的团队。「我们不会说JeffDean没那么快。」一个月后，他们终于可以运行一个并排（side-by-side）实验，将Schuster的新系统与Hughes的旧系统相比较。Schuster想用它来试一试英语-法语翻译，但是Hughes建议他换个语种试试。「英语-法语太简单了，提升不会太明显。」

Schuster不会坚持这个挑战。评估机器翻译的基准度量是BLEU得分，它将机器翻译的结果与许多可靠的人类翻译的平均水平相比较。当时，英语-法语最好的得分是20s。有一个点的改进就是非常好；两个点的改进就算是十分出色了。

英语-法语语对上的神经系统改进比旧系统多达7分。

Hughes告诉Schuster的团队，在过去四年里，他们自己的系统中从来没有出现过这么大的改进。

为了确保这不是侥幸得出的，他们也利用人力对此进行了平行比较。在用户体验得分中，其中例句得分从0到6，平均改善了0.4——大致相当于旧系统在其整个生命周期的总增益。

谷歌的QuocLe（图右），他的工作证明了神经翻译的合理性，MikeSchuster帮助将这项工作应用于谷歌翻译。图片来源：BrianFinkeforTheNewYorkTimes

三月中旬，Hughes给他的团队成员发了一封邮件，暂停了所有旧系统有关项目。

7.将理论变为产品

在那之前，神经翻译团队只有三个人（Schuster、Wu和Chen），但是在Hughes的支持下，更多的团队开始了联合。后来他们在谷歌大脑写字楼开会，会议一般有十几人参加。当Hughes或Corrado在的时候，他们是仅有的以英语为母语的人，工程师们用混杂的语言和数学进行表达，不过他们讲中文、德语和日语等其他语言。在Google，谁举行会议并不总是完全清楚的，但这次会议是没有疑义的。

不过即便如此，他们所需要采取的步骤还是不完全确定的，整个过程都是不明确的。Schuster将手伸出到胸前8英寸说：「这就像在大海里游泳，你只能看到这么远的距离，目标就在某处，或许它就在我们这里」

大多数谷歌的会议室都配有视频聊天显示器，它会在闲置时显示极高分辨率的过饱和公开Google+照片，包括梦幻森林、北极光或德国国会大厦。Schuster指向正在显示华盛顿纪念碑水晶般静立的夜景屏幕，「外人会认为我们每个人都有双筒望远镜，可以看到遥远的前方。」

到达现在的理论工作已经让他们精疲力竭了，那么将它转化为可行的产品呢，做学术的科学家可能就会将其归于纯粹的工程学，并认为要实现起来是不难的。首先，他们需要确保有良好的数据进行训练。谷歌数十亿词的「阅读」训练主要是由中等复杂性的完整句子组成，就像海明威的那样。其中一些是公共领域内的：统计机器翻译RosettaStone就是数百万页的加拿大议会的完整的双语记录建立的。然而它的大部分都从10年收集的数据中剔除，包括从热心的受访者得到的众包翻译数据。他们团队的语料库里有大约万个独特的英语「单词」。但是一旦他们删除了表情符号、拼写错误和冗余，他们的有效词汇量就只剩下了大约16万。

然后你不得不重新

转载请注明地址:http://www.huashengduna.com/hsdjp/20755.html

上一篇文章：霍普金斯大学美国新冠确诊病例累计超
下一篇文章：送别美国今日为前总统老布什举行国葬全国