深度揭秘Google翻译:人工智能的觉醒 | 猎云网

深度揭秘Google翻译:人工智能的觉醒 | 猎云网

时间:2021-05-04 07:51 作者:匿名 点击:
GeoffreyHinton,是他为GoogleTranslate的神经网络打好了基础
最不可能的实习生
GoogleBrain在实验的头一年里就达到了1岁小孩的智力水平,这个成就是非常喜人的。Brain的语音识别团队把部分老系统用新系统取而代之,结果进步之大简直超过了老系统在20年里所能做到的。Brain系统的物体辨认能力也在短短1年内有了惊人的飞跃,不过这主要是因为Google终于愿意把大量的资源投入到这个项目中。
GoogleBrain能有今天,很大程度上要归功于深度学习专家GeoffreyHinton。在Brain诞生的第二年,Geoffrey加入了该团队,顶替离职了的AndrewNg(AndrewNg现在为百度效力,带领着1300多人的A.I.团队)。当时Hinton想从多伦多大学离职3个月,所以他是以实习生的身份加入Brain团队的。结果在实习生培训中,一群25岁左右的年轻人窃窃私语:“那位老人家是来干嘛的?”
“在我排队等午饭的时候,人群中有人大叫:‘Hinton教授!我还听过您的课呢!您为什么会在这里?’一切终于都正常了。”Hinton说道。
几个月之后,Hinton和他的两位学生在ImageNet举办的大型图像识别比赛上展现了惊人的成果。在这场比赛中,电脑不仅被要求辨识出猴子,还要辨别出蛛猿和吼猴,以及不同品种的猫。Google立刻向Hinton和他的学生发出了邀请,对方也欣然接受了。“我还以为他们是对我们的作品感兴趣,没想到是真的对我们三个人有兴趣。”Hinton说道。
GeoffreyHinton的家族在科技界颇有名望。他的高曾祖父GeorgeBoole提出的符号逻辑成为了现代计算机的基础,另一位高曾祖父是著名外科手术医生;他父亲是一位爱冒险的昆虫学家。Hinton曾在剑桥和爱丁堡大学就学,之后在卡耐基梅龙和多伦多教学。加拿大政府对他的研究给予了大量的资金。
Hinton从1960年代还在剑桥读书的时候起就在研究神经网络。在计算机界,Hinton就是智能的始祖。不过当时没人相信Hinton的神经网络理论。这主要是因为大众对FrankRosenblatt引领的人工神经网络研究项目thePerception期望太高,但这个项目却并没能成功。据纽约时报报道,美国海军曾希望thePerception“能走,能说话,能看,能写,能复制自己,能意识到自己的存在”,但最后无论哪一项它都没有完成。美国人工智能先驱MarvinMinsky也曾研究过神经网络,但最后他厌倦了Rosenblatt吹的牛逼,最后他在和M.I.T.的同事们出版的书中指出,有些极度基本问题却是thePerception永远也无法解决的。
Minsky在对thePerception的批评还只停留在一层神经网络的不完善,直到多年后他才提出了类似于现代深度学习的理论。但在那个年代,Hinton早已知道只要采用多层神经网络结构就能完成复杂的任务。所谓神经网络,最简单的解释就是:它是能通过在数据中找出规律来进行分类或预测的机器。一层神经网络只能找出最简单的规律;多层神经网络就能找出规律中的规律。
举个例子,图像识别通常依赖于卷积神经网络。这种神经网络的第一层会学习“轮廓”,只提取边缘、线条等第几特征,下一次曾网络再找出上一层网络的规律。例如第几特征可能是圆圈或者长方形,而这些圆圈和长方形等图案里找出来的规律可能就是人脸。
1993年,YannLeCun演示了卷积神经网络的早期版本,90年代后期开始全美支票识别的10-20%都应用了这种技术。如今最先进的图像识别系统也采用了类似的技术。
多层“深度神经网络”最麻烦的问题在于试错过程实在太复杂。如果是单层神经网络那倒还简单。想象一下你在带一个孩子,你和他说:“拿起绿球放进箱子A。”于是孩子拿起了绿球,放进了箱子B。你说:“再次拿起绿球,放进箱子A。”这次孩子放进了箱子A。好极了!
现在你对孩子说:“拿起绿球,走过第三扇门,把球放进箱子A。”孩子拿起了红球,走过第二扇门,把球放进了箱子B。你该从哪里开始纠正呢?你不能把指令原样重复一遍,因为孩子自己也不知道他哪里出错了。现实生活中你可以拿起红色和绿色的球对他说:“这是红球,这是绿球。”但机器学习的意义就是要避开明确的指示。Hinton当时发明的方案成功解决了层次错误问题,但由于人们期待过高,最后电脑科学家很快又认为Hinton这样的人就是故作玄虚的怪胎。
有关深度学习的深度解析
Pichai强调,Google今后转型为“A.I.第一”指的并不是公司在商业战略上的转变。Pichai安排的资源分配保障了Hinton这样的人才可以有足够的计算机和数据来实现他们的理论。虽然说现阶段我们还无法做出与人脑相当的神经网络,但GoogleBrain的投资至少能让Hinton和他的团队做出老鼠大脑相当的人工神经网络。
目前为止人们对人工智能的恐惧很多都是怕人工智能今后会像反社会天才一样学习完图书管理的所有知识,然后把人类当生菜或是蚂蚁处理。但人工智能根本不会这么工作。他们会做的就是从信息里寻找共同点,例如基本规律,然后再进入到复杂。目前阶段人工智能最大的危险就是在给它们输入数据时一定要注意数据尽量不要有偏差。
想象一下,你用旧符号人工智能写了一个识别猫的程序。你花了好几天给机器灌输各种有关“猫”的定义。你告诉它,猫有四条腿,耳朵尖尖的,长着胡须和尾巴,等等等等;这些信息都被储存在了名为“猫”的记忆体中。然后你给计算机看猫的图片。电脑一定要从图片里分辨出这些特定要素,它才判断图片上的是猫。但如果你给它看苏格兰折耳猫呢?它就狗带了。
现在你决定让神经网络识别猫,不过神经网络没有任何明确的地方可以让你储存“猫”的定义,只有一堆互相连接的开关。这团网络的一端是Input(输入),也就是图片;另一端是Output(输出),也就是标签和定义。然后你让计算机自己找出规律,让输入对应到正确的输出。
网络之所以需要如此多的神经单元和数据是为了达成“机器民主”。想象一下你想教你的计算机分辨五样东西;计算机的网络里有几亿个神经单元充当“投票人”,每个人手里都有五种选择:猫、狗、蛛猿、勺子和除颤器。
然后你给选民们看一张照片,问他们“这是猫、狗、蛛猿、勺子还是除颤器啊?”所有投了同一选项的神经单元都被归到一组,然后网络里的领班辨认出票数最高的选项:“是狗吗?”
你说:“错了大师,是只猫。再来。”
于是领班再回去检查,哪些选民选了猫,哪些没有;那些选了猫的今后每次它们选“猫”时,他们的票数就当成双倍计算。这是因为系统要保证他们在识别狗和除颤器时也一样准确。神经网络能够如此灵活就是因为每个独立的单元可以为不同的输出做不同程度的贡献。重要的不是每一张票,而是投票的总体趋势和规律。如果Joe、Frank和Mary选择相同,那结果就是猫;如果Kate、Jessica和Frank选的一样,那就是除颤器。在经过足够的训练之后,神经网络就会记住规律:“这样的像素排列就是人们所说的‘猫’。”“选民”越多,让他们投票次数越多,网络就能记录更多的信号。
之所以会有这么多电脑科学家反对人工神经网络,原因就是因为它的预测是建立在规律中的规律上;它永远都不会达到完美,机器也永远无法给你一个明确的“猫”的定义。但好处也就在这里:只要你给它看过够多的图片,无论是什么样的猫它都能认得出,不管是晒太阳的还是躲在盒子里的。只要有够多的“选民”抓出所有细小的规律——例如苏格兰折耳猫,以及足够的标号数据,保证你的神经网络见识过可能发生的偏差。
但要注意的是,人工神经网络依赖于几率就意味着它们并不适合所有任务。如果它们在1%的情况下弄错猫或者狗,或者把你指引到错误的电影院,这些都还不算太惨;但如果放到自动驾驶车上的话,问题就大了。机器会学习,但初始分类仍然要人类来完成。如果你的把一张照着穿着西装的男人和女人标记为“女的和她的老板”,这样的关系就会被编入到今后的规律识别中。所以说,如果人类在输入时加的标签不够清楚或是容易出错,机器记住的标记了的数据也就容易出错。如果银行让电脑判断适合贷款的可信用的客户,机器可能会靠重罪犯列表等数据来判定。但如果这些数据一开始就不公平、不够准确,那么结果自然也有偏差。
像识别猫这样的图像识别网络不过是深度学习的诸多变种之一,但它可以算作是这一类神经网络的典型教材,因为每层网络做的事至少能让人类看出它们的分工。这种结构的好处就是系统对于错误的判断是有保险的。
猫论文
在头1到2年的时间里,Brain项目展示了可喜的成果和前途,研究团队终于从X实验室转移到了更大的研究机构(GoogleX的领头人曾提起过,Brain项目支付了整个X实验室的开支)。团队规模依然不到10人,但前面的路都已经计划好了。
第一步是Brain发布的有关猫识别的论文,也正是这篇论文让Brain名声大噪。
猫论文向人们展示了拥有10亿多个突触链接的神经网络究竟能做到什么。这个神经网络的规模大于当时阶段的任何一个人工神经网络,当然比人类的大脑还是小了几个次方。Brain研究人员给神经网络看了数百万的YouTube视频的截图,神经网络自行总结出了猫脸的规律。电脑没有任何关于猫的特定标签或是预备知识,它只是直接进入了这个世界,自己找到了规律。研究人员通过神经网络的分析图像(相当于人类的M.R.I.),发现是一个模糊的猫脸影响让人工神经单元给“猫”投了最多的“票数”。在当时阶段,大部分机器学习还局限于标记数据的量。而猫论文则向世人展示了电脑也能处理未标记数据。这不仅是猫识别研究项目的大进步,也是人工智能技术的大突破。
猫论文的主要作者是QuocLe。Le本是越南人,父母都是稻农,家里也没有电。Le从小就在数学方面展现出了天赋。90年代后期,还是学生的Le想自己造个机器人陪自己聊天;他当时想,这能多难?
“但事实上,真的实在太难了。”Le说道。
工作后,Le偶然读到了GeoffreyHinton的两篇论文。
“他的辩论太宏伟了。那是我之前从未见识过的。”
Le决定放弃当时的工作,去斯坦福加入Ng的研究,追寻Hinton的理念。“到2010年底,我就非常确定我们的研究肯定能搞出什么大新闻来。”
Le进Brain团队当实习生后,就开始苦心钻研自己的论文,也就是后来的猫论文。起初他只是实验性地给神经网络看YouTube视频中截取的静止画面,让电脑自己删除图片中的部分信息,但并没有指示要删哪些信息。起初,电脑是随即删除信息的。然后他让电脑再把图片复原。这就好比他在要求电脑“总结”图片。逐渐电脑就总结出了规律,不过有些它找出的规律在人类看来是无法理解的。比如这个善于识别猫的系统不知道为啥还迷上了奇怪的形状,看起来像是奥特曼和羊的结合体。
Le当时觉得这个神经网络或许和他当年想做的聊天机器人会有千丝万缕的联系。如果电脑能总结照片,或许也能总结一句句子。这个问题成为了Le和他在Brain的另一位同事TomasMikolov接下来两年的课题。如今Mikolov已经离职去了Facebook。