有句话叫作,你能看见多久的历史,就能看见多远的未来。让我们首先简单回顾一下互联网和人工智能之间的历史风云。
大家对于互联网的历史多少已有耳闻。互联网于20世纪60年代诞生于美国军方的实验室,一开始用来在几所高校和科研机构之间传递和共享情报。到了20世纪80年代末,一群科学家提出万维网概念并创造了TCP/IP(互联网传输控制协议),赋予计算机联网通信的统一标准,使互联网得以向全世界扩展。至此,一条宽阔深远的信息高速公路展现在世人面前。
大约20年前,23岁的年轻人马克·安德森发明了网景浏览器,就此点燃了大众互联网的熊熊火焰,打开了互联网商用的大门。那时,微软开始焦虑自身的软件业务会不会被互联网颠覆,太阳公司的年轻人则毅然与僵化的公司割裂,决定发明一种可以在各种操作系统上通用的语言,以此打破微软的垄断,闯开互联网创新之门,于是就有了Java(程序设计)语言的诞生。Java语言极大地加速了互联网产品的开发创造。
当时的中国,在北京、上海也还找不到几家网吧,1997年,也就是香港回归的那一年,瀛海威刚刚开通全国网络接入服务,张小龙刚刚写出了Foxmail电邮软件程序,全国信息化工作会议也在那一年召开……从外面看万维网世界,一切都是刚苏醒的模样。但在技术圈,新技术、新思想层出不穷,各种商战明争暗斗正酣。
那时我还在美国搜索引擎先驱Infoseek公司工作,在第一线感受互联网商战气氛,感受美国人对新科技浪潮的昂扬热情。当时我想,新技术革命正在发生,中国准备好了吗?我在1998年写出了《硅谷商战》一书,详细描绘了硅谷天才们的奋斗与创新过程。在写完这本书后,我于1999年回国,在北京一家宾馆的房间里创办了百度公司。
回想网景、太阳、微软这三家公司在互联网领域类似三国争雄般的时代,至今依然激动不已。当时人们都在猜测谁是最后的赢家。微软看上去好像是不可战胜的,它总是能消化新技术。网景的发展则是起起伏伏,最终被美国在线收购,而美国在线也在2014年被以无线业务称雄的Verizon(威瑞森)公司收购。后来,Verizon还收购了叱咤风云多年的雅虎。太阳公司一度如日中天,2001年在全球拥有5万名雇员,市值超过2000亿美元。然而当互联网泡沫破碎时,太阳公司在一年内由峰顶跌入谷底,2009年被Oracle(甲骨文)公司收购。
俱往矣,互联网的发展大大超出了当时大多数人的预料,新科技公司快速崛起,苹果、谷歌终于凭借手机操作系统完成了对微软的逆袭。而创造网景浏览器的马克·安德森——我在《硅谷商战》开篇就描摹的创新者,如今已没有多少90后知道他的名字。
但马克·安德森并没有离开,他成了硅谷风投界的教父。互联网技术也依然继续高歌猛进。昔日人们关注互联网大咖明争暗斗,今日人们感慨移动互联设备全面超越PC,却一直无意中冷落了一个默默崛起的“幽灵”。这个“幽灵”就是人工智能,互联网只是它的身体之一。
人工智能的黎明
人工智能的历史早于互联网,与计算机历史相伴。1956年达特茅斯会议召开,人工智能被正式提上日程。那时候一台计算机的体积有一栋房子那么大,计算能力低下,为什么就有人敢于提出人工智能的概念?这就在于科学家的洞察力。当时,香农早已完成他的三大通信定律,为计算机和信息技术打下基础。明斯基已经造出第一台神经网络计算机(他和同伴用3000个真空管和一台B-24轰炸机上的自动指示装置来模拟40个神经元组成的网络),不久后写出了论文《神经网络和脑模型问题》。这篇论文在当时没有太受重视,日后却成为人工智能技术的鼻祖。而图灵则早在1950年就提出了如今人尽皆知的图灵测试理论以及机器学习、遗传算法、强化学习等多种概念。
图灵去世两年后,在达特茅斯会议上,麦卡锡正式提出人工智能的概念。参与会议的十位年轻科学家在会议之后都成为世界各国人工智能领域的领军人物。人工智能短暂的春天开始了。不过当时他们的成绩更多被埋没在计算机发展成果之中,比如,可以解决闭合式微积分问题的程序,搭建积木的机械手等。
理想超前但基础设施尚在襁褓中。超前的人工智能遇到两个难以克服的瓶颈:一个是算法逻辑自身的问题,也就是数学方法的发展还不够;另一个是硬件计算能力的不足。比如,机器翻译就是典型问题,科学家夜以继日地总结人类语法规则,设计计算机语言模型,机器却始终无法把翻译准确率提升到令人满意的程度。
图1-1 达特茅斯会址
注:使用手机百度或智能革命App扫描图片可见AR效果。
新技术和产业链条没有被打通,令人兴奋的产品应用没有被发明出来,政府投资和商业投资都大幅度减少,人工智能研发在20世纪70年代中期到90年代经历了两次低潮,只是普通大众并没有感受到,毕竟高速发展的计算机本身就已经是很神奇的智能工具了。
对于普通人来说,接触最多的“人工智能”实例大概就是街机游戏了,20世纪80年代在中国的一些小县城街头就已经出现了游戏厅。那些街机NPC(非玩家控制角色)总是能被熟练玩家轻松战胜,这不仅可以看作“人工智能”能力低下的表现,也造成了一种错误观念:智能是安装在一台计算机中的事物。直到互联网和云计算的兴起,这种观点才被改变。
百炼成钢
2012年,我注意到深度学习在学术界和应用方面都有了突破。比如,用深度学习的方法来识别图像,突然就比以前的任何算法都有明显提升。这个时候我马上意识到,新的时代来临了,搜索将被革新。过去我们用文字搜索,现在可以用语音和图像进行搜索。比如我看到一株不认识的植物,拍一张照片上传搜索,就可以立刻识别出来它叫福禄桐。过去用文字搜索是没法描述这样的植物的。不仅是搜索,很多过去不可能的事情现在都可能了。
语音识别能力、图像识别能力、自然语言理解能力,包括为用户画像的能力,这些都是人的最本质的智慧能力。当计算机拥有了人的这些能力时,一场新的革命就会到来。以后速记员和同声传译人员可能会被机器代替,计算机可以做得更好。以后也许不需要司机了,车自己就可以开起来,更安全,更有效率。在企业里面,金牌客服可能人人都可以做了,因为有了智能客服助手。人工智能对人的这种赋能,超过了以往任何一个时代。工业革命解放了人的体力,过去一些像搬石头之类的粗活需要人类自己来干,现在机器可以替你把更巨大的石头搬起来。智能革命到来之后,原本很多需要费脑子的事情,机器也可以帮你做。未来20~50年,我们会不断看到各种各样的变化,收获各种各样的惊喜。这是一个很自然的过程。
然而,站在智能革命开始的时点,有必要向那些人工智能科学的坚守者、开拓者致敬。
在资本寒冬期,有少数科学家依然坚持人工智能领域的探索。如今百度拥有一支庞大且实力雄厚的人工智能研究团队,其中不少担纲者从20世纪90年代开始就在从事机器学习研究工作,或师从名师,或在大科技公司从业多年,今天的研发成绩只是水到渠成、顺势而为的结果。
20世纪90年代只有Geoffrey Hinton(杰弗里·辛顿)、Michael Jordan(迈克尔·乔丹)等少数科学家坚持机器学习领域的探索。原百度首席科学家吴恩达在20世纪90年代就师从Jordan,后来他通过开创在线课程,把机器学习的理论传授给无数年轻人。现任百度研究院院长林元庆,百度杰出科学家以及世界上最早利用神经网络做语言模型的徐伟等人,十多年前就在深度学习的重镇NEC(日本电气股份有限公司)的美国实验室工作。在那里工作过的人工智能专家,有发明SVM(Support Vector Machine,支持向量机)的美国工程院院士Vladimir Vapnik(弗拉基米尔·瓦普尼克),有发明卷积神经网络的深度学习领军人物、现任脸书(Facebook)人工智能实验室主管的Yann Le Cun(扬·勒丘恩),还有深度学习随机梯度算法的核心人物Leon Buttou(利昂·布托),以及原百度深度学习实验室主任余凯等。
他们中的很多人都经历了人工智能研究的数次潮起潮落。简单来说,最初的人工智能研究大多基于规则——人类总结各种规则输入计算机,而计算机自己并不会总结规则。比这个高级的方法是基于“统计”的机器学习技术,让计算机从大量数据和多种路径中寻找概率最大、最合适的模型。
这两年促使人工智能再度技惊世人的技术,则是机器学习技术的升华版——基于多层计算机芯片神经网络的“深度学习”方法。通过多层芯片联结,模仿人脑大量神经元的网状联结方式,辅以精妙的奖惩算法设计和大数据,可以训练计算机自己从数据中高效地寻找模型和规律,从而开启了一个机器智能的新时代。
正是少数人的坚持,为人工智能的王者归来保存了火种。在中国,百度是最早布局人工智能的公司之一,我们似乎是自然而然地做了很多其他公司当时还没听过的事情。六七年前,在美国,陆奇和我畅谈了深度学习的巨大进展。于是我们下定决心要大举进入这样一个领域。最终,在2013年1月,百度年会上我正式宣布了IDL(深度学习研究院)的成立,这应该是全球企业界第一家用深度学习来命名的研究院。我自任院长,不是因为我比其他人更懂深度学习,而是用我这块牌子,来展示对深度学习的高度重视,来召唤那些坚守多年的科学家一起奋斗。
过去百度从不专门成立研究机构,我们的工程师就是研究人员,研究始终与实际应用结合得非常紧密,但是我认为,深度学习会在未来很多领域产生巨大影响,而那些领域并不都是百度现有业务范围之内的。所以,有必要创造一个专门的空间,把人才吸引进来,让他们能够自由发挥,去尝试各种各样的创新,在百度过去可能从来没有接触过的领域做研究,为全人类的人工智能革命探索道路。
“智能”已换代
如果人工智能的启蒙阶段可以称为1.0时代的话,那么现在很明显已经大步进入2.0时代了,机器翻译就是典型案例。过去的机器翻译方法就是基于词和语法规则进行翻译——人类不断地把语法规则总结出来告诉机器,但却怎么也赶不上人类语言尤其是语境的多变,所以机器翻译总是会出现诸如把“how old are you”翻译成“怎么老是你”的笑话。
后来出现了SMT(统计机器翻译),基本思想是通过对大量的平行语料进行统计分析,找出常见的词汇组合规则,尽量避免奇怪的短语组合。SMT已经具有机器学习的基本功能,有训练及解码两个阶段:训练阶段就是通过数据统计让计算机构建统计翻译模型,进而使用此模型进行翻译;解码阶段就是利用所估计的参数和给定的优化目标,获取待翻译语句的最佳翻译结果。
SMT研究在整个业界已经持续了二十多年,对于短语或者较短的句子,翻译效果显著,但是对于较长的句子翻译效果就一般了,尤其是对语言结构差异较大的语言,例如中文和英文。直到近几年NMT(基于神经网络的翻译)方法崛起。NMT的核心是一个拥有无数结点(神经元)的深度神经网络,一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表达形式,再经过多层复杂的传导运算,生成另一种语言的译文。
但是应用这个模型的前提是数据量要大,否则这样的系统也是无用的。像百度和谷歌这样的搜索引擎,可以从互联网上发现和收集海量的人类翻译成果,把如此巨大的数据“喂给”NMT系统,NMT系统就可以训练和调试出比较准确的翻译机制,效果要好于SMT。中文和英文之间的双语语料信息储备越多,NMT的效果就越好。
SMT以前用的都是局部信息,处理单位是句子切开以后的短语,最后解码时将几个短语的译文拼接在一起,并没有充分利用全局信息。NMT则利用了全局信息,首先将整个句子的信息进行编码(类似人在翻译时通读全句),然后才根据编码信息产生译文。这就是它的优势,也是其在流畅性上更胜一筹的原因。
比如,翻译中有一个很重要部分是“语序调整”。中文会把所有的定语都放在中心词前面,英文则会把修饰中心词的介词短语放在后面,机器常混淆这个顺序。NMT在语序学习上的优势带来了它翻译的流畅性,尤其在长句翻译上有明显优势。
传统的翻译方法也不是一无是处,每一种方法都有其擅长的地方。以成语翻译为例,很多时候有约定俗成的译文,不是直译而是意译,必须在语料库中有对应内容才能翻译出来。如今互联网用户的需求是多种多样的,翻译涉及口语、简历、新闻等诸多领域,一种方法很难满足所有的需求。因此百度一直把传统的方法如基于规则的、基于实例的、基于统计的方法与NMT结合起来向前推进研究。
在这种机器翻译的模式中,人类要做的不是亲自寻找浩繁的语言规则,而是设定数学方法,调试参数,帮助计算机网络自己寻找规则。人类只要输入一种语言,就会输出另一种语言,不用考虑中间经过了怎样的处理,这就叫作端到端的翻译。这种方法听起来挺神奇,其实概率论里的贝叶斯方法、隐马尔科夫模型等都可以用来解决这个问题。
以资讯分发当中的贝叶斯方法为例,可以构建一个用概率来描述的人格特征模型。比如男性读者模型的特征之一是在阅读新闻时点击军事新闻的概率是40%,而女性读者模型是4%。一旦一个读者点击了军事新闻,根据图1-2中的贝叶斯公式就可以逆推这个读者的性别概率,加上这个读者的其他行为数据,综合计算,就能比较准确地判断读者的性别以及其他特征。这就是数学的“神奇”。当然,计算机神经网络使用的数学方法远不止这些。
图1-2 贝叶斯与贝叶斯公式[1]
类似机器翻译的人工智能技术方法的前提是数据量足够大。互联网提供了以前科学家梦寐以求却难以得到的海量数据。互联网诞生的初衷是为了信息沟通方便,结果带来了信息爆炸,信息爆炸又促进了人工智能技术的发展。
再以下棋为例。1952年瑟·萨缪尔编写了跳棋程序,水平能达到业余高手程度。跳棋规则比较简单,计算机在这方面有人类很难比拟的优势,但是国际象棋就难多了。百度总裁张亚勤在微软担任研究院院长的时候,请来中国台湾计算机才子许峰雄,他在IBM(国际商业机器公司)的时候开发了名噪一时的国际象棋机器人“深蓝”。20世纪90年代的人工智能代表非“深蓝”莫属,“智慧”集中在一台超级计算机上[使用了多块CPU(中央处理器)并行计算技术],连续战胜人类国际象棋高手,并终于在1997年战胜了人类国际象棋冠军卡斯帕罗夫。不过富有意味的是,比赛之后不久,IBM就宣布“深蓝”退役了。张亚勤对许峰雄说,“你去做围棋吧,等能下赢我的时候再来找我”,但直到他离开微软,许峰雄都没有再来找过他。
“深蓝”本身面临一些无法突破的瓶颈,虽然可以处理国际象棋棋盘上的运算,但面对围棋棋盘上达到宇宙数量级变化的可能性,只能望洋兴叹。基于决策树算法,穷举一切走子可能性的模式超出了计算机的承载能力,虽然算法不断优化,但还是无法突破计算瓶颈。以围棋为代表的东方智慧,面对人工智能似乎可以稳若泰山,但一个新时代正在来临。
Internet的大会师
“深蓝”代表的计算机智能似乎与互联网无关,然而云计算和大数据的发展,使得人工智能和互联网终于合二为一,元神合体,获得了一种不同于“深蓝”时代的智慧模式。多芯片分布式计算加上人类积累的大数据,再通过超越决策树的新算法来贯通,体现了人类智慧与机器智慧的结合。
2016—2017年,AlphaGo(阿尔法围棋)横扫人类围棋高手圈。AlphaGo的下棋“思路”不同于人类,也不同于“深蓝”。简而言之,是千万盘人类围棋对弈的数据滋养了它。如果要给出更专业的解读,则可以说是蒙特卡洛搜索算法和基于深度学习的模式识别促成了AlphaGo的成就,其中最为重要的,恰恰是其前辈“深蓝”所不具备的深度学习。
根据各方的研究来看,AlphaGo不是自己想出棋着来,而是学习了人类高手的千万盘棋局(这就是大数据)。它记录下每个棋局中的每个局面,把上百万个局面当作输入进行训练,通过一个多层神经网络来预测人类高手会走出的下一着。经过巧妙的神经网络设计与训练,这个多层神经网建模了人类高手的“棋感”——对于当前局面,已知以往下棋历史中的胜率。在实际下棋时,计算机可以通过视觉识别记录下棋局,然后和以往的棋局数据比较,找到相同的模式(局面),再检索不同局面往后发展下去,根据以往下棋史中的胜率高低选出一些高质量的候选点供走子,而不必每个候选点都去尝试一遍,从而极大地减少系统运算量,不至于让系统“殚精竭虑”而死。这就像人类,不会穷尽所有候选点,而是根据经验和感觉选择某些点。选出几个点之后,人类还是要分别计算、比较哪个点更好。对于机器来说,这个计算就要交给蒙特卡洛搜索算法。
我们用一个不一定十分准确,但是形象的比喻来说明。蒙特卡洛树形搜索是对以往决策树算法的优化。对于以往的决策树算法,即便给了一个高质量的候选点,对于接下来的选择,它同样要进行穷举,在每个要选择的地方做一次分支,同样会遇到可选路径数量的指数爆炸。
蒙特卡洛方法就体现了概率学的精妙。假设在某个棋局局面下,深度学习网络给出了三个候选落子办法A、B、C,以这三个点为根节点,分别往下走子,可以想象成三棵树,每棵树还有无数分支。蒙特卡洛搜索不去穷尽所有分支,而是派出300万只蚂蚁分别从A、B、C出发,每个点100万只,飞速向树梢爬(也就是往下黑白棋交替走子直到决出胜负,基本上走200步就会分出胜负),总有部分蚂蚁走到最高点(也就是决出胜负,假设蚂蚁走到终点的情况代表黑子胜,没走到终点的情况代表白子胜)。
假设从A点出发的100万只蚂蚁有30万只到达终点,从B点出发的有50万只到达终点,从C点出发的有40万只到达终点,系统就认为黑子走B点胜率更高,就会选择B点。这就是概率学的取样算法,相比逐项穷举法,极大地缩减了计算量。
为什么派100万只蚂蚁而不是10万只或者1000万只?这是根据计算机的计算能力和对竞争对手的大致估计来确定的。如果派10万只蚂蚁就可以得到较高胜率,那么派10万只也可以。在相同时间内派出越多蚂蚁,对计算能力要求越高。
CPU芯片与GPU(图形处理器)芯片同时进行神经网络计算与蒙特卡洛树形搜索,模拟海量的终盘局面,这是人类计算能力无法相比的。由于采用深度学习建模了人类高手的棋感,看上去人工智能拥有了人类的大局观,而这个大局观恰恰蕴藏在人类高手的千万盘对弈数据里。
相信聪明的读者即便不太了解数学理论,也已经基本明白AlphaGo是怎么做的了,虽然具体的算法和策略要远比上面描述得复杂。AlphaGo向大众展现了一次当下人工智能/深度学习技术的发展水平。但实际上做同类研发的机构和人才很多,而且八仙过海,各显神通。
人类的行为一旦被互联网以数据的形式记录下来,就成为滋养人工智能在各行各业齐头并进,进而帮助人类自己的无穷无尽的燃料。机器翻译、语音识别、图像识别都是基于互联网提供的大量数据,用户点击行为也是如此。为什么百度搜索引擎的准确性是国内其他搜索引擎难以比拟的?因为数据量最大、算法最先进、积累最雄厚。用户的每一次点击其实都在训练搜索引擎背后的百度大脑,告诉它哪一条资讯才是用户最想要的。
当人工智能遭遇冬天的时候,人们认为机器很难像人一样思考,但机遇也正在这句话里。20世纪90年代以后,人类认识到人工智能没必要像人类那样思考,只要能够解决人类的问题即可。所以语言学家乔姆斯基在被问及“机器可以思考吗?”的时候,借用丹麦计算机科学家迪克斯特拉(Dijkstra)的说法反问:“潜艇会游泳吗?”潜艇不会像鱼儿或者人类那样摆动身姿游泳,但是它的水下能力非常好。
当我们回望历史——这个历史不仅仅是互联网的发展历史——整个人类工业发展都在孕育人工智能。凯文·凯利说过,蒸汽机活塞的自我往复运动就是一个精巧的设计,这种自我应答已经蕴含了“进化”的要素。自动化的追求是人工智能的进化动力。
比如,工业革命开始的时候,蒸汽机最先出现在煤矿和坑口。因为早期的蒸汽机效率低、能耗大,只有在煤特别多、特别便宜的地方才可能使用。采煤的时候会产生很多水,要从煤矿里面把水抽出来。有了这种需求,又有足够廉价的能源,才会想到用蒸汽机这种办法。一旦得以运用,蒸汽机的技术就不断发展,最终推动工业革命。人工智能也是一样:当你容易得到足够多的数据时,数据就是新的能源,就是燃料,有了数据燃料,人工智能的发动机就可以运转起来。
要感谢互联网的发展以及一切人类活动产生的数据记录,没有人类的数据积累,计算机就没有可学习的对象。要感谢那些人工智能探索者,他们并非都是计算机科学家,他们有的做生物学研究,有的做工程学研究,有的研究数学和计算机程序的自动迭代优化,有的改革计算机芯片的协作架构。各种研究成果汇流成海,终于汇聚成今天的人工智能。
巨头群起逐鹿
2016年AlphaGo在媒体上引发的惊呼其实是舆论的后知后觉。回到2007年,人工智能领域巨擘Geoffrey Hinton早已察觉到“山雨欲来风满楼”。
当时他的一个学生在谷歌大数据的帮助下,将Hinton若干年前的研究成果应用于语音识别技术上,并取得了明显的成功。Hinton不由得感叹:“回顾过去,失败只是源于缺少数据量和计算能力”。
时间进入到21世纪的第二个10年,人工智能万事俱备,百舸争流的竞争时代开始了。自2015年以来,人工智能创业潮持续发酵。根据美国风投数据机构CB Insights发布的人工智能产业数据分析,人工智能投资额在2016年第一季度就超过了10亿美元,第二季度发生了121笔融资,而2011年同期只发生了21笔。2011年第二季度到2016年第二季度,人工智能方向上的投资额超过75亿美元,其中有60多亿美元都是在2014年后产生的。
《乌镇指数:全球人工智能发展报告》显示,2016年前两季度,国内新增60余家人工智能创业公司,投资金额达到6亿美元。在过去一年中,中国大陆在人工智能领域进行了202笔投资,共涉及10亿美元(约合人民币68亿元),市场规模庞大。
图1-3 中国人工智能投资金额和频次
资料来源:www.cbinsights.com
2016年,中科院副院长、中国人工智能学会副理事长谭铁牛院士说,2015年全球人工智能市场规模为1270亿美元,2016年当年预计达到1650亿美元,到2018年,这个数字将超过2000亿美元。
中、美、英三国是人工智能的发展重地。美国是互联网和人工智能的起源地,拥有得天独厚的人才优势,加上技术家底雄厚,科研经费庞大,使其在这个领域领先。除了谷歌、脸书、微软、亚马逊、IBM、苹果等巨头大举投入人工智能领域,还有大大小小近百家专注人工智能业务的公司。比如,擅长自然语言处理的X.AI公司,三轮融资达3.4亿美元。英国则继续老牌名校的辉煌,在制造业萎缩的背景下,将人才都聚集到人工智能领域。研发AlphaGo的DeepMind公司就是其中的代表。
亚马逊推出Alexa智能语音助手和Echo智能音箱,与苹果、谷歌、微软争夺语音入口。2016年6月,亚马逊总裁贝索斯在接受美国科技博主沃尔特·莫斯伯格(Walt Mossberg)采访时透露,亚马逊针对人工智能领域关键项目的投资已经持续了4年时间,“亚马逊从事这些项目的团队超1000人,你看见的只是冰山一角”。
2016年9月,微软宣布在执行副总裁哈里·舒姆的领导下成立新的人工智能研发事业群。他领导数千名计算机科学家和工程师将人工智能整合到该公司的产品中,包括必应搜索引擎(Bing)、小娜数字助理以及机器人项目。当年末,微软正式发布了可以开发聊天机器人的服务,并宣布将为埃隆·马斯克和创业孵化器Y Combinator的总裁山姆·奥特曼(Sam Altman)共同创办的Open AI人工智能实验室提供CPU服务。
脸书也拥有自己的人工智能实验室以及类似谷歌大脑的团队——应用机器学习事业群。这些机构的使命是在各种脸书产品中推广人工智能技术。用该公司首席技术官麦克·斯克洛普夫(Mike Schroepfer)的话说:“脸书约有1/5的工程师现在都在使用机器学习技术。”
AlphaGo的主人谷歌当然也不会只满足于下棋,其人工智能投入多年来不断膨胀。2012年,谷歌只有两个深度学习项目,2016年底这个数字突破了1000。目前谷歌从搜索、安卓系统、Gmail(免费网络邮件服务)、翻译、地图、YouTube(视频网站)甚至到无人车,都有深度学习的影子。
中国拥有庞大的业务应用场景、用户和数据以及基数最庞大的人才群体,进步很快。除了BAT(百度、阿里巴巴、腾讯三大互联网公司首字母缩写)、华为等巨头大力开发人工智能,还有很多垂直领域的人工智能公司涌现。2016年的各种互联网论坛上,不论是电商、社交媒体,还是搜索引擎,各家互联网企业的掌门人都在将话题引向人工智能,汇报着或大或小的成绩。
2016年,百度语音识别准确率达到97%、人脸识别准确率达到99.7%。作为百度大脑的云化,百度天算、天像、天工和天智平台相继向全社会全面开放百度大脑的技术和能力。
超强大脑汇聚
十多年前机器学习领域的少数坚持者,现在成了最宝贵的人才。人工智能浪潮兴起之后,在这个开源的世界上,除了数据,最稀缺的资源就是人才了。
人工智能背后的专业知识与数学、生物学等基础学科有极大相关性。人工智能科学家又是这些领域的翘楚,更显难得。但全国人工智能研究方向的博士生、研究生每年只有不到200人,而如今的创业公司多如牛毛,这个数字根本不够分。国内如此,国外亦然。2015年,优步直接挖走了卡内基梅隆大学国家机器人研究所140名研究人员中的40人,引起业界一片哗然。
以上还不是人才竞争的全部。从业者更为敏感的是学术领军人物的流向。最近两年,不少“学术明星”走出象牙塔,或跳槽,或创业,让人更真切地感受到风向的变化。激流涌动,宝贵的人才去哪里才能充分发挥自己的价值,这是个问题。
百度是中国人工智能产业的代表,大量顶级人才先后投身百度:王海峰加入百度前曾就职于微软,吴恩达从美国来到百度,张亚勤从微软来到百度,林元庆从盛产机器学习专家的NEC美国实验室来到百度、机器人小冰的创造者景鲲从微软来到百度、美国科技巨头中职位最高的华人高管和人工智能技术权威陆奇放弃微软副总裁职位加盟百度......同时,也有很多人才从百度出发,创造了自己的人工智能应用公司。百度本身就是中国在吸引和培养人工智能人才方面活力的缩影。
这么多人类的超强大脑汇聚,目的是要创造划时代的中国大脑。我们经历了PC时代,正处于移动互联网时代,即将迈入一个万物互联的超级智能时代。万物数据汇合,人类加以处理,就可能产生一种“超级大脑”的生态。百度正在打造这样的生态,宗旨在于像提供水和电一样让人工智能渗入中国人乃至所有人的生活中去,努力促使世界万物向“知化”[2]的方向发展。比如,百度大脑已经初步具有了自己的眼睛、耳朵、嘴巴和认知决策能力,总体来看,相当于一个儿童,但局部能力如翻译、语音识别、图像识别能力则大大超过人类。我们把这些能力开放给大家,供人们开发探索各种人工智能应用。百度大脑已经成为很多开发者的工具和人工智能的操作系统,促进了人工智能标准化的形成。这将全方位服务人工智能时代的企业、创业者和广大个人用户。
因此我们热切呼唤中国大脑,呼唤国家总体层面的深度学习服务器、算法、应用基础设施平台。中国大脑的形成,将是中国竞争力全方位升级的体现和中华复兴的强力加速器。
技术要做人类生命的延伸
说到人类的数据滋养人工智能,我想先来谈一谈我们的用户,谈一谈无数支持百度以及高科技互联网发展的消费者。
在今天,除了谷歌、微软和BAT这样的大公司,互联网和大数据技术的“去中心化”发展趋向,使得小企业、有才华的技术人员甚至广大用户都成为具有决定格局态势的力量。
图1-4 《硅谷商战》一页
我在《硅谷商战》里就强调了用户的重要性。在我们工程师的眼中,用户是一个严格定义的理性存在,用户需求—开发—反馈,是技术文档里的严密描述。但是互联网的发展不仅提供了技术服务上的方便,也提供了思想和情绪发挥的舞台。我们可以说,互联网创造了一种意见型用户。
我们的很多程序员、工程师都很享受百度对技术工作者的宽松环境,简单可依赖。技术员想法单纯,不善交际,醉心于开发出五花八门的产品。具有各种情绪的、活生生的用户和我们工程师的习惯思维不太一样。普通人生活中的点点滴滴以及商场上各种复杂多变的交易和情绪可能是我们实验室里工程师感受不到的。媒体人、公关人更能理解用户的情绪,我们的公关部门有时也会吐槽技术人员不理解用户心理,遇到问题常常以为修改了代码bug(漏洞)就好了。但是人情bug不是代码能够修补的,这对我们是一个触动。技术员与商人和普通用户的隔阂该如何打破,是我们必须考虑的问题,需要我们有更高的产品思想和跨界学习的谦虚心态。
我们对日常用户生活需求和人性的思考是一个持续不断的工作,需要持之以恒。但就这本书的主题来说,我们毕竟是工程师,我们始终不忘考虑如何用技术和数字满足用户的需求。我们要利用技术对数据进行精准区分并服务于不同用户。
数字化,这是从尼葛洛庞帝的《数字化生存》到凯文·凯利的《失控》和《技术想要什么》一直在讨论的趋势,也是技术人才念兹在兹的事情。除了工商、金融、农业、军事、科技数据以外,包裹我们的是生活数据。说到数据总会引起一些警惕,比如隐私数据会不会被贩卖?这个话题我们后面还要说,这里简单来说,人工智能眼中的数据绝不是低学历数据贩子眼中的身份证、密码等数据。今日人工智能重在从混沌数据里发现总体“模式”,进而优化生产、服务。翻译、语音识别和图像识别的进步就是最好的例子。这些混沌数据,经过人工智能识别规律,就会对人类产生巨大价值,比如从日常领域的语音识别到金融领域的征信防骗再到国家层面的反恐安全。
技术再好也要适应用户。产品端直接响应用户的需求,需要不断优化技术的表现形式。我们认为,好的人工智能要润物细无声,不能像电压不稳定的电源,不能像有污染的水。要不断提高准确率,优化产品细节。比如有的公司语音识别技术虽然不错,但是输入法整体设计不够方便,这就影响了用户体验。百度也有不成功的产品例子,需要和用户一起来改变。
数据和技术不是冰冷的存在,和好的人工智能方法结合,就会体现出人性的一面。
很多网民对图1-5印象深刻。这是2014年初在东莞“扫黄”之后,百度地图运用数据可视化技术,描绘出东莞与中国各地的迁徙线路热度。
图1-5 东莞8小时迁徙图(正月初十22点前)
注:使用手机百度或智能革命App扫描图片可见AR效果。
有资深新闻编辑告诉我们,当时看到百度这幅图,瞬间感觉超越了新闻事件本身,有一种俯瞰人间的领悟。百度迁徙指数通过数据可视化技术反映了人类的命运和迁徙。数字时代的人群迁徙只是百万年来人类大迁移史诗中很小的一页,却是大数据时代具有历史性的一页。
我要说,这也是人工智能时代具有历史意义的时刻。这是智能地图技术对人类活动、人类命运的感知。人工智能本身尚无人性,但是结合开发者的创意、理念,就可以提供新的视角,甚至是一种别样的人性关怀。
计算机和互联网都是人工智能的身体,每个数据都是人类活动和人性的记录,人工智能因此终于像“灵魂”一样涌现而出,它是可以有人性的。
数据大道
有位哲学家说,人类是一种“在路上”的存在。百度积累了海量的地图数据,辅以设计师的智慧和各种精巧算法,可以描绘出人类的各种移动行为,感知人们在路上的生存状态。
百度地图每日位置服务次数最高突破720亿次,每一次都是人类的活动记录。图1-6是北京中关村一天的通勤记录的数据化展示,奔涌的交通热力图和节奏,仿佛这座城市的生命脉搏。
图1-6 北京中关村一天的通勤记录
注:使用手机百度或智能革命App扫描图片可见AR效果。
地图之眼具有大视野,通过图1-7,可以感受到中国中部、西部地区的发展态势——西安、郑州、武汉、合肥与北京、上海、深圳等一线城市的联系越来越紧密。
图1-7 城市间交通热力排行图
我们这一代人都听过童安格的歌:“为了生活,人们四处奔波,却在命运中交错。”我希望在人工智能的帮助下,人类的轨迹不只是交错,还有交集,汇流成河,生生不息。
百度大数据实验室一位年轻的科学家是学生物学出身,之前在普林斯顿研究鱼群的运动规律,一看到百度迁徙图就决定回国了。他说,原来人的数据也可以像鱼群这样研究,而且更方便,所以他决定来百度工作。2016年,他和同事一起利用百度地图上的搜索数据变化状况,准确预测了iPhone(苹果手机)销售量的下降。通过数据,大数据实验室为各种城市生活、企业运营提供智能感知。
2014年交通运输部提出:要深化改革,务实创新,加快发展“四个交通”,加快建设市场导向、企业主体、产学研结合的行业技术创新体系,促进科技成果转化为交通运输生产力。着力建立多渠道、多方式的交通运输出行信息服务体系,初步建成综合交通出行信息服务平台,向社会即时发布出行信息,解决出行信息不畅等问题。
在此背景下,百度提出了“中国智慧交通云服务平台合作计划”,与交通运输部公路科学研究院、国家智能交通系统工程技术研究中心共同打造合作平台,依托交通运输部重点科技项目“基于云平台的开放式公共出行信息服务研究与示范”,激活现有数据,建立部省数据信息资源共享交换机制,促进政企间出行服务信息共享应用,并对全社会开放。
智能地图可以根据用户移动快慢测量道路的拥堵程度,还可以智能规避单双号限行路线。结合虚拟现实技术,可以让人身临其境般寻找路线。以交通大数据为基础,加上算法辅助,响应交通管理部门的需求,智能地图系统已经能为城市交通缓解提供解决方案,大大减少了交管部门的压力。
智能地图对地理数据的收集使得很多智能项目得以展开。达到厘米级精度水平的高清地图技术已经运用到无人车开发中。2016年世界互联网大会上,百度无人车在乌镇进行了公开测试和试运营。体验全程3.16公里,共经过3个红绿灯以及一次掉头,不仅面临人车混行、电瓶车穿行等多种复杂路况,还需应对中雨、薄雾、雾霾等多种天气状况。这个结果丝毫不落后于硅谷同行在北美进行路测的进度。这是无人车的一小步,但必将成就人工智能的一大步。
人工智能不是从天上掉下来的,正是从几十年来计算机网络技术和数据处理技术的进步以及人类的数据生活之中水到渠成的。百度搜索和百度地图的智能化发展就是这个过程的一个缩影。
人工智能既不是神话也不是笑话
如今各种大众媒体上关于机器人的新闻很多,凑热闹的也很多。比如前阵子有新闻报道,一个展会上有一台机器人伤人。其实那只是一个教育辅助机器人,掉下台砸到人而已。还有某个墓园买机器人给守墓保安壮胆的新闻,那个机器人充其量是个玩具而已,恶搞成分更多。如果我们以科普的心态看待历史,就会发现人工智能既不是神话也不是笑话,而是从人类的劳动创造中实实在在生长出来的。我们不需要恐惧也不需要顶礼膜拜。
人工智能领域的科学家对技术的描述常常是直白而谦虚的。谷歌前工程师吴军说过,他在2003年的时候和同伴一起把谷歌的关键词搜索准确率大大提升,解决的一个主要问题就是,对于同义词或者近义词究竟该选取哪一种意思去搜索才能满足用户的需求。对于用户来说,如果搜索给出的结果不准确,用户就会换个近义词继续搜索,或者选择搜索结果中排名并不靠前的结果。这时用户其实亲自做了一个关键词搭配工作,系统会记录下用户给出的关键词搭配关系,现在要做的是更快、更优地反馈结果。他说:“至于我们是怎么做到的,说起来可能会显得很没有技术含量,我们事先把多年来用户搜索过的关键词搭配都整理出来,然后在2003年美国独立日的长周末期间,有四天的假期,我们停掉了公司当时五个最大的数据中心中的一个,利用四天时间对每一个关键词的搭配做了特殊处理。这实际上就是一种穷举法。”[3]也就是把用户经常选择的词语组合关系固化下来,下一次用户再做类似搜索,系统就能更快、更准地给出结果。
其实机器翻译等领域的技术逻辑,跟上述搜索中应用的有策略的穷举法有异曲同工之妙。据《纽约时报》报道,2016年6月的一个星期三,在谷歌翻译部门的会议上,人们对百度发表在机器翻译领域核心期刊上的一篇文章议论纷纷。迈克·舒斯特(Mike Schuster)的一句话让会议室恢复了秩序,“是的,百度出了一篇新论文。感觉就像有人看透了我们做的东西——论文有类似的结构,类似的结果。”百度公司的BLEU分数(一种衡量机器翻译和纯人工翻译之间准确度的分数)基本吻合谷歌在2月和3月内部测试中取得的成绩。Quoc V. Le (夸克·维·乐)并未感到不快。他的结论是,这是一个表明谷歌处于正确轨道上的迹象。“这个系统与我们的系统非常相似。”他安静地说。
Quoc V. Le是吴恩达的博士研究生,他可能并不知道,这篇论文的出炉与吴恩达并无关系,而是自然语言部门独立完成的。《纽约时报》对中国企业的报道当然是一扫而过。但吴恩达认为,国内部分媒体也需要改变习惯,不能总是下意识地认为什么技术都是外国更强,热衷于把后知后觉者当作突破者来报道,实际上人工智能领域很多领先创造都是中国人先做到的。
百度领先一年发布了基于NMT的翻译系统,谷歌在2016年也紧跟百度推出了类似的系统。所以这个领域最前沿的探索者的基本技术都差不多,最后就看谁的积累深厚,谁的优化做得好。
今天的人工智能思路与过去不同,变思维规则问题为数据问题和策略问题。过去人类总想为计算机设计出完美的逻辑,不断把人类的种种逻辑规则抽象成函数之后输入计算机里。现在的人工智能主要基于大数据基础和算法的进步。也就是说,今天人工智能的爆发恰恰建立在20世纪90年代末互联网爆发的基础上。有了互联网,数据才会大量产生。注意,这些数据不是用户自觉填写的数据,比如姓名、年龄、住址、爱好等,而是用户在使用互联网时自动产生的数据,比如每一次搜索、每一次点击就是一种数据,每一次移动轨迹也是一种数据。
中国已经是世界头号制造业大国,现在更需要的是提升“软实力”。精神、文化是“软实力”,计算和数据也是“软实力”。这样的“软实力”和传统产业叠加,也就是所谓的“智能+”。它将切切实实融入我们的生产、生活,看得见、摸得着。
非如此不可
问百度要做什么,不如问为什么一定要做?!
每家企业都有自己的战略战术。2013年,国内移动互联网创业风潮开始兴起,不少企业将巨额资金投入这个巨大的“无底洞”,体现了它们在战略上的勇猛。百度则着眼于战略的长远和科学。当时注意到百度全面发力人工智能的人并不多。今天,人工智能蜚声世界,有人感叹百度战略的超前和坚定。因为百度提前认识到互联网信息产业的本质,一旦下定决心,就坚决走自己的路,不在乎外人评判。为此百度多方布局,重点突破,当全世界都开始关注人工智能的时候,人工智能大格局上已经有中国百度立下的柱石。
我们没有让百度的人工智能去参加下围棋、预测歌手比赛结果这类活动,而是专注于发展内功,同时集中力量把人工智能转化为能够改善人类生活的实用性服务。我们不只把深度学习应用到语音识别、机器翻译和街景门牌号识别等少数领域,而是将深度学习成功应用于显著提升用户体验。
2013年,百度导航率先宣布永久免费,把中国带入导航免费时代。现在,我们把百度地图的数据接口开放出来,供人们开发使用。用户可以使用百度地图提供的定位技术和方案,相比传统GPS Tracker(全球定位系统追踪器)节省了大量成本。快递公司可以以此规划最优送货路线,游戏开发者可以开发类似PokermanGo(口袋妖怪)的位置游戏。我们开放百度大脑,让更多的人可以使用人工智能的眼睛、耳朵为自己服务。我们开放深度学习开发平台PaddlePaddle,让更多有志者可以创造属于自己的人工智能服务。我们也希望让非技术人员学会用数据智能优化自己的工作、完善自己的个性、追求自己的理想。
有很多高考考生想必已经使用过度秘机器人帮助自己选择高考志愿。在中国,任何事情都有很多人去做。在我读书的年代,人们把高考称作“千军万马过独木桥”。和地图数据类似,度秘机器人通过对千军万马的高考数据进行分析,通过深度学习技术响应并感知高考考生的渴望、焦虑,尽力给出自己的精准回应。在这里,人工智能记录的不是物理空间里的地图轨迹,而是学子成长的心灵轨迹。
20世纪90年代初我远赴美国学习计算机技术,当时有很多和我一样的年轻人,怀着用代码改变世界的愿望,候鸟般往来于中美。如果当时有一张数据地图记录这些跨洋轨迹,那会是很有意思的事情。如今人工智能科学家再次把火种带到中国,我相信这次火焰会燃烧得更热烈,因为中国大地有足够的燃料。中国受教育人口数量巨大,计算机和移动设备普及极快,大量的数据使得中国在发展和应用深度学习技术方面有得天独厚的优势。有了这样的优势,我们可以厉兵秣马创造20世纪90年代硅谷那样的传奇。
百度要做的事情不仅是前沿开发,而且要为用户提供数据基础设施,提供深度学习开发平台,网聚人的智慧。
在特朗普当选美国总统之前,有百余位硅谷精英发表公开信,认为特朗普当选将会是创新的灾难。这对我是一个触动,如果美国的创新真的受到影响,谁来接过旗帜引领创新方向?我们能把世界的创新中心从硅谷迎到中国吗?
人才确实在向我们涌来。百度还在硅谷成立了实验室,近身接触美国人才。百度提出的中国大脑计划堪比任何超级工程。回想70年前,顶尖科学家壮志满怀地从国外回到中国兴建伟大工程,这样的辉煌今天会再次出现吗?
图1-8 李彦宏在百度贴吧讨论
资料来源:http://tieba.baidu.com/p/4855363507
当然,必须注意到,那个时代的伟大工程往往依赖国家投资和产业政策。“冷战”结束后,国家竞争压力减小,尖端科技的投资也大为减少。马斯克去开发火箭,其实是国家把NASA(美国国家航空航天局)的火箭技术和团队转移给他。在中国,政府层面的决心和投入依然强大,在发展人工智能产业方面可谓上下同心。这是最好的时代,也是最不确定的时代。人工智能就是一种适应不确定性的方法。大大小小的公司投入人工智能研发,带来竞争和多元化,这应该形成良性的互动和生长。
人工智能的发展也将带来不确定性。美国白宫的报告已经在探讨人工智能对就业的冲击。美国硅谷的高速发展和中部制造业的衰落加大了国家的裂痕,一部分人享有进步成果,另一部分人被扔出历史航船而失去方向。百度要成为人才的方舟,中国企业则要努力打造人类的方舟集阵,让最广大的人群踏上智能时代的历史巨轮。
百度副总裁王海峰博士于2016年11月刚刚当选ACL(Association for Computational Linguistics,国际计算语言学会)会士,成为ACL目前最年轻的会士,他也是该组织五十多年历史上首个出任主席的华人。评选委员会在给王海峰的评语中写道:“王海峰在机器翻译、自然语言处理和搜索引擎技术领域,在学术界和工业界都取得了杰出成就,对于ACL在亚洲的发展也做出了卓越贡献。”2017年初,在人工智能领域享有盛誉的科学家和高管陆奇加盟百度。这些都在预示着国际人才流动的趋势。中国千百位优秀的人工智能科学家要一起创造人类的未来。
未来已来:焦虑与梦想
不久前,亚马逊的“无收银员超市”引起“血拼族”的惊叹。这种特别的购物体验背后,则是“收银员”下岗的阴影。今天,当各种在线客服被机器客服代替,当速记翻译被语音识别代替,甚至当收银员、驾驶员、工厂工人、普通文书和律师都被人工智能代替时,人们该怎样迎接这个世界?政府和企业该为劳动者做怎样的支持?我们该怎么调整经济、社会生态结构,以适应人工智能时代?我们希望聆听普通人的需求。这也是我们人工智能团队共同打造本书的初衷。
硅谷有位和马克·安德森齐名的风投鬼才彼得·蒂尔。他是PayPal(贝宝)的创始人,善于把握技术大势,捕捉黑马。2016年他因为准确预测特朗普当选美国总统而再次名声大噪。他在2011年时说过:We wanted flying cars,instead we got 140 characters(我们需要能飞的汽车,结果只得到140个字符)。140个字符的推特(Twitter)一度热闹无比,但彼得·蒂尔清楚地看到互联网喧嚣背后缺少什么。他批评人类放慢了进步速度,嬉皮文化代替了进步主义,风投热衷于投资轻资产企业,其中大部分是移动互联网公司,如Airbnb(空中食宿)、优步之类,却对未来没有清晰的规划和信心。他认为“互联网+”时代人类在比特层面进步大,在原子层面进步小。因此他果决地投资火箭、抗癌药物以及人工智能。
我同样认为移动互联网创业的喧嚣掩盖了我们所要真正追求的进步。百度要为自己的方向而奋斗,要为人类的核心能力进步做贡献。蒂尔说20世纪初的美国人愿意尝试新事物,敢于规划几十年周期的登月计划并去实现。然而现在人类没有这样的计划了,只有风投在到处寻找眼前的增值和及时的痛快。百度愿意幻想一个智能化的世界并去实现它,要让人工智能成为新的操作系统,不仅是计算机的而且是世界的操作系统,同时严肃思考和提前应对人工智能的挑战,最终让这个世界从此不同。所以我说一定要把这件事情办成!
智能革命是对生产、生活方式的良性革命,也是对我们思维方式的革命。巨大的机遇与挑战并存。以下我们将具体探讨智能革命的方方面面,详谈视觉识别、语音识别、自然语言处理等在深度学习基础上取得的突破性进展,并从制造业升级、无人驾驶、金融革新、管理革命、智能生活等多个维度,描绘即将到来的智能社会,进一步探讨人类应该如何应对人工智能的发展,与读者一起把握智能革命的脉搏。
[1] 用来表示关于随机事件A和B的条件概率,其中P(A | B)是在B发生情况下A发生的可能性。
[2] “知化”是凯文·凯利在《必然》中提出的一个观点,指软件吞噬一切,一切事物都将信息化,哪怕是一张桌子也可以上传自己的数据,如销售轨迹、使用频率等。
[3] 吴军。智能时代[M].北京:中信出版社,2016:179.