首页 » 人工智能:李开复谈AI如何重塑个人、商业与社会的未来图谱 » 人工智能:李开复谈AI如何重塑个人、商业与社会的未来图谱全文在线阅读

《人工智能:李开复谈AI如何重塑个人、商业与社会的未来图谱》第一章 人工智能来了

关灯直达底部

人工智能已经来了,而且它就在我们身边,几乎无处不在。

我们真的知道什么是人工智能吗?我们真的准备好与人工智能共同发展了吗?我们该如何在心理上将人和机器摆在正确的位置?我们该如何规划人工智能时代的未来生活?

人类,你好!

“不管我们是碳基人类还是硅基机器人,都没有本质的区别。我们中的每一员都应获得应有的尊重。”

这是科幻文学巨匠亚瑟·克拉克(Arthur C.Clarke)在太空漫游系列第二部《2010:太空漫游》中描绘的一段对白。从情感上说,人类多么希望有朝一日可以和人类创造的智能机器平等相处,共同发展。可有趣的是,每当前沿科技取得重大突破,为我们预示出人工智能的瑰丽未来时,许多人就又不约而同地患上人工智能恐惧症,生怕自己的工作乃至人类的前途被潜在的机器对手掌控。

“人工智能来了!”

这句话对不同的人群有着完全不同的含义。计算机科学家很少怀疑人工智能在推动人类技术进步上的伟大意义,这个意义甚至可以和人类发明蒸汽机、电力、核能,或者用火箭探索太空相提并论;社会学家、经济学家更多地关注人工智能已经或即将对人类经济结构、就业环境造成的巨大挑战;科幻作家、影视编导和未来学家则乐于看到人工智能技术一次又一次激发起大众如火的热情,他们从不忌惮用最缥缈的想象将人类未来渲染成天堂或地狱……

可绝大多数不熟悉技术细节,或不具备瑰丽想象力的普通人呢?

普通公众对人工智能快速发展的认知,始于2016年初Alpha Go的惊世对局。在欣赏围棋对局的同时,人们总是不惜发挥丰富的想象,将Alpha Go或类似的人工智能程序与科幻电影中出现过的,拥有人类智慧,可以和人平等交流,甚至外貌与你我相似的人形机器人关联起来。

图1 电影《机械姬》的海报(该片曾获得奥斯卡最佳视效奖)

“人工智能来了?他/她在哪里?他/她长什么样儿?他/她说中文吗?他/她是好人还是坏人?”

很遗憾,目前的人工智能并不像电影《机械姬》中的人形机器那样美貌迷人。想象与现实间的巨大反差,让不少人难以适从。在人工智能面前,公众经常流露出好奇、迷茫或讶异的神情:

“人工智能有人格吗?”

“我可以和机器人谈恋爱吗?”

“机器人会毁灭人类吗?”

“人类是不是可以移民火星,留下机器人建设地球了?”

我们真的知道什么是人工智能吗?我们真的准备好与人工智能共同发展了吗?我们该如何在心理上将人和机器摆在正确的位置?我们该如何规划人工智能时代的未来生活?

想真正理解和认识人工智能,首先我们必须面对一个可能让很多人难以相信的事实:

人工智能已经来了,而且它就在我们身边,几乎无处不在。

无处不在的人工智能

请抛开人工智能就是人形机器人的固有偏见,然后,打开你的手机。我们先来看一看,已经变成每个人生活的一部分的智能手机里,到底藏着多少人工智能的神奇魔术。

图2显示了一部典型i Phone手机上安装的一些常见应用程序。可能很多人都猜不到,人工智能技术已经是手机上许多应用程序的核心驱动力。

苹果Siri、百度度秘、Google Allo、微软小冰、亚马逊Alexa等智能助理和智能聊天类应用,正试图颠覆你和手机交流的根本方式,将手机变成聪明的小秘书;新闻头条等热门新闻应用依赖于人工智能技术向你推送最适合你的新闻内容,甚至,今天的不少新闻稿件根本就是由人工智能程序自动撰写的;谷歌照片(Google Photos)利用人工智能技术快速识别图像中的人、动物、风景、地点……快速帮用户组织和检索图像,美图秀秀利用人工智能技术自动对照片进行美化,Prisma和Philm等图像、视频应用则基于我们拍的照片或视频完成智能“艺术创作”;在人工智能的驱动下,谷歌、百度等搜索引擎早已提升到了智能问答、智能助理、智能搜索的新层次;以谷歌翻译为代表的机器翻译技术正在深度学习的帮助下迅速发展;使用滴滴或优步(Uber)出行时,人工智能算法不但会帮助司机选择路线、规划车辆调度方案,不远的将来,自动驾驶技术还将重新定义智慧出行、智慧交通和智慧城市;使用手机购物时,淘宝、亚马逊等电子商务网站使用人工智能技术为你推荐最适合你的商品,而先进的仓储机器人、物流机器人和物流无人机正帮助电子商务企业高效、安全地分发货物……

图2 i Phone手机上的人工智能相关应用

怎么样?听起来,小小的手机屏幕上,人工智能是不是无处不在?来听一听最厉害的人工智能科学家们怎么说。

我的导师——图灵奖得主拉吉·瑞迪(Raj Reddy)说:“AI在主流社会中的应用有很多。IBM的深蓝和Watson应该算是其中最广为人知的代表。……另外一些知名的AI应用实例还包括:1)谷歌的翻译系统,它能够实现任意语言之间的互译;2)像苹果Siri、微软小娜(Cortana)和亚马逊Alexa这样能够进行对话的智能助手;3)近期一些在自动驾驶汽车领域的进展。”

而谷歌最资深的计算机科学家与软件架构师、谷歌大脑开发团队的带头人杰夫·迪恩(Jeff Dean)则说:“很多时候(人工智能)都是藏在底下,因此人们并不知道有很多东西已经是机器学习的系统在驱动。这里面包括由语言理解系统所支持的谷歌搜索、谷歌翻译、Gmail的快速回复功能,现在电话上的语音识别功能,像亚马逊和Netflix上的推荐系统,像应用在谷歌照片上的图像理解系统。”1

接下来,让我们简单分析、点评一下这些活跃在你我身边,正在改变世界的人工智能技术。

智能助理

记得微软小冰吗?手机上最喜闻乐见的人工智能助理之一。与其他人工智能助理应用相比,小冰的语音识别能力、语音合成技术、基于大语料库的自然语言对话引擎,都有着非常独到、可圈可点的地方。据说,2016年9月17日是小冰的十八岁生日,截至这一天,小冰已经跟4200多万人进行了200多亿次对话,包括文字聊天、语音聊天、电话通话等各种形式。

图3中是我和小冰关于美国总统竞选的一段对话,有意思吗?在这样一个简单的对话语境里,小冰试图表现出不偏不倚的中立态度,而且,她在讨论严肃话题的时候,口气上居然有三四分的调侃和戏谑。

图3 微软小冰为代表的智能助理类应用

严格地来说,小冰的智慧程度还远远赶不上人类,更多时候,她只是在事先积累的人类对话库和互联网资料库中,查找最有可能匹配的回答。在不少特定的情形里,比如上下文较复杂的场合,小冰经常答非所问,或有意无意地顾左右而言他。但很难否认,小冰及类似的智能助理程序,已经展现出初步的与人类沟通的能力。

像小冰这样的智能助理应用有很多。苹果公司早在2011年就发布了i OS语音助理Siri;2012年,谷歌发布的Google Now将智能助理的概念带入了Android世界;2014年,亚马逊发布了基于Alexa平台,可以和用户聊音乐的智能音箱Echo;随后,2015年,百度发布了集成个人搜索助理和智能聊天功能的度秘;2016年,谷歌发布了智能聊天程序Google Allo;2017年1月,百度推出的基于自然语言对话的操作系统Duer OS则代表了国内互联网公司在建立智能助理开发与应用平台方面的自信。

新闻推荐和新闻撰稿

用手机看热点新闻是许多人每天都要做的事。像“今日头条”这样的新闻类应用之所以火爆,主要就是因为其采用了人工智能技术,应用程序可以聪明地归纳每个人看新闻时的不同习惯、爱好,给不同用户推荐不同的新闻内容。带智能推荐功能的应用如果做得好,用户就会觉得,越经常使用,机器就越懂得自己的“心思”,一段时间后,这个应用程序就不亚于一个量身定制的新闻管家了。

而且,AI的魔力还不止于新闻推荐。你知道吗,现在,相当数量的新闻内容,根本就是由计算机上的人工智能程序自动撰写的!

2011年,一个名叫罗比·艾伦(Robbie Allen)的思科公司工程师将自己创办的一家小公司改名为Automated Insights,这个新名字大有深意——罗比·艾伦立志研发人工智能自动写作程序,而公司新名字的首字母缩写恰好就是人工智能的英文缩写——AI。

借助一套名为“作家”(Wordsmith)的人工智能技术平台,Automated Insights公司首先与美联社等新闻机构合作,用机器自动撰写新闻稿件。2013年,机器自动撰写的新闻稿件数量已达3亿篇,超过了所有主要新闻机构的稿件产出数量;2014年,Automated Insights的人工智能程序已撰写出超过10亿篇的新闻稿2。

世界三大通讯社之一的美联社于2014年宣布,将使用Automated Insights公司的技术为所有美国和加拿大上市公司撰写营收业绩报告。目前,每季度美联社使用人工智能程序自动撰写的营收报告数量接近3700篇,这个数量是同时段美联社记者和编辑手工撰写的相关报告数量的12倍3。2016年,美联社将自动新闻撰写扩展到体育领域,从美国职业棒球联盟的赛事报道入手,大幅减轻人类记者和编辑的劳动强度。

想看看机器自动撰写的新闻报道是否表达清晰,语句通畅?下面是从美联社职业棒球联盟新闻稿中节选出来的几段:

宾夕法尼亚州立学院(美联社):第十一局,一二三垒有人,一人出局的情况下,迪伦·蒂斯被触身球击中,保送上垒。这是本周三州立学院鹿角队9︰8战胜布鲁克林旋风队的比赛中的一幕。

丹尼·哈茨纳通过牺牲打获得制胜一分。击球后,他成功跑上二垒但在跑向三垒时出局。

基恩·科恩在第一局中打出双杀,使旋风队以1︰0领先。但在第一局的随后时间内,鹿角队连得5分,其中,迪伦·蒂斯的触身球就直接送两人跑回本垒。

……4

自动撰写新闻稿件的好处不言而喻,这不但可以节省记者和编辑的大量劳动,而且可以在应对突发事件时充分体现出计算机的“闪电速度”。

2014年3月17日清晨,仍在梦乡的洛杉矶市居民被轻微的地面晃动惊醒。这是一次震级不大的地震,但因为震源较浅,市民的感受比较明显。地震发生后不到三分钟,《洛杉矶时报》就在网上发布了一则有关这次地震的详细报道,报道不但提及了地震台网观测到的详细数据,还回顾了旧金山区域最近十天的地震观测情况5。

人们在新闻报道的网页上看到了《洛杉矶时报》记者的姓名,但该新闻之所以能够在如此快的时间里发出,完全要归功于可以不眠不休工作的人工智能新闻撰写程序。地震发生的瞬间,计算机就从地震台网的数据接口中获得了有关地震的所有数据,然后飞速生成英文报道全文。刚刚从睡梦中惊醒的记者一睁眼就看到了屏幕上的报道文稿,他快速审阅后用鼠标点击了“发布”按钮。一篇自动生成并由人工复核的新闻稿就这样在第一时间快速面世。

机器视觉

人脸识别,这几乎是目前应用最广泛的一种机器视觉技术,是人工智能大家庭中的重要分支。近年来,随着深度学习技术的发展,人工智能程序对人脸识别的准确率已经超过了人类的平均水平。

很多公司都为员工发放用于出入公司的门禁卡。但在我们的创新工场,没有人佩戴门禁卡。创新工场的大门上装有一个高分辨率的摄像头,员工走近大门的过程里,与摄像头相连的计算机中安装的一套名为Face++的智能软件会实时采集人脸图像并与系统中存储的员工照片进行比对,系统认识的“熟人”可以自由通行,系统不认识的“陌生人”则会被拒之门外。

人脸识别不仅仅可以当保安、当门卫,还可以在手机上保证你的交易安全。不少手机银行在需要验证业务办理人的身份时,会打开手机的前置摄像头,要求你留下面部的实时影像,而智能人脸识别程序会在后台完成你的身份比对操作,确保手机银行程序不会被非法分子盗用。

广义上的机器视觉既包括人脸识别,也包括图像、视频中的各种物体识别、场景识别、地点识别乃至语义理解。所有这些智能算法目前都可以在普通手机应用中找到。

图4 用谷歌照片检索出我在2008年参加奥运火炬接力的瞬间

例如,今天主流的照片管理程序几乎都提供了自动照片分类和检索的功能。其中智能程度最高、功能最强大的非谷歌照片莫属。利用谷歌照片,我可以把我的所有照片和视频——没错,是所有照片和视频,不管是昨天拍摄的晚宴照片,还是十几年前为孩子拍摄的家庭录像——统统上传到云端,不用进行任何手工整理、分类或标注,谷歌照片会自动识别出照片中的每一个人物、动物、建筑、风景、地点,并在我需要时,快速给出正确的检索结果。

利用谷歌照片,我可以轻松找到自己在过去若干年里的每一个精彩瞬间,也可以浏览在过去一年里我都去过哪些著名景点。或者,可以简单输入任何一种动物的名字,比如“海鸥”,看看我以前是不是为海鸥拍过照片。

图5 用谷歌照片检索出所有海鸥照片和视频

AI艺术

2016年夏天,一款名为Prisma的手机绘画程序在大家的朋友圈里流行开来。Prisma并不是用程序凭空作画,而是根据用户指定的一张照片,将照片变成特定风格的画作。

图6中,我将一只在北京近郊拍摄到的猫咪的照片(左上角照片)交给Prisma, Prisma利用先进的人工智能算法理解照片中猫咪身上的每一个色块和每一处边缘,然后将计算机从大量经典画作中学习到的上色技法、笔触技法、干湿画法等应用到这张真实的照片上。

图6 Prisma在一只猫的照片基础上完成创作的结果

我们可以把整个过程看成一个学习绘画的孩子对着一张猫咪照片进行的创作训练。这个名叫Prisma的孩子曾受过严格的美术教育,临摹过中西方大量经典名画,可以熟练使用各种油画、水彩画乃至漫画技法进行创作。以这张猫咪照片为基础,Prisma在理解照片内容之后,可以用人工智能的“画笔”艺术性地“创作”出多达二十几种不同画风的作品。

这种画风迁移功能不仅仅可以帮助普通人进行“艺术创作”,还可以让爱漂亮、爱自拍的女生把自己装扮成通常只在动漫或梦境中才能见到的美少女形象。2017年1月,美图秀秀推出的手绘自拍功能一夜“刷屏”,从中国到欧美再到日韩,上亿用户包括无数女明星在内,纷纷用手绘自拍功能将自己变成二次元世界里超萌、超可爱的漫画形象。英国《每日电讯报》报道说:“如果你突然在社交网络上看到到处都是迷人的自拍,那么你应该感谢这个来自中国的应用——美图秀秀。”6

图7 使用美图秀秀的手绘自拍功能,连我也可以秒变小鲜肉

不只女生喜欢这个功能,其实,男生也可以用这个功能将自己美化成二次元世界里最新鲜的小鲜肉。连我这个“大叔”在手绘自拍功能的强大艺术表现力之下,也被P成了粉嫩可爱的有趣形象。

新一代搜索引擎

搜索引擎里也有人工智能?

在很多人眼中,搜索引擎是诞生于20世纪的一项互联网核心技术。谷歌创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)于1996年提出的Page Rank算法大幅提升了搜索引擎结果排序的准确性,但二十余年过去了,搜索引擎的技术、算法难道不是已经非常成熟了吗?这里还有人工智能发挥作用的空间吗?

2016年2月的一天,谷歌高级副总裁、46岁的阿米特·辛格尔(Amit Singhal)宣布离开谷歌搜索引擎核心团队负责人的位置,接替他领导世界上最大搜索引擎的高级副总裁,是曾主管谷歌知识图谱和机器学习两大核心研发团队的约翰·贾南德雷亚(John Giannandrea)。这起人事变动无论对谷歌内部还是对外界来说都意味深长,当时的许多媒体将此次人事更迭解读为谷歌搜索全面由传统算法向人工智能算法转变的信号7。当然,直到2017年年初公众才知晓,阿米特·辛格尔离职的更直接原因是他卷入了一桩性骚扰案8。但当时也许是被迫而为的高管更迭,却从实际结果上体现出了谷歌搜索技术方向的深刻变革。

阿米特·辛格尔是谷歌搜索引擎早期核心算法,特别是网页排序算法的最重要贡献者。简单地说,最传统的网页排序算法是找出所有影响网页结果排序的因子,然后根据每个因子对结果排序的重要程度,用一个人为定义的、十分复杂的数学公式将所有因子串联在一起,计算出每个特定网页在最终结果页面中的排名位置。

约翰·贾南德雷亚(在谷歌工作时,我们都亲切地用姓名首字母称呼他为JG)曾主管的知识图谱和机器学习两大研发团队则代表了谷歌在人工智能领域的未来。其实,谷歌很早就开始用机器学习技术帮助搜索引擎完成结果排序。这一思路和传统算法不同。在机器学习的方向里,计算网页排序的数学模型及模型中的每一个参数不完全是由人预先定义的,而是由计算机在大数据的基础上,通过复杂的迭代过程自动学习得到的。影响结果排序的每个因子(在机器学习领域,每个影响因子也被称为“特征”)到底有多重要,或者如何参与最终的排名计算,主要由人工智能算法通过自我学习来确定。从2011年起,随着深度学习技术的复兴和谷歌大脑(Google Brain)项目的成功建设,谷歌搜索引擎使用的网页排序算法越来越依赖于深度学习技术,网页结果的相关性和准确度也由此得到了大幅提高。可以毫不夸张地说,到约翰·贾南德雷亚执掌谷歌搜索团队的时候,谷歌搜索已经是一个绝大部分由人工智能技术支撑的新一代搜索引擎了。

图8 向百度提问并直接得到答案

结果排名还只是人工智能技术在搜索引擎中应用的冰山一角。打开谷歌或类似的主流搜索引擎,人工智能的魔力无处不在。今天,我们可以直接在谷歌向搜索引擎提出问题,搜索引擎会聪明地给出许多知识性问题的答案。

图9 向谷歌提问并直接得到答案

例如,在图8中,我们可以直接向百度提问“东野圭吾多大了”,百度在结果页的最显著位置直接给出“58周岁”(2016年)的正确答案。我们甚至可以向谷歌提问:“在《哈利·波特》的系列故事里,到底是谁杀了令人尊敬的校长邓布利多?”谷歌不但直接给出杀害邓布利多的凶手名字,还显示出相关的电影剧照、故事情节、维基百科链接等。

近年来,利用人工智能技术在语音识别、自然语言理解、知识图谱、个性化推荐、网页排序等领域的长足进步,谷歌、百度等主流搜索引擎正从单纯的网页搜索和网页导航工具,转变成为世界上最大的知识引擎和个人助理——毫无疑问,人工智能技术让搜索引擎变得更聪明了。

机器翻译

打破语言界限,用自动翻译工具帮助人类进行跨民族、跨语种、跨文化交流,这是人类自古以来就一直追寻的伟大梦想。1799年发现的罗塞塔石碑(Rosetta Stone)更是将这种交流推动到了跨时空的层面。借助罗塞塔石碑和语言学家的智慧,我们能够读懂数千年前的古埃及文字,了解古埃及人的所为、所思、所述,这真是一件无比奇妙的事。

图10 罗塞塔石碑(©Hans Hillewaert, CC BY-SA 4.0,Wikipedia)

今天,虽然还不尽完美,基于人工智能技术的机器翻译工具正帮助世界各地的人们交流和沟通。在所有流行的翻译工具中,谷歌翻译是支持语种最多,翻译效果最好的。

2016年9月,谷歌宣布已经在谷歌翻译的中译英的模型中应用了深度学习的一种最新算法,并大幅提高了中文到英文的翻译准确率9。

图11 谷歌翻译2016年9月更新算法后的中译英效果

图11是谷歌翻译2016年9月部署的最新算法对本书一个中文段落的翻译结果。可以看到,机器翻译的结果已经与人类的英文表达相当接近,除了一些用词和句法处理有待斟酌外,整个英文段落已经具备了较强的可读性,几乎没有什么歧义或理解障碍。

2016年11月,谷歌又发表论文,宣布已突破了跨语言翻译的难题,可以在两种没有直接对应的语料样本的语言之间,完成机器翻译。举例来说,如果我们没法在网络上收集到足够多的中文和阿拉伯文之间的对应语料,那么,谷歌的机器翻译技术可以利用英文到阿拉伯文之间的对应语料,以及中文到英文之间的对应语料,训练出一个支持多语言间相互翻译的模型,完成中文和阿拉伯文的双向翻译。这种技术可以轻易将翻译系统支持的语言对的数量,扩展到几乎所有主要地球语言的相互配对组合。10

事实上,谷歌早年发展机器翻译技术时,技术团队就是将“罗塞塔石碑”用作机器翻译产品的内部代号。数千年前的罗塞塔石碑,和21世纪的人工智能算法一道,正穿越漫长的时空隧道,为人类的顺畅沟通而努力。

自动驾驶

毫无疑问,自动驾驶是最能激起普通人好奇心的人工智能应用领域之一。由计算机算法自动驾驭的汽车、飞机、宇宙飞船曾是绝大多数科幻小说中最重要的未来元素。想到未来某一天,我们可以不考驾照,不雇司机,直接向汽车发个命令,就能便捷出行,每个人都会兴奋不已。但很多人似乎还没有意识到,自动驾驶汽车本身,或至少是相关的科技成果其实已经在我们身边发挥作用并创造巨大的商业价值了。

谷歌的自动驾驶技术在过去若干年里始终处在领先地位,不仅获得了在美国数个州合法上路测试的许可,也在实际路面上积累了上百万英里的行驶经验。但截至2016年年底谷歌自动驾驶团队独立出来,成立名为Waymo的公司时,迟迟没有开始商业销售的谷歌自动驾驶汽车似乎离普通人的生活还很遥远。

相比谷歌的保守,特斯拉在推广自动驾驶技术时就比较激进。早在2014年下半年,特斯拉就开始在销售电动汽车的同时,向车主提供可选配的名为Autopilot的辅助驾驶软件。计算机在辅助驾驶的过程中依靠车载传感器实时获取的路面信息和预先通过机器学习得到的经验模型,自动调整车速,控制电机功率、制动系统以及转向系统,帮助车辆避免来自前方和侧方的碰撞,防止车辆滑出路面,这些基本技术思路与谷歌的自动驾驶是异曲同工的。

图12 自动驾驶汽车的AI算法通过传感器“看到”的实时路面情况11

当然,严格地来说,特斯拉的Autopilot提供的还只是“半自动”的辅助驾驶功能,车辆在路面行驶时,仍需要驾驶员对潜在危险保持警觉并随时准备接管汽车操控。

2016年5月7日,一起发生在佛罗里达州的车祸是人工智能发展史上的第一起自动驾驶致死事故。当时,一辆开启Autopilot模式的特斯拉电动汽车没有对驶近自己的大货车做出任何反应,径直撞向了大货车尾部的拖车并导致驾驶员死亡。

事故之后,特斯拉强调,在总计1.3亿英里的Autopilot模式行驶记录中,仅发生了这一起致死事故,据此计算的事故概率远比普通汽车平均每9400万英里发生一起致死事故的概率低。12同时,特斯拉也指出,事故发生时,由于光线、错觉等原因,驾驶员和Autopilot算法都忽视了迎面而来的危险。2017年年初,美国国家公路交通安全管理局(NHTSA)出具调查报告,认为特斯拉的Autopilot系统不应对此次事故负责,因为该系统的设计初衷是需要人类驾驶员来监控路况并应对复杂情况。事故发生时,特斯拉的驾驶员有7秒钟的时间对驶近的大货车做出观察和反应,可惜驾驶员却什么都没有做。美国国家公路交通安全管理局同时还强调说,特斯拉在安装了Autopilot辅助驾驶系统后,事故发生率降低了40%。13这表明,自动驾驶系统的总体安全概率要高于人类驾驶员,自动驾驶的商业化和大范围普及只是时间的问题。

在消费者市场之外,自动驾驶技术也许很快就会在一些特定的行业市场落地。在出租行业,优步和滴滴这样的领导者都在为自动驾驶技术用于共享经济而积极布局。优步的无人出租车已经在美国道路开始测试。在物流行业,自动驾驶的货运汽车很可能早于通用型的自动驾驶汽车开始上路运营。一些研发团队甚至憧憬过自动驾驶货车在高速公路上结成编队,快速、安全行驶的场面。而像驭势科技这样的小型初创公司,则提出了让自动驾驶汽车首先进入较为独立的社区道路,承担起小区通勤任务的想法。

无疑,在谷歌、特斯拉等科技巨头和传统汽车厂商、新兴创业公司等众多参与者的努力下,自动驾驶本身的科幻色彩在今天已越来越弱——它正从科幻元素变成真真切切的现实。

机器人

机器人是人工智能另一个经常让人浮想联翩的技术领域。工业机器人开始在制造业中发挥作用已经是很多年前的新闻了。在主流的汽车生产线中,甚至在富士康的手机生产线中,不使用工业机器人才是新闻。

其实,另一种对普通人来说相对陌生的机器人反而与我们的生活关系更近。今天,在亚马逊这种电子商务巨头的库房里,在沃尔玛的仓储中心,成千上万的机器人正代替人类完成繁重的商品摆放、整理,快速出库、入库等操作。

2012年,亚马逊收购了一家名为Kiva的公司,收购的唯一目的就是获取设计、制造仓储机器人的能力。基于Kiva技术,亚马逊大量制造一种橙黄色的小个子机器人,这些机器人可以自动驮着货物转运架,在亚马逊的大型仓储中心里快速移动,将货物运送到指定位置。

图13 亚马逊橙黄色的仓储机器人14

根据2015年第三季度末的统计数据,亚马逊在13个仓储中心使用着超过3万个Kiva机器人15。这些机器人不仅比人类仓库管理员工作得更快、更有效率,而且在空间占用上也比人类更为节省。使用了橙黄色机器人的仓储中心比普通仓储中心可以多存放50%的货物,运营成本也由此降低了20%。

对于爱网购的新新人类而言,快递是另一个与大家的幸福指数息息相关的行业。在这里,机器人当然也可以大显身手。例如,谷歌、亚马逊、DHL等从几年前就开始尝试用智能无人机完成快递流程的“最后一英里”。

图14 DHL用于递送快递包裹的无人机16

除了可以直接落在自家庭院里的无人机,不少初创公司也在大力研制智能机器人形式的无人货运小车。比萨饼连锁店达美乐就在尝试用小车形状的机器人上门送比萨。一家名为Starship Technologies的初创公司更是为小车形状的机器人设计了安全锁、智能行驶、精准定位、智能通信等模块,小车最多可承载20磅(约9千克)货物,最远可在方圆1英里(约1.6千米)的范围内运行,不仅仅可以充当快递工具,还可以在你购物回家的路上帮你拿东西。

图15 Starship Technologies的智能机器人17

另一个近年来火热的领域是教育和家庭用机器人。不过必须提醒大家的是,今天的家庭机器人还远无法像大家奢望的那样,以人形外貌出现在主人面前。从投资者的角度看,越是追求与人长得一样,试图像人一样说话、做事的机器人项目,就越没有商业前景。这个道理很简单——机器人越像人,人类就越容易拿真人与“它”做比较。这时,技术的不足会暴露无遗,在“缺点放大镜”的作用下,这种机器人只会显得无比愚蠢和笨拙。真正容易打动家庭用户的是诸如亚马逊Echo这样的智能家电——功能相对简单,外形更像家电而不是机器人,智能功能只面向一两个有限但明确的使用场景。也就是说,大多数用户会更喜欢一个有一定沟通能力、比较可爱甚至很“萌”的小家电,而不是一个处处缺陷的全功能人形机器人。

教育机器人也类似这样。比如初创公司奇幻工房(Wonder Workshop)推出的名为达奇(Dash)和达达(Dot)的两个小机器人,它们可以帮助5岁以上的孩子学习编程,开发孩子的动手能力和想象力,但它们的外貌并不像真人,而是几个可爱的几何形体组合。

图16 奇幻工房的教育机器人达奇18

到底什么是人工智能?

人工智能就在我们身边,但并非所有人都能留意到它的存在。许多人只是将它视作寻常科技的一种——这牵涉到一个如何定义人工智能的问题。

在有些人眼里,只有长相和人一模一样,智慧水平不输于18岁男女青年的机器才叫人工智能;可在另一些人看来,计算机能做许多人类做不到的事,比如一秒钟完成数百亿次运算,人类再聪明也无法在计算速度上与机器相比,为什么就不能将远超人类的计算机称为人工智能呢?

这两种看法几乎是两个极端。谁的看法更正确一些呢?

到底什么是人工智能?为什么我们说之前谈到的智能搜索引擎、智能助理、机器翻译、机器写作、机器视觉、自动驾驶、机器人等技术属于人工智能,而诸如手机操作系统、浏览器、媒体播放器等通常不被归入人工智能的范畴?人工智能究竟有没有一个容易把握和界定的科学定义?

AI小百科 人工智能的定义

历史上,人工智能的定义历经多次转变。一些肤浅的、未能揭示内在规律的定义很早就被研究者抛弃。但直到今天,被广泛接受的定义仍有很多种。具体使用哪一种定义,通常取决于我们讨论问题的语境和关注的焦点。

这里,简要列举几种历史上有影响的,或目前仍流行的人工智能的定义。对这些定义的分析、讨论是一件相当有趣的事,这有些类似于古代哲学家们围坐在一起探讨“人何以为人”,或者,类似于科幻迷们对阿西莫夫的“机器人三定律”展开辩论。其实,很多实用主义者反对形而上的讨论,他们会大声说:“嘿,管它什么是人工智能呢?只要机器能帮助人解决问题不就行了?”

定义一 AI就是让人觉得不可思议的计算机程序

人工智能就是机器可以完成人们不认为机器能胜任的事——这个定义非常主观,但也非常有趣。一个计算机程序是不是人工智能,完全由这个程序的所作所为是不是能让人目瞪口呆来界定。这种唯经验论的定义显然缺乏一致性,会因时代不同、背景不同、评判者的经验不同而套用不同的标准。但这一定义往往反映的是一个时代里大多数的普通人对人工智能的认知方式:每当一个新的人工智能热点出现时,新闻媒体和大众总是用自己的经验来判定人工智能技术的价值高低,而不管这种技术在本质上究竟有没有“智能”。

计算机下棋的历史就非常清楚地揭示了这一定义的反讽之处。

早期,碍于运行速度和存储空间的限制,计算机只能用来解决相对简单的棋类博弈问题,例如西洋跳棋,但这毫不妨碍当时的人们将一台会下棋的计算机称作智能机器,因为那时,普通计算机在大多数人心目中不过是一台能用飞快的速度做算术题的机器罢了。1951年,英国曼彻斯特大学的克里斯托弗·斯特拉齐(Christopher Strachey)编写了第一个会下西洋跳棋的计算机程序。20世纪50年代中期,IBM的阿瑟·萨缪尔(Arthur Samuel)开发的西洋跳棋程序可以和业余选手对抗。1962年,阿瑟·萨缪尔的程序战胜了一位盲人跳棋高手,一时间成了不小的新闻事件19,绝大多数媒体和公众都认为类似的西洋跳棋程序是不折不扣的人工智能。

可没过多久,不少粗通编程的人发现,计算机基本上是在用搜索或优化搜索的方式来解决博弈问题。虽然其中有各种避免穷举的算法技巧,但在公众眼中,程序只不过是按事先编写的搜索策略一步步找到最佳走棋步骤而已。随着PC的普及,每台个人电脑都可以运行一个水平相当高的西洋跳棋程序,会下棋的计算机逐渐褪去了神秘的光环。人们开始怀疑西洋跳棋程序的智能程度,不少人会用国际象棋作为例子,挑衅式地说:“下西洋跳棋有什么了不起?哪天在国际象棋棋盘上赢了世界冠军,那才叫人工智能。”

后面的事情大家都很熟悉了。1996年,IBM研究团队倾力打造的计算机深蓝挑战世界棋王卡斯帕罗夫,当年虽遗憾败北,但人们已经看到了计算机战胜人类的希望。1997年,深蓝卷土重来,在六局棋的对抗赛中战胜卡斯帕罗夫后声誉大振。当时,几乎全世界的人都在讨论深蓝的强大和可怕,没人怀疑深蓝就是人工智能的代表,至少,公众愿意相信,在深蓝巨大的黑色机箱内,拥有一颗在棋类博弈领域不输人类的特殊“大脑”。

好景不长,与西洋跳棋相似的历史很快就再次上演。当国际象棋、中国象棋已经被计算机玩得滚瓜烂熟,连一部手机、一台平板电脑上的象棋程序都能与人类高手分庭抗礼时,公众立即开始怀疑这样的博弈程序是不是还算得上人工智能。事实上,与下棋类似的事情也发生在OCR(光学字符识别)等已经失去了新鲜感的计算机算法身上20。道理很简单,公众总是乐于证明人类在智慧层面的独一无二。不管是不是真的懂得算法细节,人们总会说,计算机只不过是在程序控制下机械地完成搜索或穷举罢了。

拒绝承认象棋程序是人工智能后,公众找到了维护人类智慧尊严的最后阵地——围棋。直到2016年年初,除了一个叫樊麾的职业围棋选手和谷歌Deep Mind的一支规模不大的研发团队外,几乎所有地球人,包括围棋高手和不少计算机专家都经常会说:“下象棋有什么了不起?真有智能的话,来跟世界冠军下盘围棋试试?围棋可是一项无法穷尽搜索,需要依靠人类大局观的智力运动,是唯一一种计算机无法战胜人类的棋类比赛。”

很不幸,人类的自以为是又一次被快速发展的人工智能算法无情嘲笑了。2016年3月9日,围棋世界冠军李世石坐在Alpha Go面前,宿命再一次降临。随着Alpha Go在五番棋中以四比一大胜,有关人工智能的热情和恐慌情绪同时在全世界蔓延开来,也因此引发了一拨人工智能的宣传热潮。

2017年元旦前后,升级版的Alpha Go更是以Master的网名悄然复出,在对弈平台上,与包括中日韩最高水平棋手在内的数十位人类顶尖棋手过招,弈出了60︰0的绝对优势战绩,可谓笑傲棋坛,但求一败。

今天,没有人怀疑Alpha Go的核心算法是人工智能。但想一想曾经的西洋跳棋和国际象棋,当时的人们不是一样对战胜了人类世界冠军的程序敬若神明吗?再过两三年,当手机上的围棋程序可以轻松战胜职业棋手,当所有围棋比赛都要严查手机作弊时,人们还会认为计算机下围棋是一件不可思议的事吗?人们还会将围棋程序视为人工智能的代表吗?

定义二 AI就是与人类思考方式相似的计算机程序

这是人工智能发展早期非常流行的一种定义方式。另一种类似的,同样从思考方式本源出发的定义是:AI就是能遵照思维里的逻辑规律进行思考的计算机程序。

从根本上讲,这是一种类似仿生学的直观思路。既然叫人工智能,那用程序来模拟人的智慧就是最直截了当的做法。但历史经验证明,仿生学的思路在科技发展中不一定可行。一个最好也最著名的例子就是飞机的发明。在几千年的时间里,人类一直梦想着按照鸟类扑打翅膀的方式飞上天空,但反讽的是,真正带着人类在长空翱翔,并打破了鸟类飞行速度、飞行高度纪录的,是飞行原理与鸟类差别极大的固定翼飞机。

人类思考方式?人究竟是怎样思考的?这本身就是一个复杂的技术和哲学问题。要了解人类自身的思考方式,哲学家们试图通过反省与思辨,找到人类思维的逻辑法则,而科学家们则通过心理学和生物学实验,了解人类在思考时的身心变化规律。这两条道路都在人工智能的发展历史上起到过极为重要的作用。

思维法则,或者说,逻辑学,是一个人的思考过程是不是理性的最高判定标准。从古希腊的先贤们开始,形式逻辑、数理逻辑、语言逻辑、认知逻辑等分支在数千年的积累和发展过程中,总结出大量规律性的法则,并成功地为几乎所有科学研究提供了方法论层面的指导。让计算机中的人工智能程序遵循逻辑学的基本规律进行运算、归纳或推演,是许多早期人工智能研究者的最大追求。

世界上第一个专家系统程序Dendral是一个成功地用人类专家知识和逻辑推理规则解决一个特定领域问题的例子。这是一个由斯坦福大学的研究者用Lisp语言写成的,帮助有机化学家根据物质光谱推断未知有机分子结构的程序。Dendral项目在20世纪60年代中期取得了令人瞩目的成功,衍生出一大批根据物质光谱推断物质结构的智能程序21。Dendral之所以能在限定的领域解决问题,一是依赖于化学家们积累的有关何种分子结构可能产生何种光谱的经验知识,二是依赖符合人类逻辑推理规律的大量判定规则。Dendral的成功事实上带动了专家系统在人工智能各相关领域的广泛应用,从机器翻译到语音识别,从军事决策到资源勘探。一时间,专家系统似乎就是人工智能的代名词,其热度不亚于今天的深度学习。

但人们很快就发现了基于人类知识库和逻辑学规则构建人工智能系统的局限。一个解决特定的、狭小领域问题的专家系统很难被扩展到稍微宽广一些的知识领域中,更别提扩展到基于世界知识的日常生活里了。一个著名的例子是早期人们用语法规则与词汇对照表来实现机器翻译时的窘境。1957年苏联发射世界上第一颗人造卫星后,美国政府和军方急于使用机器翻译系统了解苏联的科技动态。但用语法规则和词汇对照表实现的俄语到英语的机器翻译系统笑话百出,曾把“心有余而力不足”(the spirit is willing but the flesh is weak)翻译为“伏特加不错而肉都烂掉了”(the vodka is good but the meat is rotten),完全无法处理自然语言中的歧义和丰富多样的表达方式22。在后起的统计模型、深度学习等技术面前,专家系统毫无优势可言,因而从20世纪90年代开始就备受冷落。科研机构甚至不得不解雇过时的语言学家,以跟上技术发展的脚步。

另一方面,从心理学和生物学出发,科学家们试图弄清楚人的大脑到底是怎么工作的,并希望按照大脑的工作原理构建计算机程序,实现“真正”的人工智能。这条道路上同样布满荆棘。最跌宕起伏的例子,非神经网络莫属。

生物学家和心理学家很早就开始研究人类大脑的工作方式,其中最重要的一环,就是大脑神经元对信息(刺激)的处理和传播过程。早在通用电子计算机出现之前,科学家们就已经提出了有关神经元处理信息的假想模型,即人类大脑中的数量庞大的神经元共同组成一个相互协作的网络结构,信息(刺激)通过若干层神经元的增强、衰减或屏蔽处理后,作为系统的输出信号,控制人体对环境刺激的反应(动作)。20世纪50年代,早期人工智能研究者将神经网络用于模式识别,用计算机算法模拟神经元对输入信号的处理过程,并根据信号经过多层神经元后得到的输出结果对算法参数进行修正。

早期神经网络技术没有发展太久就陷入低谷。这主要有两个原因:一是当时的人工神经网络算法在处理某些特定问题时有先天局限,亟待理论突破;二是当时的计算机运算能力无法满足人工神经网络的需要。20世纪70年代到80年代,人工神经网络的理论难题得到解决。20世纪90年代开始,随着计算机运算能力的飞速发展,神经网络在人工智能领域重新变成研究热点。但直到2010年前后,支持深度神经网络的计算机集群才开始得到广泛应用,供深度学习系统训练使用的大规模数据集也越来越多。神经网络这一仿生学概念在人工智能的新一轮复兴中,真正扮演了至关重要的核心角色。

客观地说,神经网络到底在多大程度上精确反映了人类大脑的工作方式,这仍然存在争议。在仿生学的道路上,最本质的问题是,人类至今对大脑如何实现学习、记忆、归纳、推理等思维过程的机理还缺乏认识,况且,我们并不知道,到底要在哪一个层面(大脑各功能区相互作用的层面?细胞之间交换化学物质和电信号的层面?还是分子和原子运动的层面?)真实模拟人脑的运作,才能制造出可以匹敌人类智慧的智能机器。

定义三 AI就是与人类行为相似的计算机程序

和仿生学派强调对人脑的研究与模仿不同,实用主义者从不觉得人工智能的实现必须遵循什么规则或理论框架。“黑猫白猫,逮住耗子的就是好猫。”在人工智能的语境下,这句话可以被改成:“简单程序,复杂程序,聪明管用的就是好程序。”

也就是说,无论计算机以何种方式实现某一功能,只要该功能表现得与人在类似环境下的行为相似,就可以说,这个计算机程序拥有了在该领域内的人工智能。这一定义从近似于人类行为的最终结果出发,忽视达到这一结果的手段。另一种对人工智能的近似定义则更强调人工智能的实用色彩:AI就是可以解决问题并获得最大收益的计算机程序。

略懂些编程的人都知道,几乎所有程序设计语言都提供了类似“if……else……”的分支结构,即,如果程序发现某个条件已满足,就执行if之后的指令,否则就执行else之后的指令。那么,与“if……else……”相关的一个哲学问题是,程序根据某个条件进行判断并完成相应操作的时候,这个“判断”以及随后的“决定”是由计算机自己做出的,还是由编程序的人做出的?如果是由计算机自己做出的,那能不能说所有执行了“if……else……”语句的计算机程序都是人工智能?如果相反,那计算机根据运行时的情况做决策时,人又在哪里呢?

哲学思辨容易陷入这样的两难境地,但实用主义者根本不把这当回事——执行“if……else……”的程序是否有智能,完全要看那个程序是不是做了和人相似的有智能的事。像Dendral这样的专家系统就是靠大量“if……else……”来模仿人类专家的判定规则,这当然属于人工智能的范畴,而普通的数值计算程序即便用了“if……else……”,也不能被称作智能。

实用主义者推崇备至的一个例子是麻省理工学院于1964年到1966年开发的“智能”聊天程序ELIZA。这个程序看上去就像一个有无穷耐心的心理医生,可以和无聊的人或需要谈话治疗的精神病人你一句我一句永不停歇地聊下去。当年,ELIZA的聊天记录让许多人不敢相信自己的眼睛。可事实上,ELIZA所做的,不过是在用户输入的句子里,找到一些预先定义好的关键词,然后根据关键词从预定的回答中选择一句,或者简单将用户的输入做了人称替换后,再次输出,就像心理医生重复病人的话那样。ELIZA心里只有词表和映射规则,它才不懂用户说的话是什么意思呢。

这种实用主义的思想在今天仍有很强的现实意义。比如今天的深度学习模型在处理机器翻译、语音识别、主题抽取等自然语言相关的问题时,基本上都是将输入的文句看成由音素、音节、字或词组成的信号序列,然后将这些信号一股脑塞进深度神经网络里进行训练。深度神经网络内部,每层神经元的输出信号可能相当复杂,复杂到编程者并不一定清楚这些中间信号在自然语言中的真实含义,但没有关系,只要整个模型的最终输出满足要求,这样的深度学习算法就可以工作得很好。在研究者看来,深度学习模型是不是真的跟人类大脑神经元理解自然语言的过程类似,这一点儿都不重要,重要的是,整个模型可以聪明地工作,最终结果看起来就像人做的一样。

定义四 AI就是会学习的计算机程序

没有哪个完美主义者会喜欢这个定义。这一定义几乎将人工智能与机器学习等同了起来。但这的确是最近这拨人工智能热潮里,人工智能在许多人眼中的真实模样。谁让深度学习一枝独秀,几乎垄断了人工智能领域里所有流行的技术方向呢?

20世纪80年代到90年代,人们还在专家系统和统计模型之间摇摆不定,机器学习固守着自己在数据挖掘领域的牢固阵地远远观望。从2000年到2010年,短短十几年过去,机器学习开始逐渐爆发出惊人的威力,并最早在计算机视觉领域实现了惊人的突破。2010年至今,使用深度学习模型的图像算法在Image Net竞赛中显著降低了对象识别、定位的错误率。2015年,Image Net竞赛中领先的算法已经达到了比人眼更高的识别准确率23。就在同一年,语音识别依靠深度学习获得了大约49%的性能提升24。机器翻译、机器写作等领域也在同一时期逐渐被深度学习渗透,并由此获得了大幅改进。

“无学习,不AI”,这几乎成了人工智能研究在今天的核心指导思想。许多研究者更愿意将自己称为机器学习专家,而非泛泛的人工智能专家。谷歌的Alpha Go因为学习了大量专业棋手棋谱,然后又从自我对弈中持续学习和提高,因此才有了战胜人类世界冠军的本钱。微软的小冰因为学习了大量互联网上的流行语料,才能用既时尚,又活泼的聊天方式与用户交流。媒体上,被宣传为人工智能的典型应用大多都拥有深度学习的技术基础,是计算机从大量数据资料中通过自我学习掌握经验模型的结果。

这一定义似乎也符合人类认知的特点——没有哪个人是不需要学习,从小就懂得所有事情的。人的智慧离不开长大成人过程里的不间断学习。因此,今天最典型的人工智能系统通过学习大量数据训练经验模型的方法,其实可以被看成是模拟了人类学习和成长的全过程。如果说人工智能未来可以突破到强人工智能甚至超人工智能的层次,那从逻辑上说,在所有人工智能技术中,机器学习最有可能扮演核心推动者的角色。

当然,机器目前的主流学习方法和人类的学习还存在很大的差别。举个最简单的例子:目前的计算机视觉系统在看过数百万张或更多自行车的照片后,很容易辨别出什么是自行车,什么不是自行车,这种需要大量训练照片的学习方式看上去还比较笨拙。反观人类,给一个三四岁的小孩子看一辆自行车之后,再见到哪怕外观完全不同的自行车,小孩子也十有八九能做出那是一辆自行车的判断。也就是说,人类的学习过程往往不需要大规模的训练数据。这一差别给人类带来的优势是全方位的。面对繁纷复杂的世界,人类可以用自己卓越的抽象能力,仅凭少数个例,就归纳出可以举一反三的规则、原理,甚至更高层次上的思维模式、哲学内涵等。最近,尽管研究者提出了迁移学习等新的解决方案,但从总体上说,计算机的学习水平还远远达不到人类的境界。

如果人工智能是一种会学习的机器,那未来需要着重提高的,就是让机器在学习时的抽象或归纳能力向人类看齐。

定义五 AI就是根据对环境的感知,做出合理的行动,并获得最大收益的计算机程序

针对人工智能,不同的定义将人们导向不同的研究或认知方向,不同的理解分别适用于不同的人群和语境。如果非要调和所有看上去合理的定义,我们得到的也许就只是一个全面但过于笼统、模糊的概念。

维基百科的人工智能词条采用的是斯图亚特·罗素(Stuart Russell)与彼得·诺维格(Peter Norvig)在《人工智能:一种现代的方法》25一书中的定义,他们认为:

人工智能是有关“智能主体(Intelligent agent)的研究与设计”的学问,而“智能主体是指一个可以观察周遭环境并做出行动以达致目标的系统”26。

基本上,这个定义将前面几个实用主义的定义都涵盖了进去,既强调人工智能可以根据环境感知做出主动反应,又强调人工智能所做出的反应必须达致目标,同时,不再强调人工智能对人类思维方式或人类总结的思维法则(逻辑学规律)的模仿。

以上,我们列举了五种常见的人工智能的定义。其中,第二种定义(与人类思考方式相似)特别不可取。人们对大脑工作机理的认识尚浅,而计算机走的是几乎完全不同的技术道路。正如深度学习“三巨头”之一的扬·勒丘恩(Yann Le Cun)所说,对深度神经网络,“我最不喜欢的描述是‘它像大脑一样工作’,我不喜欢人们这样说的原因是,虽然深度学习从生命的生物机理中获得灵感,但它与大脑的实际工作原理差别非常非常巨大。将它与大脑进行类比给它赋予了一些神奇的光环,这种描述是危险的。这将导致天花乱坠的宣传,大家在要求一些不切实际的事情。人工智能之前经历了几次寒冬就是因为人们要求了一些人工智能无法给予的东西”27。国内著名机器学习专家、南京大学教授周志华则说:“现在有很多媒体,常说深度学习是‘模拟人脑’,其实这个说法不太对。我们可以说从最早的神经网络受到一点点启发,但完全不能说是‘模拟人脑’之类的。”28

第一种定义(让人觉得不可思议)揭示的是大众看待人工智能的视角,直观易懂,但主观性太强,不利于科学讨论。第三种定义(与人类行为相似)是计算机科学界的主流观点,也是一种从实用主义出发,简洁、明了的定义,但缺乏周密的逻辑。第四种定义(会学习)反映的是机器学习特别是深度学习流行后,人工智能世界的技术趋势,虽失之狭隘,但最有时代精神。第五种定义(维基百科使用的综合定义)是学术界的教科书式定义,全面均衡,偏重实证。

基本上,偏重实证是近年来人工智能研究者的主流倾向。在今天这个结果至上的时代里,没有多少人愿意花心思推敲人工智能到底该如何定义。有那个时间,还不如去搞几个深度学习的新模型,发几篇深度学习新算法的论文来得划算。