2017年,在中国一场重要科技研讨会上,唐纳德·特朗普出现在会议现场的大屏幕上。这位美国总统先以英语致欢迎辞,然后突然用他夸张的语气流利地说起了中文:“人工智能正在改变世界,科大讯飞(iFLYTEK)真的很棒。”看到这一幕,我和在场的参会者都感到非常惊讶。
特朗普当然不会说中文,这个场景是科大讯飞将其人工智能算法,通过大量的特朗普演讲样本数据训练后的结果,该算法模拟制作的声音无论是声调、语气还是风格,几乎都能完美地模拟出特朗普的声音。之后再套用普通话的语音模型,让世界听到了一个似乎从小在北京郊区长大的美国总统的声音。科大讯飞对奥巴马的声音也如法炮制,把他在英文视频直播的记者会上的发言,转换成完美的普通话发言。
在许多著名的人工智能国际竞赛中,科大讯飞在语音识别、语音合成、影像识别、机器翻译等竞赛项目中都取得了不俗的成绩。即便是在“第二语言”——英语的比赛中,该公司的参赛团队也经常能击败来自谷歌、DeepMind、Facebook及IBM沃森等公司的对手。
这家了不起的中国人工智能公司的创始人刘庆峰,就是1999年我在中国科学技术大学校园里看到的“路灯读书族”之一。他也是我创立微软亚洲研究院后,看中的一位博士生。刘庆峰既勤奋又有创意,是当时最被我看好的年轻研究人员之一,但他谢绝了微软奖学金和加入微软实习的邀请,打算自己创立一家人工智能语音公司。我告诉他,中国当时的技术与美国的语音识别巨头纽昂斯通讯公司(Nuance Communications)之间差距比较大,而且缺少有需求的客户。不过幸好刘庆峰没听我的劝告,全心全意投入人工智能语音行业,创办了科大讯飞。近20年后,在人工智能国际竞赛中获奖无数的科大讯飞无论是技术能力还是市值,都已经远远超越纽昂斯,成为当今世界身价最高的人工智能语音公司。
把科大讯飞在语音识别、翻译及合成上的尖端能力结合起来,就能创造出革命性的人工智能产品——同声传译耳机,可以把我们的声音实时转译为其他语言。类似这样的产品将彻底改变国际旅游、商务及文化,并催生大量高效、高产能、有创意的新商品。
但是这个变化不会很快到来,技术的发展还需要一点儿时间。目前,人工智能革命分为四波浪潮:互联网智能化(Internet AI)、商业智能化(business AI)、实体世界智能化(perception AI)、自主智能化(autonomous AI)。每一波浪潮都将以不同方式利用人工智能的力量,颠覆不同产业,让人工智能更深层次地融入我们的生活。
前两波浪潮——互联网智能化及商业智能化——已经出现在了我们身边,互联网公司能以算法取代保险精算师、股票交易经理和医生助理。现在,感知人工智能正在把现实世界数字化,机器开始学习辨识我们的脸孔,识别我们身边的物体与语音,理解我们的需求,搞懂我们身边的世界。第三波浪潮将彻底改变我们和世界之间的互动体验以及模糊数字世界和现实世界之间的分界。随着自动驾驶汽车的上路、无人机的飞天,智能机器人接管工厂,第四波浪潮——自主人工智能将进一步改变农业、交通、连锁餐饮等众多领域。
人工智能发展的四波浪潮
这四波浪潮的涌现依赖于不同种类的数据,而中、美两国在每波浪潮中有着各自不同的优势。就目前的情况具体来说,中国在互联网人工智能、感知人工智能中取得了领先优势,很快也可能在自主人工智能领域赶上美国。目前,美国唯一拥有明显领先地位的是商用人工智能方面。
竞争不仅限于两个国家之间。首创于美国及中国的人工智能驱动服务会推广至全球几十亿用户,这些用户中的大部分人都生活在发展中国家。Uber、滴滴、阿里巴巴、亚马逊等公司在发展中国家的市场上激烈竞争,但策略大不相同。硅谷巨头试图用它们自己的产品或服务去征服新市场,中国的互联网公司则是投资当地想要对抗美国巨头的创业公司。这场竞争才刚刚开始,其过程与结果将影响21世纪全球的经济格局。
想了解这场竞争如何在全球发展演进,首先得深入了解冲击我们经济的每一波人工智能浪潮。
第一波浪潮:互联网智能化
互联网人工智能可能已经牢牢吸引你的目光,甚至已经紧紧抓住你的钱包。你是否沉迷抖音视频无法自拔?看到在线视频网站向你推荐本就打算看的内容有没有感到惊讶?淘宝和京东怎么好像知道你想买什么?
若你曾有类似体验,那么你已经是互联网人工智能的受益者(或是受害者,取决于你如何看待你的时间、隐私与钱包)。第一波浪潮兴起于近15年前,在2012年左右成为主流。大体上说,互联网人工智能就是使用人工智能算法作为推荐引擎:这些算法了解、研究、学习我们的个人喜好,从而推荐专门针对我们的内容。
驱动这些人工智能引擎的,正是它们获得的数据。目前最大的数据库大部分都在互联网巨头手里。但是这些数据必须“贴上标签”,才能真正对算法有所帮助。这里的“标签”并不需要主动评价内容,或是给内容加上关键词,而是把数据和特定行为连接起来,如购买与未购买,点击与未点击,观看完整视频与中途切换至其他视频。这些“标签”都被用来训练算法,然后由算法推荐内容与商品给用户,让我们消费得更多。
一般人认为这意味着互联网变得更好了,更了解我们想要的(也更容易让人上瘾),但这也证明了人工智能可以通过数据来学习和了解我们,进而优化推送我们想要的东西。这种优化让已经在靠点击赚钱的互联网公司能赚到更多钱,比如谷歌、百度、阿里巴巴、YouTube、抖音。使用互联网人工智能,阿里巴巴可以给用户推荐他们想买的东西,谷歌可以列出用户想点击的广告,抖音可以推荐用户想观看的视频。
算法与编辑
第一波人工智能浪潮也带来了全新的、由人工智能驱动的互联网公司。在中国,这类公司的领头羊是今日头条。创立于2012年的今日头条,有时被称为“中国的Buzzfeed”,因为这两个网站都是时下病毒式话题的传播中心,但两者相似的地方仅此而已。Buzzfeed有一群擅长炒作原创内容的年轻编辑,而今日头条的编辑是人工智能算法。
今日头条的人工智能引擎在互联网上搜寻内容,使用自然语言处理和计算机视觉技术,消化整理来自合作伙伴及特约撰稿人的大量文章与视频,再根据用户的以往行为,如点击、阅读、浏览、评论等,针对每个用户的兴趣、喜好和习惯高度定制动态推送。这个人工智能算法甚至会修改标题,以吸引用户点击。用户点击量越多,今日头条就越擅长推荐适合用户的内容。这个良性循环,创造了互联网上最诱人的内容平台之一——今日头条的用户平均每天在应用内逗留74分钟。(1)
机器人报道与假新闻
除了高度定制推送,今日头条也使用机器学习来创作与监管内容。2016年巴西里约奥运会期间,今日头条和北京大学合作开发了一名人工智能“记者”,可以在赛事结束后几分钟内撰写出简短的摘要报道。人工智能“记者”撰写的文章不怎么优美但速度惊人,有些赛事结束后两秒钟内,人工智能“记者”就完成了报道摘要,每天能报道30多项赛事。
算法也可以在平台上找出假新闻(通常是医疗类的假新闻)。起初,读者会发现并举报这类假新闻。后来今日头条使用这些带了标签的数据来训练算法识别假新闻。今日头条甚至专门训练一套算法来撰写假新闻,然后让两套算法相互较量,看谁能骗到谁,在相互学习中优化算法。
使用人工智能处理内容的商业模式回报颇丰,以此为基础的公司获得了天价估值。2018年7月,《华尔街日报》报道今日头条准备在香港上市,估值450亿美元。预计今日头条2018年营收在45亿美元至76亿美元。此外,该公司正快速拓展海外市场。2016年,今日头条收购美国著名的社交新闻网站Reddit未遂,一年后收购法国的一个新闻集合网站News Republic,以及由华人团队开发、广受美国青少年喜爱的对口型音乐短视频制作应用Musical.ly。
今日头条的成功展现了中国在互联网人工智能领域的实力。超过7亿互联网用户都在消费中文互联网内容。使用人工智能优化的在线服务使中国的互联网巨头获利颇丰,如腾讯在2017年11月市值超越Facebook,成为第一家市值超过5000亿美元的中国公司;如阿里巴巴快速成长,成为和亚马逊势均力敌的巨头。
我预测在5年后,中国科技公司在互联网人工智能技术发展和商业获利方面,会取得微小的优势。中国的互联网用户比美国和全欧洲加起来都多。而且移动支付的普及,使中国的互联网用户可以与内容创作者、O2O平台和其他用户无缝连接,支付行为非常简易。把这些结合起来,中国在开发互联网人工智能应用及盈利方面能够睥睨全球。再加上坚韧且资金充裕的创业者,中国很有可能(但是没有绝对把握)胜过硅谷。
不过,第一波人工智能浪潮创造的种种经济价值仍局限于高科技产业及数字世界。传统公司广泛地从人工智能发展中获利,是在第二波人工智能浪潮来临之后。
第二波浪潮:商业智能化
第一波人工智能浪潮的基础是给互联网用户的浏览数据贴标签,而商用人工智能则是给传统公司数十年来积累的大量专业数据贴标签,如保险公司理赔事故中鉴别保险欺诈,银行核发贷款时记录还款率,医院保存医疗诊断记录及患者存活率等。这些活动产生了大量带有标签,即自带特征及含义的数据。但直到最近才有部分传统公司找到方法,更有效地利用这些数据。
商用人工智能从这些数据库中挖掘人类往往会忽视的隐性联系,参考以往的决策与结果,利用贴了标签的数据训练算法,最终使其超越经验最丰富的人类从业者。这是因为人类通常根据强特征(strong features)来做出预测,而与结果高度相关的数据,通常是直接的因果关系。例如在预测患糖尿病的可能性时,此人的身体质量指数(BMI)是强特征。而人工智能算法除了会把这些强特征纳入考虑,同时也不放过其他的弱特征(weak features)——这些数据点可能表面上和特定结果无关联性,但是把数千万个例子结合起来后,可以发现一些对预测结果有帮助的重要联系。这些细微的关联性往往没人能解释清因果,例如为何在星期三取得贷款的借款人往往能较快地偿还贷款。但是,使用人脑难以理解的复杂数学关系,把许多强特征和弱特征结合起来的算法,能在许多商业分析工作上胜过技术顶尖的人类。
商用人工智能事业
早在2004年,帕兰提尔(Palantir)及IBM沃森等公司就已经为企业与政府提供大数据分析服务。那个时期的商用人工智能应用高度集中在金融业等少数几个靠高度结构化信息运作的产业。“结构化”的意思是已分类、贴上标签、可搜索的数据,最典型的就是股价历史信息、信用卡使用记录等。这类产业有明确的优化指标,与人工智能天生契合。
因此,传统产业发达的美国在早期的商用人工智能应用领域建立了强势的领先地位。大型美国企业收集了大量数据,设计了良好的储存结构。它们常使用会计、存货管理及顾客关系管理等领域的企业软件。有了这样结构化的数据,如帕兰提尔这样的数据分析公司可以很容易地将人工智能商用,帮助传统公司优化现有数据库,更好地识别欺诈、更明智地进行交易、发现供应链上缺乏效率的环节,使得企业进一步节约成本,利润最大化。
中国的企业大多使用自己特有的系统来保存数据,从未真正接纳企业软件或标准化的数据储存。这些系统无法扩展,难以和现有的企业软件整合,数据的整理与结构化非常困难。无结构的数据导致使用人工智能优化后的结果不甚理想。另外,中国公司在雇用第三方顾问服务方面的支出远少于美国公司。中国许多传统企业的经营模式和企业文化仍然像个体经营而不是现代企业组织,它们认为不值得在第三方的专业服务上花钱。
到了2013年,深度学习技术的应用大大提高了服务水平,市场上出现了新的竞争者,如加拿大的Element AI、中国的商用人工智能公司第四范式。
炒掉银行客户经理
中国大部分传统企业普遍存在数据尚未结构化、企业文化老旧等现象,使其难以在第二波人工智能时期享受技术红利。但一些能够直接接入商用人工智能的产业在大步前进,小微金融就是其中最有前景的一个产业。过去中国的金融服务业以人力为主,小微金融产业成为直接采用尖端人工智能应用的一块跳板。
微信和支付宝可以让你直接从银行账户转账付款,但它们的核心服务无法让你在收入到账之前,稍微透支一部分。这是因为当金融服务商越过信用卡直接进入移动支付时,无法同步利用信用卡发行商的信用数据。面对这样的问题,智融集团(Smart Finance)研发的人工智能应用填补了这块空白,它只依赖算法,就可以评估贷款的风险,并做出比人精确的判断。它不要求申请人填写收入水平,只要求用户同意发贷方从他们的手机上取得一些数据。这些数据就像申请人的数字指纹,能够以相当高的准确度预测他们有没有能力偿还1万元的小额贷款。智融的深度学习算法不只看明显的指标,如用户的微信钱包里有多少钱,它也根据一般银行贷款审核人员认为无关紧要的数据点来做出分析,如用户输入出生日期的速度、手机电池还剩多少电量以及数以千计的其他数据。贷款申请人的手机还有多少电量跟他们的信用有关系吗?这两者间不是“因为……所以……”的因果关系,而是因为人类难以识别的海量数据中隐藏着关联性,这正是人工智能擅长的领域。智融用数百万笔贷款数据来训练算法,这些贷款有些偿还了,有些则没有,发掘了和信用相关的数千个弱特征。智融集团创始人兼CEO焦可把这些不寻常的指标形容为审核放款时的“新审美标准”(2),取代了个人征信之类的传统标准。
不断增加的海量数据使算法不断优化,也使智融能够将信用服务延伸至那些向来被传统银行忽视的人群,如低收入年轻人及外来务工人员。智融集团的人工智能算法,预测违约率低至个位数。这一数字让传统银行叹为观止。
请到算法诊所就诊
商用人工智能并非只能用在跟钱有关的领域,它同样可以用在数据驱动的公共服务上,让许多之前负担不起这些服务的人享受科技带来的红利,促成高质量服务大规模推广。这方面,最具前景的领域之一是医疗诊断。美国的顶尖研究人员如吴恩达和塞巴斯蒂安·特伦,已经展示了一些依据影像在诊断某些疾病时媲美专业医生的一流算法,如根据胸部X光片来诊断肺炎,根据照片来诊断皮肤癌等。不过,医疗领域商用人工智能的更广泛应用,将有望处理多种疾病的整个诊断流程。
目前,拥有专业医学知识以及能为患者做出正确诊断的人仍然以少数专业人士为主,但他们精力有限,记忆力也不能支持他们记住所有的病例与治疗方法,一流的医疗服务仍然由为数不多且资金充裕的医疗机构提供。互联网上虽然散布着海量的医学信息,但并不是以大众能够理解的形式存在。在人口众多、医疗资源相对紧张的中国,训练有素的医生大多集中在大城市的一流医院,在偏远的城镇或乡村,医疗资源并不是很丰富。因此,中国各地的病患总是想尽办法到北京、上海的大医院看病,哪怕需要等很多天。这让大医院本就有限的资源更加紧张。
第二波人工智能浪潮有望改变这一切。疾病诊断涉及的数据(如症状、医疗史、环境因素等)以及从与这些数据有关的现象(如某种疾病)中寻找关联性并做出预测,这些工作正是深度学习擅长的。有了足够的数据——精准的医疗记录,由人工智能驱动的诊断工具能够把一般水平的医疗专业人员变成处理过数千万个病例的超级医生,还能发现患者症状数据之间隐藏的关联性,同时还有完美的记忆力。
曾经在硅谷及百度从事深度学习工作的中国人工智能研究人员邓侃,创立了大数医达科技公司,该公司研发了专门训练医疗领域的人工智能算法,使它们成为能够部署在全国各地的超级诊断师。它们并不想用算法取代医生,而是要辅助医生诊断。算法在诊断流程中扮演“导航”的角色,用大数据规划最佳路径,但人类医生会主导最终的判断。诊断的范围随着算法得到的信息增加而缩小,这时更详细、高度确定的数据可以帮助判断症状的起因,以及其他诊断结果的正确性及患病概率。这款应用给医生的建议,是依靠其超过4亿条医疗记录(并且还在持续扫描最新医学文献)的数据,把全球顶尖医学知识平均分配在医疗资源不均衡的社会中,让所有医生和护士都能聚焦在机器做不到的人类工作上,如使病患感受到关怀,更人性化地和病患分享诊断结果。
看不见的法庭助手
科大讯飞率先把人工智能应用在另一个资源和能力分布高度不均的领域——司法界。在上海进行的试点中,科大讯飞使用以往案例数据,向法官提出有关证据及判决的建议。该公司开发的证据交互参照系统,使用语音识别与自然语言处理技术来比较所有证据,如证词、文件及背景资料等,并找出其中的矛盾点,同时提醒法官注意这些有争议的地方,让法院审理人员可以进一步核实。量刑时,法官可以把被告的犯罪记录、年龄、造成的伤害等相关信息输入判决辅助人工智能系统。该系统存储了大量的判决记录,可以从类似案例中做出有关量刑或罚款的建议。接受人工智能应用提供的信息,可以在十万余名法官中建立一致性,也可以约束不走寻常路的法官。美国的一些法庭也会使用类似的算法,对提请假释的犯人进行风险评估。不过,这类人工智能工具扮演的角色及其本身的缺乏透明性等缺陷,在美国高等法院遭到了质疑。
跟大数医达科技公司的医生“导航”一样,科大讯飞的司法人工智能工具也是用来辅助专业人员做出更佳决策,而非取代专业人员。人工智能系统为法官提供数据导向的建议,帮助维持司法公正,纠正一些就连经验丰富的法官都无法避免的偏见。美国的法律学者的研究表明,受害人及被告所属的种族,对美国法院判刑的影响非常明显,而司法偏见往往更不引人注意。一项针对以色列法官所做的研究结果显示,这些法官在午餐前做出的判决比较严厉,在饱餐一顿后,他们在裁决假释时则较为宽容。(3)
谁能取得领先地位?
那么,在人工智能应用更广泛的商用人工智能领域,哪一个国家处于领先地位呢?在今天无疑是美国。美国的公司有应用商用人工智能的原材料和意愿,因此在见效快、最有利可图的银行业、保险业以及其他任何拥有大量结构化数据、可供人工智能进一步优化的产业上具有明显优势。相对来说中国传统企业对人工智能的应用不是很到位,但中国现有的金融体制和分布不均的医疗卫生资源是重构消费者信用和医疗等服务的关键所在。商用人工智能可以把这些弱点转化为优势,彻底重构这些产业。所以,我认为5年内中国能够缩小差距,而且有机会让商用人工智能发展出更多有效的应用。
第二波人工智能的应用对现实世界有直接影响,但算法本身处理的对象仍然是由人类行为形成的数据。但第三波人工智能改变了这一点,赋予了人工智能最宝贵的信息收集工具——眼睛与耳朵。
第三波浪潮:实体世界智能化
在人工智能问世之前,所有机器都是既盲且聋。它们可以拍照或录音,但这只是复制人类感受到的视听环境以供人类解读,机器本身无法理解这些信息。对一台普通的计算机而言,一张照片只不过是它必须储存起来的、没有任何意义的一堆像素;对一部iPhone而言,一首歌曲只不过是它必须播放给人类听的一串0与1的组合。
感知人工智能的问世改变了这一切,现在算法能够模拟人脑的运作方式,把图片或视频的像素汇集成有意义的集群以辨识其中的对象,如金毛犬、交通信号灯、我们的亲属等。声音数据也是如此,计算机不再只是把音频档案当成字节的集合储存起来,人工智能算法能够提炼出其中的字词,还能解析整个句子的意思。
第三波浪潮就是把人工智能延伸至我们的生活环境,以大量的传感器及智能型器材,把我们的现实世界转化成可被深度学习算法分析与优化的数据,如小米的智能音箱“小爱同学”和Amazon Echo可以把声音环境数字化;阿里巴巴的“城市大脑”通过摄影机和物体识别,可以把城市交通流量数字化;Face++的技术和软件则可以把面孔数字化,使用感知数据,经过人脸识别来保护我们的手机或数字钱包。
界限模糊的OMO世界
感知人工智能开始模糊线上与线下世界之间的界限,大大增加了我们和互联网的互动节点。在感知人工智能问世之前,我们和线上世界的互动必须经过两个关卡:计算机键盘或智能手机屏幕。这些设备是通往储存于互联网上庞大知识的入口。但是这样获取信息很不方便,尤其是在外购物或正在开车时。
感知人工智能越来越擅长辨识我们的脸孔,听懂我们的声音,观察我们身边的世界,它也将在线上与线下世界之间架起无数无缝衔接的桥梁节点,这些节点会让“上线”这个词变得没有意义。坐在沙发上说一句话,就能订好外卖,那我们究竟有没有在线上?当我们的冰箱告诉商店里的购物车家里已经没有牛奶了,我们到底是在现实世界还是数字世界里?
我把这个新环境称为“线上线下融合”(Online-Merge-Offline),简称OMO。我们已经从纯粹的电子商务迈入O2O(线上到线下)服务,下一个状态则是OMO。这个过程中,每一步都在数字世界和现实世界之间建立新桥梁。OMO把数字世界和现实世界完全整合起来,把线上世界的便利性带进线下世界里,把在线下世界里感知到的内容带到线上世界里。
未来,感知人工智能将把购物商场、杂货店、城市街道甚至我们的住所转化成OMO环境,还会产生一些令一般用户真正有未来主义感觉的人工智能应用。有些应用已经存在了。中国的肯德基和支付宝合作,率先在一些店推出“刷脸支付”。顾客在数字终端机上点餐后,快速扫描脸孔,链接至他们的支付宝账户,直接转账付款,而不需要现金、信用卡或借记卡,更不要说扫描手机二维码支付。这些人工智能的点餐机甚至使用“活体算法”(liveness algorithm),确保人脸不会被盗刷。
刷脸支付只不过是OMO的“冰山一角”。想知道OMO的发展趋势,我们要来展望一下几年后,安装了感知人工智能设备的超市会是什么样的。
每辆购物车都知道你的姓名
“开复,您好!欢迎再度光临永辉超市!”
购物车像老朋友一样迎接我的感觉真不错。我拉出一辆购物车时,购物车把手上的视觉传感器已经完成了对我的面部扫描,同时在巨大的人工智能驱动的数据库里比对,与一份爱美食、爱购物、妻子非常会做中餐的档案联系起来。
当我正绞尽脑汁回忆家里这星期需要买什么时,购物车把手上的屏幕亮了,上面的信息告诉我:“屏幕上显示的是您每周常买的食品杂货清单。”我们家日常的食物列表出现在了屏幕上:茄子、花椒、希腊酸奶、脱脂牛奶等。这时,我家的冰箱和橱柜已经检查了这周需要什么,自动下单了不易腐坏的食品杂货(米、酱油、食用油等)提前快递到家。这样,永辉超市等商店可以针对用户的习惯、喜好及需要,为用户挑选新鲜农产品、特定品牌的红酒、生鲜海产等,这也能让超市缩小门店面积,在距离多数居民区较近的地方设置较小的门店。
“如果要从清单上增减任何商品,请告诉我。”购物车继续说,“从购物车里及家中冰箱里的东西来看,您这周的饮食可能缺乏纤维,我是否该增加一包杏仁或者做豌豆汤的食材?”
“不要豌豆汤,但请快递一大包杏仁到我家,谢谢!”虽然不知道算法需不需要感谢,但我还是习惯性地致谢。浏览清单后,我做出了几项调整:女儿不在家,我可以删除一些商品;冰箱里有牛肉,我决定照我母亲的食谱,为我的太太煮碗牛肉面。
“去掉希腊酸奶,从现在起,改喝全脂牛奶。还有,我要做牛肉面,把缺的食材加上去。”
我做出调整后,购物车立刻回答:“没问题。”它说的是普通话,但声音是我喜欢的女星詹妮弗·劳伦斯。这让家务杂事做起来不再那么枯燥乏味。
购物车在超市里自动前进,一直和我保持着几步的距离。我则在挑选最熟的茄子和味道最浓的花椒,这两样是麻辣牛肉面的关键食材。接着,购物车带我来到超市后方,精确控制的机器人正在制作新鲜面条。我把商品放进购物车里时,购物车边上的深度感知摄像头能识别出商品,而下方的传感器会进行称重。
购物车里每增加一样商品,屏幕上的列表就勾选掉这一项,并计算出目前的总价。超市里每样商品的摆放位置及陈列方式,都是根据过去收集的顾客购买数据来不断优化的。什么样的陈列方式能吸引顾客的注意力?他们会在哪儿停下看商品?他们最终购买了哪些商品?视觉及商业数据让人工智能超市能像在线零售商那样,对消费者行为有充分的了解。
转个弯,来到酒品陈列区,一名穿着制服的年轻人走了过来。
“李先生,您好!”他说,“我们店刚进来一批很棒的纳帕(Napa)红酒。我知道您太太的生日快到了,您初次购买作品一号(Opus One)酒庄2014年份的酒,可以打九折。您太太常喝前奏曲(Overture),Opus One是同一酒庄更高端的酒品,味道香醇,还有咖啡、黑巧克力的气味,您想尝尝吗?”
他知道我喜欢加州葡萄酒。我接受邀请尝了一点,味道真的很棒。
“我很喜欢。”我把杯子还给他,“来两瓶吧。”
“谢谢您。您可以继续采购,我等一下就拿两瓶给您。若您想定期采购,或是想试试其他的推荐,可以在永辉超市的应用里找到,也可以来这里找我。”
这里的服务人员知识丰富、友善、训练有素、精于营销。这份工作对社交互动的需求远超传统超市的服务人员岗位,所有员工都要随时和顾客讨论烹饪、从农场到餐桌的供应链以及比较某款产品和顾客用过的其他产品。
购物还在继续,购物车引导我购买日常的食材,服务人员偶尔会推销一些算法预测的、我可能愿意尝试的东西。服务人员把我购买的东西装袋,这时我的手机振动了,是微信完成支付的提示。完成后,这台购物车自行导航,回到了购物车架上。
类似这样由感知人工智能驱动的购物经历,呈现了人工智能时代的一个根本矛盾:令人感觉既寻常,却又全然不同于以往。我们的日常活动大多一如往常,但现实世界的数字化将减少平时出现的摩擦,并为每个人提供量身定制的服务。线上世界的便利也会来到线下世界。同样重要的是,通过了解及预测每位购物者的习惯,商店可以大大改进供应链,减少浪费,提升效率,提高盈利能力。
这里描绘的超市已经快变成现实了,创新工场旗下的创新奇智与永辉超市合作策划了一个相关项目,希望能尽快把这样的愿景带到大众身边。核心技术已经存在,只等软件进一步调试、供应链后端的整合以及建造商店了。
OMO驱动的教育
身历其境的OMO体验并非仅限于购物。相同的技术如视觉识别、语音识别,以及根据以往行为勾勒的详细个人档案,也可用来创造高度定制的教育体验。
现行的教育体系大致上仍然是19世纪的“工厂模式”:所有学生在同一地点、同一时间,以相同速度及相同方式学习。学校采用“流水线”模式,让孩子一年升一级。在老师投入教学、辅导与评估学生的时间与精力非常有限的情况下,这种模式是有道理的。
但现在人工智能可以消除这些限制,人工智能的感知、识别与建议能力,能够针对每个学生打造不同的学习流程,也可以让老师腾出更多时间,对学生提供一对一辅导。
人工智能驱动的教育有四种应用场景:课堂教学、家庭作业与练习、考试与评分、量身打造的家教辅导。这四种场景的效果及行为会反馈给人工智能,并构成这一应用的基石——学生个人的档案。档案中包含影响学习的各种因素,比如哪些概念很熟悉,哪些概念不好理解,对各种教学方法的反馈,在课堂上的专注程度,回答问题的速度如何,调动学生积极性的方法,等等。
如何收集数据?如何应用于改进教育流程?
在课堂教学中,学校将采用“双教师”模式:一位优秀的教师远程授课,另一位教师在教室观察与辅导。课程的前半部分,是教师对大约20个课堂的学生远程授课,并向学生提出问题,而学生要使用手上的“答题器”回答这些问题,让授课教师实时了解学生是否理解了之前讲授的概念。
在授课过程中,教室前方的一个视频会议摄像头使用面部识别与动作分析技术来记录出席人数,检查学生的专注程度,并根据学生的动作(例如点头、摇头、困惑的表情等)来评估学生对授课内容的了解程度。所有的数据,如用机器回答的问题、专注程度、理解程度,将直接写入学生的个人档案里,实时反馈学生了解了哪些授课内容,以及哪些部分需要进一步讲解。
学生回家后,算法根据学生档案,为每个学生量身设计家庭作业:聪明的学生必须完成高难度、有挑战的题目;不太理解教材的学生则会做些更基础的题目,或许还要额外补课。
这个过程中的每一个环节,如学生对不同题目的解答所用的时间及答题表现,都会写入他们的档案里,并据此调整后面的题目,增强学生的理解。此外,对于英文这类课程,人工智能语音识别技术能把一流的英文教学带到偏远地区。高性能语音识别算法可以评估学生的英语发音,即使没有以英语为母语的教师,也能帮助学生改进语音语调。
从教师的角度看,这些工具可减轻批改作业的负担,让他们有更多时间关心学生的其他方面。中国的七天教育公司已经在使用感知人工智能的视觉识别能力,研发对复选题及填空题打分数的扫描仪,甚至还可以自动标示论文中的拼音、语法之类的常见错误,并根据预设的标准来扣分。这种人工智能技术能节省教师批改基本错误的时间,用来和学生沟通较高层次的问题。
最后,对于学习落后的学生,人工智能系统里的学生档案会自动通知家长,详细说明他们对哪些概念理解困难。家长可以根据这些信息,选择远程辅导服务,例如为中国学生提供美国教师在线授课的VIPKID。远程辅导服务存在已久,但现在感知人工智能让这些平台持续通过表情及情绪分析,收集学生投入程度的数据,并将这些数据持续写入学生的档案里,帮助平台选择能让学生更加投入的教师。
上述所有工具大多已经存在并开始应用在中国各地的课堂上。这些工具结合起来,将构成新的人工智能驱动型教育模式,融合线上与线下世界,创造出针对每个学生的不同需求的学习体验。在教育领域,中国已经领先美国一大步。信奉传统观念的中国家长会在孩子教育上进行大笔投入,中国高考的激烈竞争以及质量参差不齐的公共教育体系进一步加强了这样做的理由。短短几年,这些家长的投入已经让VIPKID之类的公司有了超过30亿美元的估值。
公共数据与个人隐私
打造OMO体验,需要从现实世界中收集海量数据,例如想使用阿里巴巴的“城市大脑”优化交通,就需要城市各个位置的视频资料;想为某个顾客量身打造OMO零售体验,需要先通过面部识别系统来确认身份;想让用户的声音与在线服务互动,需要能听懂人类语言的技术。
这样收集数据可能会令许多美国人感到不安,他们不想暴露太多的个人隐私。但中国人更容易接受自己的面孔、声音及购物选择被记录与数字化,更愿意用个人的信息来换取便利。中国的各大城市已在使用大量的摄影机与传感器网络。这个监控网络把视频数据直接导入负责管理交通、公安以及紧急服务的优化算法中。
如何在个人隐私和公共数据之间求得平衡,取决于每个国家的抉择。欧盟通过了《通用数据保护法案》(General Data Protection Regulation)(4),规范并约束了在欧盟内收集和使用数据的行为,采取了最严格的数据保护措施。美国继续对用户隐私施行保护,从Facebook的“剑桥分析”事件及之后的一系列听证会就可见一斑。中国2017年开始实行的《中华人民共和国网络安全法》(5),也规定了要对非法收集、买卖用户数据的行为进行处罚。
为了更多的便利性及更好的安全性,社会监控需要做到什么程度呢?这个问题没有“正确答案”。但从短期的影响来看,中国用户对于在公共场所收集个人数据相对接受,将使其在感知人工智能的推行上具有很大的起步优势。中国正在加快城市环境的数字化,这样做为OMO在零售、安保及交通等领域的应用开启了大门。
不过,把感知人工智能应用于这些领域,需要的不仅仅是摄像机和数据。不同于互联网人工智能和商用人工智能,感知人工智能非常依赖硬件,想把医院、汽车及厨房转变为OMO环境,我们需要装配传感器的硬件与器材,使现实世界和数字世界同步。
深圳制造
硅谷或许在软件创新方面仍领先全球,但硬件创新却是深圳在领跑。过去5年间,这个位于中国南方沿海的制造业大都市,已经发展出了全球最有活力的智能硬件制造业生态系统。开发一款新的应用程序,几乎不需要现实世界的工具,只需要一台计算机和一名有好点子的程序员。但研发感知人工智能硬件,如有眼睛的购物车、有耳朵的音响,则需要一个坚实且灵活的制造业生态系统,包括传感器供货商、注模工程师、小批量生产的电子工厂在内的成熟流水线。
现在,中国制造业的最大优势不是廉价劳力,印度尼西亚及越南之类的国家的工资更低。中国制造业现在的最大优势是无可匹敌的供应链灵活性,以及能够研发出新器材的原型并且量产优秀的工程师。
这一优势把深圳从一个加工业聚集地转型为无人机、机器人、穿戴式设备及其他智能设备制造的创业圣地。在深圳令人眼花缭乱的电子产品市场上,有数千种电路板、传感器、扩音器、迷你摄影机供创业者挑选。一旦研发出原型,他们可以从数百家工厂中找到能小批量生产或大规模生产的工厂。零件供货商及产品制造商同处一地,加快了创新流程。硬件创业者说,在深圳的一星期,等同于在美国的一个月。
深圳欢迎全球的硬件创业公司落户,但中国本土创业公司还是有着主场优势。语言障碍、签证核发、远离公司总部等因素,将减缓美国创业公司在这里发展的速度,同时也增加了它们的产品成本。苹果之类的大型跨国企业有足够的资源,能够充分利用中国的制造业,但对其他外国创业公司而言,一个个的小障碍组合起来可能很致命。而深圳的中国本土硬件创业公司则如鱼得水,可以自由地实验,维持相对低成本的运转。
小米先行
中国的硬件创业公司小米展示了感知人工智能设备构建的场景。以低价智能手机制造起家,进而席卷全中国的小米科技公司,现在正在打造把厨房及客厅转变成OMO环境的人工智能家电网络,其中的核心是小米人工智能音箱“小爱同学”——一款类似Amazon Echo的声控设备,但由于是中国制造的,价格只有Amazon Echo的一半左右。之后一系列智能型感应式居家设备,如空气净化器、电饭锅、冰箱、摄影机、洗衣机、吸尘器都借着低成本的优势成功上市。小米并非全凭自己研发这些设备,它投资了220家公司,孵化了29家创业公司(大多位于深圳)。这些创业公司的产品结合起来,构成了一个平价的智能家电生态系统,通过Wi-Fi连接,方便用户设置。小米用户用声音或手机,就能控制整个智能家电生态系统。
低价、多样性与人工智能的结合,创造了全球最大的智能家居设备网络。截至2017年年底,小米的物联网家居设备卖出8500多万台。(6)2018年7月9日,小米公司在港交所上市,以当天收盘价格计算,公司的市值为479亿美元。这也是一个以“深圳制造”为基础的生态系统,低价和中国庞大的市场为小米收集数据增添助力,形成一个更强大的算法、更聪明的产品、更好的用户体验、更多销售、更多数据的良性循环。
随着感知人工智能应用在更多硬件上,每个家庭都将产生基于现实世界的数据,并根据这些数据进一步运作。人工智能冰箱发现牛奶快喝完时会自行订购;人们可以用声音控制咖啡机煮咖啡;如果上了年纪的父母跌倒了,人工智能地板会立刻通知你。
第三波人工智能产品即将改变我们的日常生活环境,模糊数字世界与现实世界的界限,直到界限完全消失。在这个转变过程中,中国人对数据隐私的开放心态以及深圳的硬件制造实力,将使中国在感知人工智能上相对于美国的优势,不出5年就将从今天的六四开,达到八二开。与此同时,第三波人工智能创新也将为第四波完全自主化的人工智能奠定基础。
第四波浪潮:自主智能化
机器能够看到和听到我们周边的世界,就可以安全地移动且有效率地工作了。自主人工智能是前三波人工智能浪潮的集大成者,也是顶峰,把极复杂的数据和机器感知能力结合起来,就会得到不仅能了解世界,也能改变世界的机器,比如尽人皆知的自动驾驶汽车。不过,在讨论自动驾驶汽车之前,我们应该把目光放长远,看看第四波人工智能浪潮的影响有多深、多广。
自主人工智能设备能彻底改变我们绝大部分人的日常生活,包括购物商场、餐厅、城市、工厂、消防队等。跟其他三波人工智能浪潮一样,第四波人工智能浪潮带来的改变也不会瞬间发生。早期的自主机器人只能在可以立即创造经济价值的高度结构化环境中运作,主要是工厂、仓库及农场。
有读者会问:“这些领域不是已经实现自动化了吗?重型机器不是已经接手许多蓝领的工作了吗?”是的,发达国家已经基本用机器取代了人力,但这些机器只是初级机械化。它们能够重复某个动作,但无法做决策或处理突发情况。它们不能听也不能看,必须由人来控制,或是只在单一、不变的轨道上运行。它们能够执行高度重复的工作,却无法应付偏差或异常。但是当人工智能赋予机器视觉、触觉,以及使用数据来优化的能力时,机器能够处理的工作范围就大大增加了。
草莓园与机器甲虫
采草莓听起来似乎很简单,但是在自主人工智能出现之前,寻找、判断以及摘采草莓根本不可能自动化,只能靠几万名低薪劳工,整天弯腰驼背地在草莓园用眼睛与双手劳作。这个工作既辛苦又枯燥,加州许多农场主找不到愿意做这个工作的工人,只能眼睁睁看着草莓在地里腐烂。为了解决这个问题,加州的创业公司Traptic研发出了能够胜任这个工作的机器。将这个机器架在一台小型拖拉机上,使用先进的视觉算法,在无数叶子中寻找草莓,查看草莓颜色以判断草莓的成熟度,并用机器手臂轻巧地从藤上摘下草莓,完全不伤及果实。
亚马逊的仓储中心也是一个很好的例子。仅仅5年前,亚马逊的仓储中心还是传统仓库的样子:一排排固定的货架,员工步行或驾驶小车,沿途拿取货架上的货物。现在,员工在原地不动,货架会主动来到他们面前。现在的亚马逊仓储中心地板上,有许多甲虫般的机器人,举着商品货架快速行进。这些机器甲虫到处穿梭,彼此之间擦肩而过,把商品货架运至拣货员面前。员工只需从货架上拣取商品,扫描后放进箱中。这场景就像人类站着不动,而在他周围上演着一场精心设计的机器人芭蕾舞。
这些机器人有一个共同点:它们为所有者创造直接的经济价值。自主人工智能将首先应用于商业领域,因为这些机器人创造了可预见的投资回报,它们执行的是人工成本更昂贵或是找不到人执行的工作。
在美国,家政工作者如清洁工、厨师、护理员等也大致符合这一类别,但短时间内自主人工智能还无法用在家政服务上。尽管科幻片让我们相信家政机器人很快就会问世,但实际上还差得很远。我们杂乱的生活环境对不灵巧的机器人来说就像障碍训练场。清理房间或做饭之类的工作看似简单,其实已经远远超出人工智能目前的能力。
蜂群智慧
不过,随着自主人工智能越来越灵巧、越来越有智慧,会出现更多不可思议的应用,尤其是在无人机方面。成群的自主无人机能够一起合作,用几小时的时间就能粉刷好房子的外墙。耐热的无人机群可以合力扑灭森林火灾,效率是传统消防队的数百倍。另外,无人机也可以在飓风及地震后进行搜救,把食物及水递给受困者,或者和附近的无人机合作,把受困者空运出来。
毫无疑问,中国将在自主无人机技术领域取得领先地位。大疆创新科技公司(DJI)的总部在深圳,该公司是全球最大的无人机制造商,知名科技新闻工作者克里斯·安德森(Chris Anderson)曾赞誉该公司是他所见过的最棒的公司。(7)据估计,大疆创新已占据50%的北美无人机市场,在高端市场的占有率更高。该公司在研发上投入了庞大资源,已经开发出一些工业及私用的自主无人机。蜂群智慧技术目前虽然刚刚起步,不过和深圳无可匹敌的硬件生态系统结合起来后,效果会非常惊人。
无人机群将改变我们的天空,而自动驾驶汽车将改变我们的道路。这些科技革命还将延伸至交通运输之外,改变城市环境、就业市场,以及我们的日常生活。包括谷歌在内的一些公司已经证明,自动驾驶汽车将远比人工驾驶更安全、更有效率。现在,数十家创业公司、科技巨头、传统汽车制造公司以及电动车制造公司都争相力图把这项技术商业化。谷歌、百度、Uber、滴滴、特斯拉以及许多其他公司纷纷组建团队,测试技术,收集数据,准备把人类驾驶员赶下驾驶座。这场竞赛中有两个领跑者——谷歌下属的自动驾驶公司Waymo,以及特斯拉,它们分别代表不同的技术应用模式,而这两种模式也体现了人工智能超级大国美国与中国的不同政策。
谷歌模式与特斯拉模式
谷歌是第一家研发自动驾驶技术的公司,但大规模应用的脚步有些缓慢。这种谨慎态度背后的理念是:打造出完美产品,在自动驾驶的安全性大大超过人类驾驶后,再直接跃入人工智能全自主化。这是一种完美主义的模式,不允许任何危及人类生命或企业声誉的可能发生。埃隆·马斯克的特斯拉则采取渐进模式:在部分功能(高速公路上自动驾驶、自动转向以避免车祸以及自动泊车等)开发完成后,就马上应用在自己生产的汽车上。这种渐进模式加快了商业化节奏,同时也带来了一定程度的风险。
这两种模式背后的驱动力都是数据。自动驾驶汽车必须用数百万,甚至数十亿公里的驾驶数据来训练,使它们学会辨识物体,预测车辆及行人的动作。这些数据来自无数路上行驶的车辆,然后全部输入中央的“大脑”——做出决策的核心算法集群。这意味着,任何一辆自动驾驶汽车遭遇新状况时,所有依靠这些算法驱动的汽车都能同步学习新案例的处理方式。
谷歌在收集这部分资料的过程中,采取缓慢稳定的步速,他们用小规模车队装备高级传感设备,上路测试、收集数据。特斯拉则在其商业车款上安装较便宜的设备,让车主在使用特定自动驾驶的同时,也为特斯拉收集了数据。这两种不同的模式导致谷歌与特斯拉的数据收集量产生了巨大差距。截至2018年6月,谷歌花了8年收集到800万英里的现实世界驾驶数据,而特斯拉仅用了2年就收集到12亿英里的现实世界驾驶数据。
也许是感受到来自特斯拉及其他对手的竞争热度,最近谷歌的模式向特斯拉靠近了一些,加快了全自动驾驶汽车的应用,而自2016年5月的一起事故(特斯拉车主因自动驾驶遭遇车祸身亡)后,特斯拉在自动驾驶的应用上反而放慢了脚步。不过,两种模式的根本差异还存在。尽管谷歌研发的系统在有些场景已经比人开车更安全,他们仍然在追求无懈可击的安全性,牺牲了应用速度。特斯拉实行更加技术权宜性的模式,一旦自动驾驶在某一方面超过了人类驾驶员,就立刻应用在现实中,希望用更快的速度搜集数据,把算法训练得更好,以拯救更多的生命。
中国的特斯拉模式
中国有13.8亿人口,平均每年有26万人死于车祸。与其等待完美的自动驾驶问世,中国更愿意在可控的环境中使用性能有限的自动驾驶汽车。而这种策略的“副作用”就是数据收集量呈指数成长,连带推动人工智能技术的精进。
渐进应用模式的关键是兴建新的基础设施以容纳自动驾驶汽车。美国的做法是根据现有道路研发自动驾驶汽车。中国则在调整现有道路,改变货车形态,甚至建设能够容纳自动驾驶汽车的新城市。比如,浙江省已经宣布计划兴建全国第一条智能超级高速公路,一开始就可容纳自动驾驶汽车及电动车。这项计划将整合道路、车辆与驾驶人之间的传感器及无线通信,使汽车行驶的速度提高20%至30%,并显著减少车祸事故。这条超级高速公路将在路面铺设光伏板,把集成的太阳能输送至充电站,供电动车充电,长期目标是让电动车能够在行进间持续充电。此计划若成功,可加快自动驾驶汽车及电动车的应用。在自主人工智能驶入都市混乱的交通之前,可以先在高速公路上试验,并在这个过程中收集更多数据。
再如位于北京以南100千米处的雄安新区,该区域包含了原属于三个县的一片寂静村镇。现在,在中央政府的政策引领下,这个地区将兴建为展示科技进步与环境可持续发展的示范城市。政府预计投入约4万亿元人民币的基础建设经费(8),吸引250万人口迁移至此,相当于芝加哥的人口总量。从无到有地建造一个新的芝加哥,这种壮举在美国不可想象。但在中国,这只是城市规划的一项手段而已。雄安新区将成为全球第一个从开始就容纳自动驾驶汽车的城市,百度已经和当地政府签约,打造“人工智能城”,聚焦于交通管理、自动驾驶汽车及环境保护。混凝土中需要加入传感器,交通信号灯装备计算机视觉硬件,十字路口可以知道每一位行人的年龄,泊车所需的空间明显减少。当人人都能随时随地召唤自动驾驶的出租车时,甚至可以把停车场改成城市公园。
像雄安新区这样全新建造的城市甚至可以更进一步,把市中心的交通运输搬至地下,地面保留给行人及自行车。这种可控环境内的自动驾驶将比人类司机更安全。人工智能接手交通管理及自动驾驶汽车后,整个地下交通网甚至可以逼近高速公路的速度,而地面上的生活则还是人类的节奏。若计划可以实现,类似这样的新城市将与自主人工智能一起成长。它们在享受自主人工智能技术带来高效的同时,也会回馈给算法更多的数据。美国现有的基础设施要求自主人工智能必须先适应并应用于现有的城市,但在中国,政府的积极作为把应用变成了城市与人工智能共同进化。
围绕自主人工智能技术的较量
在自动驾驶汽车的核心技术方面,美国的公司仍然领先中国企业两三年。在科技界,这个差距可以说是天文数字了。美国领先地位的构成部分源自大量的顶尖专业技术人才。在第四波人工智能浪潮中出现安全问题的复杂性,使研发自动驾驶汽车成为很难攻克的工程难题,这需要世界一流的工程师团队。这使得优势倒向了美国,因为全球最优秀的工程师仍然聚集在谷歌之类的公司。谷歌早在2009年就开始测试自动驾驶汽车,谷歌的许多工程师后来独立创立了自动驾驶汽车创业公司。中国到2016年左右才开始出现自动驾驶汽车创业公司。不过,百度之类的巨头和北京初速度科技(Momenta)及驭势科技(UISEE)等自动驾驶汽车创业公司正在技术与数据方面快速迎头赶上。百度的“阿波罗计划”——与50家自动驾驶汽车领域的伙伴合作及分享数据的开源平台,包括英伟达等芯片设计公司和福特及戴姆勒(Daimler)之类的汽车制造商,这与Waymo的封闭模式形成了鲜明对比。
究竟哪个国家将在自主人工智能领域取得领先地位,主要取决于一个问题:全面应用这些新技术的主要瓶颈是技术本身还是政府政策?如果是技术,那么谷歌的Waymo有可能先于竞争对手解决这个问题。不过,如果计算机视觉等领域的每个新进展快速传播,这相当于整个行业的技术水平整体水涨船高,那么硅谷在核心技术上的领先地位可能变得无足轻重。这么一来,许多公司都将能够打造出安全的自动驾驶汽车,中国的一系列特斯拉风格的政策将占据优势。
当下,我们还不知道瓶颈将出现于何处,第四波人工智能竞赛的局势还不明朗。我个人认为,美国和中国在自动驾驶汽车这个领域胜出的机会是五五开,至于自主无人机之类的硬件密集型应用领域,中国将具备优势。上图是我对中、美两国在四波人工智能浪潮中的实力评估,包含当下以及5年之后的发展趋势。
中、美两国在四波人工智能浪潮中的实力评估及未来5年发展趋势
征服当地市场&武装当地公司
目前,人工智能领域的应用发展大致局限在中、美两国,而绝大多数未来的人工智能用户仍然生活在其他国家(主要是发展中国家)。因此,任何想成为人工智能时代巨头的公司,都需要一套争取这些用户以及在当地市场制胜的策略。
中国和美国的科技公司在进军全球市场时,实行了差异很大的策略:美国那些称霸全球的巨头希望亲自征服市场,而中国的科技公司则选择武装当地的创业公司。谷歌、Facebook、Uber之类的硅谷巨头想在这些市场上直接推出它们全球一体化的产品(只对产品进行有限的本地化)。这种孤注一掷的方法如果成功,收获当然会巨大,但空手而归的概率很高。
中国的公司避开了直接竞争,转而投资硅谷公司试图消灭的当地创业公司。比如在印度及东南亚,阿里巴巴和腾讯投资了当地与亚马逊等巨头竞争的本土创业公司,这是中国智慧的体现。马云等中国的创业家深知,强龙不压地头蛇。因此,在进军国外市场时,中国的公司不会试图消灭当地的创业公司,而是与之组成联盟。
从中国市场打到国际市场的共享出行
中国公司的全球化策略在共享出行市场已经启动。这可以总结为人工智能全球化的另一种模式:结合人工智能技术与当地的数据,对当地创业公司赋能。这种以合作为基础,而非征服的模式,或许更适合把人工智能这类需要顶尖工程师、由下而上收集数据的技术推广至全球。
滴滴把Uber“赶出”中国市场后,便开始在其他国家投资当地创业公司,和它们联合对抗Uber。如美国的Lyft、印度的Ola、新加坡的Grab、爱沙尼亚的Taxify、中东的Careem等。滴滴在2017年投资了巴西的99Taxi,之后在2018年年初完全收购该公司。这些当地创业公司依靠中国资金和经验,结成了对抗Uber的全球联盟。在接受滴滴的投资后,当地一些创业公司甚至根据滴滴改造自己的应用,其他创业公司则计划利用滴滴在人工智能领域的长处,优化司机与乘客的匹配算法、自动调解司机与乘客的纠纷,未来也许会推出自动驾驶。目前尚不清楚这些技术交流有多深入,但人工智能需要的本地化程度远高于早期互联网服务。印度的自动驾驶汽车必须学习行人在班加罗尔街道穿梭的习惯,在巴西的小微金融的应用必须了解里约千禧一代的消费习惯……算法可以适用于不同的用户群,但各地现实世界的数据是独一无二、无可替代的。
虽然硅谷公司对这些国家的特殊国情也有调查,并做了相关分析,但是研发商用人工智能、感知人工智能及自主人工智能产品,公司必须更深地扎根当地市场。创业公司必须安装相关的硬件器材,根据北非消费市场或印度尼西亚医院的特性,把人工智能服务本地化。远在硅谷的企业通过代码散布全球影响力,恐怕不是长久之道。
当然,没人能预知全球人工智能竞赛的结果。美国的公司可能加大本地化投入,利用好现有产品,最终拿下中国以外所有国家的市场。发展中国家新一代的坚韧创业家也可能利用中国企业的支持,打造出硅谷巨头无法渗透的当地市场。如果后者可以成真,中国的科技巨头并不会称霸全球,但可以在各地扮演重要角色,使用来自多个市场的数据改进算法,并且从丰厚的利润中分一杯羹。
展望未来
纵观当今人工智能领域,可以看到一股即将冲击全球经济、使地缘政治天平倾向中国的技术潮流。传统的美国公司在使用深度学习,为现有商业获取更多利润的方面做得很好,谷歌等由人工智能驱动的公司仍然是精尖技术的堡垒。但在建造新的互联网帝国、改变疾病诊断的方式,或者重构购物、出行及饮食场景等方面,中国更可能取得全球领先地位。中国与美国的互联网公司在面对全球各地的市场时,采取了不同的模式与策略,随着人工智能服务散播至全球的每个角落,它们可能在印度、印度尼西亚、中东及非洲部分地区“短兵相接”。
这一分析结果揭示了渐渐浮现的人工智能世界的秩序,但也凸显了我们探讨人工智能发展时的一个盲点,单纯竞争的表面下还潜藏着更重要的问题:人工智能力量进入我们的世界后,真正的分歧不在国家之间,而在每个国家内部。
(1) “Toutiao, a Chinese News App That’s Making Headlines”, Economist, November 18, 2017, https://www.economist.com/news/business/21731416-remarkable-success-smartphone-app-claims-figureusers-out-within-24.
(2) 2017年10月我和焦可的谈话。
(3) Shai Danziger, Jonathan Levav, Liora Avnaim-Pesso, “Extraneous factors in judicial decisions”, PNAS 108, no. 17 (2010): 6889—6892, https://www.pnas.org/content/pnas/108/17/6889.full.pdf.
(4) 《通用数据保护法案》,https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1528874672 298&uri=CELEX%3A32016R0679。
(5) 《中华人民共和国网络安全法》, https://www.npc.gov.cn/npc/xinwen/2016-11/07/content_2001605.htm。
(6) 容承:《小米米家成立两周年:联网设备超8500万台》,IT之家,2018年3月29日,https://www.ithome.com/html/it/353231.htm。
(7) 《相爱相杀?大疆要与昔日对手“在一起”》,新华网,2017年8月3日,https://www.xinhuanet.com/world/2017-08/03/c_129671051.htm。
(8) 《瑞银:雄安新区20年投资规模料达4万亿》,凤凰财经,2017年4月5日,https://finance.ifeng.com/a/20170405/15285421_0.shtml。