“任何足够先进的技术都称得上是魔力之源。”
——阿瑟·C·克拉克(Arthur C. Clarke)
英国科幻作家、发明家和未来学家
2012年夏,我们搭乘了一辆无人驾驶汽车。
那是在位于硅谷的Google总部做研究访问期间,我们搭上了其中一辆自动驾驶汽车——这辆汽车也是Google“私人司机”开发项目(Chauffeur Project)的一部分。开始时我们都坐在车后排,观察这辆无人驾驶汽车自动巡航,但Google的研发人员是不可能草率地就把驾驶座上明显没有驾驶员的车辆开上公路的。因为这样做有可能会让行人以及其他司机产生某种幻觉,或者会吸引警察的注意力。因此,只有我们坐在了后排座椅上,而Google项目组中的人坐在前排。
这时其中一位项目组人员按下了汽车上的一个按钮,把车辆转换成完全自动驾驶模式,于是,汽车开始在101国道上奔驰。而我们的好奇心也随之而来,当然也夹杂着些许的担惊受怕,因为101国道并不总是宁静平和、一路通畅的。虽然这条国道很平直,而且路况良好,但在大部分时间段里仍是拥挤不堪的,交通流量也毫无规律或规则可言。可以想象,在这种公路上行驶如果操作不当,带来的后果也是相当严重的。而且,由于我们当时的自动驾驶体验也属于“私人司机”开发项目实验的一部分,所以我们对这些后果的考虑突然之间超出了我们对智能技术的兴趣。
然而,车辆行驶得相当平顺。事实上,它让我们的驾驶行程乏味得很。车辆没有在其他车辆中间加速或穿插,整个驾驶过程就像我们在驾校里所接受的规范驾驶课程一样。在车辆行驶过程中,车里的一台笔记本计算机能够实时提供Google汽车所看到的一切——包括所有附近的物体和目标都能被车上的感应器察觉到。车辆能够察觉到其周围所有的车辆——不仅仅是距离最近的车辆,而且也能察觉到这些车辆的行驶轨迹。实际上,这是一辆没有任何视觉盲点的汽车。然而,汽车自动驾驶软件却能够辨识出由人驾驶的汽车有哪些盲点,车里的计算机屏幕上能够清晰地显示出这些盲点在哪里,并且能够有效地避开这些盲点。
在我们前面的车流完全停止时,我们只是盯着计算机屏幕——完全忽视了实际的路况。自动驾驶汽车这时根据前面的车辆行驶状况进行了平顺的制动,然后在与前车保持安全距离的地方停了下来。而在其他车辆开始行进时,它也随之跟进。在整个行驶过程中,坐在前排的Google项目开发人员始终谈笑风生,没有任何紧张气氛,或者说,事实上他们更感兴趣的是101国道上的实际路况。实际上,Google“私人司机”项目开发人员已经在这样的汽车里乘坐过数百个小时,他们完全有信心自动驾驶汽车能够有效地应对这种频繁启动的驾驶状况。等到我们的车开回停车场时,我们也和他们一样有信心了。
新新劳动分工
对于我们来说,那天在101国道上的乘坐体验尤其让我们感觉奇妙无比,因为就在几年前,我们还认为计算机技术根本无法实现汽车自动驾驶。那时,我们一些值得尊敬的同事(也是一流专家)所做的分析和研究报告都认为,在可以预见的未来,汽车驾驶这项技术还是必须由人类完成的。他们这些专家是如何做出这种结论的,以及像Google“私人司机”这类的技术项目是如何在几年之内就把这种结论推翻的,给我们在数字技术领域的进步提供了重要参考。
在2004年,弗兰克·列维(Frank Levy)和理查德·莫尼恩(Richard Murnane)出版了他们的书《新劳动分工》(The New Division of Labor)。他们所指的劳动分工存在于人类和数字劳动力之间。在任何理性的经济体系中,人们都应该专注于从事和计算机相比有相对优势的任务和工作,而让计算机从事更合适的工作。在他们的书中,列维和莫尼恩给我们提供了一种思考如何对工作进行分类的思路。
在100年前,我们前面所提到的图表没有任何意义——社会发展进程极其缓慢。因为那时,计算完全是靠人力的。实际上,“computer”这个词最初指的就是一种工作职务,并不是指一种机器。在20世纪初期,“computer”开始指代人,尤其是女性,她们整天不是计算就是列表。又过了几十年的时间,创新者们所设计出来的机器可以做更多的工作;它们一开始是机械的,后来是电子机械的,最终变成数字的。今天,已经极少有人再从事与计算和记录结果相关的工作了。即使是在最低工资水平的国家,也没有人力计算设备了,因为非人力的计算机运算速度更快,也更便宜,还更精确。
如果你查看或研究一下计算机的内部工作系统,你会发现,计算机不仅仅是数字计算器,它们还是数字和符号处理器。它们的电路系统能够识别和处理“0”和“1”所组成的语言体系,但同样对于“对”和“错”、“是”和“否”,或者其他数字系统,也是有效的。一般情况下,计算机能够做所有与符号相关的工作,从数学到逻辑,再到语言。但小说创作却无法数字化,因此所有排在小说畅销榜上的书还都是由人撰写的。当然,企业家和首席执行官们的工作,科学家、护士、饭店杂工的工作,以及很多其他种类的工作也是无法计算机化的。那么为什么不能呢?这种很难数字化的工作与以前的人力计算设备又有什么不同呢?
知识性工作的自动化
这些问题就是列维和莫尼恩在《新劳动分工》一书中试图回答的,最终,他们想出的答案意义非凡。两位作者把计算机的信息处理工作——所有知识性工作[7]的基本框架,放在一个图谱中。在图谱的一端是类似于计算这类规则性的应用。由于计算机要按照一定的规则进行计算,它比较擅长做计算以及类似的工作。
列维和莫尼恩一直强调,其他类的知识性工作也可以规则化。比如,一个人的信贷评分是这个人能否偿还抵押贷款的重要衡量指标,而抵押贷款的金额与这个人的财富、收入和其他债务也关系密切。因此,是否能给一个人提供抵押贷款也可以被有效地归结为一种规则。
也就是说,抵押贷款的一条规则可以用文字这样表达:“如果一个人需要申请数额为‘M’的抵押贷款,就需要有‘V’或更高等级的信贷评分,其年收入也要超过‘I’这一数额或者其总的财富要超过‘W’,而且总的债务不能高于‘D’,如果这样,他的抵押贷款申请就能批准了。”当我们用计算机编码表示时,我们可以把这条抵押贷款规则称为计算程序。当然,这些计算程序是一种简化的程序,它们不可能也不会把任何东西都考虑进去。然而,计算程序可以涵盖最普通和最重要的任务,它们一般对预判投资回报率这类的任务非常擅长。因此,计算机能够用于对抵押贷款申请的批准。[8]
模式识别:计算机与人的大脑有什么不同
在列维和莫尼恩图谱的另一端,是并不能简单地归结为信息处理任务的规则或计算程序。根据他们的想法,这些任务只有借助人的能力才能进行模式识别[9]。我们的大脑非常擅长接收通过感知而获取的信息,而且还能够对信息进行检索以利于模式识别,但我们却极不擅长描述或计算我们是如何这样做的,尤其是当大量快速变化的信息以一种非常快的速度出现时。正如著名哲学家迈克尔·波兰尼(Michael Polanyi)所观察到的:“我们知道的总是比告诉别人的要多。”如果以上说法成立,那么根据列维和莫尼恩的说法,这类任务是不能够计算机化的,必须由人类来完成。他们举了一个驾驶员驾驶汽车的例子来说明这个问题。正像他们写道的:
当驾驶员左转要违反信号灯时,他会面对一个由各种目标和声音组成的难以逾越的壁垒,包括迎面而来的车辆、交通信号灯、商店、广告牌、树木,以及交通警察。凭着他的驾驶知识,他必须准确地判断每一个目标的大小和位置,以及哪一个目标是危险的……卡车司机对自己所面临的情况要有一个整体的判断。但如果准确地把这种驾驶常识表述出来,并且以一种高度规则性的方式嵌入软件之中,从目前来看,是非常困难的……计算机是不能轻易代替人类的(尤其是像驾驶车辆这类的行为)。
人脑与计算机的区别不过如此
在2004年我们读到《新劳动分工》这本书的时候,我们对列维和莫尼恩的观点极其信服。那一年,我们对美国国防部高级研究局主办的无人驾驶汽车挑战赛的初步成就更为信服。
美国国防部高级研究局成立于1958年(与苏联的人造地球卫星计划遥相呼应),其主要任务是推进军事应用领域的科技进步。2002年,研究局宣布,它将举办第一届无人驾驶汽车挑战赛,这场比赛将在加利福尼亚州的莫哈维沙漠举办,届时所有完全无人驾驶的车辆都要完成150英里(1英里≈1.6千米)的赛程。15名在预赛中取得良好成绩的参赛选手将参加最后的角逐,赛事被安排在2004年3月13日。
但这次挑战赛的结果很让人气馁。有两辆汽车并没有到达赛车起跑区,其中一辆在起跑区就翻车了,3个小时过去了,只有4辆车还在参赛。最终的“获胜者”是卡内基–梅隆大学的代号为“沙漠风暴”的赛车,它跑了7.4英里(还不到总赛程的5%),最后由于急转弯撞在了一段路堤上而退出了比赛。最终比赛设立的100万奖金无人认领,《科技新时代》(Popular Science)杂志则把这次比赛戏称为“美国国防部高级研究局的沙漠大崩溃”。
然而,几年过去了,“沙漠大崩溃”却变成了“101国道上的乐趣”——我们之前体验过的。2010年10月,Google在其博客上公告称,它们的无人驾驶汽车可以在美国公路,甚至是高速公路上的车流中,做短暂行驶了。到我们2012年夏天亲身体验无人驾驶汽车行进时,Google“私人司机”研究项目已经拥有了一支小规模的车队,并且保持了数十万英里无人驾驶的行驶纪录——这期间只发生了两次交通事故。其中一次事故发生在一位驾驶员驾驶Google“私人司机”项目的车辆时,另一起事故则是该项目的一辆汽车在等红灯时被一辆由真人司机驾驶的汽车追尾了。当然,可以肯定地说,仍然有很多情况是Google汽车无法操控的,尤其是在复杂的城市交通环境中或者越野行驶的环境下,当然还有在Google地图上都无法精确标示的地点。但根据我们在101国道上的体验经历,我们相信Google汽车是能够轻松应对车辆日渐增多的日常行驶环境的。
可以说,仅仅在几年时间里,自动驾驶汽车就从科幻小说里的题材跃到了实际路况行驶之中。一边是一流的研究成果还在解释为什么自动驾驶技术不可能在这么短的时间内就能实现,而另一边是一流的科技手段却能在短短几年的时间里把这一切都变成了现实。这种科学和技术的飞跃式发展,仅仅在六七年的时间里就从“溃败”转向了“成功”。
自动驾驶汽车技术的飞速提升使我们想到了海明威对一个人走向破产的描述:“逐渐地,然后就是突然地。”[10]然而,自动驾驶汽车并不是一种奇怪的事物,它们属于大规模爆发的新技术模式的一部分。实际上,一些技术进步缓慢发生很长时间了,这些技术进步覆盖了一些与计算机、机器人及其他数字化工具相关的挑战——是那些最久远、最难以逾越的挑战。然后在过去的几年里,突然出现了爆发,数字化工具开始突飞猛进,它们不仅可以驾轻就熟地完成各项以前无法胜任的任务,还能展示在一般人眼里任何时候都不会获得的技能。让我们一起看一下最近的让人吃惊的技术进步。
Siri:做最好的倾听者及说话者
除了模式识别,列维和莫尼恩还强调,在新劳动分工中,复杂沟通(complex communication)只能在人类中存在。他们写道:“一些重要的能够产生良好效果的沟通和交流,比如在教学、管理、销售和其他职业活动中,需要对大量的信息进行说明,并进行沟通和交流。在这些情况下,与一台计算机交流信息,而不是与另一个人交流信息,有一段很长的路要走。”
在2011年秋,苹果公司推介了其手机产品iPhone 4S独具特色的Siri(iPhone 4S的语音个人助理服务)语音控制功能,该功能由一个智能、私人助手通过自然语言使用界面来实现。也就是说,人们对这位“助手”讲话就像对另一个人讲话一样。基于Siri语音控制功能的软件,实际上来源于加利福尼亚研究机构斯坦福国际研究所,只是在2010年,苹果公司购买了这项技术。这种技术的使用者只要对着iPhone说话,手机听到后就会辨别出使用者想要做什么,然后采取行动,并以一种模拟的声音把结果反馈给使用者。
在Siri语音控制功能出现之后8个月,技术博客Gizmodo[11]的凯尔·瓦格纳(Kyle Wagner)罗列出了Siri最有用的功能:“你可以问它现场比赛的得分——巨人队在比赛中得了多少分,或者关于每个参赛队员的得分情况。你可以通过OpenTable[12]平台订餐,在Yelp[13]网站上获得评分,询问当地剧院的电影放映信息并观看预告片。如果你很忙,无法接听电话,你可以让Siri提醒你随后把电话打过去。这些事情可能是我们每天都要碰到的,你会发现Siri的语音功能非常有用。”
Gizmodo的博客文章以提醒式的口吻结尾:“这些功能听起来非常酷,但你别忘了Siri的信条是:但愿它能真的有用。”在这一功能正式发布后,很多人发现苹果手机的智能私人助手并没有那么灵验。它有时候不理解使用者的问话,会提示使用者重复问话,有时向使用者提供的答案很奇怪或者不准确,有时它的回答就像:“真的很抱歉,我现在无法回答你的问题。请稍候再试。”分析师基恩·蒙斯特(Gene Munster)把Siri很难回答的问题归结了一下:
· 埃尔维斯埋葬在哪里?Siri的回应是:“我无法回答你的问题。”因为其智能系统把这个人的名字理解为“埃尔维斯·埋葬”(Elvis Buried)。
· 电影《灰姑娘》什么时候放映?Siri的回应是在Yelp网站搜索到一个同名的电影院。
· 哈雷彗星下一次什么时候出现?Siri的回应是:“你没有与哈雷的约会安排。”
· 我想去苏必利尔湖。Siri则直接给你说出“苏必利尔湖X射线”(Lake Superior X-Ray)这家公司的名字。
Siri有时既离奇又让人困惑不解的回应已经众人皆知,但这项技术的发达程度也是不可否认的。有时候,它的确能给你精准的帮助。也是在那次自动驾驶体验的旅行过程中,我们很直观地看到了一点。当时是在旧金山的一次会议之后,我们驾驶着租来的汽车开往位于山景城的Google总部。我们的车上有一个便携式的GPS导航装置,但并没有插上接口、打开开关,因为我们认为能够顺利地抵达目的地。
但结果,我们失算了。出现在我们面前的是迷宫般的高架路、出口匝道以及城市街道,我们甚至连其中一条路的入口匝道都找不到。正当我们异常紧张、一筹莫展的时候,埃里克拿出了他的手机询问Siri:“101国道向南的行驶路径。”而手机的回应既迅捷又精确:手机屏幕指示的地图清晰地标示出我们的位置,同时说出了如何才能找到那个难找的匝道入口。
我们本来可以靠边停车,打开便携式GPS导航仪以追踪目的地,但我们并没有打算按照那种方式获取线路信息。我们想要的是说出问题,随后能够听见和看见(因为需要用到地图)回复。Siri能够提供我们一直在寻找的准确的自然语言界面。记得在2004年的时候,还有一篇对持续半个世纪的自动语音识别(自然语言处理系统的核心部分)研究进行的评论,这篇评论认为:“人类水平的语音识别被证明是一个难以达到的目标。”然而在不到10年的时间里,这个目标就已经基本实现了。苹果公司以及其他公司所开发的自然语言处理技术在数百万手机用户那里得到应用了。正像卡内基–梅隆大学机器学习系的主任汤姆·米切尔(Tom Mitchell)所说的:“我们正处在一个10年期的起点,在这10年时间里,我们的研究将从计算机不能理解语言过渡到计算机对语言驾轻就熟。”
流利的数字化:巴别鱼也能做翻译了
到现在为止,自然语言处理软件距离完美还很遥远,计算机还是不能够像人一样轻松应对复杂性沟通和交流,但它们一直在不断提升。在一些诸如两种语言之间的翻译任务中,都出现了很大的进展:虽然计算机的沟通和交流能力的深度要远远低于人类,但它们的广度要大得多。
一个能够讲一种语言以上的人通常可以在这两种语言之间进行精确地翻译。然而,虽然自动翻译服务很引人注目,却经常出错。即使你的法语很生疏,在翻译下面的句子时也可能要比Google翻译得更好:Monty Python’s ‘Dirty Hungarian Phrasebook’ sketch is one of their funniest ones(蒙提·派森的喜剧小品《肮脏的匈牙利常用语》是最搞笑的喜剧小品之一)。对于这一句,Google提供的法语翻译是:“Sketch des Monty Python ‘Phrasebook sale hongrois’ est l’un des plus drôles les leurs。”这句话的基本意思被翻译了出来,但存在着严重的语法错误。
对于一般人来讲,很少能有机会把一个句子翻译成匈牙利语、阿拉伯语、汉语、俄语、挪威语、马来语、依地语、斯瓦西里语、世界语,或者其他60多种语言。但Google翻译系统就可以瞬间免费地把翻译结果呈现在网页上。智能手机上的应用翻译软件可以轻松接收使用者说出的至少15种语言,然后经过合成,翻译出来这15种语言的一大半。我们可以非常自信地说,即使世界上最富有语言天赋的人也无法与之匹敌。
多年以来,即时翻译系统还一直是科幻小说描述的对象[给人印象深刻的是《银河系漫游指南》(The Hitchhiker's Guide to the Galaxy)[14]中的“万能翻译器”巴别鱼(Babel Fish),这个奇怪的小生灵一旦被放入人的耳朵里就能让人听懂任何语言]。但在今天,类似Google这样的翻译系统就已经把这一切变成了现实。事实上,莱博智翻译服务公司已经与IBM合作,开发出了GeoFluent(一款机械翻译软件)机器翻译系统,这种翻译系统采用在线应用模式,能够实时翻译不同语言环境下客户和客服人员之间的对话。在初始体验中,约有90%的GeoFluent机器翻译系统用户反映该系统能够有效应对商业需求。
超级计算机与人的对决
现在,在人类自己发明的游戏比赛中,计算机通过模式匹配与复杂沟通的整合可以很容易地就能击败人类。在2011年2月14日和15日的智力竞猜电视游戏节目《危险边缘》中就有一个非人类的参赛选手。这名参赛选手就是一台名叫“沃森”的超级计算机,它是由IBM专门研发出来用于游戏比赛的(其名字“沃森”即是为了纪念IBM的传奇人物、首席执行官托马斯·沃森先生而命名的)。《危险边缘》首次登场是在1964年。在2012年,这档节目在美国综合性的电视节目中排名第5。在那一天,大约有700万人观看了那期节目。在节目中,主持人亚历克斯·特雷贝克(Alex Trebek)针对各种话题提出了问题,参赛选手则进行了抢答。[15]
这个节目之所以备受欢迎且经久不衰主要是因为,它的问题很好理解,但很难回答好。在一些既定的场景中,几乎每个人都知道问题的答案,但很少有人能够知道所有的答案。问题涵盖的话题非常广泛,而且在开始之前不会有人告诉参赛者比赛的话题。在节目进行中,参赛选手必须同时做到迅速、大胆和精确。迅速是因为他们必须相互竞争以获得回答每一个问题的机会;大胆是因为他们必须努力回答许多问题,尤其是比较难的问题,这样才有可能积攒足够多的金钱以赢得比赛;精确是因为对于每一个错误的答案,都要从中扣减金钱。
《危险边缘》节目的制作人会使用双关语、押韵词以及其他文字游戏来挑战参赛者。例如,一个问题的提示语可能会问道:“一个与NBA国王队所在的城市押韵的词,并且能使你想起过去。”如果想正确地回答出这个问题,参赛选手就要明白缩写字母“NBA”代表的是什么[在这个问题中,它指的是“National Basketball Association”(美国篮球职业联赛),而不是“National Bank Act”(国家银行法),更不是化学复合物“n-Butylamine”(正丁胺)],而NBA国王队是萨克拉门托市(Sacremento)的一支球队,提示语提示要与“Sacremento”押韵,还能让人想起过去,那么这一问题的答案应该是:“What is a Sacramento memento?”(萨克拉门托市的纪念品是什么),而不是“Sacramento souvenir”[16],更不是其他答案。要想正确地回答这些问题就需要熟练地掌握模式匹配和复杂沟通,而要赢得《危险边缘》的比赛就需要反复地、精确地并且几乎是同时去做这两件事。
在2011年的这场比赛中,与“沃森”展开竞争的是肯·詹宁斯(Ken Jennings)和布拉德·鲁特(Brad Rutter),而他们两位都是这种比赛中最出色的选手。詹宁斯在2004年的《危险边缘》游戏比赛中曾经创纪录地连赢74场,将317万美元的奖金收入囊中,并成为名噪一时的民间英雄人物。实际上,正是由于詹宁斯才催生了“沃森”。根据一则在IBM广为流传的故事,2004年秋日的一天晚上,IBM一位专注于推动人工智能研发的研究部经理查尔斯·利克尔(Charles Lickel)正在纽约州的费西基尔一间牛排餐厅吃晚饭。刚到晚上7点钟的时候,他就注意到,与他一起吃晚饭的同事都起身去了附近的一家酒吧。随后,他也紧跟着过去想一探究竟,他看到的场景是,他的同事们都围坐在酒吧的电视机前观看詹宁斯在《危险边缘》游戏中突破55场连胜纪录的比赛。利克尔想,如果詹宁斯和超级计算机在比赛中一决高下肯定会备受关注,同时也可以验证计算机的模式匹配和复杂沟通能力。
《危险边缘》是一场三方的比赛,布拉德·鲁特则是另一个天才般的选手,他在2005年的联赛中击败了詹宁斯,从而赢取了超过340万美元的奖金。鲁特和詹宁斯两个人能够掌握各个领域的各类信息,并且对游戏的特点和过程非常熟悉,也能够从容应对压力。
可以说,布拉德和鲁特是那种任何机器都很难打败的选手,因此第一代“沃森”远远不是他们的对手。“沃森”要么被程序设计人员调整得在回答问题时过于积极(因此,它的很多回答都是错误的),要么被调整得太过于保守、太精确。2006年12月,这项设计工程开始后不久,当“沃森”被调整到在70%的时间里都要回答问题时(这种调整方式是相当激进的),它回答正确的比例仅仅占到全部时间的15%。詹宁斯则形成了鲜明的对比,当他有70%的时间按下抢答器进行抢答时,他的答案90%都是正确的。
但“沃森”毕竟是个快速的“学习型”选手——超级计算机在积极性和精确性这两个方面的平衡迅速提升。到2010年10月的时候,“沃森”就能积极地抢答70%的模拟比赛题了,而且其回答正确率也提高到了80%。这种提升是很明显的,但它还是无法与人类最出色的选手相抗衡。“沃森”团队一直研发到2011年1月中旬,因为2月就要录制电视比赛了,但这时也没有人知道,他们创造的这个机器在对抗詹宁斯和鲁特时表现如何。
最终的结果是,“沃森”完胜了他们。它回答正确的问题所涉及的话题从“奥林匹克怪事”(Olympic Oddities,即在1976年举行的蒙特利尔冬季奥运会的“五项全能”比赛中,因一名运动员用金属线连接重剑上的一个隐秘按钮,致使没有击中对手就能得分)到“教堂和国家”[Church and State,要意识到答案必须包含这两个词中的其中一个,当提出的问题是“它意味着思维的慢慢发展或者怀孕”,计算机的回答是“孕育”(gestate,这个词里包含“state”这个词)]。虽然超级计算机并不完美[例如,当被问到关于“时尚优雅”或者“在同一年全部毕业的学生们”作为“分类”的“另一层意思”的一部分时,它的回答是“时髦”(chic),而不是“班级”(class,这个词也有“分类”、“出色”之意)],但它仍是很优秀的。
“沃森”的行动也是非常迅速的,它能够在詹宁斯和鲁特之前不断地进行抢答,以获得回答问题的机会。例如,在两场比赛的第一回合中,“沃森”首先就得到了43次抢答机会,而它答对的次数是38次。而在同一场比赛中,詹宁斯和鲁特两个人加在一起仅仅抢答了33次。
在为期两天的比赛结束的时候,“沃森”已经积攒了77 147美元,是鲁特的3倍还多。詹宁斯紧随鲁特之后,他给最后比赛问题的答案还增加了一个个人声明:“我个人热烈欢迎新一代计算机来到我们这个世界。”他后来解释说:“正如20世纪工厂里的工作机会被新的机器人产品线代替一样,布拉德和我作为知识领域的工人也被新一代 ‘思考’的机器代替了。‘猜谜游戏节目参赛者’可能是‘沃森’替代的第一批工作者,但我敢确定这不是要替代的最后的工作者。”
机器人进步的悖论
数字化技术进步最新的一个重要发展阶段集中在机器人领域——制造穿梭于工厂、仓库、战场和办公室这些物质世界里,并能同这个物质世界融合在一起的机器人。在这里我们所看到的进步也是逐渐地,然后就是突然爆发。
“robot” (机器人)这个词进入英语语言是通过1921年捷克作家卡雷尔·恰佩克(Karel Capek)的戏剧《R.U.R.》(Rossum’s Universal Robots,即《罗素姆万能机器人》),在那之后,机器人就成为人类迷恋的对象。在大萧条期间,杂志和报纸的故事都在渲染机器人能够发动战争、引发犯罪、让工人失业,甚至能够击败拳击手杰克·登普西(Jack Dempsey)。艾萨克·阿西莫夫(Isaac Asimov)在1941年造出了“robotics”这个词,并且在第二年制定了“机器人学三法则”以规范机器人的基本规则:
1. 机器人不得伤害人,也不得见人受到伤害而袖手旁观。
2. 机器人应服从人的一切命令,但不得违反第一定律。
3. 机器人应保护自身的安全,但不得违反第一、第二定律。
阿西莫夫对科幻小说和现实世界的机器人制造所产生的巨大影响力持续了70年,但科幻小说要比现实世界中的机器人走得更远。科幻小说给我们塑造了健谈而忠诚的R2–D2[17]和C–3PO[18];还有《太空堡垒卡拉狄加》(Battlestar Galactica’s)中邪恶的机器人Cylons,《终结者》(Terminator)中可怕的机器人,以及各种机器人偶、电子人、复制杀人魔等。对比一下,在现实世界中,数十年的机器人研究也催生了日本本田公司的阿西莫[19]。阿西莫是类人型机器人,但在其中一次演示中它却破坏了阿西莫夫的机器人第三法则。在2006年对现场观众的一次演示中,阿西莫尝试着走上在舞台中搭设的飞机梯架。当它走到第三步的时候,阿西莫的膝盖发生了弯曲,向后摔了下去,面板着地,重重地跌落在地面上。
之后,阿西莫恢复了状态,可以演示像上下楼梯、踢足球以及跳舞这样的活动了,但它的缺陷也说明了一个基本的事实:在物质世界中,人类能做的很多容易而自然的事情对机器人来说是很难完成的。正像机器人研究专家汉斯·莫拉维克(Hans Moravec)所观察到的:“如果让计算机展示成人水平的智力测验或者玩跳棋是一件相对容易的事情,但当涉及知觉和机动性时,即使让计算机完成一岁幼儿的某些技能也是非常困难或者不可能的。”
这种情形所描绘的就是被人们熟知的莫拉维克悖论,维基百科对此进行了恰当的总结:“莫拉维克悖论,是人工智能和机器人研究领域有别于传统假设的重要发现,其含义是高层次的推理几乎不需要计算,但低层次的感觉运动技能则需要大量的计算。”[20]莫拉维克的洞察极其准确,且意义重大。正像认知科学家史蒂芬·平克(Steven Pinker)所评论的:“对人工智能35年的研究所得到的一个主要教训是,难的问题很容易,容易的问题很难……当新一代的智能设备出现的时候,股票分析师、石油工程师和假释委员会成员的工作机会将最有可能被机器代替。但园艺师、接待员以及厨师在未来的几十年里丝毫不用为自己的工作机会操心。”
平克的观点是,即使是机器人研究专家也很难设计和制造出在技能方面能与笨拙的手工工人相提并论的机器,例如,机器人吸尘器就无法完成一位女佣的所有工作——它只会用真空吸尘器清扫地板。机器人吸尘器的销售已经超过了1 000万台,但没有任何一台能够把咖啡桌上的杂志整理好。
在实际的物质世界工作时,和机器相比,人类也拥有巨大的灵活性优势。一些单一的自动操作工作,比如把金属丝焊接到电路板上或者用螺丝钉把两个零件固定在一起,是非常容易的事情,但这种工作必须保持时间的持续性,并且要在一定“规则”的环境中完成。例如,电路板的排列方向每次必须保持同一方向。公司购买专业化机器来完成这些工作,必须让工程师给它们设计程序,并进行相关测试,然后才能把它们配置在装配线上工作。每次的任务变化——比如螺丝孔每次移动变化,生产流程就必须停下来直到完成程序的重新设定。今天的工厂,尤其是高工资国家的大型工厂,都已经是高度自动化了,但这些工厂里多种用途的机器人也不是很多。这些工厂里更多的是价格昂贵且装配及改装成本都不菲的专业化机器。
工厂自动化的再思考
iRobot(机器人产品与技术专业研发公司)公司的合伙创办人罗德尼·布鲁克斯(Rodney Brooks)注意到了在高度自动化的现代工厂车间里所发生的事情:工人很少,但也不是找不到。这些工人所做的很多工作都是重复的且无意识的。例如,在一条封装软糖糖罐的产品流水线上,机器把一定量的软糖装进每个糖罐里,然后旋上罐盖,再贴上标签,但这需要工人把空的糖罐放置到传送带上才能开始整个封装流程。为什么这一步骤不能自动化呢?因为在这种情况下,糖罐是用纸板箱装着,每次12个放置到传送带上的,在这一过程中,所放糖罐的位置并不需要完全固定不变。这种不需要“太精准”的操作模式对工人来说是没有任何问题的(工人只需要看到箱子里的糖罐,然后把它们拿起来,扔到传送带上就可以了),但传统的工业自动化对于操作像糖罐这类不需要每次都放在同一位置上的产品流程是有着很大困难的。
2008年,布鲁克斯创建了一家新公司——Rethink Robotics公司,以开拓和研发非传统性的工业自动化设备:就像能够封装软糖糖罐的机器人,用以完成今天工厂里由人工完成的不需要准确操作的工作和任务。他的理想是,在这一领域对莫拉维克悖论有所突破。布鲁克斯预想的是,创造出不需要高额报酬工程师调试程序的机器人。这样的机器人在工厂车间工人的“教导”下就能完成某种任务(或者再“教导”一次又能完成新的任务)——每一名工人在不到一个小时的时间里就能学会如何教导他们的机器人“同事”完成任务。布鲁克斯的机器也很廉价,大约两万美元就能买到一台,其花费仅相当于现在工业机器人的一小部分。在Rethink Robotics公司宣布其第一条机器人(Baxter)产品线下线之前,我们有幸抢先目睹了这个庞然大物。布鲁克斯邀请我们去其公司位于波士顿的总部参观这种自动化机器人,并且观看它们能够做些什么。
Baxter是那种很容易辨识的人形机器人。它有两只结实的手臂,每只手臂都有关节相连,手的形状则像爪子一样;然后就是躯干部分;而头部则有一张液晶显示屏的脸,整个头部也能转向观察到离它最近的人。虽然Baxter没有腿,但Rethink Robotics公司还是跨越了自由移动所带来的巨大挑战,在Baxter上装配了轮子,这样在工人的帮助下它就能从一个地方移动到另一个地方。公司的分析报告声称,即使Baxter依靠自己的力量无法移动,也不会妨碍它能做很多有用的工作。
指导Baxter工作时,你需要抓住它的手腕,操纵它的手臂,引导它按照你想要的方向移动。当你做这些的时候,它的手臂好像没有任何重量,那是因为它的动力系统已经开始运转,你不需要费多大力气。Baxter的安全性还是很可靠的,它的两只手臂不会碰撞在一起(如果你硬要这样做,它的动力系统会抵制你),而且如果它能感觉到有人在其周边附近,就会自动地把步调慢下来。Baxter的这些以及其他设计特征,使得人们与这种机器人一起工作时会始终处于一种直觉、自然而且没有任何威胁的体验状态之中。当我们第一次接触Baxter时,我们对于机器人能够触摸到我们的脸也感到相当紧张,但这种恐惧心理很快就消失得无影无踪了,取而代之的是极大的好奇心。
在公司的演示区,布鲁克斯向我们演示了几台Baxter是如何工作的。这些机器人正在让莫拉维克悖论完全失效——它们能感知并且能够用“手”操纵从手柄到吸着杯等各种不同的零部件。机器人虽然不像一位熟练、全速操作的工人那样快速与流畅,但机器人未必需要这样做。因为工厂里的大部分传送带和装配线并不需要总是全速运转,如果这样,即使是工人也会疲惫不堪。
相比人工,Baxter有一些明显的优势。它能全天工作,并不需要睡眠、午餐或者喝咖啡的时间。它也不需要让雇主给它提供健康体检,更不会给雇主带来额外的工资税负担。而且Baxter还可以同时做两件根本不相关的事情,因为它的两只手臂是可以分别完成操作的。
你身边的装配线、仓储地、走廊:机器人很快就要到来了
在参观Rethink Robotics公司并观看Baxter操作演示之后,我们理解了为什么得州仪器公司的副总裁雷米·艾尔–库赞(Remi El-Ouazzane)在2012年年初说:“我们非常坚定地认为,机器人市场爆发的节点马上就要到来了。”实际上,已经有很多证据支持他的观点了。有不少公司所使用的机器人的数量和种类都在迅速增长,创新者和企业家们最近也一直在冲破莫拉维克悖论的羁绊。
波士顿地区的另一家公司Kiva(自动化物流公司),也在使用机器人在仓库里安全、快捷、高效地搬运货品。Kiva公司的机器人看起来像金属的脚凳或者像压扁的R2–D2。这些只有大约齐膝高的机器人穿梭于各个建筑物之间,巧妙地搬运货品,并能灵活地避开工人以及彼此的碰撞。由于它们体型较小,能贴地而行,所以很容易钻到货架下面,然后把货架举起,搬运到工人那里。在工人们把所需的货品取走之后,机器人就会把货架迅速移开,另一台承载着货架的机器人则随后而至。计算机软件系统能够跟踪仓储地所有的产品、货架、机器人和工人,它可以高效地协调Kiva公司的机器人不断地灵活运转。2012年3月,Kiva公司被业内领先的仓储物流公司——亚马逊公司,以7.5亿美元的价格收购。
波士顿动力公司也是一家以美国新英格兰地区为基地的创业公司,它也抓住了莫拉维克悖论的致命弱点。这家公司所制造的机器人主要是为美国军方服务的,因此,这些机器人能够在不平坦的地面上载重而行。这家公司的大狗机器人看上去就像一只长着细长腿的金属大驯犬,它能够攀爬陡峭的山岭,在冰上滑倒也能再次站立,当然还能像狗一样做其他的事情。大狗机器人能够利用四个支点平衡载重,而且还能在颠簸不平的地面上走动,这的确是机械制造领域的一个大难题,但波士顿动力公司却在这方面取得了巨大的进步。
我们要举的最后一个最近机器人进步的例子是Double机器人,它与大狗机器人有着很大的不同。Double机器人并不是要在敌人的阵地上奔跑,它是可以在卧室地毯上和医院走廊里来回溜达并且安装了一部iPad的机器人。它就像一只底下安装了移动轮子的倒转过来的钟摆,还像一块用一根一米多长的支架支撑起来的写字板。Double机器人支持远程操控,它能够帮助操作者“步行”至很远的楼层里“看一看”、“听一听”那里发生了什么事。摄像头、麦克风和iPad的屏幕就像是操作者的眼睛、耳朵和脸,iPad能看到、听到的一切,操作者也能看到和听到。Double机器人本身能够行走,所以它能够遵照操作者的指令有效地传达各种信息。Double机器人公司把它称作“你并不需要飞到世界的哪个地方,就可以依靠它以最简单的、最优雅的方式把那个地方的事情呈现出来”。第一批Double机器人的价格是2 499美元,在2012年秋季这项技术被宣布之后,很快就被抢购一空。
我们预测,下一轮的机器人创新可能会给莫拉维克悖论带来最致命的打击。2012年,美国国防部高级研究局宣布了另一项挑战赛,这一次不是自动驾驶汽车,而是自动机器人。美国国防部高级研究局机器人挑战赛集聚了工具使用、机动性、感知、远程操控以及其他一些机器人领域长期就有的挑战活动。挑战赛代理机构战术科技办公室的网站公布了挑战赛的一些情况:
美国国防部高级研究局机器人挑战赛首要的技术目标是,研发能够在危险、恶劣、人与机械工程共存的环境中执行复杂任务的地面机器人。机器人挑战赛的参赛者应该聚焦于能够使用标准化工具和设备的机器人——这些标准化工具和设备都是在人工环境下普遍使用的。参赛的机器人使用的工具范围包括从手动工具到车辆,而且还要能使用不同规格的工具。
通过机器人挑战赛,美国国防部高级研究局希望机器人研发机构能够在2014年年底制造并演示具备高级功能的人形机器人。根据战术科学办公室开始时的详细阐述,机器人将不仅能够驾驶可移动的车辆、清除阻塞在路口的废料残骸,还要能攀爬梯架、关闭阀门以及更换水泵。这些要求看起来是很难完成的,但我们对研发人员有着百倍的信心,相信他们能够巧妙地应对机器人挑战赛中的各种挑战。实际上,很多人已经看到,2004年的挑战赛就已经推动了自动驾驶汽车领域的技术进步。同时,机器人挑战赛也将是一次让我们摆脱莫拉维克悖论困扰的绝佳机会。
我们正处在一个重大转折点上
在过去的几年时间里,自动驾驶汽车、在《危险边缘》游戏节目获胜的超级计算机以及很多用途广泛的机器人都进入了人们的视野。这些创新的技术绝不仅仅是实验室里的演示品,它们在这个真实世界中已经展现出了技能和能力。它们的出现也预示着我们正在进入一个转折点——发展曲线就将出现重大弯曲的转折点。在这个转折点上,以前我们只能在科幻小说里才能看到的技术已经变成了现实。随着更多科技产品的问世,我们对技术进步的印记会越来越深刻。
在《星际迷航》(Star Trek)[21]电视系列节目中,有个叫“三录仪”[22]的设备被用于浏览和记录三种数据:地形数据、气象数据、医疗数据。而实际上,今天我们手中的智能手机就已经具备了这些功能;它们能像测震仪、实时天气雷达地图以及心脏和呼吸记录仪一样发挥功能和作用。当然,智能手机不仅限于这些功能,它们还可以充当多媒体播放机、游戏平台、工具书、照相机和GPS设备。在《星际迷航》中,三录仪和私人通信设备是分开的,但在现实世界中,这两大功能已经在智能手机里融为一体。即使我们处于移动状态,智能手机也能够同时接收和发送大量的数据信息。这种技术的进步给我们提供了大量的创新机会,正像风险投资家约翰·杜尔(John Doerr)所说的“SoLoMo”[社交(social)+本地化(local)+移动(mobile)]。[23]
我们知道,有史以来,计算机都写不出什么像样的文章。虽然最近计算机能够写出一些符合语法习惯的句子,但这些句子都是没有任何意义的——不过这种事情免不了会被恶作剧者大肆借用一番。比如在2008年,计算机科学与软件工程国际大会接收了一篇名为“电子商务模拟研究”(Towards the Simulation of E-commerce)的论文之后,决定邀请这篇论文的作者参会。而实际这篇论文的作者是“SCIgen”,来源于麻省理工学院计算机科学与人工智能实验室的“随机生成计算机科学研究论文”项目。SCIgen的发明者写道:“我们的目的是达到最大的娱乐效果,而不在于写出连贯的文章。”但在读了《电子商务模拟研究》这篇文章的摘要之后,你就发现难以与他们争辩了:
最近在合作技术和传统交流方式上的进步完全基于互联网和主动网络与面向对象的语言是不冲突的这种假设。事实上,很少有信息理论人士会赞同可视化的分布式哈希表,虽然它能够改善并可能模拟实际的8位架构——体现了电子工程引人注目的原则。
虽然最近的研究显示,并不是所有由计算机生成的文章都是毫无意义的。Forbes(福布斯)网站与Narrative Science公司(一家智能软件写作公司)合作,让这家公司负责撰写公司收益预览,Forbes网站会把这些预览放在网站上。预览所使用的数据和材料都由一定的运算法则计算得出,人不会参与其中,不过,最后形成的预览与人的分析几乎是毫无差别的:
福布斯收益预览:亨氏公司
第一季度收益报告的发布把亨氏公司的股价推高到52周新高,这一价格仅比亨氏公司2012年8月29日星期三收益发布的具有里程碑意义的股价低49美分。
华尔街收益评估网预测的收益是每股80美分,比上一年提高了2.6%——亨氏公司当时所公布的收益是每股78美分。
华尔街收益评估网评估认为,亨氏公司的收益在过去的数月里一直没有变化,但它已经比三个月之前有所下跌,当时的收益是每股82美分。分析人士预测,亨氏公司这个财政年度的收益能够达到每股3.52美元。而分析报告显示,亨氏公司去年一季度收益是28.5亿美元,今年是28.4亿美元,同比下降了约0.3%。对于今年来说,其全年收益预计能达到118.2亿美元。
即使是计算机外围的设备,比如打印机,也正在取得巨大的技术进步——那些在科幻小说里才能看到的一切都变成了现实。和把墨直接喷在打印纸上的传统打印方法不同,现在的3D打印机可以用塑料、金属和其他材料进行复杂的3D打印。3D打印也被称为“增材制造”,它利用了计算机打印原理:打印机要把一层很薄的材料(传统上是打印墨)喷洒在打印介质(比如纸张)上,然后通过计算机的打印模式进行打印。
技术创新者推理认为,打印机打印时完全可以把一层打印材料叠加在另一层上。和传统的打印墨不同,3D打印机可以使用像液体塑胶一样的材料——要使用紫外光进行固化。每一层材料都很薄——大约是1/10毫米,但经过多层打印,一个3D物品就成形了。使用这种打印成形技术,有的形状的打印是很复杂的,因为一些形状中间会有孔洞,甚至各个部件还是彼此分离的。在业界领先的设计软件公司欧特克公司位于旧金山的总部,我们亲自操作了一个可调式扳钳的打印过程,当然是整体打印,不需要组装。
这个扳钳是由塑料打印而成的演示产品——但3D打印机也可以使用金属进行打印。欧特克公司的首席执行官卡尔·巴斯(Carl Bass)是增材制造这个迅速发展领域的爱好者和实践者。我们在他的公司展厅进行参观时,看到了陈列柜里展示的各种各样的产品和项目,他还向我们展示了一只由他在计算机上设计并用3D打印机打印出来的漂亮的金属碗。这只碗的边上还有精心绘制的格子图案。巴斯说,他问过参与过金属加工生产的一些朋友——有雕刻师、钢铁厂工人和焊接工等,这只碗是如何制作出来的。他们之中没有人能够说出这种格子是如何做出来的。答案是,通过激光技术熔化金属粉末,然后喷洒在每一层上就成形了。
今天的3D打印技术并不仅仅用于制造像巴斯的金属碗这样的东西。现在,3D打印已经被无数公司用于打印原型产品和模型部件。它还被用于很多终端零部件——从塑料排气孔到美国航空航天局下一代月球车,再到83岁妇女的人造金属下颌骨。在不远的将来,3D打印机甚至可以现场实时为有缺陷的发动机打印可替换的零部件——而不是让零部件堆放在仓库里。甚至一些实验性项目也表明,未来的3D打印技术将会被用于打印混凝土房屋。
我们在这一章里所描述的大部分技术创新都发生在最近这几年的时间里。这些创新都发生在长期以来一直缓慢发展和提升的领域,在这些领域,最出色的研究思想总是认为,技术的发展不可能突飞猛进。但数字技术却在长时期缓慢发展之后突然出现了迸发,而且这种迸发出现在多个领域,从人工智能到自动驾驶汽车,再到机器人的崛起。
这一切是如何发生的?这是一次侥幸的成功吗?难道是诸多幸运的机遇汇合在一起,然后在同一个时间内瞬时爆发?很显然,情况并不是这样的。我们最近所看到的数字技术的进步确实令人印象深刻,但它仅仅是接下来将要发生的技术变革的一小部分。这是第二次机器革命时代的黎明。要想了解现在的这一切是如何发生的,我们需要了解在数字硬件、软件和网络领域技术进步的性质。尤其是,我们需要了解数字技术进步的三个主要特征:指数化、数字化和组合化。在接下来的三个章节里,我们将依次分别探讨这些内容。
[7] 指的是掌握和运用符号和概念,以及利用知识或信息的工作。在今天,大多数白领所做的工作都可以称为“知识性工作”。——译者注
[8] 在开始于2007年的大萧条之后的几年里,一些公司的抵押贷款客户的信贷评分、收入和财富水平越来越低,而债务水平却越来越高。换句话说,这些公司会重新评估或忽视这些抵押贷款客户之前的贷款批准计算程序。这并不是因为传统的抵押贷款计算程序失效了,而是因为这些计算程序被停止使用了。
[9] 模式识别,又称图形识别,就是通过计算机用数学技术方法来研究模式的自动处理和判读。——译者注
[10] 欧内斯特·海明威(Ernest Hemingway),美国记者和作家。此句节选自海明威的名著《太阳照样升起》(The Sun Also Rises)。——译者注
[11] Gizmodo是美国一个知名科技博客,主要报道一些全球最新的科技类产品,包括iPhone原型机都可能最先出现在这个博客上面,报道的产品多是高科技产品,涉及计算机、手机、数码相机、家庭娱乐等,并附上相关链接。Gizmodo是最早曝光iPhone 4的网站。——译者注
[12] OpenTable是目前美国领先的网上订餐平台,OpenTable网络提供方便的网上餐厅预订餐车和计算机化的预定。——译者注
[13] Yelp是美国著名商户,创立于2004年,囊括各地餐馆、购物中心、酒店、旅游等领域的商户,用户可以在Yelp网站中给商户打分、提交评论、交流购物体验等。——译者注
[14] 《银河系漫游指南》,是英国作家道格拉斯·亚当斯所写的科幻小说。——译者注
[15] 准确一点说是,特雷贝克读出了答案,而参赛选手们要根据这个答案把问题陈述出来。
[16] “souvenir”一词,也有“纪念品”之意。——译者注
[17] R2–D2是出现于电影《星球大战》系列中的一个虚构机器人角色,常被简称为R2。——译者注
[18] C–3PO是《星球大战》系列中的角色,也有人简单地称它为“3PO”。——译者注
[19] 即ASIMO,全称为“Advanced Step Innovative Mobility”,意为高级步行创新移动机器人,是日本本田公司开发的目前世界上最先进的步行机器人。也是目前世界上唯一能够爬楼梯、慢速奔跑的双足机器人。——译者注
[20] 感觉运动技能指的是,感觉物质世界并且能控制身体在其中移动的能力。
[21] 《星际迷航》是由美国派拉蒙影视制作的科幻影视系列。由6部电视剧、12部电影组成。该系列最初由编剧吉恩·罗登贝瑞于20世纪60年代提出,经过近40年的不断发展而逐步完善,成为全世界最著名的科幻影视系列之一。——译者注
[22] 在《星际迷航》中,三录仪是一个万用工具,能够感知环境四周,并将这些数据记录下来,然后进行计算。它也可以探测生命信号,入侵操作者指定的计算机系统,对人体进行扫描以检测病患、录音、扫描地形等。——译者注
[23] “SoLoMo”由IT风险投资人约翰·杜尔首次提出。他把最热的3个关键词整合到了一起,随后,SoLoMo概念风靡全球,被一致认为是互联网未来的发展趋势。——译者注
