“在你衡量你所谈论的话题时,如果能以数字的形式表达出来,那说明你对这个话题知其一二;而当你无法用数字表达时,你的知识就是贫乏的、不能令人满意的。”
    ——开尔文男爵(Lord Kelvin)
    19世纪英国卓越的物理学家

    “嗨,你听说过……吗?”

    “你得看看……”

    像这样的问题和建议是我们每天都会面对的话题。它们是我们从朋友、家庭和同事那里获取新消息、新事物的途径,也是我们在接触到描述新奇事物的语句之后再进行传播的有效渠道。一般情况下,这种形式的“寻酷”最终都会产生一些“美妙”的结局——一支乐队、一家饭店、一个旅游胜地、一个电视节目、一本书或者一部电影的名字都会从人们的嘴中“蹦跳”而出。

    在数字化时代,像前面人们谈论的这些话题最终可能会变成一家网站或者一件新奇玩意儿的名字。而在当下,人们“寻酷”的对象可能就成了智能手机的一个应用程序。现在市场上流行的两种技术平台——即苹果公司的iOS操作系统和Android操作系统(又称安卓操作系统),其应用程序已经达到了50万种。大量的“前10名”以及“最佳”应用程序列表能够帮助手机使用者在智能手机应用程序的“海洋”里搜寻到有价值的“珍珠”,但传统口口相传的形式仍然活力不减。

    不久前,麻省理工学院斯隆管理学院的博士生马特·比恩(Matt Beane)——他也是我们数字前线团队的成员,给我们提供了一个点子:“你们考虑一下使用Waze,真是太棒了。”但当我们发现他所说的Waze就是一个基于GPS的应用程序,而且这个程序只提供驾驶导航时,我们的兴趣立刻就消失得无影无踪了。因为我们的汽车有导航系统,而且iPhone里的地图应用程序完全能够给我们提供驾驶导航。所以,我们现在看起来并不需要另一个“指导我们如何到哪里”的导航技术。

    迈特则给我们耐心地解释说,使用Waze就好像你在拉力赛中驾驶着一辆杜卡迪摩托车同一辆牛车进行比赛。Waze不像传统的GPS导航仪,它一般不会告诉你到达目的地的最佳路线,而是实时地告诉你应该走哪条路线。正像这家公司的网站所说的:

    Waze的设计理念起源于数年前,当时有人给埃胡德·沙卜泰(Ehud Shabtai)送了一台有GPS功能的掌上计算机。埃胡德本来很兴奋,但很快兴奋就被失望代替了,因为这款产品并不能根据车辆的行驶进程实时地反映变化的路况……
    于是,埃胡德要亲手来设计这样的产品。他的目标就是,他设计的这款产品在任何既定的时刻,都能够清晰地反映交通系统的运行状况以及与驾驶员相关的所有信息。

    任何使用传统GPS导航系统的人都会有埃胡德所碰到的挫败感。是的,导航仪的确知道你的准确位置,因为天空中有美国政府发射和维护的24小时地球同步GPS导航卫星网络。这些卫星也很熟悉各种公路——哪一条是国道以及哪一条是城市单行道等,因为它们都有一个庞大的数据库以支持这种信息。这就是传统GPS导航系统所能做的。但一位驾驶员真正想要知道的,包括交通堵塞、交通事故、道路封闭以及其他影响行驶时间的因素,是传统的GPS导航系统无法满足的。例如,如果要计算从安迪家到埃里克家的最佳路线,只要规划好出发点(安迪车的当前位置)和终点(埃里克的家),并查询路线数据库就能计算出理论上的两地之间的“最快捷”路线。这条路线将包括主干道和国道,而且还有最高限速要求。

    然而,如果在上下班高峰期,这种理论上的“最快捷”路线就不一定是最佳行驶路线了。想象一下吧,成千上万辆车拥挤在主干道上和国道上,行驶速度根本无法达到最高行驶速度,更别说超速了。为了避开拥堵路段,安迪必须尝试去寻找畅通的僻静小道——多年通勤者才会熟悉的道路。安迪的GPS是能够清晰地显示这些道路的(如果GPS能够按时升级,它能显示所有的道路),但它却不知道在星期二早上8点45分这些道路是不是最佳的行驶路线。即使他是从僻静小道出发的,而他“装备精良”的GPS也会引导他往高速公路上行驶。

    埃胡德认为,一个真正有用的GPS系统需要知道的不仅仅是路上的某一辆车行驶在哪里。它也需要知道,其他车辆在哪里,这些车辆行驶的速度有多快。当第一批智能手机投向市场的时候,他看到了一种可能性,于是在2008年他与尤里·莱文(Uri Levine)和阿米尔·希纳尔(Amir Shinar)一起创建了Waze。Waze的“天赋之处”是能够把所有使用该程序的智能手机都变成传感器,然后持续不断地把它们的位置和行驶速度信息上传到公司的服务器上。当越来越多的智能手机都在使用这种应用程序时,Waze就会获得一个特定区域越来越多的的车辆行驶状况。Waze程序所显示的不仅仅是一幅静态的公路地图,它也能实时地升级最新的交通状况信息。它的服务器通过使用地图和这些升级,并通过一系列复杂的运算法则生成导航路线。如果安迪想要在星期二上午8点45分开车去埃里克家,Waze是不会把他导航到高速公路上的,它会一直引导他在城市街道上行驶——那里的交通状况在那个时点要相对好得多。

    Waze这种使用者越多其使用性越强大的特性——对每个使用者来说,一种资源的价值会随着每个加入者的增加而增长,就是被经济学家称为“网络效应”的经典案例。事实上,Waze使用者的数量也一直在迅速地增长。在2012年7月,公司报告称,Waze的使用者在过去的6个月时间里已经实现了翻番,达到了2 000万用户。这个庞大的群体已经行驶了约52亿公里的路程,实现了数千次交通事故、突发性交通堵塞、警察限速、公路关闭、高速公路新出入口、降价加油站以及其他很多驾驶员们感兴趣项目的数据更新和升级。

    有了Waze,GPS就成了驾驶员手里的全方位助手:一个能够让你快速而容易地到达你想要去的地方的系统,而不论你是否熟悉当地的公路以及公路状况。它会使你瞬间成为对那个城市无所不知的超级车手。

    比特经济

    由于摩尔定律和技术的指数级增长——也就是我们前面章节所提到的话题,Waze的规模才有可能做得很大。这种服务系统依靠的是大量功能强大却很廉价的设备和工具(也就是使用者的智能手机),这些设备和工具中的每一种都拥有一系列处理器、传感器和发射器。这类技术在10年以前都是不存在的,当然也包括Waze。之所以在过去的一些年里这类技术变得可行了,是因为数字能量的迅速积累和技术成本的下降。正像我们在第3章所看到的,计算机设备和工具的指数级提升和增长是催生第二次机器革命时代到来的三大根本动力之一。

    当然,Waze也非常依靠这三大动力的第二个:数字化。在里程碑式的著作《信息统治》(Information Rules)中,两位经济学家卡尔·夏皮罗(Carl Shapiro)和哈尔·瓦里安(Hal Varian)把这种现象界定为“对信息流进行数字化的编码”。换一种说法,就是把所有的各种各样的信息和媒体形式——包括文本、声音、图像、视频以及工具、设备和传感器里的数据等等,转换成无数的“1”和“0”,也就是计算机以及其他同类产品能够识别的语言。比如,Waze使用的就是几种信息流:数字化的街道地图、应用程序发布的车辆定位以及交通拥堵的警示信息。Waze能够把这些信息流整合在一起,转换成对使用者非常有用的信息,这就是这一服务备受欢迎的原因。

    我们理所当然地认为,在读了夏皮罗和瓦里安以及其他人的作品之后,而且还一直对互联网上相关的内容有所吸收和了解,我们对数字化应该是非常了解的。但让我们始料未及的是,在过去的数年时间里,数字化在各个领域的进步已经远远超出了我们的想象。它的体量、种类和速度已经发生了大爆炸。这种数字化的爆发带来了两个深远性的影响:获取知识(或者做科学研究)的思路更多了,创新的速度更快了。这一章我们将探究数字化那迷人的发展历程。

    像其他很多种的线上服务系统一样,Waze使用的是数字信息两个众所周知、独特的经济特性:这类信息的非竞争性和复制时的零边际成本。我们可能每天都会说,数字信息是“取之不尽,用之不竭”的,而且要想复制成另一种数字化资源也是极其廉价的。下面让我们更详细地了解一下数字化技术的这些特性。

    我们每天都会碰到竞争性产品,这种竞争性产品指的是,一个人或某件东西在一定时间里只能独自享有这种产品。如果我们两个人从波士顿飞往加利福尼亚,在我们之后起飞的飞机就不能使用我们飞机上的燃料。安迪也是无法使用埃里克已经坐上的座位的(航空公司的规定就是禁止座位共享,即使我们有意而为之),而且他也不能使用他同事的耳机——如果埃里克已经把耳机插在智能手机上并且正在听音乐。然而,数字化的音乐本身却不是竞争性产品。埃里克在听一首乐曲并不能阻止另一个人在同时或之后也听同样的乐曲。

    如果安迪购买并阅读了科幻小说家儒勒·凡尔纳(Jules Verne)一部古老的精装本作品集,他并没有把它“用尽”;他阅读完可以把这本书送给埃里克。但如果我们两个都想在同一时间翻阅《海底两万里》(Twenty Thousand Leagues Under the Sea),那么我们要么去找一本复制本,要么安迪可以利用他手中的一本再复制一本。他这样做可能是合法的,因为这本书已经不在版权期内了,但他仍旧需要在复印机上花费很多时间或者付钱让别人代劳。不论是哪种情况,复制出来一本书都不是廉价的。另外,在一遍又一遍地多次复印之后,阅读起来也会变得更加困难。

    但如果安迪获得了这本书的数字版权,只需要按几下按键或者点几下鼠标就能创造出一个复制品,可以把它保存在物理磁盘上,然后把这个复制品交给埃里克。不像复印机,对数字信息进行复制,复制版和原版几乎毫无差别。可以说,数字信息的复制极其廉价、快速和容易。虽然一本书或一部电影的原始版本需要花费大量的成本去制作,但如果去复制更多的样本却几乎不花费任何成本。这就是所谓的“复制的零边际成本”。

    当然,现如今,安迪交给埃里克的也并不是一张磁盘,而更可能是以文件的形式附在邮件之中,或者通过类似Dropbox这样的云服务系统进行文件的共享。当然,不论是哪一种方法,他都要使用互联网。他之所以采用这种方法是因为,它更快、更方便,而且更重要的是,它基本免费。就像大多数人一样,我们在家里的互联网接入和我们的移动设备都是包月之类的固定付费(麻省理工学院要为我们的工作网络付费)。如果我们超出了一定的数据限制,我们的互联网服务提供商可能就会对我们额外收费,但在超额之前,我们都可以畅通无阻地使用互联网;而且不论我们上传或下载多少数据,也不需要额外付费。这样的话,即使通过网络接收或发送大块的数据也不用担心额外付费。不像原子组成的产品,由比特组成的产品能够进行完美的复制,它可以几乎零成本地瞬间穿越整个房间或者整个地球。对大多数产品来说,想要自由、完美并且即时地传输好像都是不合理的预期,但当更多的信息被数字化之后,更多的产品也将会变得自由、完美和即时。

    商业模式:当第一个版本仍旧昂贵之时

    夏皮罗和瓦里安比较雅致地把这些特征描述总结为,在一个计算机和网络时代,“信息是天价的生产、廉价的复制”。我们在第2章里所提到的“科幻小说走进现实”技术——即时在线翻译服务,就是利用了这样的事实。它们使用相匹配的两套文档——需要人工花费高额成本从一种语言翻译成另一种。还比如,欧盟以及它的前身自1957年起,签发的所有官方文件都要使用其所有成员国的主要语言;而联合国的语言也丰富多彩,要以6种官方语言起草文件。

    这种大规模信息的创造并不是廉价的,不过这种信息一旦被数字化之后,它的复制、剪切以及共享就相当廉价了。基本上,Google翻译这类的服务遵循的就是这样的理念。当它需要把一句英语翻译成德语时,它基本会扫描它所知道的所有英语和德语文件,以寻找一个接近的匹配(或者一些接近匹配的片段),然后再转换成相应的德语文本。今天大多数高级的自动翻译服务,并不是建立在教计算机如何掌握人类语言使用规则以及如何使用语言的任何新近的研究结果之上的。相反,它们使用的是数据匹配模式,就是在翻译过程中,借以匹配海量的花费巨额成本生成但可以廉价复制的数据内容。

    接下来会发生什么:当内容的获取变得免费之时

    但如果信息生成并不需要花费巨额成本时,那么在这个数字化的世界里将会发生什么事情?如果在一开始的时候就不存在版权问题,将会发生什么?在《信息统治》这本书出版之后,我们一直在精神鼓舞地探寻着这些问题的答案。

    传统的商业信条是,“时间就是金钱”,但在这个让人吃惊的现代互联网世界里,究竟有多少人愿意贡献出自己的时间去生产线上的内容而又不寻求任何金钱回报呢?例如,维基百科的内容是依靠全世界的志愿者免费创造的。到目前为止,它拥有世界上信息量最大的参考资源,但没有人通过撰写或者编辑网站上的文章获得任何报酬。同样的还有无数的网站、博客、讨论区、论坛以及其他在线的信息资源。它们的创作者总是无偿地提供信息,并不期望获得直接的金钱回报。

    当夏皮罗和瓦里安在1998年出版《信息统治》时,使用者自主生成内容而并不存在金钱转换关系的时代还没有到来。Blogger是最早的网络日志服务商之一,它是在1999年8月创办的;维基百科是在2001年1月创办的;早期的交友网站Friendster是在2002年创办的。后来,Friendster很快被2004年创办的Facebook超越了,Facebook从此一路高歌,发展成为世界上最受欢迎的网站之一。事实上,世界上最受欢迎的内容网站中,有60%的网站是主要依靠使用者自主生成的,而在美国,顶级的10家网站中也有6家属于这种发展模式。

    所有使用者生成的内容并不仅仅是让我们感到了自我表达和交流的通畅与自由,它们还帮助促进了最近我们看到的“科幻小说走进现实”技术的发展。例如,Siri通过分析它的使用者生成并日益增长的声音文件与声音识别系统的相互作用,就能够随着时间的推移而提升自己。而沃森超级计算机的数据库,包含了大约两亿张的文件页面,数据容量达到4 TB——内含维基百科的全部内容。有段时间沃森也收录了语言风格火辣的《城市词典》(Urban Dictionary)里的内容,但令生成这些内容的使用者惊愕的是,沃森开始骂脏话了,最后研究人员不得不去除了《城市词典》的内容。[29]

    对于互联网上使用者自主创造内容的流行和增长,我们也不应该太过吃惊。毕竟,我们人类喜欢分享和沟通。不过,令我们吃惊的是,我们的机器也喜欢彼此沟通。

    M2M(机器对机器,指在信息需求的特定条件下,公司内部实现资产、机器、设备等相互间的数据交换以适应人力或公司管理系统对信息的需求的能力)通信指的就是,设备可以通过类似互联网这样的网络系统共享数据。Waze就使用了M2M,当智能手机上的Waze应用程序打开时,在没有人为干预的情况下,它会持续不断地向Waze的服务器发送信息。同样,当你在热门旅游搜索引擎Kayak查询打折机票时,Kayak的服务器立刻就会把你的需求发送给它们负责不同航班的同类服务器上,并且能够在不需要人工的情况下即时回复你的需求。ATM(自动取款机)会首先“询问”银行我们的账户中还有多少钱,然后才能让我们提取现金;冷藏货车里的数字温度计会持续不断地“通知”超市,车里的货品在运输过程中没有变得温度过高;每当有一个次品出现时,半导体工厂里的传感器就会“告诉”工厂生产总部;无数M2M通信系统则一直都在传输信息。《纽约时报》2012年7月的一份报道声称:“全世界无线网络上机器人聊天的综合水平和程度……很可能很快就会超过无线网络中人类之间所有的语音交流。”

    我们的计量系统将会用尽:数据大爆炸时代的来临

    所有一切的数字化,包括文件、新闻、音乐、照片、视频、地图、个人数据、社交网络、信息需求以及对这些需求的反馈、各种各类传感器中的数据等,是最近一些年中最重要的现象之一。在我们深度涉入第二次机器革命时代之后,数字化还将会持续地发酵、传播和加深,并产生出令我们惊愕不已的数据。根据思科公司的说法,仅仅在2006~2011年这5年的时间里,全世界互联网的流量就增长了12倍,达到了每月23.9艾字节(1艾字节=1 152 921 504 606 846 976字节)。

    1艾字节是一个让人感到荒谬的大数字,它比20万个“沃森”的全部数据库还要多。然而,即使这样表述也不足以涵盖当前以及未来数字化的庞大体量。专注于技术研究的国际技术公司(IDC)估计,在2012年全世界共产生了2.7泽字节(泽字节是艾字节的1 024倍),或者说是2.7乘以1 000的7次方字节,这一数据比2011年增长了一倍。当然,这些数据并不是固定在磁盘驱动器上的,它还会一直变动不居。思科公司预计,到2016年,全世界IP协议数据流量将达到1.3泽字节,这个数据超过了2 500亿张DVD的信息量。

    正像这些数据所表明的,数字化产生出了真正的大数据。事实上,如果这种增长能够保持足够长的时间,那么我们的数据计量系统也将会穷尽。在1991年召开的第19次国际计量大会上,数据计量单位又一次得到扩充,最大的单位变成了尧,也就是1 000的8次方,或者是1024。现在,我们离泽字节也只有一步之遥了。

    第二次机器革命时代:大数据魔力再现

    最近的数字化大爆炸给我们留下了深刻的印象,但这是否真的重要?所有这些艾字节和泽字节的数据真的有用吗?

    事实是,它们的实用性难以置信。我们把数字化看作是塑造第二次机器时代力量的重要原因之一是,数字化增加了我们对这个世界的了解。数字化可以让我们源源不断地接触到海量的数据,数据堪称科学的生机和命脉。这里所说的科学指的是,把理论和假设公式化、数字化,然后再对其进行评估、测算的工作。或者,非正式地说,科学就是猜测事物是如何运转的,然后再研究、核实这种猜测是否正确。

    不久之前,埃里克猜测关于互联网搜索的数据可能就预示着全国房地产销售和价格的未来变化。他解释说,如果一对夫妻要搬迁到另一座城市,并且购买一处房产,他们是不可能在几天之内就完成整个搬迁和购买流程的。他们要提前数月就开始筹划,比如他们首先要在网上做一些调查研究,他们有可能会在搜索引擎中输入类似“凤凰城房地产中介”、“凤凰城地区”以及“凤凰城两居室房子价格”这类的字眼。

    为了证实这一假设,埃里克咨询Google是否能从那里获得搜索词语。他被告知,他用不着询问,因为Google会把这些数据放在网上,供人们自由查阅。埃里克和他的博士生吴琳(音)——他们对房地产经济学一窍不通,通过利用使用者在Google上生成的搜索词语内容,创建了一个简单的数据模型进行分析。他们的模型把搜索词语的变化与随后的房产销售和价格的变化联系在一起,预测出了如果类似前面提到的那些搜索词语在今天增加了,那么凤凰城的房产销售和价格在未来的3个月内就会出现上涨。他们发现,这个简单的模型预测效果非常好,事实上,它要比美国房地产经纪人协会的预测专家们公布的预测结果还要准确23.6%。

    研究人员在其他领域也使用最新获取的数字化数据取得了类似的成功。由哈佛医学院专家鲁米·查那拉(Rumi Chunara)带领的团队发现,在对2010年海地地震之后霍乱的传播跟踪之时,Twitter(推特)网站140个字的短消息竟然和官方正式的报告一样准确,而在时间上要比官方报告至少提前两周。惠普社交媒体计算机实验室的研究人员西塔拉姆·阿瑟(Sitaram Asur)和伯纳多·休伯曼(Bernardo Huberman)发现Twitter短消息也可以被用来预测电影票房收入。他们总结认为:“这充分表明社交媒体蕴含着大量群体的智慧,如果能够开发得当,对未来的结果有着极其强大和精确的预测判断力。”

    数字化也能够帮助我们更好地理解过去。截至2012年3月,Google已经扫描了在过去几个世纪里出版的2 000万册图书。这种海量的数字化单词和语句构成了被称为“文化组学”的基础。(也可以这样说,“文化组学”是利用高产量的数据集合和分析以研究人类文化的发展和演变。)由让–巴普蒂斯特·米歇尔(Jean-Baptiste Michel)和埃雷兹·利伯曼·艾登(Erez Lieberman Aiden)带领的一个多学科团队分析了1800年之后以英语形式出版的500万册图书。他们发现,英语词汇的数量在1950~2000年增加了70%还要多,这种增长速度给人们的印象是要比过去快得多,但相比而言消退得也更迅速,这也证明,在20世纪人类对进化演变的兴趣一直处于衰退状态,直到詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)于1953年发现了DNA(双螺旋)结构。

    所有这些例子都能说明,我们对这个世界的理解更深入了,预测也更准确了,或者说在数字化的世界里,我们的科学研究更加通畅无比了。哈尔·瓦里安——当今Google的首席经济学家,多年来一直因为对此现象的研究而大名鼎鼎。他对数字化的研究独具一格,我们最喜欢引用他的一句话是:“我一直在说未来10年,这个世界最性感的工作就是统计学家,这绝对不是开玩笑。”当我们看到有如此海量的数字化数据被创造出来,并且思考我们将从中获得多少真知灼见时,我们可以非常确定地说,他说得没错。

    不同层次的数字化“食谱”

    数字化信息不仅仅是新科学的生机和命脉,还是塑造第二次机器革命时代的第二大动力(位于指数级增长之后)——因为它在推动创新中所发挥的作用极其重要。Waze就是这方面一个非常好的例子,它所提供的服务是建立在多个层面以及数代数字化基础之上的,由于数字化产品的非竞争性,它们是不可能衰退或者被用尽的。

    第一层或者最早的那一层是数字化地图,它差不多跟个人计算机一样久远。第二层是GPS定位系统,它在2000年美国政府增加GPS定位准确性之后发挥的作用尤其明显。第三层是社交数据,Waze使用者可以彼此共享从交通事故到警察限速,再到降价加油站的几乎所有的交通信息,他们甚至可以使用Waze应用程序进行聊天。最后一层,就是Waze广泛使用的传感器数据,事实上,它基本上能够把每一辆车都变成交通顺畅传感器,从而用这些数据计算出最快速的交通路线。

    使用第一代和第二代数字化数据的车内导航系统——地图和GPS定位系统,还有可能会绕弯路——它们也许非常有用,尤其是在我们不熟悉路况的城市中驾驶,但正如我们看到的,它们也有很大的缺陷。Waze的开发者认识到,在数字化技术升级和推广之后,他们是能够解决传统的GPS导航系统存在的缺陷的。这些创新通过给传统导航系统增加社交和传感器数据,大大提升了其导航能力和实用性。正像我们将在下一章看到的,这种形式的创新是我们这个时代创新的标志之一。事实上,这种创新非常重要,可以称得上是塑造第二次机器革命时代的第三大动力。在下一章里,我们将解释这一切为什么会发生。

    [29] 《城市词典》是一个英语俚语知识库,其中包含一些不文明用语,通俗地说就是脏话。“沃森”无法清晰辨认哪些是文明得体的用语,哪些是不文明的用语。当IBM研究人员克里科·布朗第一次对着沃森说出诸如LOL(网络用语,意为“大声笑”)以及Cool Story(网络用语,意为“呵呵,真有意思”)之类的字眼时,其给出的回应比较正常,而当布朗再次重复上面的词语时,沃森竟然跳出了“废话”的查询回应。因此,IBM的研究人员不得不清除沃森中的《城市词典》的内容,以避免沃森再次说脏话。——译者注