虽然地震的发生已有百万年之久,我们也掌握了与其相关的众多数据,但我们还是无法准确地预测出地震发生的时间和地点。每年有成千上万的人因此丧命,而一次地震带来的物质损失就有千亿美元之多。

    问题就在于,根据我们所掌握的数据,地震和即将发生的地震之间相去甚远,直到即将发生的地震真正发生之后,两者间的区别才消失。但是到那时候,显然已经为时晚矣。可是,如果科学家在每次分析数据时一发现疑似地震就预警的话,恐怕会出现大量要求疏散的假警报。更何况,就像喊狼来了的小男孩一样,人们最终会厌烦假警报从而决定不疏散,这样一来,一旦真的发生地震,人们就将处于危险之中。

    无法预测之殇

    实现准确预测需要一些真实的因素。我们必须掌握足够多的历史数据来识别模式——与这些模式相关的事件必须始终发生。而且我们必须有区分疑似事件和真实事件的能力,即众所周知的排除误报。但是,仅仅是准确预测还远远不够。要让预测派上用场,我们还必须具备根据预测及早并快速采取行动的能力。

    当地震真正发生的时候,相关数据会非常清晰地表现出来,例如地动山摇。而且一旦其威力够大的话,停电、爆炸、有毒气体溢出、火灾爆发都可能出现。[1]当然,到那个时候,也就不再需要大量的计算机和天才科学家们来预测灾祸了。

    所以要起到效用,当下的数据必须预先与过去的数据进行匹配,而且要给我们留下足够多的行动时间。如果在地震发生的前几秒才完成匹配的话,也就没什么作用了。我们需要足够多的时间得出结论、调动各方资助力量并疏散群众。而且,我们必须具备快速分析数据的能力,只有这样,数据分析才能发挥效用。试想一下,假如我们拥有足够多的数据,它们能让我们提前一天预测到地震的发生,而我们却花费了两天时间进行数据分析,那这些数据和我们的预测结果就起不到什么作用了。

    因此,从本质上来说,准确预测地震既是大数据的机遇又是挑战。单纯拥有数据还远远不够。我们既要掌握足够多的相关数据,又要具备快速分析并处理这些数据的能力,只有这样,我们才能争取到足够多的行动时间。越是即将逼近的事情,越需要我们快速地实现准确预测。不过,在某种程度上,这种预测适用于收益递减规律。就算我们能在瞬间完成对预测地震所需的海量数据的分析处理,如果没有留下足够的时间将群众调离危险区域,这种分析就没什么意义。

    准确预测需要更多、更好的数据

    2012年10月22日,6名工程师因为在预测地震时误导村民,均被判处有期徒刑6年。这次地震发生在2009年的意大利拉奎拉镇(L'Aquila),300名村民因此丧生。

    大数据能帮助地质学家实现更好的预测吗?

    每年,世界各地约有7 000次里氏4.0或更高级别的地震发生。地震测量有两种,一是著名的里氏震级,二是更现代的矩震级。前者是依据地震所含的能量定级,而后者是通过地震所释放的能量认定地震等级。

    预测地震的时候,有三个关键问题必须找到答案:何时、何地、何种震级?在《庸医游戏》(The Charlatan Game)中,杨百翰大学的马修·玛贝(Matthew A. Mabey)认为,虽然地震有预兆,“但是我们仍然无法通过它们可靠、有效地预测地震”。相反,我们能做的就是尽可能地为地震做好准备——它的发生频率远比我们想象的要大得多。这些准备包括在设计、修建桥梁和其他建筑的时候就把地震考虑在内,并且准备好齐全的地震应急包,一旦发生大地震,这些基础设施和群众都能有更充足的准备。

    就像我们小学时都学过的一样,地震是由构造板块相互挤压造成的——构造板块则是偶尔会漂移的陆地板块。这种板块挤压发生在地球深处,而且各个板块的相互运动复杂难懂。因此,有用的地震数据来之不易,而要弄明白是什么地质运动导致了地震,基本上不现实。

    归根结底,准确地预测地震,即回答何时、何地、何种震级这三个问题,需要掌握促使地震发生的不同自然因素,以及揭示它们之间复杂的相互运动的更多、更好的数据。

    大数据的关键之处正在于此:预测不同于预报。科学家能预报地震,但是他们无法预测地震。1906年旧金山发生地震,导致3 000余人伤亡,而其何时会再次遭遇这样的地震?科学家们不能断言。科学家们只能预报某个地方、某个具体的时间段内发生某级地震的可能性。例如,他们只能说未来30年,旧金山湾有80%的可能性会发生里氏8.4级地震,但他们无法完全确定地说出何时何地会发生地震,或者发生几级地震。这就是预测和预报之间的差异。

    不过,虽然准确预测地震还有很长的路要走,但是黑暗中尚有一线光明,那就是,科学家已经越来越多地为地震受害者争取到那么几秒钟的时间了。

    传统的地震探测仪需要花费3 000美金甚至更多,而如今基本的地震探测只需通过连接至标配计算机的廉价的探测仪就可实现,甚至只需通过使用如今很多移动设备内置的动作感应功能就可实现,而这些功能原本是为了导航和游戏设计的。

    斯坦福大学的“地震捕捉者网络”(Quake-Catcher Network, QCN)由参与分布式地震检测网络的大约200个志愿者的计算机组成。有时候,这个监测网络能提前10秒钟提醒可能会受灾的人群。也许10秒钟看上去不长,但是却很重要,因为这意味着你是搭乘运行的电梯还是走楼梯,是走到开阔处去还是躲到桌子下面。

    “地震捕捉者网络”就是一个会生成大量数据的廉价监测网络的典型例子。以前,要捕捉和存储如此多的数据耗资巨大,但是,正如我们在接下来的章节会谈到的一样,近期的技术进步使得这些数据的捕捉和存储成本大大降低——有时候甚至比过去便宜了九成都不止。能得到更多、更好的数据不只为计算机实现更精明的决策提供了更多的可能性;也使人类变得更聪明了。

    更多的数据,更聪明的大脑

    如果你想变得更聪明,现在不必再为此独自伤神了。最近的研究为你带来了一个好消息:通过增加储存的信息量可以扩张脑容量。

    为了获得驾照,伦敦的计程车司机必须通过一个名为“知识”(the Knowledge)的严厉考试,以此证明他们已经熟知伦敦市中心的25 000条街道布局和20 000个地标位置。这些申请者完成所有任务一般需要3~4年,那么,在这些伦敦计程车司机完成“知识”考试的培训课程之后,真的变得更聪明了吗?结果证明的确如此。

    追求数量,还是追求速度

    科学家一度认为人的大脑容量是固定的。但是伦敦大学医学院惠康基金会神经影像中心(Wellcome Trust Centre for Neuroimaging)的埃莉诺·马奎尔(Eleanor Maguire) 教授通过研究发现,大脑本质上是有“弹性”的,其容量可以随着时间而改变。

    这项研究追踪调查了79名计程车司机的学习进展,其中只有39名司机最终通过了考试。那些没有通过考试的人为自己找了很多的借口,比如说缺乏时间和金钱等,但学习如此庞大的信息体系难度不小却是关键因素之一。据伦敦城市网站显示,整个伦敦只有25 000名计程车司机,换言之,每一条街道大约只有一个司机。研究显示,经过多年来对伦敦街道资料的学习,这些参与测验的司机大脑中下丘脑海马区的灰质有所增多。也就是说,为了储存必要的数据,这些司机确实新生了很多脑细胞,从而最终使他们变得更聪明。

    然而,这些记忆能力的改善是需要付出代价的。据马奎尔教授另一研究显示,对这些拥有更大海马区的司机们来说,他们通过视觉信息学习新路线的能力下降了。

    对计算机而言,优势通常需要牺牲其他方面来换取。储存大量的数据就意味着需要花费更长的时间进行处理。而储存的数据越少,得出结果的速度就越快,但是这些结果也就越没有根据。

    拿计算机程序来说,商店里的计算机通过分析已售商品的销售数据,可以为以后的销售作出预测。如果计算机程序只能获取到季度销售数据,那么肯定会处理得很快,但是这些数据也许不够详尽,难以提供有效信息。商场经理可能清楚特定的产品在某个时间段内需求量大,但却难以制订出对每天或每小时的销售情况产生影响的价格决策或者产品布局决策。相反地,如果计算机程序能够记录每分钟的销售数据,并通过这些数据分析历史销售情况,那么就有了更精细的数据资料,可以更好地预测未来的销售。[2]不过,这需要花费更多的时间。而且,由于数据庞大,程序也许不能一次就把所有的数据处理完,而只能对其中的一部分数据进行处理。

    效率的力量

    令人惊讶的是,在伦敦拥有执照的计程车司机能够记住整个伦敦市的地图(包括查令十字街方圆10公里的地方),而不需要实际的地图和GPS导航。

    如果司机不必时刻紧握方向盘并注意路面情况,也无须快速判断行驶路线的话,查看地图也不失为一个可行的办法。在慢节奏的国家,司机也许会在一开始就计划好一条线路,然后在必要时停车,随时对线路作出调整。但问题在于,在伦敦拥挤的街道上,司机绝不会有时间慢慢地计算、再计算。因此,司机必须记下整个伦敦的地图。计算机系统差不多一直在做这件事,即在处理大量数据的基础上输出结果:计算机系统将所有的数据储存在一个存储体系中,有时全部储存在记忆体系中,有时分散储存于许多不同的物理系统中。我们会在接下来的几章对此做详细介绍,还包括一些快速分析数据的其他途径。

    幸运的是,如果你想要脑容量更大,记住伦敦城市地图并不是扩大你大脑海马区的唯一方式。另外一项研究带来的好消息是,锻炼身体也可以使你的脑容量变大。随着年龄的增长,大脑会随之萎缩,通往记忆的通道也会受损。该研究选取120名老人做实验,发现锻炼身体使他们的海马区扩大了2%,而海马区与改善记忆功能密切相关。换言之,保持大脑足够的血液流通能防止我们变迟钝。因此,如果你想保持聪明才智,锻炼身体吧!

    然而,和人类不同,计算机不可能通过到健身房锻炼就增强记忆储存能力。对计算机的记忆存储而言有三种选择:

    • 扩大内存容量;
    • 通过调度让需要处理的数据进出存储系统;
    • 压缩数据。

    很多数据是多余的。回想一下你刚写的那句话,或者刚做的一些大数字的乘法。计算机通过压缩重复的字母、单词甚至整个短语,从而节省出很多空间。

    扩大计算机的记忆存取能力代价十分昂贵。一般来说,记忆存取越快就越昂贵。一项消息显示,随机存取存储器(RAM)的存取速度是磁盘存储器的10万倍,但价格也贵了100倍。

    不仅记忆存取本身价格不菲,记忆存取量增加的话,随之而来的其他花费也不低。一台计算机一般只能装配一定量的记忆芯片,而且每个记忆棒也只能容纳一定量的记忆芯片。电源和制冷装置的容量也同样需要考虑。电子线路越多,消耗的电能也就越多;消耗电能越多,产生的热量越多。热量需要散发,而这一过程又需要更多的电能(并产生更多的热)。这些因素综合起来就使看似简单的扩大记忆容量的任务变得相当复杂了。

    或者,计算机也可以仅仅使用原始记忆存储器,对储存的必要信息进行内外交换。比方说,计算机并不需要一次查看所有可获取的交通事故和股票价格数据,因此计算机能在加载昨天数据的同时,替换掉前天的数据,依此类推。这个方法的问题在于,如果你要找出维持数天、数周甚至是数年之久的模式,那么进出交替所有数据就非常耗时,而且不容易总结出模式。

    与机器相比,人类不需要很多能量就可以让大脑发挥更多作用。大脑在“持续地吸吮大量的能量”,但是这些能量与计算机相比简直微不足道。“一个成年人大脑运转功率大约只有12瓦特,是一个标准的60瓦灯泡功率的1/5。”相比之下,“IBM公司的沃森(Watson)超级计算机虽然击败了《危险边缘》(Jeopardy!)节目的冠军,但它需要90个IBM Power 750服务器支持,每个服务器功效大概是1 000瓦。”而且,每个服务器重约54千克。

    因此,说到大数据,其挑战之一是使计算机变得更智能,挑战之二是使其变得更有效率。

    计算机战胜人脑?

    2011年2月16日,IBM打造的“沃森”超级计算机在《危险边缘》节目中击败了两名冠军选手,赢得了77 147美元。事实上,为了奖励“沃森”在人机大战中的获胜,它得到了100万美元的奖励。但是“沃森”真的和节目中的其他两位选手一样聪明吗?“沃森”能独立思考吗?

    研发、建造“沃森”大约花费了3亿美元的研发投资——它拥有2亿页的存储容量以及大约2 800个处理器,毫无疑问,回答《危险边缘》的问题,“沃森”非常在行。但很难说“沃森”的智商和电影《2001太空漫游》(2001: A Space Odyssey)中高智能计算机HAL表现出的智商是一样的。“沃森”没法理解节目中的另一个选手肯·詹宁斯(Ken Jennings)在节目中给出的最终答案,也无法像肯·詹宁斯一样玩冷幽默——肯·詹宁斯的“战败宣言”写道:“我,代表我自己,欢迎这位新的计算机霸主”。更重要的是,“沃森”无法听懂人类语言,相反地,“沃森”只能以书面文本的形式处理《危险边缘》中提出的问题。

    计算机如何听懂人类语言

    为什么“沃森”无法理解人类的语言呢?因为“沃森”的设计者认为,要创建一个计算机系统使沃森能正确回答《危险边缘》的问题已经够复杂的了,而一旦把理解人类语言这个问题再引入进来,这种复杂度还要再加深一层。

    虽然在识别人类语言这一问题上,我们已经取得了重大进展,但是离完美解决这一问题还有很长的路要走。正如查尔姆斯理工大学(Chalmers Institute of Technology)的马库斯·福斯伯格(Markus Forsberg)所指出的一样:理解人类语言可不是件简单的事情。

    语言看上去至少满足大数据的一些要求。通过分析无数的语言,计算机可以建立起识别模式,而当计算机再次碰到该语言的时候能够识别它。但计算机在试着识别语言的时候仍面临着很多挑战。正如福斯伯格所说,我们不仅使用语言的真实声音来辨别它,而且还运用了大量的语境知识来理解它。尽管单词“two”和“too”的发音相同,但它们的意义大不相同。而这只是识别语言的众多复杂性的开端而已。还有其他复杂性因素,例如我们说话的语速、口音、背景声音和语言本身的连贯性——我们不会每说一个字就停一下,因此把单个的词转换成文本来理解并不是解决语言识别问题的可取的方法。

    即使是组建文字也并非易事,看看以下由福斯伯格提出的例句便略知一二。这些例句读音相近,意思却有天壤之别。

    • It's not easy to wreck a nice beach;
    • It's not easy to recognize speech;
    • It's not easy to wreck an ice beach.

    归功于现代计算机的能力和速度,加之先进的模式识别方法,计算机正不断改进。微软研发组织的管理者表示,公司研发的最新语音识别技术比之前的版本精准度提高了30%,换言之,旧版本每4~5个字中有1个字会识别错误,而新版本每7~8个字才会出现1个错误。模式识别也会常常用于机器翻译等任务,不过用过谷歌翻译的用户都明白,这些技术仍需不断完善。

    同样地,计算机要想能够创作具有原创价值的专著,还有一段很长的路要走。有趣的是,人们一直在做这样的尝试。在最近的一项实验中,一位程序员创建了一系列的虚拟程序,来模仿猴子在键盘上随意打字,目的则在于回答“猴子是否可以再创莎翁作品”这个经典问题。不过计算机正在不断地变得更加聪明,如今甚至聪明到可以进行自我操纵的程度。

    谷歌自驾车的美好未来

    如果你使用网络,就多少会用到谷歌地图。谷歌的搜索引擎闻名于世,占据了市场主导地位,而谷歌地图也已累积了超过20PB的数据。换言之,这些数据需要超过82 000个MacBook Pro硬盘(每个硬盘容量为256GB)才能存储下来。而所有的这些数据都已经被自驾车所运用了吗?答案是:的确如此。根据负责谷歌自驾车项目的斯坦福大学塞巴斯蒂安·特伦(Sebastian Thrun)教授所说,谷歌将一系列地图数据和实时激光检测系统、多个雷达、GPS以及其他设备检测到的信息相结合,使得系统能够“看到”交通流量、交通信号灯和路况。

    自驾车不仅承诺会使道路更加安全,也会通过更好地利用行驶车辆间的空隙使道路更加畅通。据可靠消息,在美国每年约有43 000人死于车祸,而每年全球死于车祸的人数为525万人。

    谷歌自驾车虽然还不能自行思考,但是它们在模式匹配上能大有作为。通过结合地图上的现有数据和车辆传感器收集的实时数据,车辆可以制订驾驶决策。通过将不同的交通信号灯的样子与数据库进行比对,自驾车可以决定何时启动、何时停下。当然,如果没有以下三大要素,这一切不过是空中楼阁。而这三大要素是大数据的普遍主题:

    • 车上的计算机系统可以获取大量数据。
    • 车辆要充分使用传感器接收的有关其他车辆的位置、障碍物、交通信号灯还有地形等各类实时信息。虽然当下这些传感器的价格非常昂贵,一辆自驾车配备的所有设备的总价值在15万美元左右,但在未来它的价格有望迅速走低。
    • 自驾车要能够快速处理所有数据,并制订下一步的实时决策。这一切都是由后座上的少量计算机设备和大量软件实现。

    想想60几年前,成功预测了艾森豪威尔总统选举结果UNIVAC计算机,可是有一个车库那么大呢。

    计算机如何让欺诈无所遁形

    以上的一切内容都显示出计算机非常擅长快速地进行模式匹配,这对于道路行驶或其他方面都非常有用。比如对于检测欺诈行为来说,快速地进行模式匹配就显得尤为重要。

    我们中的很多人都可能接到过来自信用卡公司反欺诈部门令人毛骨悚然的电话。电话中,我们被告知自己的信用卡信息很可能已经被盗,而此时此刻正有骗子在某个社区五金店以你的名字刷卡消费。引起他们的怀疑的原因可能是,这个刚刚谈到的社区五金店,离你有8 000公里远。

    可以同时处理大量数据的计算机可以作出更好的决定,而这些决定会影响我们的日常生活。

    试想一下你最近一次用信用卡在线支付的场景。当点下“提交”按钮时,付款页面的操作会引发一系列的事件:进行中的交易会被计算机用一套复杂的算法来确定是你本人在操作,还是他人在盗用你的信用卡。

    问题是,要确定是他人在盗用信用卡还是本人在使用信用卡很不容易。数据泄露的情况这么严重,加之网络上能找到的你的个人信息如此之多,所以在很多时候,盗用者对你的了解可能和你对自己的了解差不多。

    计算机系统通过一些基本的方式来识别你是不是本人:它会验证信息。当你把电话打进银行卡所在的银行时,银行会询问你的名字、居住地以及你母亲的娘家姓,然后将你所说的信息和在银行文件上记载的信息相比对。也许,银行还会查看你打进来的电话号码是否就是他记录的号码。如果这些信息都吻合的话,你很有可能就是本人。计算机系统也会评估你的一系列数据点,看这是否能成为证实你是本人的佐证,或者至少减少你是冒名顶替者的可能性。基于这些数据点,该系统至少能够生成一个置信度。

    如果你住在洛杉矶,而你确实是从洛杉矶打进的电话,那你的置信度就会提高。然而,如果你住在洛杉矶却从多伦多打进电话,则有可能降低置信度。

    更高级的评分机制(也称为算法)会把你的数据和盗用者的数据进行比对。如果打电话的人和盗用者的数据点有很多的相同点,这可能意味着打电话的人是盗用者。如果网站用户不是从过去的常用地登录(比方说俄罗斯,而他大部分时候都是从美国登录),而且他输错了几次密码,那他有可能是一个盗用者。计算机系统会将所有这些特征与你以及盗用者的普遍行为模式进行比对,以确定置信度应上升还是下降。

    如果与你平常的行为有很大的出入,或者说与盗用者的行为模式有许多匹配之处,置信度会降低。而若是与你的平常行为有很多匹配之处,置信度则会上升。然而,对计算机来说,这样的分析存在两方面的问题:

    • 它需要非常多的数据,来识别你以及盗用者的普遍行为模式;
    • 在计算机已经识别了你们的行为模式之后,它需要在将你的行为与这些模式进行比对的同时,还能够处理上百万其他用户的指令。

    因此提到数据分析应用,计算机能通过两种方式变得更加智能:

    • 提升用以检测正常行为和异常行为的算法准确度;
    • 加大可同时处理的数据量。

    真正考验计算机和计程车司机的就是快速作出决策。伦敦的计程车司机和自驾车司机一样,需要了解向哪边拐弯,而且要根据交通和其他现实条件,一次次地作出判断。类似地,欺诈检测系统需要在几秒钟之内决定是否同意你的交易操作。正如科技公司Terracotta的首席执行官罗宾·吉尔斯洛普(Robin Gilthorpe)所说,“没有人想被‘拒绝’,特别是在电子商务领域。”如果被拒绝交易的是客户本人,这就不仅仅意味着丢了一笔生意,还意味着多了一个对你的服务不满意的客户。但是拒绝欺诈性交易又是确保非欺诈性交易的关键。

    如早期的贝宝(PayPal) 分析专家迈克·格林菲尔德(Mike Greenfield)所指出的一样,点对点支付公司贝宝率先发现,公司必须早早创建对抗欺诈的技术,没有这些技术,贝宝公司就没法生存下来,而人们也没法像现在这样简单、快捷地进行购买支付和相互转账。

    数据、算法和速度,更加智能的计算机

    作为人类,我们依然在作出不好的决策,例如闯红灯、拐错弯,或者得出错误的结论。但是就如我们本章所说,通过改变我们的行为,我们可以变得更聪明。我们也看到技术能帮助我们提升效率和减少错误。比方说,自动驾驶的汽车可以帮助我们避免闯红灯或者走错路。

    空标题文档 - 图1
    为了使计算机变得更智能,也就是说让计算机能够作出更好的决策和预测,这里有三个发挥效用的主要因素:数据、算法和速度。

    没有足够的数据,就很难识别出模式。当然,足够的数据并不是指所有数据。大数据意味着在足够的数据上进行分析的同时,创建能识别出模式的算法,也意味着它能够对我们的分析结果进行验证,以确定我们的结论是否正确。以某一天的数据作为样本可能没什么意义,但是以10年内的数据作为样本则有可能得出结论。

    同时,如果我们无法快速地处理数据,就算是拥有世界上的所有数据也没用。如果你排队结账的时候,需要等上10分钟让欺诈检测算法来确定你是否能使用你的信用卡的话,估计这张信用卡你也不会再用了。同理,如果自驾车需要更多的时间来决定是往前开还是停下来,并以蜗牛爬行的速度行驶的话,没有人会使用自驾车的。因此速度也是至关重要的一个因素。

    我们知道计算机在完成某些任务的时候非常高效,例如在试图辨别欺诈的时候快速分析海量的交易行为。但是与人类相比,它们在完成一些任务上仍然不尽如人意,比方说将口语转换成文本。而开启大数据时代最大的机遇之一,即被称为非结构化数据的领域,我们将在接下来的章节中探索分析。