假设你第一次来到华盛顿特区——美利坚合众国的首都,你很兴奋,激动地想参观白宫和所有的纪念碑、博物馆。从一个地方赶到另一个地方,你需要利用当地的交通系统——地铁。这看上去挺简单的,但问题是:你没有地图,不知道怎么走。[3]抛开地图,设想一下服务台里有一个好心人,他递给你一份按字母顺序排列的站名、线路名和坐标清单。理论上来说,这就够了,要弄清楚怎么搭乘华盛顿的地铁,你已经掌握了所有的信息。但事实上,要靠这份信息弄清楚搭哪条线路,在哪个站上车、下车,简直是一场噩梦。
不过,幸运的是,服务台有一种地图来传达这些数据信息,那就是华盛顿地铁图。地图上每条线路的所有站点都是按照顺序用不同颜色标记出来的,你还可以在上面看到线路交叉的站点。如此一来,要知道在哪里换乘,就很容易了。可以说突然之间,弄清楚如何搭乘地铁变成了轻而易举的事情。地铁图呈献给你的不仅是数据信息,更是清晰的认知。
你不仅知道了该搭乘哪条线路,还大概知道了到达目的地需要花多长时间。无须多想,你就能知道到达目的地有8个站,每个站之间大概需要几分钟,因而你可以计算出从你所在的位置到“航空航天博物馆”要花上20多分钟。除此之外,地铁图上的路线不仅标注了名字或终点站,还用了不用的颜色——红、黄、蓝、绿、橙来帮助你辨认。每条线路用的是不同的颜色,如此一来,不管是在地图上还是地铁外的墙壁上,只要你想查找地铁线路,都能通过颜色快速辨别。
将信息可视化能有效抓住人们的注意力。有的信息如果通过单纯的数字和文字来传达,可能需要花费数分钟甚至几小时,甚至可能无法传达;但是通过颜色、布局、标记和其他元素的融合,图形却能够在几秒钟之内就把这些信息传达给我们。
理清楚了头绪,你发现其实华盛顿特区只有86个地铁站。东京地铁系统包括东京地铁公司(Tokyo Metro)和都营地铁公司(the Toei)两大地铁运营系统,一共有274个站。算上东京更大片区的所有铁路系统,东京一共有882个车站。要是没有地图的话,人们将很难了解这么多的站台信息。
数据与图形
倘若你使用过电子表格,你就会发现,要从填满数字的单元格中发现走势有多么困难。在电影《黑客帝国》(The Matrix)中,数字看上去就像图形,而图形看上去又像数字,因此,理解起来并不困难。这就是诸如微软电子表格软件(Microsoft Excel)和苹果电子表格软件(Apple Numbers)这类程序内置图表生成功能的原因之一。一般来说,我们在看一个饼状图或条形图的时候,更容易发现事物的变化走势。
我们在制订决策的时候了解事物的变化走势至关重要。不管是讨论销售数据还是健康数据,一个简单的数据点通常不足以告诉我们事情的整个变化走势。
投资者常常要试着评估一个公司的业绩,一种方法就是及时查看公司在某一特定时刻的数据。比方说,管理团队在评估某一特定季度的销售业绩和利润时,若没有将之前几个季度的情况考虑进去的话,他们可能会总结说公司运营状况良好。
但是,投资者很难从数据中看出公司每个季度的业绩增幅都在减少。因此从理论上看,公司的销售业绩和利润似乎还不错,但事实上,如果不想办法来增加销量,公司很快就会走向破产。
管理者或投资者在了解公司业务发展趋势的时候,内部环境信息是重要指标之一。管理者和投资者同时也需要了解外部环境,因为外部环境能让他们了解自己的公司相对于其他公司运营情况如何。
在不了解公司外部运营环境时,如果某个季度销售业绩下滑,管理者就有可能会错误地认为公司的运营情况不好。可事实上,销售业绩下滑的原因可能是由大的行业问题引起的,例如,房地产行业受房屋修建量减少的影响,航空业受出行减少的影响等。
外部环境是指同行业的其他公司在同一段时间内的运营情况。不了解外部环境,管理者就很难洞悉究竟是什么导致了公司的业务受损。即使管理者了解了内部环境和外部环境,但要想仅通过抽象的数字来看出端倪还是很困难的,而图形可以帮助他们解决这一问题。
可视化,1张图片等于1 000个字
1张图片等于1 000个字。为什么这样说呢?正如大卫·麦克坎德莱斯(David McCandless)所说的那样,“可视化是压缩知识的一种方式”。减少数据量是一种压缩方式,如采用速记、简写的方式来表示一个词或者一组词。但是,数据经过压缩之后,虽然更容易存储,却让人难以理解。然而,图片不仅可以容纳大量信息,还是一种便于理解的表现方式。在大数据里,这样的图片就叫作“可视化”。
地铁图、饼状图和条形图都是可视化的表现方式。乍一看,可视化似乎很简单。但由于种种原因,要理解起来并不容易。
首先,它很难满足人们希望将所有数据相互衔接并出现在同一个地方的愿望。
其次,内部环境和外部环境的数据信息可能存储在两个不同的地方。行业数据可能存储在市场调查报告之中,而公司的具体销售数据则存储在公司的数据库中。而且,这两种数据的存储模式也有细微的差别。公司的销售数据可能是按天更新存储的,而可用的行业数据可能只有季度数据。
最后,数据信息不统一的叫法也使我们难以理解数据真正想传达的信息。例如,硬盘驱动器在行业报告中被称为“硬盘驱动器”,但在内部销售数据库中可能被叫作“产品编号”。
但是,通过获取所有这些数据信息,并将之绘制成图表,数据就不再是简单的数据了,它变成了知识。可视化是一种压缩知识的形式,因为看似简单的图片却包含了大量结构化或非结构化的数据信息。它用不同的线条、颜色将这些信息进行压缩,然后快速、有效地传达出数据表示的含义。
图形艺术,数据界的达·芬奇
提到数据可视化,没有人在这个领域的影响能超过爱德华·塔夫特(Edward Tufte)。《纽约时报》将塔夫特称作 “数据界的列奥纳多·达·芬奇”。
1982年,塔夫特出版了20世纪最具代表性的书籍之一——《定量信息的视觉展示》(The Visual Display of Quantitative In-formation)。尽管他最初的职业是教授政治科学,但塔夫特将毕生的精力都投入到了信息设计的理解和教学上面。
塔夫特的一大贡献就是,他聚焦于将每一个数据都做成图示物——无一例外。塔夫特的信息图形不仅能传达信息,甚至被很多人看作是艺术品。塔夫特指出,可视化不仅能作为商业工具发挥作用,还能以一种视觉上引人入胜的方式传达数据信息。
视觉信息强大的科学解释
尽管塔夫特推广的一些图像方法不是很实用,但目前众所周知,信息图已经成为了传达信息时广受欢迎的方法。然而,信息图也并非完美。和大数据的其他方面一样,关于数据的可视化表达为何如此引人入胜是有科学解释的。
在一篇博文中,塔夫特引用了一篇发表在《当代生物学》(Current Biology)上的文章,文章描述了我们的视觉能吸纳多少信息。根据那篇文章,美国宾夕法尼亚大学医学院的研究人员估计,人类视网膜“视觉输入(信息)的速度可以和以太网的传输速度相媲美”。
在研究中,研究者将一只取自豚鼠的完好视网膜和一台叫作“多电极阵列”的设备连接起来,该设备可以测量神经节细胞中的电脉冲峰值。神经节细胞将信息从视网膜传达到大脑。基于这一研究,科学家们能够估算出所有神经节细胞传递信息的速度。其中一只豚鼠视网膜含有大概100 000个神经节细胞,然后,相应地,科学家们就能够计算出人类视网膜中的细胞每秒能传递多少数据。人类视网膜中大约包含1 000 000个神经节细胞,算上所有的细胞,人类视网膜能以大约每秒10兆的速度传达信息。
一位来自丹麦的著名科学作家陶·诺瑞钱德(Tor Nørretranders)制作了一张图片,图片将上面的研究置于现实背景下,以展示我们感观的带宽。在图中,他证明了我们通过视觉接收的信息比其他任何一种感官都多。如果我们通过视觉接收信息的速度和计算机网络相当,那么我们通过触觉接受信息的速度就只有它的1/10 ——相当于一个USB密匙与计算机连接的速度。我们的嗅觉和听觉接收信息的速度更慢,大约是触觉接收速度的1/10,相当于硬盘与计算机连接的速度。同样,我们通过味蕾接收信息的速度也很慢。
换句话说,我们通过视觉接收信息的速度比其他感官接收信息的速度快了10~100倍。因此,可视化能传达庞大的信息量也就容易理解了。如果包含大量数据的信息被压缩成了充满知识的图片,那我们接收这些信息的速度会更快。但这并不是可视化数据表示法如此强大的唯一原因。另一个原因是我们喜欢分享,尤其喜欢分享图片。
Facebook,图片和分享的力量
2012年11月22日,图片分享应用Instagram的用户分享了很多照片。这是Instagram史上最忙的一天,该应用程序的用户当天分享的照片量是前一天的两倍,那是因为11月22日这天恰好是感恩节。Instagram的用户上传了大概1 000万张图片,这些图片上都写着以感恩为主题的祝福。说得委婉些,很多是关于火鸡图案的图片,当然也有爱人的照片。目前,每个月大约有9 000万人都在使用这项服务。
2012年年初,Facebook以10亿美元收购了Instagram。Facebook在图片分享方面并不输给Instagram。Facebook的用户在2011年年末,每天的图片平均下载量达到了2.5亿张,每月大概达到了75亿张。
当然,我们喜欢照片还有另一个原因,那就是现在拍照很容易。就在几年前,我们还需要考虑该拍摄什么,不该拍摄什么——而现在影像随处可见。在以前,如果我们的胶卷快用完了,还得省着最后一点下一次用。但现在,数码相机、智能手机和便宜的存储设备使我们可以拍摄多得数不清的数码照片。现在,几乎每部智能手机都有内置摄像头。这就意味着,我们不但可以随意拍照,还可以轻松地上传或分享这些照片。这种轻松、自在的拍摄和分享图片的过程充满了乐趣和价值。因此,当我们遇到有趣的信息图时,很自然地想分享它们。
和照片一样,如今制作信息图也要比以前容易得多。公司制作这类信息图的动机也多了。2011年2月,搜索引擎巨头谷歌公司改变其算法来奖励高质量的网页,尤其是“具有诸如调查、深度报道、有思想深度的分析等这类原创内容和信息的网站”。结果,公司的营销人员发现,要想让公司的网站在谷歌搜索排名中靠前,他们就得更加努力。
但一个拥有有限信息资源的营销人员该做些什么来让搜索更加吸引人呢?答案是制作一张信息图。信息图可以吸纳广泛的数据资源,使这些数据相互吻合,然后编造一个引人入胜的故事——涉及网页浏览器的时候,就讲关于浏览器战争的故事;涉及集体融资的时候,就讲提供就业机会的故事。博主和记者们想方设法地在自己的文章中加进类似的图片,因为读者喜欢看图片,同时也乐于分享这些图片。
最有效的信息图还是被不断重复分享的图片。其中有一些图片在网上疯传,它们在社交网站如Twitter、Facebook、LinkedIn以及我们传统但实用的邮件里,被分享了数千次甚至上百万次。
由于信息图制作需求的增加,帮助制作这类图形的公司和服务也随之增多。2011年成立的信息图制作工具Visual.ly在其网站上展示了超过25 000张信息图。未来Visual.ly的商务模式还会扩大,从网站上能明显看出,人们对使用视觉信息传达知识有着巨大的需求。其他公司,例如QlikTech公司和它推出的QlikView产品、Tableau Software公司和Spotfire公司提供的TIBCO产品有助于人们在做报告、分析和市场营销时创建引人入胜的可视化效果。2010年,谷歌推出了“谷歌公共数据浏览器”(Google Public Data Explorer),使得人们能在线浏览公共数据。
公共数据集
使用可视化工具的企业客户在提到可视化时通常会想到仪表盘(dashboard)的生成。仪表盘将有关销售、市场营销和供应链的数据转换成管理人员易于查看的含义丰富的图表。
现在,可视化的作用得到进一步的延伸。公共数据集是指可以公开获取的政府或政府相关部门经常搜集的数据。人口普查是收集数据的一种形式,1790年美国人口普查局首次进行了美国人口普查。这次人口普查使美国政府获取了大量与美国人口相关的信息,其中包括人口的组成及其地理分布。
正如数据故事家汉斯·罗斯林(Hans Rosling)所阐释的,这些数据对于人们了解人口变化、国家兴衰以及战胜婴儿死亡率与其他流行病的进程尤为重要。罗斯林像足球解说员回放比赛录像一样,用数据可视化(尤其是公共数据)来述说与数据相关的事实。罗斯林赋予了数据生命力。但他并不是将数据像动画片一样播放出来,而是将数据绘制成图表,然后进行演示。例如,数据走势是怎样随着时间的变化而变化的,或是不同国家的相对人口或收入在四五十年里是怎样演变的。这种动画效果使数据具有了生命力,罗斯林和他的儿子、儿媳妇所开发的软件成了谷歌公共数据浏览器的基础。
一直以来,很多著名的可视化信息中所使用的公共数据都是通过新颖、吸引人的方式来呈现的。Visual.ly在其网站刊有一篇名为《12张定格历史的伟大可视化图片》的文章里,展示了一些类似的图片。其中的一些可视化图片表明,恰当的图片可以非常有效地传达信息。例如约翰·斯诺(John Snow)关于1854年伦敦爆发霍乱的图片,形象地解释了被污染的井水是霍乱传播的罪魁祸首。
大约在同一时间,现代护理教育的奠基人弗洛伦斯·南丁格尔(Florence Nightingale)制作了另一张拯救了众多生命的著名图表。南丁格尔用锯齿图将复杂的统计信息形象、生动地展示给了众多观众。更重要的是,南丁格尔的图表表明英国军队中的很多疾病是可以避免的:士兵们死亡的原因多数是由于非作战因素造成的,因此,她成功地说服了政府使用卫生设施来降低死亡率。
实时可视化
很多信息图提供的信息从本质上看是静态的,即使是罗斯林制作的吸引人的动态图,其本质也是由静止的历史数据构成的。
通常来说,制作信息图需要花费很长的时间和精力:它需要数据,需要展示有趣的故事,还需要以图标将数据以一种吸引人的方式呈现出来。但是工作到这里还没结束。图表只有经过发布、加工、分享和查看之后才具有真正的价值。当然,到那时,数据已经成了几周或几个月前的旧数据了。那么,在展示可视化数据时要怎样在吸引人的同时又保证其时效性呢?数据要具有实时性价值,必须满足以下三个条件:
- 数据本身必须要有价值;
- 必须有足够的存储空间和计算机处理能力来存储和分析数据;
- 必须要有一种巧妙的方法及时将数据可视化,而不用花费几天或几周的时间。
想了解数百万人是如何看待实时性事件,并将他们的想法以可视化的形式展示出来的想法看似遥不可及,但其实很容易达成。我们只要看看2012年的美国总统选举就知道原因了。
在过去的几十年,投票需要民意测试者打电话或亲自询问每个选民的意见。通过将少数选民的投票和统计抽样方法结合起来,民意测试者就能预测选举的结果,并总结出人们对重要政治事件的看法。
尼尔森(Nielsen)使用同样的统计法来调查电视收视率,康姆斯克(Comscore)则用这个方法来调查网络市场。尼尔森最初进行媒体调查时,使用了一种设备来调查1 000个人收听的是什么电台。随后,公司将类似的方法运用于电视节目,“尼尔森收视率”(Nielsen ratings)从此广为人知。这种调查方法至今仍被广泛沿用,但在其他领域,大数据正改变着我们的调查方法。要说最近几年,有哪家公司对我们调查公众意见产生了更大的影响,那就是Twitter——它有一个叫作“情感分析”(Sentiment analysis)的工具。
事实上,Twitter可能是拥有大数据资源的公司中最被低估的公司之一。2012年10月,Twitter的用户每天在网络上发送的推文大约有5亿条,对于人工生成的信息来说,这是一个相当可观的数字。Twitter成立于2006年,最初还完全没有发送推文的功能。通过分析推文中使用的词语,计算机程序不仅可以发现流行的话题,即受到更多关注的话题,还可以得出人们感觉如何、持什么观点的结论。
捕捉和存储数据只是像Twitter这样的公司所面临的大数据挑战中的一部分。为了分析这些数据,公司开发了Twitter数据流(tweet stream),即支持每秒发送5 000条或更多推文的功能。在特殊时期,如总统选举辩论期间,用户发送的推文更多,大约每秒2万条。然后公司又要分析这些推文所使用的语言,找出通用词汇,最后将所有的数据以可视化的形式呈现出来。
要处理数量庞大且具有时效性的数据很困难,但并不是不可能。Twitter为大家熟知的数据流入口(firehose access)配备了编程接口。像Twitter一样,Gnip公司也开始提供类似的渠道。其他公司如BrightContext,提供实时情感分析工具。在2012年总统选举辩论期间,《华盛顿邮报》在观众观看辩论的时候使用BrightContext的实时情感模式来调查和绘制情感图表。实时调查公司Topsy将大约2 000亿条推文编入了索引,为Twitter的政治索引提供了被称为“Twindex”的技术支持。Vizzuality公司专门绘制地理空间数据,并为《华尔街日报》选举图提供技术支持。
与电话投票耗时长且每场面谈通常要花费大约20美元相比,上述公司所采用的实时调查只需花费几个计算周期,并且没有规模限制。另外,它还可以将收集到的数据及时进行可视化处理。
但信息实时可视化并不只是在网上不停地展示实时信息而已。“谷歌眼镜”(Google Glass)被《时代周刊》称为2012年最好的发明。“它被制成一副眼镜的形状,增强了现实感,使之成为我们日常生活的一部分。”将来,我们不仅可以在计算机和手机上看可视化呈现的数据,还能边四处走动边设想或理解这个物质世界。这听起来像是科幻小说中才有的情节,但其实不然。现在,购买一副谷歌眼镜需要花费高达1 500美元的费用,但就像其他新科技一样,谷歌眼镜也会随着时间的流逝变得更小、更便宜。
图像的多变性,计算机在识别中遇到麻烦
讽刺的是,虽然计算机在处理大量文本信息的时候无人能敌,但在分析可视化信息时却显得尤为吃力。回想一下上一次的情景。你照了几百张照片,想找一个网站或软件能帮你自动删除照得不好的照片,并将相关的照片归类分组;或能自动辨认照片中的人物并和这些人分享这些照片。从更大范围上来说,你希望像Facebook这样的公司可以将不好的照片过滤出来,而亚马逊可以判断书本中的文字描述与对应的图片是否相符。尽管如今与图片识别和图片描述有关的科技发展得如此迅速,而且这些问题看上去计算机很容易就能解决,要大量进行这种分析仍然颇具挑战。
麻省理工学院和哈佛大学的科学家们,在他们所著的一篇《为什么现实生活中识别可视物体这么困难?》(Why Is Real-World Visual Object Recognition Hard?)的论文中说道:“我们可以轻松识别可视物体,这种轻松正是计算机识别的难处。主要挑战就是图像的多变性——例如物体的位置、大小、方位、姿势、亮度等,任何一个物体都可以在视网膜上投射下无数个不同的图像。”简单说来,图像变化多端,因此很难分辨不同的图片是否包含了相同的人或物。而且,图案识别也更加困难;尽管要在一个句子中找出“总统”这个单词很容易,在上百万个句子中找出它来也相对简单,但要在图片中找出拥有“总统”这个头衔的人却困难重重。
让某个人描述一张图片的特征很容易,但要描述上百万张图片该怎么办呢?为了解决图片特征问题,像亚马逊和Facebook 这样的公司开始向众包市场,如oDesk平台和亚马逊土耳其机器人(Amazon Mechanical Turk)[4]寻求帮助。在这些市场中,满足特定条件的版主在通过了某项测试之后便有权使用图片,并对这些图片进行描绘和过滤。如今的计算机比较擅长帮我们制作可视化效果。而在将来,随着像谷歌眼镜这样的产品不断演变,它们能更好地帮我们理解实时的可视化信息。
打造最好的可视化效果
要说有哪个行业能更好地理解信息可视化的重要性,那一定是广告行业了。广告行业是为数不多的利用大数据新科技的先锋行业之一。如果对于“图片是一种强大的交流方式”还有任何疑问的话,那么我们只需看看美国公司每年在电视广告上高达700亿美元的花费就知道答案了。正如市场调研公司明略行(Millward Brown)的全球首席分析师奈杰尔·霍利斯(Nigel Hollis)指出的那样,如果不起作用,公司是不会在电视广告上花费那么多钱的。[5]
霍利斯认为,人们对电视广告的影响感到迷惑是因为他们认为广告商想要他们看了广告马上采取行动,而他们并不会这么做。这也正是他们的错误认识所在。品牌广告的成功并不是呼唤人们立即行动或争论,而是要给人们留下积极的印象来影响人们。霍利斯解释说:“最好的广告是使用图片、朗朗上口的广告词和故事情节将人们的注意力吸引到产品的品牌上面。尤其是将注意力放在那些动人的、容易记住的广告短片的理念上,那些广告冲破了我们的心理防线,播下了影响我们行为的记忆种子。”
事实上,一些广告商还在传送可视化图像时采用了更加先进的方法。他们通过一种叫作“神经营销学”(neuromarketing)的科学方法来判断哪种可视化效果最好。神经营销学使用“功能磁共振成像”(fMRI)和其他科技来观察在面对各种各样广告方式的时候,大脑的哪个部分会兴奋起来。营销人员甚至能通过场景模拟来确定广告放在哪里会产生最好的效果,例如将广告放在广告牌上还是公交车的车身上。
因此,可视化不仅是一种传递大量信息的有效途径,它还和大脑直接联系在一起,并能触动情感,引起化学反应。可视化可能是传递数据信息最有效的方法之一。研究表明,不仅可视化本身很重要,何时、何地、以何种形式呈现对可视化来说也至关重要。
通过设置正确的场景,选择恰当的颜色甚至选择一天中合适的时间,可视化可以更有效地传达隐藏在大量数据中的真知灼见。著名的媒介理论家马歇尔·麦克卢汉(Marshall McLuhan)曾经说过:“媒介即信息。”现在,科学证据证明了在传递信息时环境和传输的重要性。
可视化的乘数效应,更快地吸收更多的信息
正如我们在本章看到的那样,可视化和数据是相伴而生的。当然也有计算机不需要人为干涉就能单独处理数据的例子。例如,当要处理数十亿条搜索查询的时候,要想人为地找出与查询结果相匹配的文本广告是根本不可能的。同样,计算机系统非常善于自动定价,并在百万多个交易中快速判断出哪些具有欺骗性。但仍存在这样一些情况:人类可以根据数据作出更好的决策。我们拥有更多可用的数据,但这并不意味着我们就能更轻松地从这些数据中得出更好的见解。
事实上,情况恰好是相反的。我们拥有的数据越多,从数据中提取出具有实践意义的见解就显得越发重要。将这些数据可视化,可能是指导我们行动的最强大的机制之一。
可视化这么有效的原因是(正如我们之前提到的那样),我们的眼睛可以向大脑传送高吞吐量的信息,也许比我们的其他一些感官所传递的信息量要高好几百倍。可视化可以将事实融入数据,并引起情感反应。它可以将大量数据压缩成便于使用的知识。
将可视化压缩后的知识和视觉传输的高吞吐量信息相结合,你就能收获可视化的乘数效应——更快地吸收更多的数据。
大数据研究不仅关乎数据本身,它还关乎数据传输的途径以及我们用数据干什么。大数据不仅仅是科学家、数据分析师或工程师的研究领域,从我们看到的图表到每天上班途中对我们进行连番轰炸的广告,数据无处不在。社会化媒体平台正在改变着我们的交流方式,同时使文本信息和具有深远影响的可视化知识得到了更为广泛的传播。正确的可视化使数据不再是简单的文本或数字,它能反映出事件在商业圈或更大环境下的实际影响,例如全球健康这样的大问题。

