搜索引擎巨头谷歌就是大数据的缩影。行业研究公司康姆斯克的调查结果显示,仅2012年3月这一个月,谷歌处理的搜索请求就高达122亿次。
除了存储搜索结果中出现的网站链接外,谷歌还能存储人们的所有搜索行为,这就使该公司能以惊人的洞察力掌握搜索行为的时间、内容以及它们是如何进行的。这些对数据的洞察力意味着谷歌可以优化其广告,使之从网络流量中获益,这是其他公司所不能企及的。另外,谷歌不仅可以追踪人的行为,还可以预测人们接下来会采取怎样的行动。换句话说,在你行动之前,谷歌就已经知道你在寻找什么了。这种对大量的人机数据进行捕捉、存储和分析,并根据这些数据作出预测的能力就是我们所说的大数据。
一夜走红的大数据
为什么大数据会在一夜之间迅速走红呢?为什么《纽约时报》会把2012年称为“大数据的跨界年度”?大数据之所以会在2012年进入主流大众的视野,缘于三种趋势的合力。
第一,许多高端消费公司加大了对大数据的应用。社交网络巨擘Facebook使用大数据来追踪用户。通过识别你所熟知的其他人,Facebook可以给出好友推荐建议。用户的好友数目越多,他与Facebook的黏度就越高。好友越多同时也就意味着用户分享的照片越多、发布的状态更新越频繁、玩的游戏也越多样化。
商业社交网站LinkedIn则使用大数据为求职者和招聘单位之间建立关联。有了LinkedIn,猎头公司就不再需要对潜在雇员进行意外访问。只需一个简单的搜索,他们就可以找到潜在雇员,并与他们进行联系。同样,求职者也可以通过联系网站上的其他人,将自己推销给潜在的负责招聘的经理。LinkedIn的首席执行官杰夫·韦纳(Jeff Weiner)近日曾谈到该网站的未来发展及其经济图表——一个能实时识别“经济机会趋势”的全球经济数字图表。实现该图表及其预测能力时所面临的挑战就是一个大数据问题。
第二,Facebook与LinkedIn两家公司都是在2012年上市的。Facebook在纳斯达克上市, LinkedIn在纽约证券交易所上市。从表面上来看,谷歌和这两家公司都是消费品公司,而实质上,它们是名副其实的大数据企业。除了这两家公司以外,Splunk公司(一家为大中型企业提供运营智能的大数据企业)也在2012年完成了上市。这些企业的公开上市使华尔街对大数据业务的兴趣日渐浓厚。
因此,硅谷的风险投资家们开始前赴后继地为大数据企业提供资金,这真是前所未有的状况!大数据将引发下一波重大转变,在这场转变中,硅谷有望在未来几年取代华尔街。作为Facebook的早期投资者,Accel Partners投资机构在2011年年末宣布为大数据提供1亿美元的投资,2012年年初,Accel Partners支出了第一笔投资。著名的风险投资公司安德森·霍洛维茨(Andreessen Horowitz)、Greylock公司也针对这一领域进行了大量的投资。
第三,商业用户,例如亚马逊、Facebook、LinkedIn和其他以数据为核心的消费产品,也开始期待以一种同样便捷的方式来获得大数据的使用体验。既然互联网零售商亚马逊可以为用户推荐一些阅读书目、电影和产品,为什么这些产品所在的企业却做不到呢?比如,为什么汽车租赁公司不能明智地决定将哪一辆车提供给租车人呢?毕竟,该公司拥有客户的租车历史和现有可用车辆库存记录。随着新技术的出现,公司不仅能够了解到特定市场的公开信息,还能了解到有关会议、重大事项及其他可能会影响市场需求的信息。通过将内部供应链与外部市场数据相结合,公司可以更加精确地预测出可用的车辆类型和可用时间。
类似地,通过将这些内部数据和外部数据相结合,零售商每天都可以利用这种混合式数据确定产品价格和摆放位置。通过考虑从产品供应到消费者的购物习惯这一系列事件的数据(包括哪种产品卖得比较好),零售商就可以提升消费者的平均购买量,从而获得更高的利润。
谷歌的大数据行动
谷歌的规模使其得以实施一系列大数据方法,而这些方法是大多数企业根本不曾具备的。谷歌的优势之一是其拥有一支软件工程师队伍,这些工程师能为该公司提供前所未有的大数据技术。多年来,谷歌还不得不处理大量的非结构化数据,例如网页、图片等,它不同于传统的结构化数据,例如写有姓名和地址的表格。
谷歌的另一个优势是它的基础设施。就谷歌搜索引擎本身的设计而言,数不胜数的服务器保证了谷歌搜索引擎之间的无缝连接。如果出现更多的处理或存储信息需求,抑或某台服务器崩溃时,谷歌的工程师们只需添加服务器就能保证搜索引擎的正常运行。据估计,谷歌的服务器总数超过100万个。
谷歌在设计软件的时候一直没有忘记自己所拥有的强大的基础设施。MapReduce和Google File System就是两个典型的例子。《连线》杂志在2012年暑期的报道称,这两种技术“重塑了谷歌建立搜索索引的方式”。
许多公司现在都开始接受Hadoop开源代码——MapReduce和Google File System开发的一个开源衍生产品。Hadoop能够在多台计算机上实施分布式大数据处理。当其他公司刚刚开始利用Hadoop开源代码时,谷歌在多年前就已经开始大数据技术的应用了,事实上,当其他公司开始接受Hadoop开源代码时,谷歌已经将重点转移到其他新技术上了,这在同行中占据了绝对优势。这些新技术包括内容索引系统Caffeine、映射关系系统Pregel以及量化数据查询系统Dremel。
如今,谷歌正在进一步开放数据处理领域,并将其和更多第三方共享,例如它最近刚刚推出的BigQuery服务。该项服务允许使用者对超大量数据集进行交互式分析,其中“超大量”意味着数十亿行的数据。BigQuery就是基于云的数据分析需求。此前,许多第三方企业只能通过购买昂贵的安装软件来建立自己的基础设施,才能进行大数据分析。随着BigQuery这一类服务的推出,企业可以对大型数据集进行分析,而无须巨大的前期投资。
除此以外,谷歌还拥有大量的机器数据,这些数据是人们在谷歌网站进行搜索及经过其网络时所产生的。每当用户输入一个搜索请求时,谷歌就会知道他在寻找什么,所有人类在互联网上的行为都会留下“足迹”,而谷歌具备绝佳的技术对这些“足迹”进行捕捉和分析。
不仅如此,除搜索之外,谷歌还有许多获取数据的途径。企业会安装“谷歌分析”(Google Analytics)之类的产品来追踪访问者在其站点的“足迹”,而谷歌也可获得这些数据。利用“谷歌广告联盟”(Google Adsense),网站还会将来自谷歌广告客户网的广告展示在其各自的站点上,因此,谷歌不仅可以洞察自己网站上广告的展示效果,对其他广告发布站点的展示效果也一览无余。
将所有这些数据集合在一起,我们可以看到:企业不仅可以从最好的技术中获益,同样还可以从最好的信息中获益。在信息技术方面,许多企业可谓耗资巨大,然而谷歌所进行的庞大投入和所获得的巨大成功,却罕有企业能望其项背。
亚马逊的步步紧逼
谷歌并不是唯一一个推行大数据的大型技术公司。互联网零售商亚马逊已经采取了一些激进的举措,并很可能成为谷歌数据驱动领域的最大威胁。分析者预测,截至2015年,亚马逊营收将超过1 000亿美元,即将超过沃尔玛,成为世界最大的零售商。如同谷歌一样,亚马逊也要处理海量数据,只不过它处理的数据带有更强的电商倾向。
每次,当消费者们在亚马逊网站上搜索想看的电视节目或想买的产品时,亚马逊就会增加对该消费者的了解。基于消费者的搜索行为和产品购买行为,亚马逊就可以知道接下来应该为消费者推荐什么产品。
而亚马逊的聪明之处远不止于此。它还会在网站上持续不断地测试新的设计方案,从而找出转化率最高的方案。你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗?那就请你再好好想想吧。整个网站的布局、字体大小、颜色、按钮以及其他所有设计,其实都是在经过多次审慎测试后的最优结果。[6]
数据驱动的方法并不仅限于以上领域。根据亚马逊一位前任员工的说法,亚马逊的企业文化就是冷冰冰的数据驱动文化。数据会告诉你什么是有效的、什么是无效的,新的商业投资项目必须要有数据支撑。
对数据的长期关注使亚马逊能够以更低的价格提供更好的服务。消费者往往会直接去亚马逊网站搜索商品并进行购买,谷歌之类的搜索引擎则完全被抛诸脑后。争夺消费者控制权这一战争的硝烟还在不断弥漫。如今,苹果、亚马逊、谷歌以及微软,这4家公认的巨头不仅在互联网上进行厮杀,还将其争斗延伸至移动领域。
随着消费者把越来越多的时间花费在手机和平板电脑等移动设备上,他们坐在计算机前的时间已经变得越来越少,因此,那些能成功地让消费者购买他们的移动设备的企业,将会在销售和获取消费者行为信息方面具备更大的优势。企业掌握的消费者群体和个体信息越多,它就越能更好地制定内容、广告和产品。
令人难以置信的是,从支撑新兴技术企业的基础设施到消费内容的移动设备,亚马逊的触角已触及到更为广阔的领域。亚马逊在几年前就预见了将作为电子商务平台基础结构的服务器和存储基础设施开放给其他人的价值。“亚马逊网络服务”(Amazon Web Service,以下简称AWS)是亚马逊公司知名的面向公众的云服务提供者,能为新兴企业和老牌公司提供可扩展的运算资源。虽然AWS 成立的时间不长,但已有分析者估计它每年的销售额超过15亿美元。
这种运算资源为企业开展大数据行动铺平了道路。当然,企业依然可以继续投资建立以私有云为形式的自有基础设施,而且很多企业还会这样做。但是如果企业想尽快利用额外的、可扩展的运算资源,它们还可以方便、快捷地在亚马逊的公共云上使用多个服务器。如今亚马逊引领潮流、备受瞩目,靠的不仅是它自己的网站和Kindle Fire之类的新移动设备,支持着数千个热门站点的基础设施同样功不可没。AWS带来的结果是,大数据分析不再需要企业在IT上投入固定成本。如今,获取数据、分析数据都能够在云端简单、迅速地完成。换句话说,如今,企业有能力获取和分析大规模的数据——而在过去,它们则会因为无法存储而不得不抛弃它。
将信息变成一种竞争优势
AWS之类的服务与Hadoop之类的开源技术相结合,意味着企业终于能够尝到信息技术在多年以前向世人所描绘的果实。
数十年来,人们对所谓的“信息技术”的关注一直偏重于其中的“技术”部分。首席信息官(CIO)的职责就是购买和管理服务器、存储设备和网络。而如今,信息以及对信息的分析、存储和预测的能力,正成为一种竞争优势(见图3—1)。

信息技术刚刚兴起的时候,较早应用信息技术的企业能够更快地发展,超越他人。微软在20世纪90年代就树立并巩固了它的地位,这不仅得益于它开发了世界上应用最为广泛的操作系统,还在于当时它在公司内部将电子邮件作为标准的沟通机制。事实上,在许多企业仍在犹豫是否采用电子邮件的时候,电子邮件已经成为微软讨论招聘、产品决策、市场战略之类事务的标准沟通机制。虽然群发电子邮件的交流在如今已是司空见惯,但在当时,这样的举措让微软较之其他未采用电子邮件的公司具有更多的速度和协作优势。
接受大数据并在不同的组织之间民主化地使用数据,将会给企业带来与之相似的优势。诸如谷歌和Facebook之类的企业已经从“数据民主”中获益。
通过将内部数据分析平台开放给所有跟自己公司相关的分析师、管理者和执行者,谷歌、Facebook以及其他一些公司已经让组织中的所有成员都能提出跟商业有关的数据问题、获得答案并迅速行动。正如Facebook 的前任大数据领导人阿施什·图苏尔(Ashish Thusoo)所言,新技术已经将我们的话题从“储存什么数据”转化到“我们怎样处理更多的数据”这一话题上了。
以Facebook为例,它将大数据推广成为内部的服务,这意味着该服务不仅是为工程师设计的,也是为终端用户,即生产线管理人员设计的,他们需要运用“查询”来找出有效的方案。因此,管理者们不再需要花费几天或是几周的时间,来找出网站的哪些改变最有效,或者哪些广告方式的效果最好。他们可以使用内部的大数据服务,而这些服务本身就是为了满足他们的需求而设计的,这使得数据分析的结果很容易在员工之间共享。
过去的20年是信息技术的时代,接下来的20年的主题仍会是信息技术。这些企业能够更快地处理数据,而公共数据资源和内部数据资源一体化将带来独特的洞见,使他们能够远远超越竞争对手。正如“大数据创新空间曲线”(Big Data Start-up Space Curve)的创始人和首席技术官安德鲁·罗杰斯(J. Andrew Rogers)所言,“你分析数据的速度越快,它的预测价值就越大”。企业如今正在渐渐远离批量处理数据的方式(即先存储数据,之后再慢慢进行分析处理)而转向实时分析数据来获取竞争优势。
对于高管们而言,好消息是:来自于大数据的信息优势不再只属于谷歌、亚马逊之类的大企业。Hadoop之类的开源技术让其他企业可以拥有同样的优势。无论是老牌财富100强企业还是新兴初创公司,都能够以合理的价格利用大数据来获得竞争优势。
数据价格下降,数据需求上升
与以往相比,大数据带来的颠覆不仅是可以获取和分析更多数据的能力,更重要的是,获取和分析等量数据的价格也正在显著下降。但是价格“蒸蒸日下”,需求却蒸蒸日上。这种略带讽刺的关系正如所谓的“杰文斯悖论”(Jevons Paradox)[7]一样。科技进步使储存和分析数据的方式变得更有效率,与此同时,公司也将对此做出更多的数据分析。简而言之,这就是为什么大数据能够带来商业上的颠覆性变化。
从亚马逊到谷歌,从IBM到惠普和微软,大量的大型技术公司纷纷投身于大数据;而基于大数据解决方案,更多初创型企业如雨后春笋般涌现,提供基于云服务和开源的大数据解决方案。
大公司致力于横向的大数据解决方案,与此同时,小公司则以垂直行业的关键应用为重。有些产品可以优化销售效率,而有些产品则通过将不同渠道的营销业绩与实际的产品使用数据相联系,来为未来营销活动提供建议。这些大数据应用程序(Big Data Applications)意味着小公司不必在内部开发或配备所有大数据技术;在大多数情况下,它们可以利用基于云端的服务来解决数据分析需求。
大数据应用程序的兴起
大数据应用程序在大数据空间掀起了又一轮波浪。行业分析公司451集团在分析过大数据的投资前景后发布报道称,截至2011年11月,已对大数据相关的基础设施投资了大约3.5亿美元。[8]从那时起,投资者相继将大量资金投入到现有的基础设施中,又为Hadoop软件的商业供应商Cloudera投资了6 500万美元,此外,还为其他公司提供了投资。与此同时,企业并没有停留在大数据基础设施上,而是将重点转向了大数据的应用,智能运营公司Splunk就是这样。
从历史上来说,企业必须利用自主生成的脚本文件来分析日志文件(一种由网络设备和IT系统中的服务器生成的文件),相对而言,这是一种人工处理程序。IT管理员不仅要维护服务器、网络工作设备和软件的基础设施,他们还要建立自己的脚本工具,从而确定因这些系统所引发的问题的根源。这些系统会产生海量的数据;每当用户登陆或访问一个文件时,一旦软件出现警告或显示错误,管理者就需要对这些数据进行处理,他们必须弄清楚究竟是怎么一回事。
有了大数据应用程序之后,企业不再需要自己动手创建工具。他们可以利用预先设置的应用程序从而专注于他们的业务经营。比如,利用Splunk公司的软件,就可以搜索IT日志,并直观看到有关登陆位置和频率的统计,进而轻松地找到基础设施存在的问题。当然,企业的软件主要是安装类软件,也就是说,它必须安装在客户的网站中。基于云端的大数据应用程序承诺,它们不会要求企业安装任何硬件或软件。在某些方面,它们可以被认为是软件即服务(Software as a Service, SaaS)后的下一个合乎逻辑的步骤。软件即服务是通过互联网向客户交付产品的一种新形式,现已经发展得较为完善。十几年前,客户关系管理(CRM)软件服务提供商Salesforce首先推出了“无软件”的概念,这一概念已经成为基于云计算的客户关系管理软件的事实标准,这种软件会帮助企业管理他们的客户列表和客户关系。
通过软件运营服务转化后,软件可以被随时随地地使用,企业几乎不需要对软件进行维护。大数据应用程序把着眼点放在这些软件存储的数据上,从而改变了这些软件公司的性质。换句话说,大数据应用程序具备将技术企业转化为“有价值的信息企业”的潜力。
举个例子,oPower公司可以改变能量的消耗方式。通过与75家不同的公用事业企业合作,该公司可以追踪约5 000万美国家庭的能源消耗状况。该公司利用智能电表设备(一种追踪家庭能源使用的设备)中储存的数据,能为消费者提供能源消耗的具体报告。即使能源消耗数据出现一个小小的变动,也会对千家万户造成很大的影响。就像谷歌可以根据消费者在互联网上的行为追踪到海量的数据一样,oPower公司也拥有大量的能源使用数据。这种数据最终会赋予oPower公司以及像oPower公司之类的公司截然不同的洞察力。目前该公司已经开始通过提供能源报告来继续建立其信息资产,这些数据资源和分析产品向我们展示了未来大数据商业的雏形。
然而,大数据应用程序不仅仅出现在技术世界里。在技术世界之外,企业还在不断研发更多的数据应用程序,这些程序将对我们的日常生活产生重大的影响。举例来说,有些产品会追踪与健康相关的指标并为我们提出建议,从而改善人类的行为。这类产品还能减少肥胖、提高生活质量、降低医疗成本。
实时响应,大数据用户的新要求
过去几年,大数据一直致力于以较低的成本采集、存储和分析数据,而未来几年,数据的访问将会加快。当你在网站上点击按钮,却发现跳出来的是一个等待画面,而你不得不等待交易的完成或报告的生成,这是一个多么令人沮丧的过程。再来对比一下谷歌搜索结果的响应时间。2010年,谷歌推出了Google Instant,该产品可以在你输入文本的同时就能看到搜索结果。通过引入该功能,一个典型用户在谷歌给出的结果中找到自己需要的页面的时间缩短为以前的1/5~1/7。当这一程序刚刚被引进时,人们还在怀疑是否能够接受它。如今,短短几年后,人们却难以想象要是没有这种程序生活该怎么继续下去。
数据分析师、经理及行政人员都希望能像谷歌一样用迅捷的洞察力来了解他们的业务。随着大数据用户对便捷性提出的要求越来越高,仅仅通过采用大数据技术已不能满足他们的需求。持续的竞争优势并非来自于大数据本身,而是更快的洞察信息的能力。Google Instant这样的程序就向我们演示了“立即获得结果”的强大之处。
企业构建大数据战略
据IBM称:“我们每天都在创造大量的数据,大约是2.5×1018个字节——仅在过去两年间创造的数据就占世界数据总量的90%。”据福雷斯特(Forrester)产业分析研究公司估计,企业数据的总量每年以94%的增长率飙升。
在这样的高速增长之下,每个企业都需要一个大数据路线图,至少,企业应为获取数据制订一种战略,获取范围应从内部计算机系统的常规机器日志一直到线上的用户交互记录。即使企业当时并不知道这些数据有什么用,他们也要这样做,或许随后他们会突然发现这些数据的作用。正如罗杰斯所言,“数据所创造的价值远远高于最初的预期——千万不要随便将它们抛弃”。
企业还需要制订一个计划来应对数据的指数型增长。照片、即时信息以及电子邮件的数量非常庞大,而由手机、GPS 及其他设备构成的“传感器”所释放出的数据量甚至更大。在理想情况下,企业应让数据分析贯穿于整个组织,并尽可能地做到实时分析。通过观察谷歌、亚马逊、Facebook和其他科技主导企业,你可以看到大数据之下的种种机会。管理者需要做的就是往自己所在的组织中注入大数据战略。
成功运用大数据的企业往大数据世界中添加了一个更为重要的因素:大数据的所有者。大数据的所有者是指首席数据官(CDO)或主管数据价值的副总裁(VP of Data Insights)。如果你不了解数据意味着什么,世界上所有的数据对你来说将毫无价值可言。拥有大数据所有者不仅能帮助企业进行正确的策略定位,还可以引导企业获取所需的洞察力。
谷歌和亚马逊这样的企业,应用大数据进行决策已有多年,它们在数据处理上已经取得了不少成果。而现在,你也可以拥有同样的能力。
