前面我们已经探讨了有关大数据应用的一些方面,接下来我们将看到一幅更为广阔的景观,它描绘的是公司在大数据生态系统中所发挥的作用。如果想要着眼于大数据云图,那么从基础设施和应用程序方面出发就再容易考虑不过了。图8—1是2013年4月版的大数据云图,它将大数据领域中许多角色进行了分类。鉴于新加入者仍在不断涌现,查看最新版本可登陆网站:www.bigdatalandscape.com。
基础设施主要负责数据存储以及处理公司掌握的海量数据。应用程序则是指人类和计算机系统通过使用这些程序,从数据中获知关键信息。
人们使用应用程序使数据可视化,并由此作出更好的决策;而计算机则使用应用系统将广告投放到合适的人群,或者监测信用卡欺诈行为。虽然不可能谈及大数据云图中的每一个公司,但我们将对其中的一些进行描述,并调查这个生态系统是如何形成的。

飞速增加的数据
国际数据公司(IDC)预计,到2015年,大数据市场将增长至169亿美元,该领域每年的增长率将达到40%,约为其他信息技术领域的7倍。另一家研究公司Wikibon指出,2011年,大数据专营供应商财政收入仅为4.68亿美元。尽管这只占该领域总收入的较小份额,但Wikibon认为,这些大数据专营供应商已成为创新的主要来源。
我们产生的数据量正在以惊人的速度增长,而最有趣的衡量方法之一就是Facebook的蓬勃发展。2012年10月,Facebook声称其用户量已突破10亿人——近乎世界总人口的15%(见图8—2)。Facebook不得不开发各种各样的新技术以跟上用户暴涨的脚步。

Facebook每天需要处理27亿个“赞”(Likes)、25亿内容分享以及3亿张上传照片。这意味着,这家公司每天存储的数据超过100PB,将这些数据分析处理后,得到超过500PB的新数据。这就相当于2 000台Macintosh Air硬盘驱动器存储的数据量。
Twitter则为我们提供了另一种有趣的衡量方式。2012年,这家公司的注册用户超过了5亿人,每天推文的处理量也从5年前的2万条增长到5亿多条(见图8—3)。

然而,这仅仅是人类所产生的数据,而机器产生的数据甚至更多。当我们每次点击一个网站按钮、购一次物或者给某人打一次电话——几乎进行任何活动时都会留下电子记录。上传一张照片的简单动作会产生大量其他数据,例如谁上传的照片、什么时候上传的、谁又进行了分享、与之相关的是什么标签等。
我们身边的数据在不断增长:沃尔玛每小时处理的客户交易超过100万次,每年发出的电子邮件高达90万亿封。不过讽刺的是,差不多3/4(71.8%)的电子邮件被视为垃圾邮件。据IBM报道,现今世界上90%的数据是在最近两年内产生的。据另一项估计,商业数据量每1.2年就会翻一倍。为了满足这一飞速发展所带来的需求,许多新兴公司由此崛起,大量现有公司也围绕大数据对自己和自身的产品进行了重新定位。
Linux,开源技术需要商业支援
开源在近期的大数据演变中起到了很大的作用。不过,在我们开始谈论它之前,我们有必要提供一些关于开源作用的背景知识。
就在几年前,Linux成为了主流操作系统,并与早前占主导地位的供应商如太阳微系统公司(Sun Microsystems)拆解的商用硬件(低成本的现成服务器)结合。太阳微系统公司因其名为Solaris的UniX版本而知名,而Solaris则在其定制的SPARC硬件上运行。有了Linux,企业就能在低成本硬件上使用开源操作系统,以低成本获得许多相同的功能。MySQL开源数据库、Apache开源网络服务器以及PHP开源脚本语言(最初为创建网站开发)搭配起来的实用性也推动了Linux的普及。
随着越来越多的企业将Linux大规模地用于商业用途,他们要求获得企业级的支持和保障。工程师们在实验室使用开源Linux效果很好,但是商业贸易需要一位供应商,因为企业培训、支持以及定制都要与之联系。换言之,大公司愿意从其他大公司处采购。在众多的供应商中,红帽公司(Red Hat)脱颖而出,成为Linux投递商业支持及服务的市场领导者。目前这家公司的市值超过100亿美元。瑞典MySQL AB公司启动了对开源MySQL数据库项目的开发。2008年年初,太阳微系统公司以10亿美元收购了MySQL AB公司。随后,美国甲骨文公司(Oracle)又在2009年年末收购了太阳微系统公司。
IBM、甲骨文以及其他的公司都正在将大型关系型数据库商业化。关系型数据库使数据存储在自定义表中,再通过一个密码进行访问。例如,一个雇员可以通过一个雇员编号认定,然后该编号就会与包含该雇员信息的其他字段相联系——她的名字、地址、雇用日期及职位等。该数据库本来还是可以适用的,直到公司不得不解决大量的非结构化数据。比如谷歌必须处理海量网页以及这些网页链接之间的关系,而Facebook必须应付社交图谱数据。社交图谱是其社交网站上人与人之间关系的数字表示——社交图谱上每个点末端连接所有非结构化数据,例如照片、信息、个人档案等。因此,这些公司也想利用低成本商用硬件。
于是,像谷歌、雅虎、Facebook以及其他这样的公司开发出各自的解决方案,以存储和处理大量的数据。正如Unix的开源版本和甲骨文这样的数据库以Linux和MySQL的形式应运而生一样,大数据世界里有许多类似的事物在不断涌现。
Apache Hadoop是一个开源分布式计算平台,通过Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)存储大量数据,再通过名为MapReduce的编程模型将这些数据的操作分成小片段。Apache Hadoop源自谷歌的原始创建技术。随后,一系列围绕Hadoop的开源技术也得到了开发。
Apache Hive提供数据仓库功能,包括数据抽取、转换、装载(ETL),即将数据从各种来源中抽取出来,再实行转换以满足操作需要(包括确保数据质量),然后装载到目标数据库。Apache HBase则提供处于Hadoop顶部的海量结构化表的实时读写访问功能,它仿照了谷歌的BigTable。同时,Apache Cassandra通过复制数据来提供容错数据存储功能。
在过去,这些功能通常只能从商业软件供应商处依靠专门的硬件获取。Linux让Unix的功能在商用硬件上实现应用,从而大幅降低了计算的成本。类似地,开源大数据技术正在使数据存储和处理能力——这些本只有像谷歌或其他商用运营商之类的公司才具备的能力,在商用硬件上也得到了应用。这样就降低了使用大数据的先期投入,并且具备了使大数据接触到更多潜在用户的潜力。闭源软件供应商指出,虽然开源软件是免费的,但是它的维护成本很高,尤其是在一定的规模下。
这就是说,开源软件在开始使用时是免费的,这使其对大多数人颇具吸引力,从而使一些商用运营商采用免费增值的商业模式参与到竞争当中。产品在个人使用或有限数据的前提下是免费的,但顾客需要在之后为部分或大量数据的使用付费。久而久之,采用开源技术的这些企业往往需要商业支援,一如当初使用Linux碰到的情形。像Cloudera、HortonWorks及MapR这样的公司在为Hadoop解决这种需要的同时,类似DataStax的公司也在为非关系型数据库(cassandra)做着同样的事情,LucidWorks之于Apache Lucerne也是如此(后者是一种开源搜索解决方案,用于索引并搜索大量网页或文件)。
亚马逊,数据在云端
然而,市场出现了另外两种并行趋势。首先,数据量在不断增长——几乎每年增长一倍。现在越来越多的数据以照片、推文、点“赞”以及电子邮件的形式出现;这些数据又有与之相联系的其他数据;机器生成的数据则以状态更新及其他信息的形式存在,而其他信息包括源自服务器、汽车、飞机、移动电话等设备的信息。结果,处理所有这些数据的复杂性也随之升高。更多的数据意味着它们需要进行整合、理解以及提炼,也意味着数据安全及数据隐私方面存在更高的风险。在过去,公司将内部数据(例如销售数据)和外部数据(例如品牌情绪或市场研究数字)区别对待,现在则希望将这些数据进行整合,以利用由此产生的洞察分析。
其次,企业正将计算和处理的环节转移到云中。这就意味着不必购买硬件和软件,只需将之安装到自己的数据中心,然后对基础设施进行维护,企业就可以在网上获得想要的功能。软营模式(Software as a Service/SaaS)公司Salesforce.com开创了在网上以 “无软件”模式为客户关系管理(以下简称CRM)应用程序交付的先例。这家公司随后建立了一个服务生态系统,以补充其核心的CRM解决方案。
与此同时,亚马逊也为必要的基础设施铺平了道路——使用亚马逊Web服务 (AWS)在云中计算和存储。亚马逊在2003年推出了AWS,希望从Amazon.com商店运行所需的基础设施上获利。然后,亚马逊继续增加其按需基础设施服务,让开发商迅速带来新的服务器、存储器及数据库。
亚马逊也引进了特定的大数据服务,其中包括Amazon MapReduce(一项开源Hadoop-MapReduce服务的亚马逊云版本)以及Amazon RedShift(一项数据仓库按需解决方案)。亚马逊预计该方案每年每太字节(terabyte)的成本仅为1 000美元——不到公司一般内部部署数据仓库花费的1/10,换言之,通常公司每年每太字节的成本超过1万美元。同时,亚马逊公司提供的在线备份服务Amazon Glacier提供低成本数字归档服务,该服务每月每千兆字节的费用仅为0.01美元,约合每年每太字节120美元。
和其他供应商相比,亚马逊有两大优势。第一,它具有非常著名的消费者品牌;第二,它也从支持网站Amazon.com而获得的规模经济以及其基础设施服务的其他广泛客户中受益。虽然其他一些著名公司也提供云基础设施,包括谷歌及其谷歌云平台,还有微软及其Windows Azure,但亚马逊已为此铺平了道路,并以AWS占据了有利位置。
所有这些云服务胜过传统服务的优势在于,顾客只为使用的东西消费。这尤其对创业公司有利,它们可以避免高昂的先期投入,而这通常涉及购买、部署、管理服务器和存储基础设施。
AWS让世人见证了其惊人的增长速度。这项服务预计在2012年为公司财政收入增添150亿美元。截至2012年6月,亚马逊简单存储服务Simple Storage Service (S3)的存储量超过1万亿太字节,每秒新增存储量超过4万。而在2006年年末,当时的存储量还仅为290亿太字节,到2010年年末为2 620亿太字节。像Netflix、Dropbox这样的公司就在AWS上经营业务。之后亚马逊继续拓展其按需基础设施服务,增加了IP路由选择、电子邮件发送以及大量与大数据相关的服务。亚马逊也和一个合作伙伴的生态系统合作,为他们提供基础设施产品。因此,任何新出现的基础设施创业公司想要构建公共云产品,要做的很可能就是:想办法与亚马逊合作,或者期待公司创造出有竞争力的产品。
云的挑战
当然,许多人仍然对能否利用公共云基础设施持有怀疑。过去,这项服务一直存在着三个潜在问题:
- 企业觉得这项服务不安全。内部基础设施被认为更有保障。
- 许多大供应商根本不提供软件的互联网/云版本。公司必须购买硬件,自行运行软件或者雇用第三方做这件事。
- 难以将大量数据从内部系统中提取出来,存入云中。
虽然第一个挑战对于某些政府机构来说确实存在,但是像Salesforce.com这样的公司却证实他们能安全存储许多公司的机密数据。网上提供的越来越多的类似应用程序也正逐渐为企业所接受。
对于第二个挑战,Workday是一个好的例子。Workday是一个基于网络的人力资源管理解决方案供应商,市值将近105亿美元。最初它是将客户数据转移到云中,之后就是人力资源数据。久而久之,越来越多的企业运营功能将会把数据转移到云中。
第三个挑战,即将海量数据转移到云中仍然是个难题。许多专家认为,对于真正的海量数据来说,源于公司内部部署的数据仍会保存在原处,源于云中的数据也是如此。但是随着越来越多的业务线应用程序在网上实现应用,也会有越来越多的数据在云中生成,并保存在云中。另外,许多公司也在不断涌现,它们提供技术,加速大量数据的转移。例如,Aspera专注于加快文件传输速度,特别是大型音频和视频文件。像Netflix这样的公司使用Aspera传输文件,其速度是传统传输速度的10倍。
借助大数据,公司获得了许多其他优势:他们花费在维护和部署硬件和软件上的时间变少了,可以按需进行扩张。如果有公司需要扩大计算资源或存储量,就不需要耗费数月时间,而只是分秒之间的事情。更重要的是,与最新版本软件相比,企业使用传统的安装软件早已落后了。有了网上的应用程序,其最新版本一经开放用户就可以立刻使用了。当然,这些都在权衡之间。公司的花费受其选择的公共云供应商控制。但是云供应商之间的竞争不断推动价格下降。
顾客也依赖这些供应商提供可靠的服务。亚马逊曾遭遇过一些重大的服务中断事故,当时备受瞩目。这也导致一些人开始怀疑,依赖其服务是否有意义。其中一次事故造成在线影片供应商Netflix在2012年平安夜和圣诞节当天服务中断,而那时正是观看电影的传统高峰期。随着亚马逊和其他供应商继续推出更多的按需基础设施功能——同时这些供应商继续相互竞争,压低价格,更多的公司很有可能将继续使用这些服务。
Cloudera领衔大数据基础设施
对云中开源软件和大数据的背景有了初步的印象之后,我们现在就来看看一些在基础设施和应用程序领域发挥关键作用的公司。在更大的背景下,风险投资者将一小部分资金投入到大数据基础设施当中:投入Hadoop相关公司(Cloudera、HortonWorks和MapR)和NoSQLogic公司(10Gen、Aerospike、Couchbase以及其他公司)的资金总计不到5亿美元。
Cloudera大概是所有新兴大数据基础设施公司中最显眼的了。它主营销售工具和咨询服务,帮助其他公司运行Hadoop。截至2012年12月,Cloudera从Accel合伙公司、Greylock Partners、Meritech Capital Partners、In-Q-Tel以及(Ignition Partners)[15]处筹到的风投资金达到1.4亿美元。Cloudera是由迈克·奥尔森(Mike Olson)、埃姆·阿瓦达拉(Amr Awadallah)、杰夫·哈默巴切(Jeff Hammerbacher)和克里斯托弗·比塞格利亚(Christophe Bisciglia)4人合伙创建,其中,迈克·奥尔森和埃姆·阿瓦达拉在雅虎工作时与Hadoop有过合作,杰夫·哈默巴切则在Facebook有过类似经历,而克里斯托弗·比塞格利亚来自谷歌。
有趣的是,2004年谷歌首先发表了一篇论文,在文中描述了Google MapReduce和Google File System,而Hadoop也正是从中受到启发而建立起来的。这也正好显示了,像谷歌这样的大型消费者公司所使用的技术需要花费很长时间才能融入企业中。Cloudera的竞争对手HortonWorks则是从雅虎分离出来的。HortonWorks的工程师为Apache Hadoop贡献的代码超过80%。MapR则专注于借助其M5服务提供Hadoop的高性能版本,尝试解决Hadoop最大的难题:处理数据所需的漫长等待。
在这些公司向企业提供Hadoop服务和支持的同时,其他公司正积极向云端传送Hadoop。Qubole、Nodeable及Platfora 是云端Hadoop领域的三家公司。对于这些公司来说,源自本土大数据云处理服务的挑战将日益凸显,例如亚马逊自身的MapReduce服务。
Hadoop的设计目的在于对超大数据集进行分布式处理,其中工程师们设计作业,作业再传输到数百或数千台服务器,然后将单独的结果汇总回收才能产生实际结果。举一个简单的例子,一项Hadoop MapReduce作业就是用于计算各种文档中词出现的数量。如果文档数量达数百万之巨,就难以在一台机器上完成。Hadoop将该项作业分解为每台机器都能完成的小片段,再将每项单独计算作业的结果合在一起,就生成了最后的计算结果。
而挑战就是运行这些作业会消耗许多时间——这对实时数据查询而言不甚理想。对于Hadoop的改进,如Cloudera Impala项目承诺让Hadoop变得更加灵敏,不仅仅体现在分布式处理上,也要在接近实时的分析应用上有所反映。当然这些创新也使Cloudera成为了当前大型分析或数据仓库供应商的理想收购目标(上市前后),包括IBM、甲骨文以及其他的潜在买家。同时,EMC也在2013年2月推出了其产品Pivotal HD(Pivotal Hadoop Distribution)。
从潘多拉到Netflix,大数据应用程序改变生活
我们大多数人每天都在使用大数据应用程序。Facebook、谷歌、LinkedIn、潘多拉音乐电台(Pandora)以及Twitter不过是众多应用程序中的寥寥几种,它们使用大量数据为我们提供解析,也供我们娱乐。
虽然我们将继续见证大数据基础设施的创新,但是未来大数据的大部分利益将集中在大数据应用程序中。大数据应用程序则利用生成的大量数据以及低成本计算能力对数据进行处理。
Facebook存储和使用的大数据形式包括用户资料、照片、信息及广告。通过分析这些数据,Facebook能更好地理解其用户,并判断该向用户呈现何种内容。Twitter每天处理的推文超过5亿。Topsy则是一家数据分析的创业公司,主营推文的实时分析。现在,像Topsy这样的公司也正在使用这些数据源在Twitter及其他平台顶部建立应用程序。
谷歌抓取了数十亿网页,并拥有大量的其他大数据源。例如谷歌地图包含了海量数据——不仅有实际街道位置,也有卫星图像、街道照片,甚至还有许多建筑的内部图。与此同时,LinkedIn掌握了数以百万计的在线简历,以及人们如何相互联系的信息。这家公司能使用所有数据,在数百万人当中帮助我们找到想要联系的人。
潘多拉音乐电台利用约400首歌曲的特征,就可以找出推荐的歌曲。这家公司雇用了音乐学家,负责找到几乎每一首新推出的歌曲的特征,再将其特征作为音乐基因组计划的一部分存储起来。截至2011年10月,这家公司的数据库中已经有出自9万多名艺术家的90万首歌曲。同样,Netflix公司因其电影预测算法而闻名。借助这种算法,这家公司向观众推荐接下来看的电影。公司依靠的是一个由约40个标签师组成的团队,对每部电影的100多项特征做注释,特征则涉及从故事情节到音调的各个方面。
这些应用程序的出现是一个预兆,尤其对企业的意义重大。企业过去为了处理大数据,需要建立和维护自己的基础设施,还在许多情况下开发自定义应用程序来分析这些数据。但现在,从在线广告一直到运营智能,各个领域发生的这一切都开始改变。
在线广告应用
为了确定向你呈现哪种广告,公司利用算法解决方案来实时处理海量数据。基于这种自动分析,它们能够算出哪种广告最适合你以及特定广告印象需要花费(索要)多少钱。这个领域的供应商包括Collective、DataXu、Metamarkets、Rocket Fuel和Turn等。
Rocket Fuel平台在2012年6月需要每天处理约130亿询问。而Turn平台日常需要处理约300亿广告决定以及1.5万亿顾客属性。同时, AdMeld(现为谷歌的一部分)与出版商合作,帮助他们优化广告投放。这些公司并非仅仅提供基本广告服务,它们还使用先进算法,在一系列数据源中分析各种属性,以优化广告投放。
营销人员将继续把更多的钱转移到在线广告投入中,这表明这一领域很可能会迎来增长和巩固。由于目前消费者和企业用户在移动设备上花费了大把时间,移动广告和移动分析也成为了最具增长潜力的领域之一。类似Flurry这样的公司则提供分析功能,让移动程序开发人员更有效地衡量消费者行为并从顾客身上获利。同时,移动领域也最为复杂,谷歌、苹果、三星都有涉足。
销售和营销应用
通过推出其CRM“无软件”托管模式以替代PeopleSoft和其他内部部署必须运行的产品,Salesforce.com由此改变了公司进行客户关系管理的方式。最近,营销自动化公司,如Eloqua(现被甲骨文收购)、Marketo以及Hubspot已将公司的领导管理、需求生成以及电子邮件营销方式系统化。
但是,今天的营销人员面临着一系列新的挑战。他们必须管理并理解客户渠道众多的营销活动和交流互动。如今的营销人员需要确保公司对其网页进行优化,从而在谷歌和必应(Bing)上获得索引,并易于让潜在顾客找到。营销人员也需要确保经常在社会化媒体渠道如Facebook、Twitter以及Google Plus上露面。这不仅是因为人们花时间在这些场所获取娱乐和信息,也由于谷歌越发重视社会化媒体,将之视为衡量某项内容重要性的方法。
应用性能监控公司New Relic负责市场营销的副总裁帕特里克·莫兰(Patrick Moran)指出,营销人员也需要将其他数据源纳入考虑以充分了解他们的客户。这包括实际产品使用数据、线索来源以及有问题的订单信息。这些数据可以为营销人员提供最重要的解析,让他们知道哪些客户最有价值以及什么活动最有可能扭转局面。这样,他们就能根据相似的特征寻找其他潜在客户。
这一切都意味着将有大量的数据需要营销人员进行可视化处理和操作。弗雷斯特研究公司(Forrester Research)及营销自动化公司Eloqua前首席营销官,现任晶格科技(Lattice Engines)首席营销官布莱恩·卡登(Brian Kardon)暗示,未来的市场营销将在很大程度上受算法左右。华尔街交易曾经属于人类的职权范围,直到计算机算法交易取代了其位置。卡登设想营销也会有与之相似的未来,到时算法分析所有这些数据源,找到有效的模式,并告诉营销人员下一步要做什么。这种软件可能会告诉营销人员开展哪些活动,发送哪些电子邮件,博客写些什么,何时发出推文以及确定推文内容等。但是,它的功能远不止于此。
最终,大数据营销应用不仅会对所有这些数据源进行分析,而且还将执行大量的工作,以优化基于数据的活动。像BloomReach这样的公司早已沿着这条路开发了基于算法的软件,以帮助电子商务企业优化其网站,直至其达到最高转化率。当然,营销创新部分仍然至关重要,营销人员仍然必须做出宏观决策,决定向何处投资以及如何进行产品定位。但是,营销的大数据应用程序将在推动目前与网络营销相关的人工操作系统自动化方面发挥重要作用。
可视化应用
由于数据访问变得更为普遍,可视化也越来越重要。可视化领域的公司众多,所以在本节中,我们将重点介绍其中的几个。西雅图的数据分析公司Tableau Software因其可视化软件互动性强且易于使用而被大家所熟悉。这家公司的技术出自斯坦福大学的研究。截至本文发稿时,业内人士预测该公司已步入正轨,年收入达到1亿美元,估计很快会进行首次公开募股。
QlikTech公司推出了其广受欢迎的QlikView可视化产品,世界各地约有26 000家公司在使用这一产品。该公司于2010年上市,截至2013年3月,其价值达到了将近2.4亿美元。TIBCO软件公司也推出了其可视化和分析产品Spotfire。
虽然并非严格意义上的可视化公司,但视眼石公司(Palantir)因其大数据软件而闻名,并在政府和金融服务机构中拥有强大的客户基础。一些大型企业供应商也提供此类产品,包括IBM、微软、甲骨文、SAP以及SAS。
现在,越来越多的公司正在将交互式可视化工具嵌入到网站中。出版商则使用这种可视化服务为读者提供更深入的数据解析。大批企业协作和社交网络公司涌现出来,例如Jive Software公司和雅米公司(Yammer),它们让企业通信(包括内部和外部)变得更为社交化。我们期待看到类似的社会功能成为几乎所有数据分析和可视化产品的标准。
鉴于可视化是了解大型数据集和复杂关系的一种重要方式,它将会不断出现新工具。这些工具所面临的挑战和机会,不仅是为了帮助人们作出更好的决策,也会应用到算法(或至少推动算法的发展)当中,进行自动决策而无须人类参与。
商业智能应用
数据分析的历史一直集中在商业智能(Business Intelligence)上。众多组织都依赖商业智能整理和分析大量的企业数据,目标则是帮助管理者作出更好的决策。 例如,通过分析销售和供应链数据,管理人员在未来可能会选定更好的定价方法。
1958年,商业智能首度出现在IBM一位研究者发表的论文中,随后IBM公司继续开拓新天地,并取得了技术进步,如算法交易和IBM Watson。其他主要供应商,包括德国软件公司SAP、SAS软件公司以及甲骨文都提供商业智能产品。MicroStrategy软件仍然是这个领域独立的玩家。它的市值约为10亿美元,并在最近向市场推出了极具吸引力的移动产品。
Domo公司是一家基于云计算的商业智能软件公司,进入市场的时间相对比较晚。Domo公司由数据分析领导者Omniture(现在的Adobe)创始人兼前首席执行官乔希·詹姆斯(Josh James)创建。在这个领域中,其他著名的玩家还有GoodData公司和Birst公司。虽然公司把关键数据转移到云中尚存在挑战,但和其他地方一样,这里也开始发生了改变。
运营智能
通过执行搜索和查看图表,公司能够了解服务器故障的原因和其他基础设施问题。但这并不需要建立自己的脚本和软件,因为企业开始依靠Splunk这样的新运营智能公司。Splunk公司提供的软件包括基于内部部署的软件和基于云端的软件两种版本,IT工程师利用其软件来分析服务器、网络设备和其他设备生成的大量日志数据。Splunk公司也提供使用案例,涵盖了安全性和遵从性、应用程序管理、网络智能、业务分析等众多方面。
日志数据应用产品Sumo Logic和Loggly是这个领域新近的加入者。大型供应商如TIBCO公司(收购了LogLogic)、惠普公司(收购了ArcSight)以及Vitria公司也都有这方面的产品。
数据即服务
数据即服务(Data as a Service, DaaS)是一个跨越大数据基础设施和应用的领域。过去的公司一般先获得大数据集,然后再使用——通常难以获得当前数据,或从互联网上得到即时数据。但是现在,出现了各种各样的数据即服务供应商:邓白氏公司(Dun & Bradstreet)为金融、地址以及其他形式的数据提供网络编程接口,费埃哲公司(FICO)提供财务信息,Twitter为其推文提供访问权限。
这样的数据源允许他人在其基础上建立有趣的应用程序,而这些应用程序可以准确地预测总统选举的结果,或了解消费者对品牌的感觉。也有公司提供垂直式、具体的数据即服务,例如在线数据拍卖平台BlueKai公司提供与消费者资料相关的数据,交通驾驶服务系统供应商Inrix公司提供交通数据,律商联讯公司(Lexis Nexis)提供法律数据等。
数据清理
使用大数据的领域中,最乏味的大概就是数据清理和集成了,它却十分关键。内部和外部数据以各种格式存储,并且还包括错误和重复的记录。这样的数据需要经常清理才可以使用(或是实现多个数据源一起使用)。像企业数据集成解决方案提供商Informatica这样的公司早就在这个领域里发挥作用了。
就最简单的水平而言,数据清理涉及的任务包括删除重复记录和使地址字段正常化。展望未来,数据清理很可能成为一项基于云计算的服务。
数据保密
随着我们将更多的数据转移到云中,并将自己的信息更多地公布到网上,人们对于数据保密的关注也与日俱增。尽管匿名数据往往无保密性可言,但据一项研究显示,分析师们能够看到电影观赏的匿名数据,并通过评价用户张贴在互联网电影数据库(Internet Movie Database,IMDb)上的影评,来确定哪位用户观看了哪部电影。在最近几个月里,Facebook已经加强了对用户分享信息的控制。
在未来,可能出现这样的大数据应用程序:不仅让我们自己决定分享何种数据,也帮助我们了解分享个人信息背后的隐藏含义——无论那些信息对我们是否进行了个人识别。
大数据产业前景展望
无论是消费者聚焦型公司还是业务聚焦型公司,数据以及针对数据利用而设计的算法都正在成为公司一项特殊的基本资产。
鉴于其存储的大量文件,将文件共享和协作解决方案(Box公司和Dropbox公司)作为大数据应用程序是个不错的考虑。现在出现的越来越多的大数据应用程序都有一个垂直焦点。例如oPower公司从电力仪表中获取数据,帮助消费者和企业了解其功耗并采取行动,从而更有效地使用能源。Nest恒温器是一个学习型恒温器,它能够了解消费者的行为,并将算法应用到收集的数据中,从而更好地为家庭供暖和降温。
随着越来越多的大数据应用程序进入市场,基础设施供应商还有什么发展空间呢? 当涉及基于云的基础架构时,亚马逊很可能会提供一个颇具竞争力的产品,其影响几乎遍及每一个领域。而在不受其影响的领域,规模较大的开源基础设施供应商则可能会迅速抢占并提供基于云计算的产品。 如果历史是个风向标,那么这些大企业家——从EMC到IBM、甲骨文,可能将继续不亦乐乎地收购这些供应商。
展望未来,期待更多的大数据应用程序涌现,让消费者和企业将数据应用到工作当中。一些应用程序将帮助我们更好地了解信息——其中许多应用程序都不会止步于此,它们会走得更远,让现在必须依靠手工执行的大量活动——无论是发布博客文章以获得最佳读者还是开车去工作,全部实现自动化。
