2012年在法国举行的铁人三项赛的起跑线出奇地安静,空气中弥漫着紧张的气息。2 500名健儿已做好入水准备,对有些人来说,他们要在接下来的16个小时里完成一生都难以企及的目标。这项运动始于1978年,当时仅有15人参加,而如今已成为一项全球性的运动,因在夏威夷科纳举行的一年一度的世界锦标赛而闻名。

    和众多运动员一样,铁人三项赛的参赛者也需要依靠数据驱动。此项比赛由3.8公里的游泳、180公里的自行车和紧随其后的42.195公里的全程马拉松组成。要完成整个比赛,运动员需要集中精神、持之以恒并训练有素,同时它还要求参赛者具备惊人的体力。铁人三项赛的参赛者在比赛中会消耗8 000~10 000卡路里的能量。换种方式来说,一般人平均每日消耗2 000~2 500卡路里。营养补给通常被视为铁人三项的第四项,营养补给情况能决定一个运动员是可以完成比赛,还是会体力耗尽。

    因此,不管是准备参赛还是完成这项运动本身都必须对数据给予高度重视。没锻炼到一定公里数的运动员就会在比赛当天耐力不足,从而无法完成比赛。而即便是训练有素的运动员,若营养和水分补给不足,也迈不过终点线。

    在2011年秋季,我下定决心要参加铁人三项赛。在接下来的9个月中,我不断深入了解训练之道和营养学说,并收集了大量关于我的个人体质和健康状况的数据——比以往任何时候都要多。我常常将自己的训练数据上传到一个叫作Garmin Connect的网站上,该网站的创建者是众所周知的全球定位系统(GPS)的发明者。引人注目的是,到2013年3月,运动员们在Garmin Connect网站上记录的训练数据已近48亿公里。同时,运动员们还将海拔增益和损耗、速度、单车每分钟的转数、卡路里消耗量和心率数据记录在上面。而训练之余,他们也会上传自己的体重、身体脂肪率、身体含水率、肌肉量、日摄取卡路里数等健康指数。

    人们也许会认为,对这样一个巨大的数据量进行收集、存储和分析会花费上千甚至上万美元。但事实是,现在内置GPS的手表不用100美元就能买到,而可以计算身体组成的体重秤也差不多是这个价格。现在有各式各样的测量设备,而且有很多简单易操作的免费和低价的记录应用程序,适用于苹果手机和搭载安卓系统的设备。而且,Garmin Connect网站本身提供的就是免费服务。

    空标题文档 - 图1
    可收集大量数据,并有零成本存储和分析大量数据的能力——这种低成本设备和应用程序的结合正凸显了大数据的能量所在:它不仅仅服务于大型企业,更是服务于万千大众。

    量化自我,关注个人健康

    DNA测试和数据分析公司23andMe将眼光放得更远,它并非仅限于个人健康信息的收集和分析,而是将大数据应用到了个人遗传学上。自2006年由谷歌联合创始人谢尔盖·布林(Selgey Blin)的妻子安妮·沃西基(Anne Wojcicki,同时也是公司的首席执行官)创办以来,公司已分析了超过18万人的唾液。

    通过分析我们的基因组数据,公司确认了个体的遗传性疾病,如帕金森氏病和肥胖症等遗传倾向。通过收集和分析大量的人体遗传信息数据,该公司不仅希望可以识别个人遗传风险因素以帮助人们增强体质并延年益寿,而且希望能识别更普遍的趋势。通过分析,公司已确定了约180个新的特征,如所谓的“见光喷嚏反射”,即人们从阴暗处移动到阳光明媚的地方时会有打喷嚏的倾向;还有一个特征则与人们对药草、香菜的喜恶有关。

    事实上,利用基因组数据来为医疗保健提供更好的洞悉是自1990年以来所做努力的合情合理的下一步。人类基因计划组(HGP)绘制出总数约有23 000组的基因组;而这所有的基因组也最终构成了我们的DNA。这一项目费时13年,耗资38亿美元。

    值得一提的是,存储人类基因数据并不需要多少空间。有分析显示,人类基因存储空间仅占20兆字节,和在iPod中存几首歌所占的空间差不多。这怎么可能呢?其实随意挑选两个人,他们的DNA约99.5%都完全一样。因此,通过参考人类基因组的序列,我们也许可以只存储那些将此序列转化为个人特有序列所必需的基因信息。

    DNA最初的序列在捕捉的高分辨率图像中显示为一列DNA片段。虽然个人的DNA信息以及最初的序列形式会占据很大空间,但是,一旦序列转化为DNA的As,Cs,Gs和Ts,任何人的基因序列就都可以被高效地存储下来。

    数据规模大并不一定能称其为大数据。真正体现大数据能量的是不仅要具备收集数据的能力,还要具备低成本分析数据的能力。虽然,人类最初的基因组序列分析耗资约38亿美元,不过,如今,你只需花大概99美元就能在23andMe网站上获取自己的DNA分析。业内专家认为,这个价格是补贴后的价格,因为个人DNA分析的真正价格会更高——500~1 000美元不等。即便如此,基因测序成本在短短10年内已跌了几个数量级。

    当然,仅有DNA测序不足以提升我们的健康,我们也需要在日常生活中做出改变。

    Fitbit公司的目标是,通过使保持健康变得有趣来让其变得更简单。该公司所售的一项设备可以跟踪你一天的身体活动,还有晚间的睡眠模式。Fitbit公司还提供一项免费的苹果手机应用程序,可以让用户记录他们的食物和液体摄入量。通过对活动水平和营养摄入的跟踪,用户可以确定哪些有效、哪些无效。营养学家建议,准确记录我们的食物和活动量是控制体重的最重要一环,因为数字明确且有说服力。Fitbit公司正在收集关于人们身体状况、个人习惯的大量信息。如此一来,它就能将图表呈现给用户,从而帮助用户直观地了解自己的营养状况和活动水平,而且,它能就可改善的方面提出建议。

    耐克公司有意推出类似Nike+FuelBand的产品,即一条可以戴在手腕上收集每日活动数据的手环。这一设备采用了内置加速传感器来检测和跟踪每日的活动,诸如跑步、散步以及其他体育运动。加上Nike Plus网站和手机应用程序的辅助,这一设备令用户可以更加方便地跟踪自己的活动行为、设定目标并改变习惯。耐克公司提供的服务还不止这些,它也为知名的Xbox 360游戏系统提供训练计划,使用户在家也能健身。使用这一款软件,用户就可以和朋友或其他人实实在在地在健身区一起训练。这一想法旨在让健身活动更有乐趣、更加轻松,同时也更社交化。和一群人一起训练的人会受益——会更有动力、更具责任感并且培育出群体情谊。

    另一款设备是可穿戴技术商身体媒体公司(Body Media)推出的BodyMedia臂带,它每分钟可捕捉到5 000多个数据点,包括体温、汗液、步伐、卡路里消耗及睡眠质量等。这种臂带还上了NBC减肥的真人秀节目——《大输家》。

    Strava公司通过将这些挑战搬到室外,把现实世界的运动和虚拟的比赛结合在一起。公司推出的适用于苹果手机和安卓系统的跑步和骑车程序,为充分利用体育活动的竞技属性而经过了专门的设计。健身爱好者可以通过拍摄各种真实的运动片段来角逐排行榜,比如挑战单车上险坡等,并在Strava网站上对他们的情况进行比较。同时,公司也提供步伐、力量和心率分析以帮助运动员进步。

    据出自美国心脏协会(American Heart Association)的文章《非活动状态的代价》(The Price of Inactivity)称,65%的成年人不是肥胖就是超重。自1950年以来,久坐不动的工作岗位增加了83%,而仅有25%的劳动者从事的是身体活动多的工作。美国人平均每周工作47个小时,相比20年前,每年的工作时间增加了164个小时。而肥胖的代价就是,据估计,美国公司每年与健康相关的生产力损失高达2 258亿美元。因此,类似Fitbit和Nike+ FuelBand这样的设备对不断推高医疗保健和个人健康的成本确实有影响。

    另一个苹果手机的应用程序可以通过审视面部或检测指尖上脉搏跳动的频率来检查心率。生理反馈应用程序公司Azumio的程序被下载了2 000多万次,这些程序几乎无所不能,从检测心率到承压水平测试都可以。再过些时日,随着前来体验测量的用户数据不断增加,公司就足以提供更多建设性的保健建议。

    Azumio公司已推出了一款叫“健身达人”(Fitness Buddy)的健身应用程序——ESPN杂志对其做了相关介绍。该公司还推出了一款叫作“睡眠时间”(Sleepy Time)的应用,它可以通过苹果手机检测睡眠周期。这样的应用程序为大数据和保健相结合提供了有趣的可能性。通过这些应用程序收集到的数据,我们可以了解正在发生什么以及我们的身体状况走势怎样。比如说,如果我们心率不齐,就表示我们的健康状况出现了某种问题。通过分析数百万人的健康数据,科学家们可以开发更好的算法来预测我们未来的健康状况。这些应用也可以就“要改善我们的身体健康,我们需要做哪些改变”这一问题,给出更好的建议。

    回溯过去,检测身体健康发展情况需要用到特殊的设备,或是不辞辛苦、花费高额就诊费去医生办公室问诊。新型应用程序最引人瞩目的一面是:它们使得健康信息的检测变得更简单易行。

    低成本的个人健康检测程序以及相关技术甚至“唤醒”了全民对个人健康的关注。量化自我(Quantified Self)是“用户和工具创造者的一种合作,旨在个人对自我数据的收集来了解自身的身体状况。”量化自我运动的创始人是《连线》杂志的前编辑凯文·凯利(Kevin Kelly)和加里·沃尔夫(Gary Wolf)。沃尔夫因他在TED的演讲《量化自我》(演讲中他指出了我们可以收集的所有自身数据)以及他2010年在《纽约时报》上发表的一篇题为《数据驱动生命》(The Data Driven Life)的文章而出名。

    空标题文档 - 图2
    新应用程序表明,当配备合适的软件时,低价的设备或唾手可得的智能手机可以帮助我们收集到很多健康数据。将这种数据收集能力、低成本的分析、可视化云服务与大数据以及个人健康领域相结合,将在提升健康状况和减低医疗成本方面发挥出巨大的潜力。

    大数据带来的医疗新突破

    就算有了这些应用程序,我们依然需要去看医生。大量的医疗信息收集工作依然靠纸笔进行。纸笔记录的优势在于方便、快捷、成本低廉。但是,因为纸笔做的记录会分散在多处,这就会导致医疗工作者难以找到患者的关键医疗信息。

    美国《卫生信息技术促进经济和临床健康法案》(HITECH)颁布于2009年,旨在促进医疗信息技术的应用,尤其是电子健康档案(EHRs)的推广。法案也将在2015年向医疗工作者给予经济上的激励,鼓励他们采用电子健康档案,同时会对不采用者施以处罚。电子病历(EMRs)是纸质记录的电子档,如今许多医生都在使用。相比之下,电子健康档案意图打造病人健康概况的普通档案,这使得它能被医疗工作者轻易接触到。医生还可以使用类似drchrono的新型应用程序,在苹果平板电脑、苹果手机、搭载安卓系统的设备或网页浏览器上收集病人的信息。除了可以收集过去用纸笔记录的信息之外,医生们还将通过这些程序实现从语言转换到文本的听写、收集图像和视频等其他功能。

    电子健康档案、DNA测试和新的成像技术在不断产生大量数据。收集和存储这些数据对于医疗工作者而言是一项挑战,也是一个机遇。不同于以往采用的封闭式的医院IT系统,更新、更开放的系统与数字化的病人信息相结合可以带来医疗突破。

    事实上,IBM的沃森计算机,即赢得《危险边缘》比赛的那台著名计算机,正在被纪念斯隆·凯特琳癌症中心(Memorial Sloankettering Cancer Center)使用,以开发出更好的癌症治疗所需的决策支持系统。通过分析电子健康档案和学术研究,沃森计算机有望为医生们提供更好的数据信息,帮助医生们制订出癌症治疗的方案。

    如此种种分析也会给人们带来别样的见解。比如说,智能系统可以提醒医生使用与自己通常推荐的治疗方式相关的其他治疗方式和程序。这种系统也可以告知那些忙碌无暇的医生某一领域的最新研究成果。这些系统收集、存储的数据量大得惊人。越来越多的病患数据会采用数字化形式存储。不仅是我们填写在健康问卷上或医生记录在表格里的数据,还包括了苹果手机和苹果平板电脑等设备以及新的医疗成像系统(比如X光机和超音设备)生成的数字图像。

    就大数据而言,这意味着未来将会出现更好、更有效的患者看护,更为普及的自我监控以及防护性养生保健,当然也意味着要处理更多的数据。其中的挑战在于,要确保数据并不仅仅是为了收集而收集,而是要能够为医疗工作者以及个人提供重要的见解。要收获大数据应用于保健领域所带来的好处,使收集和查看数据变得更简单是小而重要的一步。

    CellMiner,对抗癌症的新工具

    2011年12月,我父亲给我发了一封很奇怪的邮件。父亲持化学博士学位,对数据非常着迷。他做了一些检查,显示他的PSA明显高于正常水平。我后来才知道,PSA就是指前列腺特异抗原。

    PSA偏高与前列腺癌症紧密相关。这就引出了两个重要问题:一是我父亲是否真的患上了癌症,二是我父亲又将如何面对这一现实。检查本身并没有显示有癌细胞,而PSA偏高的人通常会被诊断出患有前列腺癌。是否所有PSA高的人都患有癌症,这难以确诊。而选择于他而言,既简单又复杂。一方面他不用采取任何行动。和我聊天的一位医生说起:“通常患者一般死于其他的因由。”但是,我父亲必须得承受病症慢慢加重的心理压力,也许终有一日会遍至全身,而他已无力解决。另一方面,他可以采取行动,比如进行一系列的治疗,从激素治疗到手术切除,再到完全切除前列腺,但结果也可能更遭。

    “那我该怎么办?”父亲询问医生。而医生能给出的唯一答案是:“这就在于你自己了,这关系到你自己的性命。”

    父亲最终选择了激素治疗。在治疗过程中,他患上了抑郁症,常出冷汗,长时间难以入睡。几个月后,一项发表的研究表示,前列腺癌的最佳治疗方法就是完全不要去做检查。很明显,前列腺癌细胞可以从与检查相关的微观孔中逃脱。

    这其中包含两个数据使用方面的重要经验教训。

    • 数据可以帮助我们看的更深入。数据可以传送更多的相关经验,使得计算机能够预知我们想看的电影、想买的书籍。但是,涉及医药治疗时,通常来说,就如何处理这些见解这一问题,制订决策可不容易。
    • 数据提供的见解会不断变化发展。这些见解都是基于当时的最佳数据。正如试图通过模式识别出诈骗的诈骗检测系统在基于更多数据时能配备更好的算法并实现系统优化一样,当我们掌握了更多的数据后,对于不同的医疗情况会有不同的推荐方案。

    对男性来说,致死的癌症主要是肺癌、前列腺癌、肝癌以及大肠癌,而对于女性来说,致死的癌症主要是肺癌、乳腺癌和大肠癌。抽烟是引起肺癌的首要原因。1946年抽烟人数占美国人口的45%,1993年降至25%,到了2010年降至19.3%。但是,肺癌患者的五年生存率仅为15%,且这一数字已经维持40年未变。尽管1971年时任总统的理查德·尼克松(Richard Nixon)宣布要全民抗癌,但目前仍没有癌症防治的通用方法。很大原因在于癌症并不止一种——目前已发现200多种不同种类的癌症。

    美国国家癌症研究所(NCI)隶属于美国国立卫生研究院(National Institute of Health),每年用于癌症研究的预算约为50亿美元。癌症研究所取得的最重大进展就是开发了一些测试,可以检测出某些癌症,比如2004年开发的预测结肠癌的简单血液测试。其他进展包括将癌症和某些特定病因联系在一起。比如1954年一项研究首次表明吸烟和肺癌有很大关联,1955年的一项研究则表明男性荷尔蒙睾丸素会促生前列腺癌,而女性雌激素会促生乳腺癌。当然,更大的进展还是在癌症治疗方法上。比如,发现了树突状细胞,这是提取癌症疫苗的基础;还发现了血管,就是肿瘤通过生成一个血管网,为自己带来生长所需的氧气的过程。

    最近,大数据发挥了更大的作用。举个例子,美国国家癌症研究所研制的“细胞矿工”(CellMiner)是一个基于网络的工具,它为研究人员提供了大量的基因公式和化学复合物数据。这样的技术让癌症研究变得高效。过去,处理这些数据集意味着要处理运作不便的数据库,因而,分析和汇聚数据也就异常艰难。从历史角度来看,想用数据来解答疑问和可以接触到这些数据的人不重叠且有很大代沟。而如“细胞矿工”一样的科技正是缩小这一代沟的工具。研究者们用“细胞矿工”的前身,即一个名为“对比”(COMPARE)的程序来确认一种具备抗癌性的药物,事实证明,它确实有助于治疗一些淋巴瘤。而现在,研究者们使用“细胞矿工”弄清生物标记,以了解治疗方法有望对哪些患者起作用。

    空标题文档 - 图3
    研究者认为,影响力最大的因素之一是可以更容易地接触到数据。这对于癌症研究者,或是对那些想充分利用大数据的人而言是至关重要的一课——除非收集到的大量数据可以轻易为人所用,否则他们能发挥的作用就很有限。大数据民主化,即开放数据,至关重要。

    大数据提高医疗保健系统的效率

    根据美国疾病控制中心(CDC)显示,心脏病是美国的第一大致命杀手,每年250万死亡人数中,约有60万人死于心脏病,而癌症紧随其后。在25~44岁的美国人群中,1995年,艾滋病是致死的头号原因,而如今艾滋病已降至第六位。死者中每年仅有2/3的人死于自然原因。那么那些情况不严重但影响深远的疾病又如何呢,比如普通感冒?据统计,美国民众每年总共会得10亿次感冒,平均每人3次。普通感冒是各种鼻病毒引起的,其中大约有99种已经排序,种类之多是普通感冒长久以来如此难治的根源所在。

    虽然无法立刻找出治愈方法,但科学家们已经发现了组成不同种类病毒的蛋白质的共性,这也许在不久的将来会带来突破。

    据美国人口调查局(US Census Bureau)和人口基金会(United Nations Population Fund)统计,截止到2011年10月31日,地球上共住着70亿人口。大数据在医疗保健方面的应用并不仅限于指出非自然死亡的原因,同样也可以增加医疗保健的机会、提升生活质量、减少因身体素质差造成的时间和生产力损失。

    2011年,美国在医疗保健上花费27万亿美元,即人均8 650美元。随着人均寿命增长,婴儿出生死亡率降低,更多的人患上了慢性病,并长期受其困扰。如今,因为注射疫苗的小孩增多,所以减少了五岁以下小孩的死亡数。而除了非洲地区,肥胖症已成为比营养不良更严重的问题。在比尔与美琳达·盖茨基金会(Bill & Melinda Gates Foundation)以及其他人资助的研究中,科学家发现,虽然世界人口寿命变长,但大家的身体素质却下降了。所有这些都表明我们亟需提供更高效的医疗保健,尽可能地帮助人们跟踪并改善身体健康。

    智能的城市,更好的生活

    大数据不仅通过改变我们的生活方式提升了我们的身体健康状况和幸福感,它也在改变我们的生活环境。据世界银行(World Bank)提供的消息可知,智能城市有望构建更好的机制,促进城市发展。它们的目的在于“提高收集、分析和引导数据的能力,从而通过加大科技利用来帮助市政部门制定更优决策。”而谈及“城市数据”时,联合国人居中心(UN Habitat)的克里斯托弗·威廉姆斯(Christopher Williams)说道:“关于城市数据,我们今天所处的水平和20世纪30年代的数据水平持平”。

    如今,世界上超过一半的人口居住在城市里,到2050年这一数字会增长到3/4。收集城市数据的一大挑战在于将收集到的数据标准化。不同城市有各式各样的数据收集方式,收集到的数据类型也不统一,这就加大了比较不同城市间的数据以发展最佳做法的难度。但是可以收集到相关数据的城市,能够在基建设施的投资方面做出更好的决策。如果考虑到这类投资可能的持续时长,这样的决策就很重要。

    智能能量计等设备已经能测量能源消耗,并告知用户能量使用详情。在旧金山等城市,智能停车表可以汇报街道上是否还有停车位,而司机通过简单易用的手机应用程序就能获得这些数据。这些智能停车表上搭载来自PayByPhone的产品,它能让人们通过手机拨号或者使用移动应用来支付停车费。如今,该公司推出的产品约有300万用户,遍及180个城市,包括伦敦、迈阿密、温哥华和旧金山。

    同时,这些应用程序也让大城市的出行变得更便利。CabSense公司通过分析纽约市出租车和轿车委员会(New York City Taxi&Limousine Commission)以及其他途径收集到的数据,告诉用户一周中的哪一天、哪个时间段、哪个地方的街角最容易拦到出租车。CabSense公司已经对上千万的历史数据点进行了分析,并通过这些数据将每个街角分为5个等级。

    其他应用程序则能告诉用户利用公共交通运输的最佳途径,甚至包括离出口最近的地铁车厢号。把城市提供的这些应用程序(或至少是赞助了它们的开发用)和私人应用程序开发者对公共数据的创新利用相结合,城市导航将变得更加便捷,而且市政府也可以深入了解哪些服务最有益于城市居民。对智能城市而言,移动设备应当是收集重要数据的最便捷的方法之一,借由这些数据,智能城市可以改善服务,作出更好的基建投资决策。

    移动手机,贴身的医生

    这一概念自1966年在《星际迷航》(Star Trek)中出现以来,差不多已过去了50年。如今,掌上三度仪已成为了现实。智能手机的应用程序可以测量我们的心率和压力水平。低成本智能手机的附加软件可以测量血糖水平,甚至能在家中发出超声波。这些消费者应用软件和设备有望使一些医疗方面,至少是健康监测,得到更广泛的应用并更具成本效益。这些设备生成的数据不仅能提供有助于医生诊断下药的患者信息,也能为需要大量数据进行研究的科学家提供有用信息。对于推动保健技术的普及,安装了低成本医疗附加软件的智能手机应该是最价廉且最有效的方式。

    有人估计,全球使用智能手机的人数超过10亿人,而很快,到2015年使用人数还会增加10亿人。在撒哈拉沙漠以南的非洲,手机联网正不断普及,覆盖率在2011年已超过62%。据一位作家称,智能手机的覆盖率紧随其后。这些内置了网络连接的设备使得人们汇报数据和查看更新变得方便、快捷。就如大数据的其他领域一样,改善医疗和普及医疗的进展前景位于两者的交汇处——相对低价的数据收集感应器的持续增多(如苹果手机和为其定制的医疗附加软件)以及这些感应器生成的大数据量的攀升。通过把病例数字化和能为医生提供更优信息的智能系统相结合,不管是在家还是医诊室,大数据都有望对我们的身体健康产生重大影响。