04
数据分析周期
- 图4–2 数据分析周期图
数据科学家的角色和职责
- 图4–3 数据科学家工作流程图
发现
数据准备
模型计划
模型建立
交流结果
贯彻实施
大数据小组中的新角色
- 用户体验小组
- 新的高级管理角色
解放组织的创造力
- 图4–4 假设分析循环
小结

04

大数据的组织影响

大数据的一个更重要的影响就是为了支持和挖掘大数据机遇而进行的必要的组织变革或转型。组织不仅需要重新定义老的角色，还需要引进新的角色，为个体和组织创造机遇。本章的目的就是强调这些组织变革的可能，并在新的机遇出现前，准备好数据仓库和商业智能专业人才。

商业智能和数据科学（包括先进的统计、预测性分析、数据工程、程序编写以及数据可视化）扮演着不同的角色，需要不同的技能和方法。两者不能互相代替。实际上，两者非常互补，一方能够利用另一方的优势和核心竞争力。商业智能专注于尽可能详细地了解关键业务流程，以便创建能够支持这些关键业务流程的指标、报告、仪表盘、警报和基本分析。为了支持这些关键业务流程，商业智能分析经历了以下过程：捕捉业务用户的角色、责任和期待，确认在对这些业务流程的业绩进行衡量、捕捉、聚集、矫正和筛选时需要用到的指标，提供能够支持业务流程监控的数据。对业务流程的理解是连接商业智能和数据科学的关键。

图4–1和表4–1展示了商业智能和数据科学之间的互补性。商业智能被认为具有典型的回顾性——提供了后视镜视角来看待业务，关注发生了什么和为什么发生。数据科学则被认为具有典型的前瞻性——提供了挡风玻璃式的角度来看待业务，预测将要发生什么，挖掘深埋在大容量结构化和非结构化数据之中的“金砖”（洞见）。很多商业智能的实施方案确实包括了一些基础的分析方法，例如时间序列分析、与前期的比较以及假设分析，目的是帮助企业做出前瞻性决策，例如定价、目标客户和员工数量。

图4–1 分析过程的演变

表4–1 商业智能和数据科学

商业智能和数据科学最大的不同就在于它们适用的环境。商业智能分析师倾向于在高度结构化的数据仓库环境下工作。数据仓库环境通常由生产驱动，通过高级管理服务等级协议确保及时生成管理报告和仪表盘。通常需要花很长时间添加新的数据源（一般要几个月）或者征得同意获取数据仓库中更细粒度的数据和更多历史记录。

数据科学家会创建一个独立的分析沙盒，里面存放着他们能够得到的所有数据（包括内部和外部数据源）以及他们需要的任何粒度的数据和历史记录。一旦进入这样的环境，数据科学家就能自由地按照自己的意愿处理数据（例如数据分析、数据转换、创建新的综合指标以及分析模型的开发、测试和改进）。数据科学家需要一个这样的环境，让他们能够方便地探索数据，而且不需要考虑对产生管理报告和仪表盘的数据仓库和商业智能系统的性能产生的影响。表4–2清晰地概括了商业智能分析师和数据科学家工作的不同。

表4–2 商业智能分析师和数据科学家的职责

数据分析周期

成功的大数据组织持续地开发和发布客户、产品、运营以及市场方面与业务相关的洞见。这些组织需要开发一个全面的流程，不仅要定义如何挖掘洞见和发表洞见，还要清晰地定义角色、责任以及包括业务用户、数据仓库管理员、商业智能分析师和数据科学家在内的所有关键利益相关者的期望。让我们通过数据分析周期图，了解不同利益相关者之间的合作机制（如图4–2所示）。

图4–2 数据分析周期图

下面明确了每一个主要利益相关者的关键责任：

• 业务用户负责定义关键业务流程以及能够用来衡量这些业务流程的关键业绩指标。业务用户知道他们要试着回答什么问题、做出什么决定。他们想要利用能得到的数据和洞见来回答这些问题并做出决策。

• 数据仓库管理者负责定义、开发和管理数据平台。这类利益相关者曾经使用过数据仓库、数据集市和操作数据存储区这样的传统工具。新的技术创新使数据仓库管理者能够借助像Hadoop、内存内计算和数据联邦这样的新技术来增强他们的参与度。这些新的数据平台支持结构化和非结构化数据，提供接触企业内部数据的途径，并且选择流通在企业外部的数据源。这些现代数据平台同样支持实时数据的抓取和分析，使数据能够“缓慢流入”数据平台。

• 数据科学家负责挖掘企业数据以便对业务有新的认识。数据科学家是数据储存者，负责寻找新的数据资源，通过分析数据得到对企业关键业务流程的新认知。数据科学家需要一个工作环境（分析沙盒），在其中数据科学家能够自由地存储、转换、丰富、整合、查询以及可视化数据，从而寻找有价值的关系和埋藏在各种各样的数据资源中的洞见。数据科学家需要一个工作环境，既保证他们快速构建、测试和改进数据模型（以几分钟和几小时计算，而不是以几天和几星期），又能接受使用“尽可能多的失败”这种方法，让数据科学家对分析模型的质量建立信心。“尽可能多的失败”这种方法是指在分析模型开发和测试的过程中，数据科学家在尽可能多地尝试其他变量和算法并均以失败告终后，坚信得到的结果是最佳分析模型。

• 商业智能分析师负责识别、管理、呈现和发布业务用户用来监管和衡量业绩的关键指标。商业智能分析师开发报告和仪表盘，业务用户使用这些来运营业务和提供渠道，从而发布分析得到的洞见。实时的、预测性的企业愿景在这里得以实现。

• 数据分析周期最后又回到业务用户，他们使用报告结果、仪表盘和分析得到的洞见来运营他们的业务。正是业务用户和他们做出的决策的效果，最终决定了前期数据仓库管理者、数据科学家和商业智能分析师所做工作的效果。业务用户做出的决策产生的结果能够被捕捉并用来推动下一个数据分析周期。

这些不同的利益相关者扮演的角色、职能以及期望在不同的企业里是不同的，甚至在不同的项目里也是不同的。一些业务用户可能更习惯使用统计和预测性分析，可能自己去做一些分析工作。他们和商业智能分析师一样，希望通过高级分析和数据可视化技术拓宽自己的技能面。

需要注意的是，每一个利益相关者扮演的角色和职能主要和与其对应的关键业务流程有关。根据不同利益相关者的技能、能力以及关注的领域，他们扮演的角色和职能可能会随着关键业务流程的不同而发生变化。所以，我们更多地把这张周期图看成一个框架，这个框架给我们提供了某些层面上关于组织合作的指导，而不是一些忽视了不同利益相关者的个体技能和兴趣的固定的角色和职责。

数据科学家的角色和职责

我们将更深入地挖掘数据科学家扮演的角色和职责。图4–3中数据科学家的工作流程图给我们提供了一个全面的视角来了解数据科学家的发掘过程和分析过程。它强调了数据科学家的工作本身具有的高度重复性——不断重复多个步骤，以确保他们正在使用正确的分析模型来寻找正确的洞见。让我们来看看每个步骤对任务和技能有什么特别的要求。

图4–3 数据科学家工作流程图

发现

发现主要集中在数据科学家的以下活动中。

• 对业务流程和业务领域进行详细了解，包括确认业务用户用来衡量成功与否的关键业绩指标。

• 抓住业务用户在业务流程中想要问的最重要的业务问题以及业务决策。包括这些答案和决策出现的频率以及最佳时效。

• 评估可利用的资源（例如社交能力、数据管理和分析工具以及数据源），将业务问题设计为一个分析假设。同样在这个步骤中，数据科学家构建初步的分析发展计划，用来指导和记录作为结果的分析模型和洞见。

需要注意的是，我们需要在分析发展计划中确认在哪些生产和运营环境中需要公布分析得出的洞见？当数据科学家在计划中确认应用这些洞见和模型的领域时，这一信息就显得尤为重要了。

这是一个与商业智能分析师巩固合作关系的理想机会，他们很可能已经对支持业务计划所要求的指标和流程进行了规定。商业智能分析师会好好了解业务用户启动分析发展计划的决策环境和要求。

数据准备

数据准备主要集中于数据科学家的以下活动中。

• 提供一个分析工作区或者分析沙盒，让数据科学家能够摆脱生产数据存储环境的约束。理想情况下，分析环境的建立可以让数据科学家根据要求自己提供相应的数据空间和分析力，并且可以通过分析流程调整这些要求。

• 获取、清洗、对齐和分析数据。包括通过使用数据可视化技术和工具了解数据，辨别数据中的异常值（有必要的话进行删除），通过评估数据间的差距决定数据的整体质量，如果数据“足够好”，可以确定数据。

• 转化和丰富数据。数据科学家会尝试使用分析技术，例如对数转换和小波变换，来解决潜在的数据偏差。他们也会尝试使用数据提炼技术来创造新的复合指标，例如频率（多久一次）、回头率（最近一次是什么时候）以及顺序（按照什么顺序）。数据科学家会利用例如SQL（结构化查询语言）和Java这样的标准工具，以及商业和开放源代码ETL（提取转换加载）工具来转换数据。

在这一步的最后，数据科学家需要足够放心数据的质量和丰富度，才能进入分析发展流程的下一阶段。

数据科学家有多次机会和数据存储小组建立合作，特别是ETL小组，以便了解他们获得和使用了哪些加载工具和转换工具，写了哪些转换代码。

模型计划

模型计划主要集中于数据科学家的以下活动中。

• 作为分析模型开发的一部分，决定用于开发探索的不同的分析模型、方法、技巧以及工作流。数据科学家可能已经确信哪些分析模型和技巧是最合适的，但是有计划地对其他选择进行测试也不失为好的想法，因为这样可以确保不会错失更有预测性的模型。

• 确定变量之间的相关性和共线性，选择用于建模的关键变量。数据科学家想要确定尽可能多的产生因果关系的变量。数据科学家必须用到实践判断（而且这可能是重新与商业智能分析师以及业务用户接触的好机会），以确保选择的变量是有意义的。记住，相关性并不能保证有因果关系，所以在选择变量的时候一定要小心，不仅要有意义，而且要能够进一步对变量进行衡量。

模型建立

模型建立主要集中于数据科学家的以下活动中。

• 修改数据以支持测试、训练和生产。可能需要对新的转换技巧进行测试，以判断数据的质量、可靠性和预测能力能否得到提高。

• 评估预测性模型中的数据的可行性和可靠性。数据科学家需要对数据的质量和可靠性做出判断——数据是否足够好到可以用来开发分析模型。这可能需要再次测试不同的转换技巧，以判断数据的质量能否得到提高。

• 开发、测试并改进分析模型。组织测试是为了检测变量和分析模型能否产生质量最高、最具预测性并具有可行性的认知。

这是一个高度重复的步骤，需要多次修改数据、评估数据的可靠性、决定分析模型的质量和预测力。这不是一个直线型的过程，数据科学家会对不同的变量和模型进行测试，在经历了多次失败后才能找到正确的变量和模型。这就是分析模型开发过程中的艺术，数据科学家就像一位艺术家，把玩着数据，想看看数据和分析模型中能够迸发出怎样的预测力。这是一个充满乐趣的舞台！

交流结果

在交流结果这一步骤中，数据科学家主要做以下这些工作。

• 弄清分析模型以及分析结果的统计显著性、可衡量性和可行性。数据科学家需要确保分析过程和模型是成功的，并且达到了项目期望的分析目标。

• 制作图表和图形，传达分析模型得出的认知、结果和建议。包括业务用户、业务分析师和商业智能分析师在内的利益相关者必须对分析结果充分理解并且相信。如果这些利益相关者对结果没有信心，那么数据科学家的所有工作都是徒劳。

数据科学家与商业智能分析师是天然的盟友关系。他们很清楚地知道要给用户呈现什么以及如何呈现。他们明白业务用户的工作环境、呈现工具、目前的运营报告以及将来可能发布分析结果的管理仪表盘。商业智能分析师能够确保以一种可操作的方式将分析结果呈现给业务的利益相关者。

贯彻实施

在贯彻实施这一步骤中，数据科学家需要集中做以下这些工作。

• 提交最后的推荐意见、报告、概要、代码以及技术文件。

• 通过随机试验或者实验室分析来核实业务案例、投资回报率以及分析提升。

• 将分析模型落实到生产和运营环境中。这需要和应用小组及生产小组一起决定如何最好地呈现分析结果和得到的洞见。应用小组和生产小组有助于决定如何把分析模型投入应用，以将其运行在一个固定的、有计划的基础上。他们在分析发展计划时就应该考虑这件事。

• 将分析结果和管理仪表盘、运营报告体系进行整合，其中运营报告体系包括呼叫中心、销售系统、采购系统以及财务系统。

在这个阶段，数据科学家和商业智能分析师之间的合作是非常宝贵的。许多商业智能分析师已经将报告和仪表盘融入了运营系统，并通过建立卓越中心在企业内传播分析技巧。

大数据小组中的新角色

大数据促使组织重新思考如何去管理、培育和保护它们新的大数据资产——分析认知、分析模型和数据。让我们回顾一下需要被添加到大数据小组中的三个新的重要角色。

用户体验小组

领先的大数据组织开始意识到，如果你不能以直观可行的方式将大数据分析结果呈现给业务的利益相关者，就没有任何意义。这些组织意识到它们需要让用户体验小组成为大数据小组的一部分。

当我在雅虎工作的时候，我很幸运地和两个经验丰富的用户体验设计师共事过。他们教给了我一个可操作且简洁的用户界面的价值。像雅虎、亚马逊和eBay这样的互联网公司是最早认识到用户体验小组重要性的公司。很快，其他公司也将“以用户为中心的设计”作为核心元素，意图开发能够吸引用户兴趣的产品和服务。我们这样定义“以用户为中心的设计”：

以用户为中心的设计要求在设计的每一个阶段，都要密切关注产品的最终用户的需求、想法和局限性。以用户为中心的设计可以看作一个多阶段的解决问题的过程，不仅要求设计者分析并预见用户使用产品的方法，也要求他们对关于用户在实际使用中的行为假设的正确性进行测试。

用户体验小组的架构师和设计师教给我一些重要的用户体验工具和技巧，例如：

• 人物角色：记录并清晰地了解使用特征、决策过程以及目标用户的工作环境。

• 故事板：捕捉用户对使用体验的要求、对导航的要求以及使用模式。

• 线框图：用户体验要求在其中起作用，特别是关于如何通过界面导航找到必要的信息（例如页面上的所有信息，最多点击两下就能获得）。

• 动画编辑模型：让目标用户和模型交互，以确认用户体验方面的设计缺陷、导航问题以及不准确的使用假设。

新的高级管理角色

组织开始意识到需要将它们的数据和分析方法当作战略资产。这就催生了两个新的高级管理角色：首席数据官和首席分析官。这两个新的角色将主动参与管理公司数据资产、分析知识产权。

首席数据官负责获取、存储、提炼以及利用公司的数据资产。担任这个职务的人需要有经济或金融背景，因为他们需要赋予他们拥有或者想拥有的数据以经济价值。首席数据官有以下职责：

• 数据盘点。很多组织甚至不知道自己有哪些数据源，所以这个角色就要负责清点数据源、编制目录（找出不必要的数据采购）并且决定数据目前的使用状况（决定组织是否应该继续获取这些数据）。这个角色还担当了决定性的重任，负责确认能够获得的外部数据资源，并赋予其价值。

• 数据的经济价值评估。建立一个框架，围绕这个框架决定该组织的数据的经济价值，特别是想要获得更多外部数据、伙伴方数据和第三方数据的企业。

• 数据货币化。创建一个能够持续对组织的数据资产进行估值的流程，通过先进的决策机制、将数据和实物产品相结合或者将数据包装后转售给其他组织等方法，寻求数据货币化的机遇。

• 配置设备。制定战略，决定如何在运营平台、网络平台以及移动平台布置标签、无线电发射器和传感器，以收集关于客户、产品和运营的数据。

• 制定并强力执行一整套数据管理规则，确保企业上下能够一致地管理重要的数据资产，保证合理程度的数据整洁和准确。

首席分析官负责捕捉并追踪组织开发部署的分析模型和分析结果。理想的首席分析官可能拥有法律学位，能够依法保护组织在分析方面的知识产权，包括组织的数据模型、分析模型和分析算法。首席分析官这个角色的职责有：

• 分析资产：与数据科学小组合作，清点组织的分析模型和算法，编制目录。

• 分析方法估值：建立一个框架和流程，对组织的分析资产进行估价。

• 知识产权管理：开发流程、管理知识产权资源库，以提供知识产权的获取和分享（登记、检查和版本管理）。

• 专利申请：管理专利申请，跟踪专利提交的进程，以达到保护组织的核心分析知识产权的目的。

• 知识产权保护：监督行业内分析方法的使用情况，确认潜在的知识产权的侵权行为，借助诉讼途径或者要求签订许可协议来阻止此类侵权行为。

• 知识产权货币化：积极寻找商业伙伴和商业机会，出售组织在分析方面的知识产权或者颁发知识产权的使用许可证。

我们看到组织想要拓展数据科学小组和高级领导角色，深入挖掘大数据带来的竞争性优势。用户体验小组强有力的加入，使得数据科学小组能够少有地专注于一项工作——确保在正确的时间以最可行、最确切的方式将正确的分析方法传递到正确的用户手中。首席数据官和首席分析官也要确保组织以恰当的方式获取、管理、包装以及评估数据和分析方面的知识产权。另外，首席执行官的某些职责的重点和成功与否要看这些资产货币化的程度。

解放组织的创造力

关于不知道正确答案的痛苦。组织在决定正确答案的过程中苦苦挣扎，为了证明谁的答案更正确引发了大量不必要的争论和分歧。它们甚至给这个令人无力的过程取了名字——分析瘫痪症，争论各方用似是而非的报道和反驳性的观察来证明自己的答案是正确的。好消息是实验和单元测试的概念能够真正将组织从分析瘫痪症中解脱出来，为组织提供一条指引行动的道路，而不是更多的争论、挫败和分析瘫痪症。

对很多组织来说，实验和单元测试的概念是个舶来品。互联网公司（例如雅虎、谷歌、脸谱网、亚马逊）和精准营销组织已经将这两个概念深植于它们的分析过程和客户互动过程中。它们利用实验和单元测试的概念解放了组织的思维方式——自由地探索新的想法，验证直觉，但却是用科学的态度，基于可靠的证据，形成新的组织思考模式。

让我们看看你的组织要如何将这些概念融入大数据战略。首先，我们要定义这两个关键概念：

• 实验包括做实验的行为、过程、实践或实例，是一种测试或者尝试的过程，一种旨在发现未知事物或者测试某个原理或假设的行为或做法。

• 单元测试是在生产或制造领域中，衡量和控制过程变量的科学方法。

同时使用这两个概念能够将组织从分析瘫痪症中解脱出来，摆脱无法确定做哪个决定时的艰难感受。例如，我应该提价10%还是降价10%？我应该用紫色的还是红色的广告？我应该提交推广方案A还是推广方案B？

同时使用这两个概念能够加速创造性假设思维过程，这对于尝试接受大数据的组织来说是非常重要的。假设分析的循环能够帮助组织在高级分析和数据科学方法论下对新的数据源的商业潜能有更深的理解，这些数据既包括新的结构化或非结构化数据，也包括企业内部和外部数据（如图4–4所示）。

图4–4 假设分析循环

这种假设分析循环会帮助组织自由地争论不同的想法，而不需要提前担心这些想法是否正确。组织可以接受一种实验环境，以鼓励新想法自由流动。组织可以让结果来告诉它们哪个想法是正确的，而不是听从最有说服力或者职务最高者的决定。它促使组织挑战传统的思考方式，启发创造性思维，让潜在的、有价值的想法浮现出来。你不再需要花费无休止的时间去讨论谁的想法是正确的，你可以将想法拿去实验，让数据告诉你答案！

让我们举例说明使用假设分析循环需要经历的步骤：

确定一个你要验证的假设或理论。例如，我相信我的目标受众会更愿意回应方案A，而我的同事认为方案B会更受欢迎。
创建一个实验（例如一个与要验证的案例相对应的实验环境）来证明或驳斥假设。我们同样希望确认用来测试实验结果的指标（例如点击率、商店人气和销售额）。在这个例子中，我们要创建一个实验测试三个案例：方案A、方案B以及控制组。我们将使用采样技术来选择实验和控制变量，确保其他的潜在变量在实验中保持不变（比如一天中的同一时刻、同样的受众特征等。）。
给所有案例安装仪器以衡量实验结果。在这个案例中，我们想要确保这三个案例都被合适地“贴上了标记”，我们捕捉了所有的相关数据，可以决定谁回应了哪个方案，谁没有回应，以及他们回应的结果。
进行实验。在我们的实验中，我们要决定实验开始和结束的时间，进行实验，捕捉相关数据和结果，然后得出结论。
量化实验结果。我们将查看实验结果，测试谁点击了哪个广告，确定最终的结果并宣布赢家。更重要的是，我们接下来要做下一个实验。

一个使用实验和单元测试的组织对这两个想法对假设分析循环的影响进行了实验，让数据告诉我们哪一个是正确的。假设分析循环借助实验和单元测试促进组织自由地探索和试验新的想法，推着组织向前走而不是困在分析瘫痪症里。实际上，大数据是反分析瘫痪症的，它为组织提供数据、工具以及方法去测试想法，从测试中学习并前进。

小结

本章讲述了大数据对组织的影响，特别是将数据科学家纳入组织现有流程所产生的影响。我列出了一个工作流程图，清晰定义了每一个关键利益相关者——业务用户、数据仓库管理者、数据科学家和商业智能分析师的角色、职责以及期望，以确保针对某个业务流程能够加强合作。

本章继续深入挖掘数据科学生命周期的一部分，即数据科学家的特殊角色和职责。我描述了在数据科学生命周期的不同阶段中数据科学家的每一个关键任务，也确认了一些特殊的领域，在这些领域中加强与数据仓库小组、数据加载小组、商业智能小组的合作将有益于数据科学家。

接下来，我提到了根据大数据的需求和潜能新添的组织角色，讨论了相对于大数据组中的其他成员，用户体验小组的重要性以及职责。我也提到了新的高级管理角色——首席数据官和首席分析官，这些角色的重要本质是获取、补充、保存甚至从法律上保护正在成长的大数据资产组合。

最后，我讲述了实验文化带来的释放效应——加速了组织的假设思考，以及实验的概念是如何解放个人和组织的创造力的。