第9章
    预测判断

    谷歌子公司Waymo(一家研发自动驾驶汽车的公司。——译注)等企业已经成功地测试了在两地之间用无人驾驶汽车运送乘客了。但这只是开发自动驾驶汽车的一部分。驾驶对车内乘客同样有影响,只是更难观察。然而,人类驾驶员的确会考虑到车内的其他人。踩刹车时要按车内其他人舒服的方式来踩,就属于新司机要学习的头等大事之一。故此,Waymo的技术人员必须教旗下的汽车避免紧急制动,而是平缓地停下。

    涉及驾驶的决定有数千个。让人类把对每一可能情况的判断进行编码未免不切实际。所以,我们另辟蹊径,给自动驾驶系统展示许多例子,训练它们,让它们学习预测人类的判断——“在这种情况下,人类会怎么做?”驾驶并非特例。凡是人类会一次次做决定的环境,我们都能够收集有关人类接收信息并做出反应的数据,通过给预测机器提供回报来使之生成预测(“人类会怎么做呢?”),从而自动得出决策。

    至少对人类来说,一个根本的问题是,人工智能能否依据人类此前的判断发挥预测能力,并且在此过程中完全不需要人类的干预。

    破解人类

    许多决定非常复杂,并且要根据并不容易进行编码的判断进行预测。但这并不能保证人类还能在这些决定里保持核心地位。相反,一如自动驾驶汽车,机器可以通过观察大量的例子来学习怎样预测人类的判断。要预测的问题变成:“给定输入数据后,人类会做什么?”

    Grammarly公司(一家提供英语语法纠错以及句式优化功能的教育科技公司。——译注)提供了一个例子。2009年,亚历克斯·舍夫琴科(Alex Shevchenko)和马克斯·利特温(Max Lytvyn)创办了Grammarly,率先使用机器学习来修改正式的书面材料。它的主要重点是改进句子中的语法和拼写。(此处原文为:It’s main focus is on improving grammer and spelling in sentences.——译注)例如,把这句话的英文原文放进Grammarly软件,它会告诉你,“It’s”应该是“Its”,而且“grammer”拼写错了(应为“grammar”)。它还会告诉你,“main”这个单词容易滥用。

    Grammarly软件能做出这些修正,既是靠着一套由资深编辑修正过的庞大语料库来学习的,也靠着从用户接受或拒绝这些修订建议的反馈来学习的。Grammarly通过这两种方式来预测人类编辑会怎么做。它远远不只是机械地运用语法规则,而是还会评估人类读者是否偏爱不那么完美的语法。

    人类能对人工智能进行训练,这一设想可以扩展到各种各样的情况。旅游人工智能初创公司Lola试图对预订旅行的流程进行自动化,它以人工智能为核心,从寻找优秀的酒店入手。但正如《纽约时报》的报道:

    (它)跟有着多年经验的人类中介的专业技能没法相提并论。假设,人类中介有着多年预订迪斯尼世界合家欢业务的经验。人可以更加灵活,比如,他会知道,要是度假的一家人想在灰姑娘城堡前拍一张没有旁人的照片,则应该在开门之前预订公园里的早餐服务。

    这个例子表明,一台机器很容易将判断应用到能描述出来的地方(例如,能否预订,价格多少),但无法理解人类微妙的偏好。然而,Lola软件可以学习预测有着丰富经验和想法的人会怎么做。对Lola而言,问题是这样:为了让预测机器获得足够的反馈,了解其他相关标准,它需要观察多少个预订去奥兰多度假的样本?Lola公司发现,尽管自己旗下的人工智能在某些标准上很为难,却能够揭示人类中介自己无法提前描述的决策,比如某些客人偏好时髦的酒店,或是偏好坐落在街角的酒店。

    人类训练员帮助人工智能变得足够好,这样,一桩任务中的许多方面就不再需要人类了。人工智能可以几乎不出错地自动完成某一流程,这一点尤其重要。人可以监督人工智能,纠正错误。随着时间的推移,人工智能会从错误中学习,直到不再需要人类的纠正。

    还有一个例子来自智能助手初创公司X.ai,它专门提供助理服务,为你安排会议,将它新建到日历上。它通过电子邮件或数字私人助理(“埃米”还是“安德鲁”,随你喜欢),跟用户及用户想要会面的人进行互动。例如,你可以发送一封电子邮件给安德鲁,请它下周四安排你和H先生开会。接着,X.ai访问你的日历,并发送电子邮件给H先生安排会议。H先生恐怕猜不到安德鲁竟然不是人类。重点在于,跟H先生或他的助理(最好是另一个“埃米”或“安德鲁”)沟通的任务,你算是卸下来了。

    显然,如果日程安排出错,或是自动助理冒犯了潜在的受邀者,大难就会来临。多年来,X.ai聘用人类训练员。他们复查人工智能的反应,考察其准确度,并进行校验。每当训练员进行调整,人工智能就会学到更好的应对方案。人类训练员的作用,不仅仅是确保礼貌,他们还会应付人类给人工智能助理制造障碍的不良行为。直到本文写下之时,这种对判断进行预测的方法到底能在多大的程度上实现自动化,仍然未有定数。

    人类会被挤出局吗

    如果机器能够学会预测人类的行为,它们会把人类完全挤出局吗?从目前预测机器的发展轨迹看,我们不这么认为。人类是一种资源,简单的经济学表明,他们仍有事要处理。问题主要在于,对人类来说,这些“事”是价值高还是价值低,极具吸引力还是缺乏吸引力。你所在组织中的人类应该做些什么?你在招聘新员工时应寻找什么特质?

    预测依赖于数据。这意味着,人类相较机器有两点优势。我们知道一些机器(还)不知道的东西,更重要的是,我们更擅长在数据不足的情况下决定该做什么。

    人类拥有机器没有的三类数据。首先,人的感官极为强大。在很多方面,人的眼睛、耳朵、鼻子和皮肤仍然超过机器的性能。其次,人类是自己偏好的最佳仲裁者。消费者数据非常有价值,因为它向预测机器提供了有关这些偏好的数据。杂货店为使用会员卡的消费者提供折扣,获取其行为数据。商店出钱请消费者说明个人偏好。谷歌、Facebook和其他公司提供免费服务,以换取它们能在其他环境中精准投放广告的数据。第三,隐私担忧限制了机器可用的数据。只要有足够多的人不愿公开自己的性行为、财务状况、心理健康状况和种种惹人反感的念头,预测机器就没有足够的数据来预测许多类型的行为。缺乏足够优质的数据,我们对人类的认识能为判断这项技能保留一席用武之地,这是预测机器无法学会的。

    用极少的数据预测

    预测机器缺乏数据还可能是因为有些事情极为罕见。如果一台机器无法观察到足够多的人类决策,就无法预测这些决定暗含的判断。

    第6章我们讨论了“已知的未知”,即因缺乏数据而难以预测的罕见事件,比如总统选举和地震。有些情况下,人类善于用很少的数据进行预测,比方说,就算对方逐渐老去,我们也可以识别对方的脸。我们还讨论了,按照定义,“未知的未知”为什么难以预测或应对。如果人类从来没有面对过类似的情况,人工智能是无法预测人类会怎么做的。从这个意义上来说,人工智能无法预测一家公司在面对互联网、生物工程甚至人工智能本身等新技术时会提出怎样的战略方向。人类能够进行类比,辨别出不同背景下有用的相似之处。

    最终,预测机器在类比上或许会变得更好。尽管如此,我们的观点仍将站得住脚:预测机器不擅长预测罕见事件。在可预见的将来,出现异常情况时,人类的预测和判断仍有用武之地。

    在第6章中,我们还强调了“未知的已知”。例如,我们讨论了这样的情况:哪怕你将来在管理人工智能方面取得了巨大成功,决定要不要对朋友推荐本书仍然颇具挑战性。挑战在于,假如你没有读过本书,结果会怎样,这方面的数据你永远得不到。如果你想弄清楚什么是因,什么是果,你便需要观察在跟事实相反的情况下会发生些什么。

    人类主要用两种方法来解决这一问题:实验和建模。如果这一情况经常发生,你可以进行随机对照实验。以特定的方式对待一部分人(要求他们阅读本书,或至少把书给他们,接着进行相关内容的考试),让另一些人作为对照(要求他们不得阅读本书,或至少不向他们做宣传)。接下来,等上一段时间,收集他们在工作中应用人工智能的程度。将两组人进行比较。实验组与对照组的区别,就是阅读本书带来的结果。

    这类实验作用极大。没有它们,新的治疗方法将得不到通过。从谷歌到Capital One(第一资本金融公司)等,数据驱动型公司的许多决策也受它们的推动。机器也可以进行实验。只要情况出现得足够多,进行实验的能力并非人类独有。机器可以进行实验,然后通过学习来预测是什么导致了什么,就跟人类一样。如今,机器在许多电子游戏上的表现都超过了人类,实验就是这其中的关键因素之一。

    除了实验,你还可以选择建模。建模涉及深入了解所测数据生成的情况和过程。在无法进行实验(情况出现得不够多,或是进行实验的代价太高)的时候,它尤其有用。

    我们前一章介绍过在线岗位发布网站ZipRecruiter决定最佳价格的策略,它包括了两部分。首先,它需要弄清楚“最佳”意味着什么:是短期收入,还是较长期的东西?是更多的求职者、更多的广告商,还是更高的价格?其次,它需要选择一个具体的价格。为了解决第二个问题,它进行了实验。专家设计了实验,但原则上,随着人工智能的进步,只要拥有足够的广告商和足够的时间,这些实验是可以自动进行的。

    然而,更难以自动化的是确定“最佳”。求职者的数量取决于招聘广告的数量,反之亦然,整个市场只有一次观察机会。如果搞错了,ZipRecruiter可能会倒闭,再也没有重新来过的机会。于是,它为自己的业务建了模。它探索了最大化短期利润的后果,并将之与另一些追求长期利润最大化的模型做比较。没有数据,对结果进行建模、对回报函数设立工程仍然是人类才拥有的能力,尽管这对人类的技能要求极高。

    第二次世界大战中,同盟国军队的轰炸袭击也得益于建模。工程师们意识到他们可以为轰炸机安装更好的装甲。特别是,他们可以给飞机增加一定的重量,同时不牺牲性能。问题在于,到底保护飞机的什么位置好呢?可以做实验,但代价太高了。飞行员会送命的。

    每一架飞去德国完成轰炸任务并返航的轰炸机,工程师都可以看到它们被高射炮击中的位置。飞机上的弹孔就是他们的数据。但这些显而易见的地方,真的是应该加强装甲的地方吗?

    他们请统计学家亚伯拉罕·沃尔德(Abraham Wald)对此问题进行评估。经过一番思考和相当深入的数学计算后,他告诉工程师,要保护没有弹孔的地方。他是糊涂了吗?这似乎有违直觉。他的意思是要保护飞机身上没有弹孔的位置?是的。他对生成数据的过程建立了一套模型。他意识到,有些轰炸机没有在完成袭击任务后平安归来,进而猜测它们被击中了致命的位置。相比之下,返回基地的轰炸机只是被击中了不致命的位置。依靠这一见解,空军工程师们在没有弹孔的地方增加了装甲,飞机得到了更好的防护。

    沃尔德对缺失数据的见解,需要理解数据是从什么地方来的;考虑到问题以前从未出现过,工程师没有可供借鉴的前例。在可预见的将来,这样的计算超出了预测机器的能力。

    这个问题很难解决。解决方案来自人类,而非预测机器。不过,这个人是有史以来最优秀的统计学家之一。他对统计学中的数学有着深刻的认识,并有着足够灵活的思维来理解生成数据的过程。

    人类可以通过训练来学习这种建模技能。这是大多数经济学博士课程的核心部分,也是许多学校MBA课程(包括我们在多伦多大学开设的课程)的内容。在跟预测机器合作的时候,这些技能很重要。要不然,人就很容易落入“未知的已知”的陷阱。你以为预测告诉了你要做什么,但它们兴许会让你误入歧途,混淆了因果关系。

    一如沃尔德拥有一套良好的生成弹孔数据过程的模型,当人类决策生成数据的时候,一套良好的人类行为模型有助于做出更好的预测。在可预见的将来,人类需要帮助开发这些模型,确定行为的相关预测因子。预测机器难以在没有数据的情况下进行推断,因为行为可能会发生变化。它必须理解人类。

    如果你从来没有做过某件事,你大概会问:“如果我做了这个,会发生些什么?”与此有关的许多决策都存在类似的问题。你应该在产品线中加入一款新产品吗?你应该与竞争对手合并吗?你应该收购一家创新型初创公司,还是一家渠道合作伙伴?如果发生改变之后,人们的行为变得不一样,那么,过去的行为就无法对未来的行为做出有用的指导。预测机器不会获得相关数据。对于罕见的事件,预测机器的用处很有限。因此,罕见事件的存在极大地限制了机器预测人类判断的能力。

    本章要点

    ※机器可以学会预测人的判断。驾驶是例子之一。要把人类在每一种可能出现的情形下做出的判断进行编码是不切实际的。不过,我们可以向自动驾驶系统提供许多人类判断的例子,设计它们对人类判断进行预测(“人类在这种情况下会做什么”)的回报函数,借此训练它们。

    ※机器预测人类判断的能力是有限的。有限的原因跟缺乏数据有关。有些数据,比如个人的偏好,机器无法掌握。这类数据很宝贵,如今,企业通过会员卡折扣,以及提供免费在线服务(如谷歌和Facebook)等方式,花钱来获取它们。

    ※机器不擅长预测罕见事件。哪怕自己的企业过去不曾出现过类似的事件,管理者也会就并购、创新和合作伙伴关系等事务做出决策。在此类并不常见的情况下,人类会运用类比和建模的方式来做决定。而如果一种情况在过去没有多次发生过,机器就无法预测判断。