第6章
    新的劳动分工

    每一次你更改电子文档,你的改动都是可以记录下来的。这对我们大多数人来说,无非是一种跟踪修订的有用方式,但对罗恩·格洛兹曼(Ron Glozman)来说,这是个利用人工智能根据数据来预测修订的机会。2015年,格洛兹曼成立了一家名为齐塞尔(Chisel)的初创公司,该公司的第一个产品就是利用法律文件来预测哪些信息属于保密范畴。这一产品对律师事务所很有价值,因为碰到有必要披露的文件时,律师必须涂黑或修改保密信息。过去,修改工作由人来完成,也就是让人阅读文件,然后涂黑保密信息。格洛兹曼的产品有望节省他们的时间和精力。

    机器修订有用,但不够完善。有时,机器会错误地修改本应披露的信息。还有时候,它没有选中该保密的内容。为了达到法律标准,人类必须给予帮助。在测试阶段,齐塞尔公司的机器会提供哪些部分要修改的建议,人类拒绝或接受机器的建议。从实际效果来看,人和机器的合作节省了大量时间,而且达到了比仅靠人类修订更低的错误率。这种人机分工的模式能发挥作用,是因为它既克服了人类在速度和注意力方面的缺陷,也克服了机器在阐释文本方面的缺陷。

    人类和机器都有缺点。不知道这些缺点分别是什么,我们就无法评估机器和人类应该怎样合作来生成预测。为什么呢?因为这个设想可以追溯到亚当·斯密(Adam Smith)在18世纪提出的有关劳动分工的经济思想,即根据相对优势来分配任务。这里的劳动分工指的是生成预测领域的人类和机器的分工。要理解这一劳动分工,我们不妨先来看看预测的哪些方面由人类完成效果最好,又有哪些方面由机器完成效果最好。这就能让我们明确各自的任务。

    人类在哪些地方预测能力较差

    有一项古老的心理学实验是,给受试者看随机序列的X和O,请他们预测下一个出现的字母是什么。例如,他们可能会看到:

    OXXOXOXOXOXXOOXXOXOXXXOXX

    对于这样的一个序列,大多数人会意识到,X的数量比O多一些——如果你数过的话,你会发现60%是X,40%是O,所以,他们多数时候会猜X,但偶尔也说几次O,以保持该平衡。然而,要是你想使预测正确的概率最大,你应该始终选择X。这样的话,你的正确率会是60%。如果你按四六开的比例随机选择(大多数参与者会这么做),你预测正确的概率仅有52%,只比你丝毫不考虑X和O的出现频率而随便乱猜(此时准确率是50%)好一点点。(60%的时候你选择X,你有60%的概率是对的;40%的时候你选择O,只有40%的概率正确。平均而言,这就是0.62+0.42=0.52。)

    这些实验告诉我们,哪怕在评估概率时表现得不算太差,人类仍然是蹩脚的统计员。没有哪台预测机器会犯下这样的错误。不过也可能是人类没有认真地对待这些任务,因为他们兴许感觉这是在玩游戏。可要是后果影响重大,绝非儿戏,他们还会犯类似的错误吗?

    心理学家丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特韦尔斯基(Amos Tversky)在许多实验中做了示范:确实还会。他们请人们考虑如下情况:有两家医院,一家每天接生45个孩子,另一家每天接生15个孩子,请问一天中接生的孩子有60%或以上是男孩的情况,更容易出现在哪家医院?给出正确答案的人很少——是规模小的那家医院。之所以是小医院,是因为活动(本例中是孩子的出生)重复的次数越多,每一天的结果就越趋近平均值(本例中为50%)。为了理解这是怎么回事,想象你在投掷硬币。如果你只投掷5次硬币,那么,你有更大的可能碰到次次都是人头的情况,而投掷50次的话,这种情况出现的概率就很低了。故此,小医院接生的孩子少,所以更有可能出现偏离平均值的较为极端的结果。

    关于此类启发法(指依据有限的知识(或“不完整的信息”)在短时间内找到问题解决方案的一种方式。——译注)和偏差,已经有好几本书做过专门论述。许多人认为,根据合理的统计原则进行预测是很棘手的,正因为如此,必须让专家介入。遗憾的是,专家在做决策时,对待统计数据有可能遇到同样的偏差和困难。这些偏差折磨着医学、法律、体育和商业等多个领域。特韦尔斯基和哈佛医学院的研究人员向医生们展示了治疗肺癌的两种方法:放疗或手术。从五年存活率(用来计算特定疾病的预后情况,通常是从确诊开始进行计算。——译注)来看,手术更有优势。在介绍手术(比放疗的风险大)的短期存活率信息时,研究人员设计了两种方式,并分别拿给两组参与者看。一组人听到的是,“首月存活率是90%”,此时,84%的医生选择手术;另一组人听到的是,“首月死亡率是10%”,此时,选择手术的医生降到了50%。两种措辞方式说的是同一种情况,但研究人员对信息的框定方式,给人们的决定带去了巨大的变化。一台机器则不会出现这样的结果。

    卡尼曼还指出了专家面对复杂信息时无法很好地进行预测的其他许多情况。资深放射科医生在评估X光片时有1/5的概率前后矛盾。审计师、病理学家、心理学家和管理人员也都表现出类似的不一致。卡尼曼得出结论,如果有一种预测方法是依靠公式而不是人来进行判断的,那也应该认真对待该公式。

    专家的预测结果很糟糕,这是迈克尔·刘易斯(Michael Lewis)在《点球成金》(Moneyball)一书中想要表达的中心思想。奥克兰运动家棒球队碰到了一个问题:队里最优秀的3名球员离开之后,球队没有足够的资金招募替补球员。领队比利·比恩(在同名电影中由布拉德·皮特扮演)采用了比尔·詹姆斯开发的一套统计系统来预测球员的成绩。依靠这套“棒球统计学”系统,比恩和分析师拒绝了球探的建议,而选择按数据组建队伍。尽管预算有限,但奥克兰运动家棒球队在2002年的世界大赛里一路领先对手。新方法的核心是把从前认为重要的指标(如盗垒数和打击率)转到其他指标(如上垒率和长打率)上。这一举动也避免了球探靠偶尔的灵机一动来挑选球员的常规做法。比如,电影里的一名球探会这么评价某个球员:“他女朋友长得丑。找个长得丑的女朋友意味着他没有信心。”鉴于这种决策型的算法,以数据为驱动的预测常常在棒球领域超越人类也就不足为奇了。

    奥克兰运动家队的新指标强调的是球员对整个球队成绩的贡献。新的预测机器使奥克兰运动家队能够挖掘出那些在传统评估体系中得分较低,但从对球队成绩贡献的角度看性价比更高的球员。没有预测,这些球员很可能遭到其他球队的低估。运动家队利用了这些偏差。(当然,《点球成金》以传统统计学为基础,这不足为奇,但现在球队希望用机器学习的方法来执行这一功能,并在此过程中收集更多的数据。)

    最能清楚说明人类(哪怕是经验最丰富、能力最强的专家)在预测上遭遇困难的例子来自一项对美国法官保释决定的研究。美国每年要做出一千万个此类决定。某人能否得到保释对其家庭、工作和其他个人问题有着重大影响,与政府在监狱上的支出也有着极大的关系。法官不能光看被告人是否会被最终定罪,必须根据此人是否会逃跑、会不会再犯下其他罪行来做决定。决策标准清晰且合理。

    研究使用了机器学习来开发一种算法,用于预测特定被告人在保释期间再次犯罪或逃跑的概率。培训机器的数据非常庞大:在2008年至2013年期间,纽约市有75万人拿到了保释。这些信息包括前科记录、被告人被指控的罪行,以及人口统计上的数据。

    机器比人类法官做出了更好的预测。例如,被机器划分为极端危险的那1%的被告人中有62%的人会在保释期间犯罪。人类法官(这些人并未接触过机器预测)选择释放其中近一半的人。机器的预测相当准确,机器识别的高危犯人真的有63%在保释期间犯了罪,并且,下一次开庭时有一半以上的人并未出现。被机器识别为高危的被告人有5%在保释期间犯下了强奸罪或谋杀罪。(研究还显示,算法有望弥合种族差异。)

    这是怎么回事呢?为什么法官的评估与预测机器有这么大的不同?其中一种可能是,法官做判决时考虑进了算法用不到的信息,比如被告人出庭时的外表和举止。这些信息可能有用,也可能具有欺骗性。鉴于这些得到释放的被告人犯罪率很高,得出后一结论不算不合情理。法官的预测相当糟糕。该项研究提供了大量额外的证据来支持这一令人遗憾的结论。

    由于可用于解释犯罪率的因素很多也很复杂,事实证明,人类在此情况下很难做出预测。在考虑不同指标之间复杂的相互作用时,预测机器比人类的表现好得多。出于这个原因,你可能以为,过往的犯罪记录可能意味着被告人有更大的潜逃风险,可机器说不定会发现,只有当被告人失业了一段时间后才是这样。换句话说,相互作用效应兴许最为重要,而随着此类相互作用的范围越来越大,人类做出准确预测的能力一路下降。

    这些偏差不仅出现在医学、棒球和法律领域,更是专业工作里持续出现的特点。经济学家发现,管理人员和工人常常满怀信心地进行预测,但却丝毫未察觉自己预测得很糟糕。米切尔·霍夫曼(Mitchell Hoffman)、莉萨·卡恩(Lisa Kahn)和达尼埃尔·李(Danielle Li)对15家低技能服务公司的招聘事宜做了研究,发现公司使用客观、可核验的测试搭配常规面试来招聘时,招聘到的员工的在职时间会比只使用面试招聘的高出15%。对此类低技能工作岗位,管理人员招聘工人的要求就是在职时间尽量长。

    测试本身的覆盖面很广,包括认知能力和岗位契合指标。此外,如果招聘经理的自由裁定权受到限制(以免经理罔顾不佳的考试分数直接招聘),应聘员工的在职时间会更长,辞职率也会下降。因此,哪怕被要求以招聘在职时间更长的员工为目的,哪怕招聘经验丰富,哪怕有人提供相当准确的机器预测结果,管理人员仍会做出糟糕的预测。

    机器在哪些地方预测糟糕

    前国防部长唐纳德·拉姆斯菲尔德(Donald Rumsfeld)曾经说过:

    世上存在“已知的已知”,有些事,我们知道自己知道;我们也知道存在“已知的未知”,也就是说,有些事,我们现在知道自己不知道。但是也存在“未知的未知”,即有些事我们不知道我们不知道。放眼我国和其他自由国家的历史,最后一类事情,往往是最棘手的。

    这为我们理解预测机器失效的条件提供了有用的框架。首先,“已知的已知”指的是我们拥有丰富的数据,我们知道自己能够做出良好的预测。第二,“已知的未知”指的是数据太少,我们知道预测会很困难。第三,“未知的未知”指的是过去的经验或当前数据未曾涵盖却仍可能出现的事情,所以,预测很困难,我们甚至都没意识到。还有一类情况,拉姆斯菲尔德未曾指出,那就是“未知的已知”,即过去看似强烈的某种联系其实是某个未知或未观测到的因素导致的结果,但这一因素会随着时间而改变,使那些我们以为自己能够做出的预测看起来并不可靠。基于统计学里这些广为人知的限制条件,预测机器确实会在上述难以预测的地方失效。

    已知的已知

    有了丰富的数据,机器预测可以良好运行。从提供好的预测的层面来说,机器对情况更了解。而且,我们知道这些预测很好。这是当代机器智能的甜蜜点(原指棒球的最佳击球点,此处引申为“最佳时机”。——译注)。盗刷判断、医疗诊断、挑选棒球选手和保释决定都属于这一类别。

    已知的未知

    哪怕是当今(以及不远的将来)最优秀的预测模型也需要大量的数据,这意味着,我们知道,在没有太多数据的情况下,预测会相对糟糕。我们知道自己不知道,这就是已知的未知。

    没有太多数据,可能是因为事情发生得很少,所以预测很棘手。美国总统选举每4年举行一次,候选人和政治环境随时都在变化。预测几年后总统选举的结果几乎做不到。2016年的选举表明,就算只提前几天甚至在选举当天预测结果也很困难。大地震发生得也很少(谢天谢地),所以,迄今为止,要预测它什么时候发生,在哪里发生,规模有多大,都是说不准的。(没错,地震学家正着手研究。)

    与机器相反,人类有时非常擅长在数据极少的情况下进行预测。我们只看过一两次就能识别出一张脸,哪怕是从不同的角度看的。我们能在40年之后认出自己小学四年级时的同学,虽说他的外表已经有了无数的变化。从很小的年纪起,我们就能猜测球飞来的轨迹(尽管我们不见得能手脚协调到抓住它)。我们还擅长用类比来思考新的情况,能找到其他类似的条件,并迁移到新的环境下。比方说,数十年来,科学家们就把原子想象成微型太阳系,而且,许多学校至今都是这么教的。

    尽管计算机科学家正努力减少机器的数据需求,开发此类“一次性学习”的技术(例如机器“见过”物体一次之后就学会预测),但当前的预测机器尚不足以胜任此类工作。(虽然机器在这类情况下的表现越来越好,但概率定律意味着,样本小的时候,总是存在一定的不确定性。因此,如果数据不足,机器预测存在某种已知的不准确性。机器能够大致判断自己预测的准确性如何。一如我们在第八章所讨论的,这使得人类要做出判断,怎样基于不准确的预测来采取行动。)因为这些属于“已知的未知”,又因为人类面对“已知的未知”时更擅长做出决定,所以,管理机器的人需要知晓此类情况有可能出现,事先对机器编程,(在情况出现时)让机器寻求人类的帮助。

    未知的未知

    为了能够预测,得有人告诉机器什么才值得预测。如果某件事情从未发生过,机器就无法预测。(至少,不借助人类谨慎的判断所提供的有用类比,机器是无法使用其他信息进行预测的。)

    纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)在《黑天鹅》(The Black Swan)一书里强调了未知的未知。他强调,我们无法从旧数据中预测出真实的新事件。书名指的是欧洲人在澳大利亚发现的一种天鹅新品种。对18世纪的欧洲人来说,天鹅是白色的。抵达澳大利亚后,他们看到了一种全新的、不可预知的东西:黑天鹅。他们从未见过黑天鹅,因此没有任何信息能够预测这种天鹅的存在。(在阿西莫夫的基地系列科幻小说里,预测变得非常强大,以至能预见银河帝国的毁灭,以及各种愈演愈烈的社会剧变(这是故事的重点)。不过,对故事线最为重要的是,这些预测无法预见“变异者”的崛起。预测无法预见意外事件。)塔勒布认为,和黑天鹅的出现不同(它们的存在对欧洲或澳大利亚社会的发展走向没有太大有意义的影响),另一些未知的未知有着严重的后果。

    例如,20世纪90年代是音乐产业的好时代。唱片销量增长,收益稳步提升。前途看似一片光明。接着,到了1999年,18岁的肖恩·范宁(Shawn Fanning)开发出Napster,有了这款程序,人们就能通过互联网免费分享音乐文件。很快,人们就下载了数百万此类文件,音乐行业的收入开始下降。整个产业至今都没能恢复元气。

    范宁就是个“未知的未知”因素。机器无法预测他的出现。诚然,一如塔勒布和其他人所强调的,相比之下,人类在预测“未知的未知”方面同样糟糕。面对未知的未知,人类和机器都会失败。

    未知的已知

    预测机器最大的弱点或许在于,它们有时会怀着十足的信心给出错误的答案。我们上面说过,面对已知的未知,人类会理解预测的不准确性。人给出预测时信心不足,暗示了预测得不够准确。面对未知的未知,人类认为自己没有答案。与此相反,对于未知的已知,预测机器似乎会给出一个非常准确的答案,但它却可能错得离谱。

    这是怎么发生的呢?因为,虽然数据能为决策提供信息,但数据也可能是从决策而来的。如果机器不理解生成数据的决策过程,那么,它的预测就有可能失败。举例来说,假设你有意预测自己是否会在组织里使用预测机器,你有了个不错的开局。那么,阅读本书几乎可以充当一个很好的预测因素:你是一位将会使用预测机器的管理者。

    为什么呢?至少有三个可能的原因。首先,也是最为直接的一点,本书中的观点将被证明是有效的,因此,阅读本书这一行为显然能帮助你了解预测机器,并将这些工具有效地引入自己的企业。

    其次是所谓的“反向因果关系”。你阅读本书是因为你已经在使用预测机器了,或有明确的计划要在不远的将来这么做。这本书并未驱使你采用这项技术;相反,(有可能尚未开始的)技术采用促使你阅读了这本书。

    最后一个原因是所谓的“遗漏变量”。你对技术趋势和管理都很感兴趣。于是,你决定读这本书。你也会在工作中使用预测机器等新技术。在这种情况下,你对技术和管理的潜在偏好不仅促使你阅读了本书,还会让你使用预测机器。

    有时候,这种区别无关紧要。如果你只想知道阅读这本书的人是否会采用预测机器,那么,导致采用的原因不重要。如果你看到有人在阅读这本书,你便可以做出一个理性的预测:这样的人会在工作中采用预测机器。

    有时候这种区别很重要。比如你正考虑将这本书推荐给朋友,那么,如果本书让你在预测机器方面成为更好的管理者,你便会这么做。你想要知道些什么呢?你会首先从“自己阅读了这本书”的事实入手。接着,你希望一窥未来,观察自己在管理人工智能方面做得怎么样。假设,你完美地看到了未来。你在管理预测机器方面取得了惊人的成功,它成为你所在机构的核心,你和机构取得了你之前想都不敢想的成功。此时,你会不会说是阅读这本书带来了成功呢?

    不会。

    为弄清读这本书是否发挥了作用,你还需要知道,如果你没读过这本书,事情会变成什么样。可这样的数据你没有。你需要观察经济学家和统计学家所称的“反事实条件”,也就是说,如果你采取不同的行动,会发生些什么。判断行动是否导致结果要求进行两种预测:第一,采取行动后会发生什么结果;第二,如果采取了不同的行动,会发生什么结果。但那是不可能的,你永远得不到未采取行动的数据。

    这是机器预测经常出现的一个问题。在《深度思考》(Deep Thinking)一书中,国际象棋特级大师加里·卡斯帕罗夫(Garry Kasporov)用一种关于国际象棋的早期机器学习算法讨论了一个类似的问题:

    20世纪80年代初,米基和几个同事写了一款实验性的基于数据的机器学习国际象棋程序,得到了一个有趣的结果。他们从特级大师的比赛里挑出数十万个棋局馈进机器里,希望它能够弄清楚哪些有效,哪些没有。起初,机器似乎挺管用。它对棋局的评估比传统程序更准确。等他们让它真正下一盘棋的时候,问题来了。程序布好了棋子,发动了一轮攻击,然后立刻牺牲了“后”!由于几乎无条件地弃了“后”,它才下几步就输了。它为什么要这样做呢?原来,特级大师们牺牲“后”的那一步棋差不多总是机智且具有决定性的一击。而对这款接受了一大堆特级大师棋局训练的机器来说,放弃“后”显然是成功的关键!

    机器颠倒了因果顺序。特级大师只会在牺牲“后”并创造出一条通往胜利的捷径时才会这么做,如果机器不理解这一点,就会以为牺牲“后”很快就会出现胜利。故此,牺牲“后”看起来像是取胜的方式,只不过这是错的。虽然机器预测中的这个特定问题如今已经解决,但对预测机器来说,反向因果关系仍然是个挑战。

    这个问题也经常出现在商业中。在许多行业里,低价格与低销售量是相关的。比如,在酒店行业,旅游旺季之外的价格很低,而需求最高且酒店已客满时,价格也很高。考虑到这样的数据,天真的预测新手或许会提出,提高价格能售出更多的房间。而人(至少是受过一定经济学训练的人)则明白,价格变化可能是需求高引起的——而不是相反,所以提价不太可能带动销量。接下来,这个人可以跟机器合作,以识别出正确的数据(如个人基于价格对酒店房型做出的选择)和恰当的模型(考虑到季节和其他供需因素),这样能更好地预测不同价格区间内的房间入住的情况。因此,对于机器来说,这是一个“未知的已知”,但理解价格由什么决定的人,只要能够对价格决策进行合理建模,便可将之视为已知的未知甚至已知的已知。

    假若还存在其他人的策略性行为,未知的已知和因果推断问题就更为重要了。谷歌的搜索结果来自一种机密算法。该算法在很大程度上取决于那些能预测某人可能点击哪些链接的预测机器。对于网站管理员来说,更高的排名意味着更多的网站访客和更大的销量。大多数网站管理员注意到了这一点,且会针对搜索引擎进行优化:他们调整网站,努力提高它在谷歌搜索结果里的排名。这些调整大多是与算法的特质进行博弈,故此,随着时间的推移,搜索引擎里会充斥着垃圾,这些链接并非搜索者真正想要寻找的东西,而是网站管理人员利用算法缺陷所得的结果。

    就预测人们点击的内容而言,预测机器短期内做得很好。但过了几周或几个月,足够多的网站管理员会找到方法来愚弄系统,使谷歌不得不大幅度地更改预测模型。正是因为预测机器有可能遭到愚弄,才会出现搜索引擎和垃圾信息发送者之间的这种往来角力。尽管谷歌试图创造出一种能让此类操纵无利可图的系统,但它也意识到,完全依赖预测机器是有弱点的,因此,此类垃圾信息出现时,它会借助人类的判断来重新对机器进行优化。Instagram也在不断地跟垃圾信息发送者展开博弈,定期更新算法,以过滤垃圾信息和引起不适的内容。(在策略行动者面前使用预测机器所面临的挑战是一个历史悠久的难题。1976年,经济学家罗伯特·卢卡斯(Robert Lucas)就通货膨胀和其他经济指标的宏观经济政策进行分析时就提出了这一观点。如果人们在政策调整后改变自身行为,然后境况变得更好了,他们就会改变自己的行为。卢卡斯强调,虽说通货膨胀率高的时候就业率往往也高,可如果中央银行改变政策以提高通货膨胀率,人们就会预料到这一通货膨胀,前述的关系便不再成立了。故此,他认为,政策不光要考察过往数据,还要理解人类行为的潜在推动因素。这便是著名的“卢卡斯批判”。经济学家蒂姆·哈福德(Tim Harford)对此做了一番不同的描述:诺克斯堡从未遭到过抢劫,应该花多少钱来保护诺克斯堡?由于它从未遭到过抢劫,安保支出并未减少抢劫。预测机器或许会推荐分文不花。毕竟安保并未减少抢劫,那何必要花这个钱呢?)更普遍地说,一旦人类发现了这些问题,它们就不再是未知的已知。要么,人找到解决办法生成良好的预测,这样,问题会变成需要人和机器一同合作的“已知的已知”,要么,人无法找到解决办法,问题变成“已知的未知”。

    机器预测的功能非常强大,但也有局限性。在数据有限的情况下,它表现不佳。受过良好训练的人可以识别出这些局限性(不管是罕见事件导致的还是因果推断的问题导致的),进而改进机器的预测。要做到这一点,这些人必须理解机器。

    合作带来更好的预测

    有时候,人类和机器的组合能对彼此的弱点进行互补,生成最好的预测。2016年,哈佛大学与麻省理工学院的人工智能研究团队赢得了Camelyon挑战赛(Camelyon挑战赛是诊断图像分析组织(DIAG)和荷兰拉德堡德大学医学中心病理研究所联合发起的病理切片机器诊断国际大赛。——译注),这是一项依据活检组织切片来检测转移性乳腺癌的计算机竞赛。与人类病理学家96.6%的准确率相比,该团队设计的深度学习算法的正确率是92.5%。表面上看是人类赢了,但研究人员更进一步,将算法和病理学家的预测结合起来,结果实现了99.5%的准确率。也就是说,人类的错误率从3.4%降到了0.5%,减少了85%的错误率。

    这是典型的劳动分工,只不过不是亚当·斯密描述的体力劳动分工。它是经济学家和计算机先驱查尔斯·巴比奇在19世纪首次描述的认知分工。“机械和心智过程中的劳动分工,使我们得以按数量需求准确地购买和应用相关技能与知识。”

    人和机器各自擅长不同方面的预测。判断癌症的时候,人类病理学家通常是对的。人类说有癌症然后发现弄错了,这是很少见的情况。反过来说,人工智能可以更准确地判断没有癌症的情况。人和机器犯的是不同类型的错误。辨识出这些不同的能力,人机结合便克服了这些弱点,因而能极大地降低错误率。

    这种合作将怎样转化到商业环境呢?机器预测可以通过两种宽泛的途径来提高人类预测的生产力。首先,提供初步预测,而且人类可以用这些预测跟自己的评估相结合。其次,在事后提供第二种意见,发挥监控作用。这样,老板就可确保人类正在努力工作,而且将精力投入了预测。如果没有这种监控,人类兴许会不够努力。理论认为,只有当人类投入了额外的精力,确保自己有足够的信心,才能回答出为什么自己的预测跟客观算法有所不同,进而推翻机器的意见。

    检验这种互动的绝妙场所是与贷款申请人的信誉度相关的预测。丹尼尔·帕拉维西尼(Daniel Paravisini)和安托瓦妮特·施科阿(Antoinette Schoar)引入了一种新的信贷评分体系,检验哥伦比亚一家银行对小企业贷款申请人的评估。计算机化的评分体系获取了申请人的各种信息,并将其汇总为一套风险预测指标。接着,由银行员工构成的贷款委员会使用该得分和他们自己的流程来批准、拒绝,或将贷款申请移转地区经理决定。

    研究人员使用随机对照试验(而不是让管理层下达命令)来决定是在银行放贷之前还是之后引入申请人的信贷评分。因此,要科学地评估评分对放贷决定的影响,这就是个合适的地方。一组员工在开会讨论之前看到了申请人的信贷评分。这可以类比为与机器协作的第一种方式,即机器预测为人类的决定提供信息。另一组员工在初步评估之后才看到申请人的信贷评分。这可以类比为与机器协作的第二种方式,即让机器的预测来帮忙监督人类决策的质量。第一种和第二种方法的区别在于,信贷评分是否为人类决策者提供了信息。

    在这两种情况下,评分都有帮助,但提前给出评分时,决策能得到最大的改善。此时,委员会做出了更好的决定,也更少向经理求助。这些预测提供了信息,使较低级别的管理人员获得更大的权力。在另一种情况下,委员会事后得到信贷评分,决策同样会得到改善。这是因为,预测帮助更高级别的管理人员对委员会做了监督。它激励了委员会保障决策质量。

    为了生成更好的预测,人机协同预测的组合必须理解人类与机器各自的局限性。就贷款申请委员会一例而言,人类有可能做出带偏差的预测,又或者没有付出足够的努力。机器兴许会缺少重要信息。我们虽然经常在人类协作中强调团队合作和共同努力,但说不定不会把人机组合视为团队。人类想要让机器预测变得更好,或是机器想让人类预测变得更好,就必须理解人类与机器双方的弱点,并将双方结合起来克服这些缺陷。

    例外预测

    预测机器的一个主要优点是,它们可以按人类做不到的方式进行扩展。但它们还有一个缺点,那就是很难在异常情况下进行预测,因为异常条件缺乏足够的历史数据。两相结合意味着许多人机协作都将采取“例外预测”的形式。

    我们已经讨论过,用预测机器处理较为常规、频繁发生的状况时,只要数据足够丰富,它就能够学习。此时,预测机器无须人类搭档给予过多关注就可运行。然而,一旦发生例外(即非常规情况),它就会通知人类,接着人类会付出更多的努力改进、校验预测。哥伦比亚银行贷款委员会就恰好属于这种“例外预测”的情况。

    例外预测的设想来自管理术中的“例外管理”(management by exception)的概念。而在预测领域,从很多方面看,人类就是预测机器的主管。人类主管有许多困难的任务;为节约人类的时间,双方的工作关系是,只在真正需要的时候才调动人类的关注。这种不频繁的需要,意味着人能够轻易利用预测机器在常规预测上的优势。

    例外预测是齐塞尔公司初代产品的运行模式中必不可少的一环。我们在本章开头介绍过该公司的第一款产品,它根据各种文件来确认、修改机密信息。很多法律情况都涉及文件的部分信息需要在加密或删除后才能向另一方披露或公开披露,这一流程本来十分烦琐。

    齐塞尔的编改软件会依靠例外预测先把任务跑一遍,生成第一稿。(这种“第一稿”的劳动分工,可见于许多公司对预测机器的部署上。《华盛顿邮报》有一套内部用的人工智能,它于2016年发表了850篇报道,只不过每一篇文章在刊出前都要经过人工审核。全球第一家人工智能律师公司ROSS Intelligence也部署了类似的流程,解析上千份法律文书,将之转为简短的备忘录。)用户还可将编改软件的模式设为“严格”或“宽松”。在“严格”模式下,编改软件的加密标准比“宽松”模式更高。比方说,如果你担心泄露本应该保密的信息,你应该选择“严格”模式。但如果你担心披露太少,就应该选择“宽松”模式。齐塞尔的界面简单易用,人可以轻松地检查修改的部分,接受或拒绝。换句话说,每一项编改都只是建议,而非最终决定。最终的决定权仍然保留在人类手里。

    齐塞尔公司的产品将人类与机器相结合,以克服各自的弱点。机器的工作速度比人类快,在编改文档时可采用一致的标准。而当机器没有足够的数据做出良好预测时,人类可进行干预。

    本章要点

    ※人类(包括专业人士)在某些条件下会做出糟糕的预测。人类大多会过分看重突显的信息,对统计特点考虑不周。许多科学研究记录了各种职业中存在的此类缺陷。电影《点球成金》里也出现过这一现象。

    ※就预测而言,机器和人类有着各自的优势和劣势。随着预测机器的改进,企业必须调整人与机器的劳动分工来应对。在考虑不同指标之间复杂的相互作用时,预测机器比人类表面看来要好,尤其是在数据丰富的环境中。随着这种相互作用的范围不断扩大,相较机器而言,人类做出精确预测的能力随之减弱。然而,理解数据的生成过程可带来预测优势,且在数据较为单薄的时候,人类往往比机器表现更好。我们对预测环境做了分类(即已知的已知,已知的未知,未知的已知,未知的未知),它有助于我们理解人机之间的恰当分工。

    ※预测机器可进行规模化扩展。每次预测的单位成本随着应用频率的增加而下降。人类预测却无法按这种方式扩展。然而,人类拥有关于世界怎样运作的认知模型,故可根据少量数据进行预测。因此,照我们预计,人类的例外预测会出现增长,机器则生成大部分的常规预测。(因为机器主要是根据惯例中的常规数据做出的预测。)可一旦发生罕见事件,机器发现自己无法生成有把握的预测结果时,便可要求人类的协助。人类可提供例外预测。