第8章判断的价值

第8章
判断的价值

更好的预测提高了判断的价值。毕竟，如果你不知道自己是喜欢不淋雨，还是讨厌随身带伞，光知道下雨的概率是没什么用处的。

预测机器不提供判断。只有人类才会进行判断，因为只有人类可以表达不同行动带来的相对回报。随着人工智能接管预测，人类会减少在决策中扮演预测加判断的综合角色，而更多地专注于发挥判断的作用。这将促使机器预测与人类判断之间形成互动，就跟你用电子表格或数据库执行多种查询差不多。

有了更好的预测，人们将获得更多的机会，思考不同行为带来的回报。总而言之，也就是有了更多判断的机会。而这意味着，更好、更快、更廉价的预测会让我们有更多的决定要做。

判断盗刷

诸如万事达卡、维萨卡和美国运通卡等信用卡机构随时都在进行预测和判断。它们必须预测信用卡申请人是否符合信用标准。如果申请人不合资格，公司就会拒绝他们的申请。你可能认为这是纯粹的预测，但其实这里头牵涉重要的判断元素。信用标准是浮动的，面对不同的利率和违约风险，信用卡公司必须判断自己的承担意愿分别是多大。这些决定带来了明显不同的商业模式——相当于美国运通卡中的高端白金卡和大学生入门级卡的区别。

公司还需要预测任意一笔交易是否合规。一如你是否带伞的决定，公司必须权衡4种不同的结果（见图8-1）。公司必须预测一笔支出款项是盗刷还是合规，进而决定是授权还是拒绝该交易，接着评估每一结果。（拒付了盗刷支出是好的，拒付了客户本人的合规交易是糟糕的。）如果信用卡公司能够完美预测盗刷，那就一切顺利。可惜并非如此。

例如，乔舒亚（本书作者之一）购买跑鞋时经常遭到信用卡公司拒付，因为他往往一年只买一次跑鞋，大多还是度假时在外地的购物中心。多年来，他不得不打电话给信用卡公司，请求解除信用卡的限制。

信用卡盗刷常常发生在商场，头几笔盗刷交易没准是鞋和服装。（容易变现，作为同一盗窃链上不同分支的报酬。）由于乔舒亚没有定期购买衣服和鞋的习惯，因此很少去购物中心，信用卡公司才会判断该卡可能出现了盗刷。这种猜测很合理。

预测信用卡是否遭到盗刷，部分影响因素是通用的（交易类型，如购买跑鞋），另一些因素则是特定的（本例中，是年龄和频率）。这些因素互相组合，意味着标记该交易的最终算法会很复杂。

人工智能的承诺是，它可以让预测变得更精确，特别是在通用和个性化信息交杂的情况下。例如，根据乔舒亚多年交易的数据，预测机器可以了解这些交易的模式，包括他每年在同一时段前后购买跑鞋的事实。它不会将这种购买归为异常事件，而可能将其归类为这个人的寻常事件。预测机器可能会注意到其他相关因素，例如，某人购物需要多长时间，进而算出在两家不同商店的交易时间是否太过接近。随着预测机器能够更精确地标记交易，信用卡机构得以更自信地锁定信用卡，甚至主动与消费者联系。如今的情况正是如此。乔舒亚最近一次在购物中心买跑鞋，就买得很顺利。

但在预测机器能够完美预测盗刷之前，信用卡公司不得不计算失误的成本，这需要进行判断。假设预测不完美，并且有10%的概率不正确。接着，如果公司对这些交易拒绝付款，它们有90%的概率判断正确，节省与盗刷交易相关的补偿成本。但它们也有10%的概率拒付了合规交易，惹恼客户。为了制订出正确的行动方案，信用卡公司必须平衡发现盗刷的相关成本与客户不满相关的成本。这一权衡的正确答案，信用卡公司没法自动得知，它们必须算出来。所谓判断就是这么做的。

其实这就是雨伞一例的重复，只不过，这一回要权衡的不是带不带伞、淋雨还是不淋雨，而是盗刷费用和客户满意度。本例中，由于涉事交易是盗刷的概率比合规交易要大9倍，公司会拒绝承担费用，除非客户满意度比可能的损失重要9倍。

对于信用卡盗刷来说，上述损益，有不少都很容易判断。盗刷的补偿成本很有可能有着信用卡公司可辨别的显要的金钱价值。假设，一笔100美元的交易，补偿成本是20美元。如果顾客不满的成本低于180美元，那么拒绝交易是合理的。（180美元的10%是18美元，与20美元的90%相同。）对很多客户来说，一笔交易遭到拒付，并不会带来相当于180美元的不满。

信用卡机构还必须评估，这种拒付符不符合特定客户的情况。例如，持有白金卡的高净值用户可能还有其他机构的信用卡可用，如果遭到拒付，此人有可能不再使用这张卡。而此人有可能正在度豪华假期，于是，发卡机构说不定就损失了该用户在这趟旅行中的所有支出。

信用卡盗刷是一个定义明确的决策过程，出于这个原因，我们反复以其为例，但它仍然很复杂。相比之下，其他很多决策，不光潜在行为更加复杂（不仅仅是简单的接受或拒付），潜在的情况（或状态）也有所不同。要做出判断，就要理解每一组行为与对应情况的奖励。信用卡一例只有4种结果。（就算你对高净值客户和普通客户做区分，也只有8种。）但假设你有10种行为可供选择、外加20种可能出现的情况，你就要对200个结果做判断。随着事情变得更加复杂，回报的数量可能难以计算。

判断的认知成本

研究过决策的人一般都把回报当成既定的——它们的存在不需要理由。你也许喜欢巧克力冰激凌，而你的朋友可能喜欢杧果冰激凌。你们俩怎样得出各自的观点并无太大意义。同样，我们假设大多数企业追求的是利润或股东价值的最大化。经济学家考察过企业为自己的产品设定某个价格的原因，发现事先接受上述目标是有用的。

损益很少一目了然，而理解损益的过程有可能耗时长久且昂贵。然而，预测机器的崛起为理解损益价值的逻辑和动机带来了更多的收益。

从经济角度来看，计算损益的成本主要是时间。以你判断损益的一条特定途径为例：审议和思考。要想清楚你真正想要实现什么目的，或是客户不满带来了什么代价，兴许要付出时间思考、反省，甚至向别人寻求意见。又或者，你要花时间研究，才能更好地理解损益。

对信用卡盗刷检测而言，弄清楚客户满意和不满带来的损益，以及允许盗刷交易进行的代价是必要的第一步。但高净值客户带来的不同损益需要进行更多思考。评估这些损益会不会在高净值客户度假时发生变化就需要更多的考虑了。此外，普通客户度假时会怎么样？此时的损益是否有什么不同？要不要把出差和度假区分开来？又或者，要不要把去大峡谷和去罗马区分开来？

在每一种情况下，判断损益都需要付出时间和精力：更多的结果，意味着要进行更多的判断，也就意味着要花更多的时间和精力。判断是一个较慢的决策过程，对人类来说，这就是判断带来的认知成本。所有人都必须在弄清楚损益和延迟决定需付出的代价之间进行权衡。对看似不太可能出现的情形，有些人会选择不去研究它的损益。信用卡机构兴许发现，区分出差和度假是值得的，但区分到大峡谷度假和到罗马度假就没那么值得了。

在此类出现可能性不大的情况下，发卡机构可以猜到正确的决定，而把事情划分到一起，或是选择较为安全的默认设定。但对于更频繁的决策（如整体而言的旅行），或看似更重要的决定（如高净值客户），许多机构会花时间更加仔细地审议并尝试弄清损益。不过，尝试的时间越长，你做出决定以及执行所需要的时间也就越长。

弄清损益还有点像品尝新食物：吃一口，看看会发生什么。或者说，用现代商业的说法：实验。在相同的情况下，不同的人可能会采取不同的行动，并且了解奖励到底是什么。人是通过行动学到损益是什么的，而不是事前深思得来。当然，做实验肯定意味着你要做一些日后认为是错误的事情，故此，实验也有成本。你会吃到自己不喜欢的食物。如果你为了找到理想的食物不断尝试新口味，你会错过许多美好的就餐体验。无论是通过思考还是尝试来做判断，它始终是有代价的。

知道你做某事是为什么

预测是自动驾驶汽车和优步、Lyft（来福车）等平台兴起的核心，它们都是在出发点和目的地之间选择一条路线。汽车导航设备已经出现了一二十年，有些是车内装载，有些是独立设备。但互联网移动设备的激增改变了导航软件供应商收到的数据。例如，以色列初创公司Waze（“位智”，后为谷歌收购）跟踪司机选择的路线，生成准确的交通流量图。然后，它利用这些信息进行有效的优化，既考虑到驾驶员提供的信息，也考虑了对流量的实时监控，然后找到两点之间最快的路径。如果你想出行至更远的地方，它还可以预测交通状况可能怎样发展，并能在条件改变后提供更快捷的新路线。

像Waze这类应用的用户不会总是按照软件的指示走。他们并非对预测本身有不同意见，而是其最终目标或许并不是仅仅着眼于速度，还包括更多的元素。例如，软件并不知道汽车的汽油是不是快用完了，是否需要去加油站。但知道需要给车加油的人类驾驶员可以否定程序的建议，选择另外一条路线。

当然，像Waze这样的应用程序能够，也必将变得更好。比方说，在依靠电力行驶的特斯拉汽车里，导航会考虑到充电的需求和充电站的位置。应用程序可能会询问你是否需要加油，或者，在不远的将来，它甚至能直接从你的汽车里获取数据。这似乎是一个可以解决的问题，就像你可以调整导航软件的设置，避开收费的公路那样。

你的个人偏好中的其他方面更难编程。例如，在漫长的车程里，你可能希望在合适的地方停下来休息、吃饭。或者，程序推荐的最快路线说不定只能节省一两分钟，但开起来却极为费劲，如一些窄路。又或者，你不喜欢走曲折的道路。应用程序有可能了解这些行为，但在某个特定时间，某些因素不一定会纳入编码的预测里以自动产生行动结果。在预测你的偏好时，机器能学到的东西存在根本上的局限性。

从更宽泛的层面上来说，人做决定的时候，其对象很少只在一个维度上。人类对自己为什么做某事有一套独有的认识（有些认识是显露的，有些认识是隐含的），这使他们得以进行个性化且主观的权衡。

固然机器可以预测有可能发生些什么，人类仍然会根据自己对目标的理解来决定采取何种行动。在很多情况下，机器（比如Waze软件）会给人类一个预测，这一预测暗示了某一维度上（如速度）的特定结果；而人类会决定是否推翻机器推荐的行动。根据预测机器的复杂程度，人可能会要求它按照新的限制条件做出另一种预测。（“Waze，提供一个附近的加油站。”）

对判断硬编码

初创公司Ada Support正使用人工智能预测技术对技术支持问题进行区分——简单的和困难的。人工智能回答简单的问题，并将困难的问题发送给人。对典型的移动电话服务供应商而言，消费者打来电话要求获得技术支持的时候，他们问的绝大多数问题已经有其他人问过，输入答案的操作很简单。挑战在于预测消费者想要知道什么，以及判断该给出哪一个答案。

Ada的做法不是把人们引到传统的“常见问题”页面，而是立刻识别并回答这些常见问题。它可以匹配消费者的个人特征（如对技术能力的过往知识，他们呼入时使用的是什么类型的电话，或过去进行的通话），以改进对问题的评估。在此过程中，人工智能减少了顾客的挫败感，更重要的是，它还可以迅速处理更多的互动，而无须转接更为昂贵的人工客服。人类只需处理少见的、更困难的问题，简单的问题则交由机器处理。

随着机器预测的进步，很多情况下，提前明确判断越来越有必要。一如我们能向他人解释自己的想法那样，我们也可以向机器解释自己的想法——只不过是以软件代码的形式。如果我们预知会收到（针对该问题的）精确预测，我们就可以在机器进行预测之前将这种判断写入程序之中。Ada对简单的问题采用了这种做法。要不然，可能出现的情况太多，提前具体指定每一种情况下该怎么做太耗时耗力了。所以，对于难题，Ada会请求人类进行判断。

有时候，经验可以帮助人们将判断编入代码中。大多数经验是无形的，无法被轻易地编写下来或表达出来。安德鲁·麦卡菲（Andrew McAfee）和埃里克·布莱恩约弗森（Erik Brynjolfsson）写道：“（用计算机替代人类）是有局限性的，因为有很多任务，人能够毫不费力地理解，但不管是计算机程序员还是其他任何人，都无法明确阐明这些任务的‘规则’或流程。”不过，并非所有的任务都是这样。对一部分决定来说，你可以清晰地阐明必要的判断，并用代码来表达。毕竟，我们常常向别人解释自己的想法。实际上，如果判断可被编码，就意味着你能够补完“如果-那么”语句里“那么”后面的部分。只要能做到这一点，判断就能够确定并编写为程序。

麻烦的地方在于，就算你可以对判断进行编程，接替人的角色，机器接收的预测也必须相当精准才行。如果可能出现的情况很多，那么你就必须花费大量的时间提前指定每一种情况下要做什么。如果可能发生的情况很明显，你便可以轻松地编程，让机器采取特定行动；然而，只要还存在不确定性，那么，指导机器时就必须十分谨慎地权衡犯错的代价。不确定性意味着，不光在预测结果正确时你需要判断，预测结果错误时，你同样需要判断。换句话说，不确定性会增加特定决定带来的损益所需要的判断成本。

信用卡机构已经采用新的机器学习技术进行盗刷检测。预测机器让它们得以更加自信地编程，让机器决定是否阻止一笔信用卡交易。随着盗刷预测变得更加准确，把合规交易错误地识别为盗刷的概率下降了。如果信用卡公司不怕在预测中犯错，就可以对机器的决定进行编程，而无须判断拒付一笔交易、惹怒特定客户带来的代价。这样一来，做决定就容易多了：如果是盗刷，那么就拒付；如果不是，那么就接受交易。

回报函数工程

随着预测机器带来更好更廉价的预测，我们必须弄清怎样才能最好地运用这些预测。不管我们能不能提前明晰判断，总需要有人来确定判断。这就是需要回报函数工程的地方，它根据人工智能所做的预测，确定不同动作的回报。做好这项工作，需要了解组织的需求和机器的性能。

有时，回报函数工程牵涉到对判断做硬编码：在预测之前就对回报进行编程，以求实现行为的自动化。自动驾驶车辆就是这种硬编码回报的例子之一。一旦做出预测，动作就立刻执行。但把回报设定正确也很重要。回报函数工程必须考虑到人工智能对一项成功指标做过度优化的可能性（此时，动作跟组织的更大目标会不一致）。在自动驾驶汽车领域，有一大堆委员会在做这方面的努力；不过，还有许多新的决策也需要进行此类分析。

还有些情况，可能的预测结果太多了，提前判断所有可能出现的损益成本过高。人类需要等到预测出现，接着评估损益，这接近如今大部分决策的运行方式（不管其中是否包含机器生成的预测）。我们将在下一章中看到，在这些地方，机器也逐渐深入。有些环境下，预测机器可以通过观察过去的决策来预测人类的判断。

整合

我们大多数人其实已经在做一些回报函数工程了，只不过对象是人类而非机器。父母教孩子价值观。导师指导新员工系统怎样运作。管理人员为员工提供目标，接着对目标进行调整，以获得更好的绩效。每一天，我们都会做出决策，评判回报。但当我们为人类做这件事的时候，预测和判断是集中在一起的，回报函数工程的作用并不明显。随着机器越来越擅长预测，回报函数工程的作用就变得越来越重要了。

为了说明实践中的回报函数工程，让我们以在线岗位发布网站ZipRecruiter的定价决策为例。公司付钱给ZipRecruiter，为自己希望填补的空缺职位寻找合格的候选人。ZipRecruiter的核心产品是一种大范围的高效匹配算法，也就是传统猎头公司匹配求职者与公司的升级版。

ZipRecruiter并不清楚该向公司收取多少服务费。收费太少，赚的钱也少；收费太高，客户就会投入竞争对手的怀抱。为了弄清楚定价，ZipRecruiter请来两位专家——芝加哥大学商学院的经济学家J.P.迪贝（J.P.Dubé）和桑乔戈·米斯拉（Sanjog Misra），让两人设计实验来确定最佳价格。他们随机分配不同的价格给不同的潜在客户，判断每一个小组购买的可能性。这样一来，他们就能够确定不同客户对不同的价格有什么样的反应。

棘手的是要弄清楚“最佳”意味着什么。公司该力争短期收入的最大化吗？为此，它可以选择高价格。但是高价格意味着客户较少（哪怕从每个客户身上赚到了更多的钱）。这也意味着较少的口碑。另外，如果发布的职位较少，使用ZipRecruiter找工作的人数恐怕会下降。最后，面对高价格，客户或许会开始寻找替代品。虽然它们没准会在短期内支付高价格，但长期而言，会转投竞争对手门下。ZipRecruiter应该怎样权衡这些因素呢？它应该追求哪方面的回报最大化？

价格上涨的短期后果相对容易衡量。专家们发现，针对某类新客户的提价能让日常利润增加50%以上。但是，ZipRecruiter并未立即采取行动。它意识到长期风险的存在，想等一等，观察付了更高价格的客户会不会离开。4个月后，它发现，提价所带来的收益仍然很高（哪怕提价后有可能带来前述不良后果）。ZipRecruiter不愿再放弃较高的利润，并判断4个月的时间足以执行价格变动了。

弄清楚这些不同的动作带来的回报（这是判断的关键步骤）就是回报函数工程，这是人类决策过程中的根本环节。预测机器是为人类设计的工具。只要还需要人类来权衡结果并进行判断，那么，随着预测机器的进步，人类还将扮演关键的角色。

本章要点

※预测机器提高了判断的价值，因为它们通过降低预测的成本，提高了理解行动相关回报的价值。然而，判断也有其代价。弄清不同情况下不同行为的相对回报需要付出时间、努力，并进行实验。

※许多决定发生在不确定的条件下。我们以为会下雨，所以决定出门带伞，但我们有可能是错的。我们认为一笔交易是合规的，决定认可它，但我们有可能是错的。在不确定条件下，我们不光需要判断按正确决定采取行动时可能带来的回报，也要确定按错误决定采取行动的代价。因此，不确定性会增加指定决策回报的判断成本。

※如果与决策相关联的动作-情境组合的数量可控，我们便可以把判断交给预测机器（这就是“回报函数工程”），这样，一旦机器生成预测，它便可以自行做出决定。这就促成了决策自动化。然而，很多时候，动作-情境的组合太多，提前将每一组合（尤其是极为罕见的组合）相关的损益进行编码的成本太高。此时，在预测机器做出预测之后，让人来进行判断更为高效。

第8章 判断的价值