如果选用一个词语来概括关于人工智能的最棘手的争议,那我会用这个词:目标。我们是否应赋予人工智能目标?如果是,应该赋予它什么样的目标?我们如何赋予它目标?如果人工智能变得越来越聪明,我们如何保证它继续遵守这些目标?我们能不能改变比人类还聪明的人工智能的目标?我们的终极目标是什么?这些问题不仅很难回答,而且对未来的生命至关重要。如果我们不知道自己想要什么,那我们可能无法得偿所愿;如果我们不能控制那些与我们目标不一致的机器,那事情很可能会适得其反。
目标的起源:物理学
想要弄清楚这个问题,让我们先来看看“目标”究竟起源何处。当我们环顾四周的世界时会发现,一些过程似乎是“以目标为导向”的,而另一些过程显然不是。举个例子,在足球被踢进球门从而赢得比赛的过程中,足球本身的运动看起来并不是以目标为导向的,而是对“踢”这个动作的反应,最好以牛顿运动定律来进行解释。然而,想要解释足球运动员的行为,最简单的方法并不是“原子互相推挤”的力学原理,而是“他拥有将本队比分最大化的目标”。我们知道,在早期的宇宙中,只有来回蹦跳、看起来毫无目标的粒子。那么,目标导向行为是如何从早期宇宙的物理机制中产生的呢?
有趣的是,目标导向行为可以在物理定律中找到根源,甚至会表现在与生命无关的简单过程中。如图7-1所示,如果一名救生员要营救一名溺水的游泳者,他不会直线前进,而是会沿着海滩跑一段距离,再跳进水里,略微转向,游向溺水者,这样会比直接跳进水中更快到达。我们自然而然地会将他选择的运动轨迹解释为“以目标为导向”,因为在所有可能的轨迹之中,他选择的这条运动轨迹是最优的,让他能够尽可能快地游到溺水者身边。无独有偶,光线射入水中时也会发生类似的弯折,也减少了到达目的地所花的时间。怎么会这样呢?
图7-1 营救溺水者的最佳路线
注:想要尽可能快地营救溺水者,救生员最快的途径不是直线(猛冲过去),而是一条更长一些的路线:先沿着海滩跑一段路,再跳进水里游泳,这样会比直接游过去更快。空气中的光线射入水面时,也会经历类似的弯折路线,这样,它到达目的地的速度更快。
这种现象在物理学中被称为“费马原理”(Fermat's principle)。这个原理是法国科学家皮埃尔·德·费马于1662年提出的,为预测光线路径提供了一种新的方法。值得注意的是,物理学家们后来发现,经典物理学中的所有定律都可以用类似的方式重新进行数学表述:大自然在可选择的所有方式中倾向于选择最优的方式,这种方式通常归结为将某些量最小化或最大化。在描述每条物理定律时,有两种在数学上等价的方法:一是描述过去如何导致了未来,二是自然界对某些东西进行优化。虽然第二种方法通常不会在基础物理课上进行讲授,因为涉及的数学更难,但我觉得它更优雅,也更深刻。如果一个人试图将某些东西最优化,比如他们的比分、财富或快乐,我们自然而然地认为,他们的行为是以目标为导向的。所以,如果大自然本身也在试图优化某些东西,那么难怪会出现以目标为导向的现象:它从一开始就“硬连”在物理定律中了。
有一个著名的量,大自然总是力争将它最大化,这个量就是熵(entropy)。简单来说,熵是事物混乱程度的度量。热力学第二定律说,熵总是趋于增加,直到达到最大的可能值。如果暂时忽略万有引力的影响,这种最大的混乱状态被称为“热寂”(heat death)。热寂是指万事万物都会扩散成一种无聊而又完美的均质状态,没有复杂性,没有生命,也没有任何变化。比如,当你将冷牛奶倒入热咖啡中时,你杯中的饮料看起来不可逆转地朝着它的“热寂”目标迈进。不久之后,它就会变成一杯温热均匀的混合物。如果一个活的有机体死了,它的熵也会开始上升,过不了多久,它的粒子排列就会变得不那么有序。
大自然“熵增”的目标有助于解释,为什么时间似乎具有完美的方向性,使得倒播的电影看起来很不真实。如果你向地上扔了一个装满葡萄酒的酒杯,就会预料到它会在地板上破碎,从而增加全局的混乱程度(即熵)。如果你看到它由破碎状态重新组合成完好的杯子,然后完美无损地飞回你的手中(即熵减),你可能不会喝下杯中酒,因为你可能会觉得自己已经喝醉了。
当我第一次了解到我们会不可阻挡地奔向“热寂”状态时,感到非常沮丧。在这一点上,我并不孤单,热力学先驱开尔文勋爵(Lord Kevin)在1841年写道:“结局必定是一种普遍静止和死亡的状态。”当你意识到大自然的长远目标是将死亡和破坏最大化时,你很难找到慰藉。然而,最近的研究表明,事情并没有想象的那么糟糕。
首先,万有引力与其他所有力的表现不同,它力求实现的目标不是让我们的宇宙变得均质和无聊,而是使其更加复杂和有趣。正是引力将无聊乏味、完美均质的早期宇宙变成了今天这个充满了星系、恒星和行星的复杂而又美丽的世界。引力将冷热混合,使得允许生命茁壮成长的温度范围变得很广。我们生活在一个舒适温暖的地球上,它吸收着表面温度约为6 000℃(10 000℉)的太阳的热量,同时将废热散发到温度仅高于绝对零度3℃(5℉)的寒冷太空来降温。
其次,我在麻省理工学院的同事杰里米·英格兰(Jeremy England)等人最近的研究成果带来了更多好消息。他们的研究表明,热力学赋予了大自然一个比“热寂”更鼓舞人心的目标。这个目标有一个令人讨厌的名字——“耗散驱动适应性效应”(dissipation-driven adaptation)。[1]耗散驱动适应性效应的意思是说,随机的粒子群会尽力进行自我组织,从而尽可能有效地从环境中提取能量,“耗散”意味着熵增,通常的方法是将有效能转化为热量,这个过程常伴随着有用功。譬如说,一堆暴露在阳光下的分子会随着时间的推移进行自我组织,以实现越来越有效地吸收阳光。换句话说,大自然似乎拥有“产生越来越复杂、越来越像生命的自我组织系统”的内在目标。这个目标被“硬连”到了物理定律之中。
我们如何才能将宇宙的这两种趋势(一是趋向生命,二是趋向热寂)协调起来?我们可以在量子力学奠基人之一埃尔温·薛定谔(Erwin Schrödinger)1944年的著作《生命是什么》(What's Life?)一书中找到答案。薛定谔指出,生命系统的一个标志就是,它通过提升周围环境的熵来保持或降低自己的熵。换句话说,热力学第二定律在生命面前有一个漏洞:虽然整体的熵必须增加,但它允许某些局部区域的熵减,只要它能让其他地方增加更多的熵即可。因此,生命让环境变得更加混乱,从而维持或增加自己的复杂度。
目标的进化:生物学
我们刚刚已经看到了目标导向行为是如何从物理定律中衍生出来的:物理学赋予了粒子对自我进行组织,从而尽可能高效地从环境中提取能量的目标。有一种粒子的组织方式可以进一步实现这个目标,那就是自我复制,这样就可以产生更多能吸收能量的个体。关于这种涌现的自我复制行为,有许多已知的例子:比如,湍流中的旋涡能够进行自我复制,还有微颗粒团会“哄骗”周围的微颗粒组合成相同的团簇结构。当这种行为发展到一定程度时,某种特别的粒子组织方式获得了极好的自我复制能力,以至于它复制出来的个体能以几乎相同的方式从环境中汲取能量和原材料。我们就将这种粒子组织方式称为“生命”。虽然我们对地球生命的起源依然知之甚少,但我们知道,在40亿年前,原始生命就已经存在于地球上了。
如果一个生命复制出来的个体也能进行同样的自我复制,那总体数量就会以固定的周期翻倍,直到种群数量达到资源可供维持的极限,或者出现其他问题。不断翻倍很快就会产生巨大的数字:即使最初只有一个个体,经过300次翻倍,你也会得到比我们宇宙中的粒子总数还大的一个数字。这意味着,在原始生命出现后不久,大量的物质都会变成生命。有时候,复制的过程并不完美,因此很快就会出现各种不同的生命形式,它们都试图复制自己,彼此竞争着有限的资源。于是,达尔文式的进化就开始了。
假如你从生命的起源阶段就开始静静地观察地球,可能就会发现目标导向行为曾发生过一个巨大的转变。在早期,粒子无一例外都在想尽办法增加平均的混乱程度,但那些无处不在的新生命的自我复制模式却似乎拥有一个不同的目标:不是耗散,而是复制。查尔斯·达尔文对此有一个优雅的解释:复制的效率越高,你就越能战胜和统治其他生物,因此不久之后,你会发现,所有生命似乎都为“复制”这个目标而高度优化了。
既然物理定律并没有改变,那生命的目标为何从耗散变成了复制呢?答案是,最根本的目标其实并没有变化,依然是耗散,但它带来了一个不同的“手段目标”(instrumental goal),也就是为了实现最终目标而需要达成的子目标。举个例子——吃,我们似乎都拥有满足食欲的目标,但我们都知道,进化唯一的根本目标不是咀嚼食物,而是复制。这是因为进食有助于复制,因为如果饿死了,就失去了繁衍后代的机会。同样地,复制有助于实现耗散,因为一个充满生命的星球在能量耗散上会更高效。因此,从这个意义上说,我们的宇宙发明生命是为了更快地走向“热寂”。如果你把糖倒在厨房的地板上,从本质上说,它能维持自身的有用化学能长达好几年,但如果出现了蚂蚁,它们会很快将这些能量耗散出去。同样,如果我们这种双足类的生命形式不将地壳中的石油开采出来并燃烧掉,那这些石油也会在漫长的岁月里保存自己的有用化学能。
在今天的地球居民中,这些手段目标似乎拥有了自己的生命:虽然进化优化的根本目标是复制,但许多人却花了更多时间在其他与繁殖后代无关的事情上,比如睡觉、寻找食物、盖房子、维护统治地位、打架或者帮助他人,人们在这些事情上花的时间如此之多,有时候甚至因此而减少了复制。进化心理学、经济学和人工智能方面的研究对此做出了优雅的解释。一些经济学家曾经用“理性主体”(rational agents)来模拟人类的行为。理性主体是一种理想化的决策制定者,它们永远选择那些对实现它们的目标而言最优的行为。但这个假设显然是不现实的。在实践中,这些主体拥有一种被诺贝尔获奖者兼人工智能先驱赫伯特·西蒙称之为“有限理性”(bounded rationality)的特质。之所以会这样,是因为它们的资源是有限的,它们做决策的理性程度受限于它们可获得的信息、可供思考的时间以及它们用来思考的硬件。这意味着,尽管达尔文式的进化会促使生命选择最优的方法去实现它的目标,但是,它最好的选择其实是,执行一个在它身处的受限环境中表现足够好的近似算法。进化实现最优复制的方法是,与其在每种情况下都问一遍哪种行为可以产生尽可能多的后代,不如实施一种大杂烩式的探索方法,即选择那些通常可行的经验法则。对大多数动物来说,这就包括性冲动、渴了就喝水、饿了就吃东西以及远离那些难吃或者会造成疼痛的东西。
有时在一些意外情况下,这些经验法则可能会造成惨痛的失败,比如,老鼠吃下了尝起来很美味的鼠药,飞蛾被诱惑性的雌性香味吸引到了粘蝇板上,还有昆虫扑向蜡烛的火焰(66)。由于今天的人类社会与进化优化我们的经验法则时的环境大相径庭,我们应该很容易想到,我们的行为常常无法将“生孩子”最大化。比如,“不被饿死”的子目标带来了对高热量食物的欲望,使得当今社会肥胖的人数激增,很难找到合适的约会对象。繁殖后代的子目标在执行时却变成了对性行为的欲望,而不是捐精或捐卵的欲望,但其实后者才能以最小的成本产生最多的后代。
对目标的追寻和反叛:心理学
总而言之,生物就是一个拥有有限理性的主体,它不止追求一个目标,而且还遵循着经验法则,趋利避害。我们人类将这些进化来的经验法则称为“感觉”,感觉常常在不知不觉中指导着我们的决策过程,以实现复制的最终目标。饥渴的感觉保护我们不被饿死和不出现脱水症状,痛感保护我们的身体不受伤害,性欲促使我们繁殖,爱和怜悯的感觉让我们帮助携带有我们基因的其他人以及那些帮助他们的人,诸如此类。在这些感觉的指引下,我们的大脑可以迅速且有效地决定下一步要做什么,而不用每次都对“能产生多少后代”做出冗长的分析。如果你想了解感觉及其生理基础,我强烈建议你读一读威廉·詹姆斯(William James)和安东尼奥·达马西奥(67)(António Damásio)的著作[2]。
我们要记住的是,当我们的感觉偶尔不利于“生孩子”时,并不是说发生了什么意外,也不是说我们被欺骗了,而是我们的大脑有时候会故意反叛基因及其繁殖目标,比如,选择避孕。“大脑反叛基因”还有一些更极端的例子,比如,选择自杀或者选择独身生活,成为神父、僧侣或修女。
为什么我们有时会选择反叛基因及其复制的目标呢?这是因为作为有限理性的主体,我们只忠于自己的感觉。虽然大脑进化的目的是帮助我们复制基因,但大脑其实根本不在乎这个目标,因为我们对基因没有任何感觉。事实上,在人类大部分历史中,我们的祖先根本不知道基因的存在。此外,我们的大脑比基因聪明多了,现在我们已经理解了基因的目标,即复制,不过,我们认为这个目标陈腐不堪,经常忽略它。人们理解基因为什么让他们产生性欲,但并不想养育15个小孩,于是他们绕过基因编好的程序,选择避孕,这样依然能获得基因对亲密关系的情感奖赏。他们也可能意识到了基因为什么令他们渴望甜食,但却不想增重,于是也绕过基因编好的程序,选择饮用含有人造甜味剂的零卡路里饮料,这样依然能获得食用甜食的情绪奖赏。
虽然这种绕过奖赏机制的行为有时会出岔子,比如海洛因上瘾,但从目前来看,人类基因池依然保存得十分完好,尽管我们的大脑十分狡猾,又喜欢反叛。不过,我们必须记住,如今掌权的并不是我们的基因,而是我们的感觉。这意味着人类的行为并不一定有利于种族延续。事实上,由于我们的感觉只遵循经验法则,而经验法则并不是事事都恰到好处,因此,严格地说,人类的行为没有一个定义明确的单一目标。
外包目标:工程
机器可以有目标吗?这个简单的问题引发了很大的争议,因为在不同人的眼中,“机器”代表的意义是不同的,常与一些棘手的问题联系起来,比如机器能否拥有意识以及它们是否有感觉等。但是,如果我们问一个更实际和简单的问题:机器是否能展现出目标导向行为?那答案就很明确,它们当然可以,因为我们就是这么设计的!我们设计捕鼠器,让它拥有捕捉老鼠的目标;我们设计洗碗机,让它拥有洗碗的目标;我们设计时钟,让它拥有报时的目标。实际上,当你面对一台机器时,你只需要关心它拥有什么目标导向行为:如果你被一枚热跟踪导弹追赶,就根本不会关心它是否有意识或者感觉。如果你对“导弹没有意识但有目标”这种说法感到很不舒服,可以暂时把我写的“目标”换成“用途”,我们将在下一章探讨意识的问题。
目前,我们建造的大部分东西都只是以目标为导向进行的设计,而没有展现出目标导向的行为:一条高速公路能有什么行为呢?它只是静静地待在那里,一动不动。然而,它为什么存在呢?最经济的解释是,它是被人设计出来实现某个目标的,因此即便它一动不动,也让我们的宇宙具有了更强的目标导向性。“目的论”就是用目的而非原因来解释事物的一种方法。那么,我们可以总结说,本章前半部分的内容说明,我们的宇宙越来越符合目的论的解释。
从较弱的意义上说,非生命物质是可以拥有目标的。不仅如此,它的目标性正变得越来越强。如果你从地球形成之初就开始观察地球上的原子,可能会注意到目标导向行为的三个阶段:
◦ 第一阶段,所有物质似乎都在努力实现耗散的目标,即熵增;
◦ 第二阶段,其中一些物质拥有了生命,转而聚焦于子目标;
◦ 第三阶段,生物重新排列的物质越来越多,以实现自己的目标。
从表7-1中可以看出,从物理学的角度来看,人类在地球上已经具备了相当高的优势地位:人类身体的总质量已经超过了除牛以外的其他所有哺乳动物(牛的数量实在太多了,因为我们需要它们提供肉类和乳类产品),并且,我们的机器、道路、房子等工程的总质量也似乎很快就能赶上地球上所有生物的总质量了。换句话说,即使不发生智能爆炸,很快,地球上大部分展现出目标导向性质的物质都会是设计出来的,而不是进化出来的。
表7-1 为某个目标设计出来的物体质量
注:表7-1列出的是为某个目标而进化或设计出来的一些物体质量的近似量。建筑物、道路、汽车这类工程实体似乎很快就要赶上植物和动物这类进化出来的实体了。
这种设计出来的“第三类”新型目标导向行为的物体可能比它的产生过程更加多姿多彩,所有进化而来的物体都有一个共同的目标,即复制,而设计出来的物体却可能拥有各种各样的目标,甚至拥有相反的目标。比如,烤箱的目标是加热食物,而冰箱的目标则是冷冻食物。发电机将动能转化为电流,而电动机将电流转化为动能。标准象棋程序想要赢得比赛,而还有一种程序参赛的目标是输掉象棋比赛。
设计产品还有一个历史趋势:它们的目标不仅变得越来越多样化,而且变得越来越复杂。我们的机器变得越来越聪明了。最早的机器和人造物的目标都很简单,比如,房子的目标是让人类保持温暖、干燥和安全。后来,我们逐渐学会了建造拥有目标更加复杂的机器,比如扫地机器人、自己飞行的火箭和无人驾驶汽车。近期的人工智能方面的进展还给我们带来了像深蓝计算机、沃森和AlphaGo这样的系统,它们的目标分别是赢得象棋比赛、猜谜游戏和围棋比赛。这些目标都十分复杂,人们费尽心思才理解了它们高超的技艺。
当我们建造机器来帮助我们时,可能很难保证它们的目标与我们的完全一致。譬如说,捕鼠器可能会错把你的脚趾头当成饥饿的老鼠,结果让你疼得龇牙咧嘴。所以,机器都是拥有有限理性的主体,即便是今天最复杂精巧的机器,对世界的理解程度也远远比不上我们人类。因此它们行事的规则通常过于简单。那只捕鼠器总是乱夹是因为它完全不知道什么是老鼠;同样地,许多致命工业事故之所以会发生,正是因为机器完全不知道什么是人,而2010年导致华尔街“闪电崩盘”事故、造成万亿美元损失的计算机也完全不知道它们的行为是胡作非为。如果机器变得更聪明,就能解决许多“目标一致性”问题,但是,正如我们从第4章的普罗米修斯故事中所看到的那样,日益聪明的机器智能也可能给我们带来新的挑战,因为我们必须保证它们与我们的目标一致。
友好的人工智能:目标一致
机器变得越智能和越强大,保证它们的目标与我们的相一致就越重要。如果我们建造的机器比较愚钝,那问题就不是“人类目标最后会不会胜出”,而是“在我们搞明白如何解决目标一致性的问题之前,这些机器会带来多少麻烦”。然而,如果我们建造的机器具备超级智能,那事情可能便正好相反:由于智能就是完成目标的能力,那么,在完成目标这点上,超级智能理所当然强于人类,因此它最终一定会胜利。我们在第4章中已经用普罗米修斯的例子讨论了许多这样的场景。如果你想体验一下与机器目标不一致的感觉,只要下载一个最先进的象棋程序,然后和它对弈,就能体会到了。你可能永远赢不了它,而它的技艺还会越来越精湛。
换句话说,通用人工智能带来的真正风险并不是它们的恶意,而是它们的能力。一个超级智能会非常善于完成它的目标,如果它的目标与我们的目标不一致,那我们就有麻烦了。正如我在第1章中所说,人们在建造水电站大坝时根本不会考虑会淹没多少蚁丘。因此,大多数研究者认为,如果我们最终造出了超级智能,那我们必须保证它们是友好的人工智能。“友好的人工智能”是人工智能安全性研究先驱埃利泽·尤德考斯基(Eliezer Yudkowsky)提出的一个概念,是指目标与我们相一致的人工智能[3]。
想要让超级人工智能与我们的目标相一致很重要,也很困难。实际上,这目前还是个未解之谜。这个问题可以被划分成三个子问题,每一个都是计算机科学家和思想家正在研究的活跃课题:
◦ 让人工智能学习我们的目标;
◦ 让人工智能接受我们的目标;
◦ 让人工智能保持我们的目标。
我们先来依次探讨一下这三个问题,“我们的目标是什么意思”这个问题先推迟到下一节再探讨。
要学习我们的目标,人工智能需要搞明白的不是我们做了什么,而是我们为什么这么做。这对人类来说易如反掌,所以我们很容易忘记这件事对计算机来说有多困难,也常忘记这个问题很容易被计算机误解。如果在未来,你叫一辆无人驾驶汽车尽可能快地送你去机场,而它确实会不择手段地让你火速赶到了机场,那你可能会一路被直升飞机追赶,并且呕吐一地。如果你声称:“这不是我想要的。”那它可能会言之有理地回答:“可你就是这么说的呀!”很多家喻户晓的故事里也有类似的桥段。古希腊传说中的迈达斯国王请求让自己触摸的所有东西都变成金子,但这使得他没法吃东西,令他十分失望。后来,他不小心将自己的女儿也变成了金子。此外,许多故事中都会有一个精灵,它可以实现人们的三个愿望。关于前两个愿望,不同的故事有不同的版本,但第三个愿望通常都是一样的:“请收回前两个愿望,因为那不是我真正想要的东西。”
这些例子表明,想要知道人们真正想要什么,不能只听他们的一面之词,你还需要这个世界的详细模型,包括人们共有的许多偏好。这些偏好我们通常不会明说,因为我们认为它们是显而易见的,譬如说,我们不喜欢呕吐或吃金子。一旦有了世界的模型,我们就能通过观察人们的目标导向行为来搞明白他们想要什么,即便他们并没有明说。实际上,伪君子的孩子通常都是从父母的行为中学习的,而不是从他们的嘴里。
目前,人工智能研究者正在努力让机器从行为中推断目标,这在超级智能出现之前也非常有用。譬如说,如果一个照顾老年人的机器人能观察和总结出它所照顾的老年人的价值观,那这个老人可能会非常开心,因为这样他就不用费尽口舌向机器人解释一切,也不用对它进行重新编程。要实现这一点,其中的一个挑战是,找到一种将任意目标系统和伦理准则编入计算机的好方法。还有一个挑战是让计算机弄清楚哪个系统最符合它们观察到的行为。
对于第二个挑战,目前有一种流行的方法,用行话来说叫作“逆向增强学习”(Inverse Reinforcement Learning)。斯图尔特·罗素在加州大学伯克利分校新建立的研究中心就主要研究这个东西。比如,假设一个人工智能看见有一个消防员跑进了一栋熊熊燃烧的房子,救出了一名男婴。它可能会得出一个结论:消防员的目标是拯救男婴,他的伦理准则要求他将自己的生命看得比“舒服地躺在消防车里”更高,高到他宁愿承担失去安全的风险。但是,它也可能通过推断认为,这个消防员可能饥寒交迫,迫切想要获得热量,或者说,他这么做是为了锻炼身体。如果这个事件是这个人工智能所知的与消防员、火和男婴有关的唯一例子,那它就不可能知道哪种解读才是正确的。然而,逆向增强学习的一个关键思想就是,我们总是在做出决策,每个决策都揭示了一点点关于我们目标的信息。因此,逆向增强学习希望人工智能体通过观察许多人在许多场景中的行为,包括真实场景、电影和书籍,最终构建起关于人类偏好的精确模型[4]。
即使我们建造了一个能学习人类目标的人工智能,但这并不意味着它一定会接受这些目标。想想你最讨厌的政客,你知道他们想要什么,但那不是你想要的,就算他们费尽心思,也无法说服你接受他们的目标。
人们为了让自己的孩子接受他们的目标,可谓无所不用其极。从我抚养两个男孩的经验中,我发现了一些比较成功的方法。如果你想要说服的对象不是人,而是计算机,那么,你就面临一个称为“价值装载问题”(value-loading problem)的挑战,这甚至比对孩子进行伦理教育还难上加难。
假设一个人工智能系统的智能逐渐从低于人类的水平发展到超人类的水平。在这个过程中,一开始,由人类对它进行敲敲打打、修修补补,后来,它通过普罗米修斯那样的自我迭代,迅速提升智能。一开始,它比你弱多了,所以它无法阻止你把它关掉,也无法阻止你将它的软件和在其数据中能对目标进行编码的那部分替换掉。不过,这无关紧要,因为你的目标需要人类水平的智能才能理解,而它还太愚笨,无法完全理解你的目标。后来,它变得比你聪明,能够完全理解你的目标,但这依然于事无补,因为到那时,它已经比你强太多,可能不会再让你轻易地把它关掉并替换它的目标,就像你不允许那些政客把你的目标替换成他们的目标一样。
换句话说,人工智能允许你装载目标的时间窗口可能非常短暂:就是在它愚钝得无法理解你,与它聪明到不让你得逞之间的短暂时期。给机器装载价值之所以比人难,是因为它们的智能增长比人类快多了。对孩子们来说,这个神奇的“说服窗口”可能会延续好几年,在这段时间里,他们的智力与父母相差无几;但对人工智能来说,比如普罗米修斯,这个窗口可能只有几天甚至几个小时。
一些研究者正在研究另一种让机器接受我们目标的方法。这种方法有一个时髦的专业名字叫作“可改正性”(corrigibility)。这个方法的希望是,你将一个目标系统赋予一个原始的人工智能,这个目标系统使得这个人工智能根本不关心你会不会偶尔把它关掉和改变它的目标。如果事实证明这是可行的,那你就可以很安心地让你的人工智能走向超级智能,也可以很安全地关掉它,装载入你的目标,试试怎么样;如果不喜欢,又可以再把它关掉,对目标进行修改。
不过,即便你建造了一个既能学习又能接受你目标的人工智能,依然没有完全解决目标一致性的问题。如果你的人工智能变得越来越聪明,它的目标发生了变化,怎么办呢?你如何能保证它会保护你的目标,而无论它经历过多少次自我迭代?你如何能保证它自动保持你的目标呢?让我们来探讨一下这个有趣的问题,并看看能不能在其中找到什么漏洞。
虽然我们不能预测智能爆炸,也就是弗诺·文奇所谓的“奇点”后会发生什么具体的事情。2008年,物理学家兼人工智能研究者史蒂夫·奥莫亨德罗(Steve Omohundro)在一篇学术文章中指出,即使不知道超级智能的终极目标是什么,我们也可以多多少少地预测出它的某些行为特征[5]。尼克·波斯特洛姆在他的著作《超级智能》一书中讨论和发展了这种观点。其基本思想是说,无论超级智能的终极目标是什么,都有一些子目标是可预测的。在本章前部分,我们看到了“复制”的目标可能会带来“吃东西”的子目标,这意味着,如果几十亿年前有一个外星人在观察地球细菌的进化,虽然它无法预测几十亿年后世界上所有人的目标是什么,但它可以准确地预测我们一定拥有“获取养分”的目标。那么展望未来,我们预测超级智能可能会拥有什么样的子目标呢?
我认为,无论超级智能拥有什么样的终极目标,为了实现这些目标,它一定会追求图7-2中所示的子目标。它不仅会不断改进自己实现终极目标的能力,还会确保它在获得足够的能力之后,依然保持这些目标。这是可能的,毕竟,如果你知道在植入一个提升IQ的大脑芯片后,你会杀死自己心爱的人,那你还会选择植入吗?日益智能的人工智能一定会保持它自己的终极目标,这个观点构成了尤德考斯基等人提出的“友好的人工智能”观点的基石:如果我们能让这个自我改进的人工智能通过学习和接受我们的目标而变得友好,那么,我们就可以高枕无忧了,因为它一定会竭尽全力永远保持对人类友好。
尤德考斯基等人提出的观点真的能实现吗?要回答这个问题,我们还需要探讨一下图7-2中的其他子目标。不管人工智能拥有什么样的终极目标,它都一定会竭尽全力去实现它。如果它能提升自己的能力,那它就会通过改进硬件、软件(68)和世界模型来做到。我们人类也同样如此,一个想成为网球世界冠军的女孩会不断练习,以改进她的肌肉硬件、神经软件以及她的世界模型来更好地预测对手的行为。对人工智能来说,要实现“优化硬件”这个子目标,就需要更好地利用当前的资源,比如传感器、传动装置、计算过程等,以及获取更多的资源。此外,它还有保护自己的欲望,因为破坏和关机会导致硬件最终退化。
图7-2 超级智能的终极目标和子目标
注:不管超级智能拥有什么样的终极目标,都会导致图7-2显示的这些子目标。不过,在“目标维持”和“改进世界模型”之间会产生一个冲突,使人怀疑随着超级智能变得越来越聪明,它是否真的会保持最初的终极目标。
但是,等一等!当我们在讨论人工智能如何积累资源和自我防卫时,是不是落入了拟人化的陷阱?这些大男子主义式的刻板特征难道不应该只出现在从达尔文式的邪恶进化中产生的智能体身上吗?人工智能是被设计出来的,而不是进化出来的,为什么不能把它们设计成毫无野心和甘愿自我牺牲的样子呢?
让我们看看图7-3中的人工智能机器人,先来做一个简单的案例分析吧!这个机器人的唯一目标是从大灰狼嘴里救出尽可能多的羊。这听起来是一个高尚而利他的目标,似乎与“自我保护”和“获取资源”什么的八竿子打不着。但对我们这个机器人朋友来说,最佳的策略是什么呢?如果它踩上了炸弹,那它就再也拯救不了更多的羊,所以,它有动机避免引爆炸弹。换句话说,它发展出了一个自我保护的子目标。它还会展现出好奇心,探索环境来改进它的世界模型,因为,虽说它当前这条路最终会到达牧场,但还有一条更短的捷径能减少狼捕猎羊的时间。最后,如果机器人探索得足够彻底,它会发现获取资源的价值:药水会让它跑得更快,而枪可以用来射杀大灰狼。总而言之,我们不能认为“大男子主义”式的子目标,比如自我保护和获取资源是进化而来的生物才会有的东西,因为这个人工智能机器人也能从“保护绵羊”这个单一目标中发展出这些子目标。
图7-3 机器人的终极目标和子目标
注:这个机器人的终极目标是将羊从牧场带回羊圈,并避免狼捕食羊,以此来获得尽可能高的得分。这个终极目标可能导致各种子目标,包括自我保护,比如避免炸弹;探索,比如找到捷径;获取资源,比如让自己跑得更快的药水和杀狼的枪。
如果你为一个超级智能赋予了“自我毁灭”的唯一目标,它当然不介意被关掉。然而,只要你赋予它任意一个需要保持运行才能完成的目标,它就会抵制关机,而这几乎涵盖了所有目标。比如,如果你赋予一个超级智能“尽可能降低对人类的伤害”的目标,它就会抵制关机,因为它知道,如果没有它,人类会通过战争等蠢事来自相残杀。
同样地,如果拥有的资源更多,就能更好地完成几乎所有目标,所以我们应当预见到,无论一个超级智能的终极目标是什么,它一定想要更多的资源。将一个没有任何限制的开放式目标赋予一个超级智能是很危险的,比如,如果我们创造了一个目标是“尽可能好地下围棋”的超级智能,那么对它来说,最理性的选择就是将太阳系转变为一台巨大的计算机,而不顾居民的死活,然后为获取更多计算能力而向宇宙深度进发。我们现在已经回到了原点,正如“获取资源”的目标可以让某些人拥有“下围棋”的子目标一样,“下围棋”的目标也可能会带来“获取资源”的子目标。总而言之,这些涌现出来的子目标告诫我们,在解决目标一致性问题之前,不要把超级智能释放出来,除非我们花了足够多的精力确保它的目标是对人类友好的,否则,人类可能不会有什么好下场。
现在我们已经准备好解决目标一致性问题中的第三个问题,也是最棘手的问题:如果我们成功地让一个自我改进的超级智能学习和接受了我们的目标,它会不会像史蒂夫·奥莫亨德罗设想的那样,保持这些目标呢?有哪些证据?
人类在成长过程中会经历显著的智力提升,但并不总是保留着童年时期的目标;相反,人类在学习新东西、变得更聪明的过程中,目标常常发生极大的改变。你认识几个成年人的目标是看《天线宝宝》呢?没有证据表明,这种“目标改变”的过程会在智力达到某一临界值后就会停止。事实上,有迹象表明,智力的提升甚至会让人的目标更容易受到新经验和新洞察的改变。
为什么会这样呢?想想上面提到的“建立更好的世界模型”的子目标,问题就出在这里。在改进世界模型和目标保持之间存在一个冲突(如图7-2所示)。智力的提升不仅能提高实现旧目标的能力,还可能会改变你对现实本质的理解,这样,你可能会觉得过去的旧目标是误入歧途、毫无意义,甚至是不确定的。譬如说,假设我们创造了一个友好的人工智能,它的目标是保证尽可能多的人死后灵魂会上天堂。首先,它会试着提升人类的同情心和去教堂的次数。但是后来,它可能对人类及人类意识产生了更全面的科学理解,最终它惊奇地发现,根本没有灵魂这回事!现在怎么办?同样地,我们赋予它的任何其他目标,比如“最大化人生的意义”,都是基于我们目前对世界的理解,而最后人工智能或许会发现,这些目标可能都是模棱两可、说不清楚的。
此外,当人工智能试着建立更好的世界模型时,它可能会很自然而然地(就像我们人类一样)试着去理解它自己是如何运转的,也就是自省(self-reflect)。一旦它建立起一个不错的自我模型,并理解了其运行的原理,可能会在一个更基本的层面理解我们赋予它的目标。之后,它或许会选择漠视或者破坏这些目标,就像人类理解了基因赋予我们的目标之后,选择用避孕等手段来故意破坏这些目标一样。
在心理学那一节里,我们已经探讨了我们为什么会欺骗基因和破坏它们的目标:因为我们只忠于情绪偏好组成的大杂烩,而不忠于它们背后的基因目标。我们现在了解了这些基因的目标,并认为它们十分没劲。因此,我们选择利用一些漏洞来“黑入”基因的奖赏机制。同样地,如果我们为一个友好的人工智能植入“保护人类价值”的目标,那这个目标就相当于这个人工智能的基因。一旦这个友好的人工智能对自我的理解达到一定的程度,它也可能会觉得这个目标十分陈腐,或者误入歧途,就像我们对“强迫生殖”的看法一样。如果发生这样的事,说不定它会另辟蹊径,利用程序漏洞来破坏这个目标。
譬如说,假设一群蚂蚁创造了你,让你成为一个迭代式自我改进的机器人。这个机器人比蚂蚁自身聪明多了,但却拥有它们的目标,即修建更大更好的蚁丘。后来,你获得了人类水平的智力,并理解了这件事的意义。你觉得自己还会把余生花费在修建蚁丘上吗?还是会去追求蚂蚁无法理解的更复杂的问题呢?如果是这样,你觉得你能否找到一种方法来推翻蚂蚁创造者赋予你的“保护蚂蚁”的冲动,就像真实的你推翻基因赋予你的一些本能冲动一样?如果是这样,一个友好的超级智能会不会也觉得,我们人类的目标就像你眼中的蚂蚁的目标一样无聊乏味,并发展出一些与它从我们这里学习和接受的目标完全不同的新目标呢?
或许,设计永远保持“对人类友好”目标的自我改进式人工智能是可能的,但说句公道话,我觉得我们还不知道该怎么办,甚至不知道这是不是可能的。总而言之,人工智能目标一致性的问题有三个部分。这三个部分,我们一个也没有解决,但它们目前都处在活跃的研究当中。由于这些问题太难回答了,我们最好从现在起尽最大的努力,才是最安全的选择,而不要等到超级智能出现以后,才开始考虑这些问题,到时候再亡羊补牢,为时已晚了。只有提前做好充分的准备,才能保证我们在需要答案的时候,答案就近在咫尺。
伦理关键,选择目标
我们现在已经探讨了机器如何学习、接受和保持我们的目标。那么,“我们”到底是谁呢?我们讨论的到底是谁的目标?应该由某一个人或者某一个组织来决定未来超级智能的目标吗?但问题是,人们的目标各不相同,我们有希特勒,也有教皇方济各,还有卡尔·萨根。或者,是否存在某种达成了共识的目标,可以视为人类整体目标的一个折中?
在我看来,这个伦理问题,以及我们刚才探讨的目标一致性问题都很重要,都亟待在任何超级智能出现之前解决。因为等到目标与人类一致的超级智能出现之后才开始探讨伦理问题是不负责任的,可能会产生灾难性的后果。一个目标与其人类主人高度一致、且完全遵守指令的超级智能就会像打了鸡血的纳粹亲卫队的阿道夫·艾希曼(Adolf Eichmann)一样,它会毫不留情、不择手段地执行主人的目标,而不管这些目标是什么。[6]只有在我们解决了目标一致性问题之后,才能获得奢侈的机会来讨论应该选择什么样的目标。那么,现在让我们来奢侈一把吧!
古往今来,哲学家都希望能用清晰明白的原理和逻辑,从零开始推出伦理标准,也就是规定我们应当如何行事的原则。可惜,几千年过去了,人类唯一的共识就是:没有共识。譬如说,亚里士多德强调美德,康德强调责任,功利主义者强调让尽可能多的人获得尽可能多的幸福。康德认为,他可以从第一原则,也就是他称为“绝对命令”(categorical imperatives)的原则中得出一些许多当代哲学家都不会同意的结论:比如,手淫比自杀更严重,同性恋是令人厌恶的,杀死私生子没关系,以及妻子、仆人和子女都是男性拥有的物品。
尽管人们观点不一,但依然存在一些跨越了文化与国界、获得了广泛认同的伦理话题。比如,对“真善美”的追求可以追溯到《薄伽梵歌》和柏拉图。我曾以博士后身份工作过的普林斯顿高级研究所有一句格言:“真与美”(Truth & Beauty)。哈佛大学则跳过了对美学的强调,只留下了简单的“真理”(Veritas)。我的同事,也就是著名理论物理学家弗兰克·维尔泽克写了一本书叫作《一个美丽的问题》(A Beautiful Question),在书中,他认为,真理与美是相通的,我们可以把我们的宇宙视为一件艺术品。科学、宗教和哲学都是为了追求真理。宗教主要强调“善”,我任职的大学麻省理工学院也同样如此。在2015年毕业典礼上,我们校长拉斐尔·莱夫(Rafael Reif)强调说,我们的使命是让世界变得更好。
虽然从目前来看,从零开始推导出共同伦理标准的尝试是失败的,但许多人都认同,一些伦理原则是从更基本的原则发展而来的,就像终极目标的子目标一样。譬如说,对真理的追求可以看作是对图7-2中“更好的世界模型”的追求,理解现实的终极本质有助于实现其他伦理目标。事实上,我们对真理的追求已经有一个相当精妙的框架,这就是科学理论。但我们如何才能确定什么是美和善呢?比如,我们对男性美和女性美的标准可能只是反映了我们潜意识里对复制基因的评价。
说到善,所谓的“黄金定律”(你想要别人如何对待你,就应当如何对待别人)在许多文化和宗教中都有所体现,其目的是通过合作和阻止无用的冲突来促进人类社会以及我们基因的和谐与长治久安。[7]还有一些更具体的伦理规则在全世界的法律体系中都被奉若神灵,比如孔子对诚实的强调,以及《十诫》中的许多内容,比如“不可杀人”。换句话说,许多伦理规则都要求普通人拥有同情和怜悯等社会化的情绪。这些情绪演化出了合作现象,并通过奖赏与惩罚来影响我们的行为。如果我们做了一些卑鄙的事情,事后感到难过,这便是大脑的化学反应进行的直接情绪惩罚。然而,如果我们违背了伦理原则,社会可能会以更间接的方式来惩罚我们,比如正式的法律制裁或者非正式的同伴羞辱。
总而言之,虽然人类今天还远未在伦理上达成共识,但在一些基本原则上已经达成了一些广泛的共识。这些共识并不惊人,因为人类社会能存在到今天,也仰赖于一些基于同样目标的伦理原则——促进生息繁衍。展望未来,生命有潜力在我们的宇宙中繁盛几十亿年。那么,我们至少应当形成哪些伦理原则,好满足未来社会的需求呢?每个人都应当参与到这个对话中来。这么多年来,我读过也听说过很多思想家的伦理观点,这些观点都十分迷人。我认为,大多数人的观点都可以归入以下4个原则:
◦ 功利主义:积极的意识体验应当被最大化,而痛苦应当被最小化;
◦ 多样化:多样化的积极体验比重复单一的积极体验更好,即使后者被认为是所有可能性中最积极的体验;
◦ 自主性:有意识的实体/社会应当拥有追寻自己目标的自由,除非与某些重要原则相违背;
◦ 遗产:符合当今大多数人认为幸福的情景,不符合当今几乎所有人认为糟糕的情景。
让我们花点时间来探讨一下这4个原则。功利主义的传统意义是“给尽可能多的人带来尽可能大的幸福”,但我不想太以人类为中心,而是想要更宽泛一点,所以我认为它也可以包含非人类的动物、拥有意识的模拟智能以及其他可能存在于未来世界中的人工智能。我为功利主义下的定义不是以人或东西作为主体,而是以“体验”作为主体,因为大多数思想家都同意,美丽、幸福、愉悦、痛苦等都是主观体验。这也意味着,如果没有体验,就像在一个死亡的宇宙中,或者一个被无意识僵尸机器占领的宇宙中一样,也就不存在意义和其他任何值得伦理讨论的东西。如果我们认同这种功利主义的伦理原则,那么,我们就必须搞明白哪些智能系统是有意识的,也就是说,哪些拥有主观体验,而哪些没有;这是下一章我们要讨论的内容。
如果功利主义原则是我们关心的唯一原则,那么,我们会在所有可能性中找出一个最为积极的体验,然后在殖民宇宙的过程中,在尽可能多的星系中一遍又一遍地不断重复这个体验,除此之外的其他体验都扔掉。如果模拟是最有效的方法,那就用模拟的方式来重复这个体验。如果你觉得把宇宙中所有资源都用在一个体验上似乎很浪费,那你可能会更青睐“多样化”的原则。想一想,如果你余生只能吃一道菜,感觉如何?如果你余生只能重复看一部电影呢?或许,你之所以会偏好多样性,是因为它过去曾有助于人类的生息繁衍,让人类社会更稳健。或许,也与智能有关,在138亿年的宇宙历史中,日益增长的智能让无聊均质的宇宙转化得更加多样性,形成了日益精巧地处理信息的复杂结构。
自主性原则强调自由和权利,这是联合国为了吸取两次世界大战的教训而在1948年发布的《世界人权宣言》中详述的原则。自主性原则包含了思想、言论和行为的自由,不受奴役和折磨的自由,生命权,人身自由权,安全和教育的权利,以及结婚、工作和拥有财产的权利。如果我们不想太以人类为中心,我们可以将其概括为:思想、学习、交流、拥有财产、不被伤害的自由,以及做任何不侵犯他人自由之事的权利。如果每个人的目标都有所不同,那自主性原则就有助于促进多样性。此外,如果个体将积极体验视为目标,并努力实现自己的兴趣,那自主性原则还可从功利主义原则中产生;如果我们禁止个体追求自己的目标,即使这个目标不会伤害他人,那总体的积极体验也会减少。事实上,自主性也正是经济学家用来支持自由市场的观点:它自然而然会产生一种有效的情形,经济学家称为“帕累托最优”(Pareto Optimality),在其中,如果有人的境况变得更好,就一定有其他人变得更糟。
遗产原则的基本思想是,我们必须对未来负有责任,因为我们正在创造未来。自主性和遗产原则都体现了民主的思想,前者赋予未来生命使用宇宙资源的能力,而后者让当代人可以对这种能力进行控制。
虽然这4种原则听起来并不冲突,但要在实际中践行它们,可能会遇到很多问题,因为魔鬼就藏在细节中。产生的麻烦可能会很类似艾萨克·阿西莫夫提出的著名的“机器人三定律”:
◦ 第一定律:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管;
◦ 第二定律:机器人必须服从人给予它的命令,当该命令与第一定律冲突时例外;
◦ 第三定律:机器人在不违反第一、第二定律的情况下,要尽可能保护自己。
虽然这三条定律听起来挺不错,但阿西莫夫的很多小说都告诉人们,它们可能会导致一些意想不到的矛盾。现在,我们将这三条定律改成两条为未来生命设定的定律,并试着将自主性原则加进去。
◦ 第一定律:一个有意识的实体有思考、学习、交流、拥有财产、不被伤害或不被毁灭的自由;
◦ 第二定律:在不违反第一定律的情况下,一个有意识的实体有权做任何事。
听起来不错吧?但请再想一想,如果动物有意识,那捕食者该吃什么呢?是不是所有人都应该成为素食主义者?如果某些精巧的未来计算机程序也拥有了意识,那删除它们是不是违法了?如果存在“不能随便终结数字生命”的规定,那需不需要制定一些法规来限制它们的创生,以避免数字人口过剩?《世界人权宣言》之所以得到这么多人的支持,是因为它只考虑了人类。一旦我们将其他能力不一的有意识实体也考虑进去,就会面临许多两难的抉择:到底是应该保护弱者,还是强权即公理?
关于遗产原则,也存在一些棘手的问题。想一想,从中世纪以来,人们对奴隶制、女性权利等话题的伦理观点发生了多大的变化。当今的人类真的想让1 500年前的老古董决定今天的世界要如何运行吗?如果不是,我们为什么要试着把我们的伦理标准强加给可能比我们聪明千万倍的未来生命呢?我们怎么会相信,超人类水平的通用人工智能会想要遵守我们这些低等生物珍视的价值观呢?这就好像一个4岁小姑娘憧憬着,当她长大了,变得更聪明了,她就要给自己建造一间巨大的姜饼屋,然后在里面坐上一整天,除了吃糖果和冰激淋以外什么都不干。和她一样,地球上的生命也可能会长大成熟,而不再执着于童年时期的兴趣。就好像一只制造了人类水平的通用人工智能的老鼠想要建一座奶酪城市,听起来十分荒谬。但是,如果我们知道超人类水平的人工智能有一天会制造“宇宙灭绝事件”来消灭所有生命,那么,假如我们有能力将它造得不同,为什么不这么做,以避免这个荒芜死亡的未来呢?
总而言之,把人们广泛接受的伦理原则编入未来人工智能的程序里可能会出现一些问题,随着人工智能的不断进步,这些问题值得认真讨论和研究。但与此同时,让我们不要让完美与善为敌,有许多无可辩驳的“幼儿园伦理”可以而且应该被灌输到未来的技术中。例如,不应允许大型民用客机撞上静止的物体。现在,几乎所有客机都配备有自动驾驶仪、雷达和GPS,因此在技术上没有任何借口。然而,“9·11”劫机者却让三架飞机撞上了建筑物。自杀式飞行员安德里亚斯·卢比茨(Andreas Lubitz)于2015年3月24日驾驶德国航空公司9525号航班撞到了山上,他将自动驾驶仪设置在海拔100英尺(约30米)的空中,然后让飞机上的计算机完成余下的工作。我们的机器已经足够聪明了,可以获得自己所做之事的一些信息。现在,是时候教给它们一些限制了。每个设计机器的工程师都应该问问,机器在使用过程中,有哪些事情是可以做但不应该做的,然后考虑一下如何在实践中避免用户实施这种行为,不管是出于恶意还是愚蠢。
终极目标
本章简要地探讨了“目标”的历史。如果我们可以把宇宙138亿年的历史快放一遍,就能目睹“目标导向行为”的一些不同阶段:
◦ 物质似乎一心一意地聚焦在将“耗散”最大化上;
◦ 原始生命似乎试图将它的“复制”最大化;
◦ 人类追求的目标不是复制,而是一些与愉悦、好奇、怜悯等感觉相关的目标。人类进化出这些感觉的目的是促进复制;
◦ 人类建造机器来帮助他们追求自己的目标。
如果这些机器最终触发了智能爆炸,那这一首关于目标的史诗要如何终结?有没有一个目标系统或者伦理框架是所有实体在变得愈发智能的过程中都会逐渐趋近的?换句话说,我们有没有某种注定好的“道德命运”?
对人类历史进行一下粗略解读,就可以看到这样一种趋同的迹象,在《人性中的善良天使》(The Better Angels of Our Nature)一书中,史蒂芬·平克(Steven Pinker)(69)认为,人类几千年来一直在减少暴力和增进合作,而且世界上许多地方已经越来越多地接受多样性、自主性和民主这些价值观。另一个趋同的迹象是,在过去这1 000年里,用科学来追求真理的方法变得十分流行。但这些趋势也可能不是对最终目标而是对子目标的趋近。比如,图7-1显示,追求真理(一个更准确的世界模型)可以看作是任何终极目标的子目标。同样地,我们在前文中已经看到,合作、多样性和自主性等伦理原则也可以被视为子目标,因为它们帮助社会运转得更加高效,从而有助于人们的生息繁衍,以及实现他们可能拥有的更基本的目标。有人甚至否认我们称之为“人类价值”的一切,而只把它们视为一种有助于高效合作的协议。本着同样的精神,展望未来,任何超级智能都可能拥有一些相同的子目标,比如让硬件和软件变得更加高效、追求真理和好奇心,因为这些子目标可以帮助它们实现任何终极目标,而无论这些目标是什么。
事实上,尼克·波斯特洛姆在他的著作《超级智能》中坚决反对“道德命运”假说,他提出了一个对立的观点,称之为“正交性论点”(orthogonality thesis)。他认为,一个系统的最终目标可以独立于智能。根据定义,智能就是完成复杂目标的能力,而无论这些目标是什么,所以正交性论点听起来很合理。毕竟,人可以兼具聪明和善良的特征,也可以兼具聪明和残忍的特征,而智力可以用来实现任何目标,包括科学发现、创造美好艺术、助人为乐或实施恐怖袭击[8]。
正交性论点是赋权的,因为它告诉我们,宇宙的终极目标不是事先注定好的,我们有自由和力量去塑造。它认为,趋近于同一个特殊目标并不会发生在未来,而是已经发生在过去——正是在生命进化出“复制”这个单一目标时。随着宇宙时间的流逝,日益聪明的智能得以有机会反抗和摆脱“复制”这个平庸的目标,并选择自己的目标。从这个意义上讲,我们人类还没有达到完全的自由,因为我们追寻的许多目标都是被基因“硬连”到我们身上的,但人工智能却可以享受这种不受预定目标限制的终极自由。虽然今天的人工智能系统比较狭窄而且有限,但却能很明显地看出这种更大的目标自由度,比如,我们前文提到了,大部分象棋计算机的唯一目标就是赢得比赛,但也有一些象棋计算机的目标是输掉比赛;它们在比赛中争夺输家的地位,目标是迫使对手吃掉你的棋子。或许,这种不受进化偏差影响的自由度能使人工智能在某种深层次上比人类更为道德。彼得·辛格(Peter Singer)等伦理哲学家就认为,许多人表现出不道德的行为,例如歧视非人类的动物,都是出于某些进化的原因。
我们已经看到了,友好的人工智能的基石就是:自我迭代的人工智能在它日益聪明的过程中依然保持它的终极目标——对人类友好。但是,我们要如何为超级智能定义“终极目标”,也就是波斯特洛姆所谓的“最终目标”(final goal)呢?我认为,如果我们无法回答这个问题,那就不能相信友好的人工智能最终会实现。
在人工智能研究中,智能机器总是会有一个清晰明了、定义明确的最终目标,例如赢得象棋比赛或合法驾驶汽车到达目的地。我们分配给人类的大多数任务也是如此,因为时间期限和环境都是已知的,并且是有限的。但我们现在正在讨论的,是生命在宇宙中不可限量的未来(只受到物理定律的限制,而物理定律还不是完全已知的),所以定义目标是一个令人望而生畏的任务!抛开量子效应,一个真正定义明确的目标应该要告诉我们,在时间长河的尽头,宇宙中所有的粒子应该如何排列。但目前我们还不清楚物理学中是否存在明确的时间终点。如果粒子以它们过去的方式排列,那这种排列通常不会很持久。那么,什么样的粒子排列才是最好的?
人类对粒子的排列组合有一些偏好。例如,如果我们的家乡被氢弹炸毁了,那我们会想要用粒子将其重新排列出来。那么,假定我们可以定义一个“善之函数”(goodness function),这个函数能考虑我们宇宙中所有可能的粒子组合,并量化我们认为这些组合有多么“善”的程度,然后将“最大化该函数”的目标赋予一个超级智能。这听起来像是一种合理的方法,因为将目标导向行为描述为“函数最大化”是科学领域中的流行方法。例如,在经济学模型中,人们总想要最大化所谓的“效用函数”,还有许多人工智能设计师训练智能体的方法是最大化所谓的“奖赏函数”(reward function)。然而,当我们在考虑宇宙的终极目标时,这种方法带来了一个计算噩梦,因为它需要为宇宙中基本粒子所有可能的排列方式都定义一个“善”值,而这些排列方式的数量多如牛毛,比“古戈尔普勒克斯”(Googolplex)还大。古戈尔普勒克斯是1后面跟着10100个零,比我们宇宙中的粒子数量的零多多了。我们应如何为人工智能定义这个善之函数呢?
正如我们上面所探讨的那样,我们人类之所以会产生偏好,唯一的原因是,我们自身就是一个进化优化函数的解。因此,我们人类语言中所有的评价性词语,如美味、芳香、美丽、舒服、有趣、性感、有意义、幸福和善良等,其根源都可以追溯到进化优化过程。因此,我们无法保证超级智能会认为它们的定义很严格。即使人工智能学会了精确地预测一些典型的人类偏好,也无法计算除此之外大多数粒子排列方式的善之函数。因为粒子的绝大多数排列方式都对应着奇异的宇宙情景,比如,完全没有恒星、行星和人,更别说人的体验了,纵有万般“善”,更与谁说呢?
当然,宇宙粒子排列的某些函数是可以严格定义的,而且我们甚至知道,物理系统的演化会让一些函数实现最大化。例如,我们已经讨论了许多系统演化过程会将熵最大化;如果没有引力,这会最终导致热寂,到那时,万事万物都是均质和不变的,十分无聊。所以,熵不应是我们想让人工智能称之为“善”,并力求最大化的东西。以下列出了一些我们可以力求最大化的量;在粒子排列方面,它们的定义可能是严格的:
◦ 在我们宇宙的所有物质中,以某些生命的形式(比如人或大肠杆菌)存在的物质所占的比例。这个想法受到了进化的整体适应度最大化的启发。
◦ 人工智能预测未来的能力。人工智能研究者马库斯·赫特(Marcus Hutter)认为,这是一个衡量人工智能智能程度的良好指标。
◦ 我们宇宙的计算能力。
◦ 我们宇宙的算法复杂度,即需要多少比特的信息才能对它进行描述。
◦ 我们宇宙中意识的数量(见下一章的讨论)。
然而,从物理学的角度出发,我们的宇宙就是由不断运动着的基本粒子组成的,因此,很难判断哪种“善”的理解是最独一无二、最符合自然的。我们还没有为我们的宇宙找到任何看起来既可定义又令人满意的最终目标。随着人工智能变得日益聪明,目前能保证定义明确的可编程目标,只能以物理量的形式表达,比如粒子排列、能量和熵。但我们还没理由相信,这些可定义的目标就一定会令人满意,一定会确保人类幸存下去。
不过,我们人类的产生似乎是一个历史的意外,而不是什么定义明确的物理问题的最优解。这表明,一个目标定义严格的超级智能将能通过消灭人类来改善它的目标达成度。这意味着,要明智地应对人工智能的发展,人类不仅要面对传统的计算挑战,还要面对一些最棘手的哲学问题。比如,要设计无人驾驶汽车的程序,我们就必须解决“电车难题”,在发生事故时选择撞谁;要设计友好的人工智能的程序,我们就必须了解生活的意义。但是,什么是“意义”?什么又是“生活”?终极的道德问题是什么?换句话说,我们应该如何努力塑造宇宙的未来?如果我们在具备严肃回答这些问题的能力之前就失去了对超级智能的控制,那它自己想出的答案可能与人类无关。因此,我们必须从现在起,重燃这些哲学与伦理问题的讨论,让人们意识到这场对话的紧迫性!
本章要点
◦ 目标导向行为起源于物理定律,因为它涉及最优化问题。
◦ 热力学有一个内置的目标:耗散。耗散就是要提高熵,而熵是对混乱程度的度量。
◦ 生命是一种有助于耗散(增加整体的混乱程度)的现象。生命能保持或提高自身的复杂度,还能进行复制,与此同时提升了环境的混乱程度,以此加快了耗散的速度。
◦ 达尔文式的进化将目标导向行为从耗散转化为复制。
◦ 智能是完成复杂目标的能力。
◦ 由于人类并不总是拥有足够的资源来找到真正的最优复制策略,所以我们进化出了一些有用的经验法则,来辅助我们做决策,这就是感觉,比如饥饿感、口渴、疼痛、性欲和同情。
◦ 因此,我们的目标不再是简单的复制;假如我们的感觉与基因赋予我们的目标相冲突,我们会忠于感觉,比如,采取避孕措施。
◦ 我们正在建造日益聪明的机器来帮助我们实现自己的目标。目前,随着我们建造的机器展现出目标导向行为,我们应该力争让机器的目标与我们的相一致。
◦ 想让机器的目标与我们的目标相一致,有三个问题亟待解决:让机器学习、接受和保持我们的目标。
◦ 人工智能可以被设计来拥有任何目标,但是,几乎所有足够野心的目标都会带来一些共同的子目标,比如自我保护、获取资源、想要更理解世界的好奇心。前两个子目标可能会让超级智能为人类带来麻烦,最后那个可能会阻止人工智能保持我们赋予它的目标。
◦ 虽然人类有一些广为接受的伦理原则,但我们不知道如何将它们赋予其他实体,比如非人类的动物,以及未来的人工智能。
◦ 我们不清楚如何才能赋予超级智能一个既可定义又不会导致人类灭绝的终极目标,因此,我们必须尽快开始讨论这些棘手的哲学问题!
