R　奖励Reward——塑造学习行为

所谓奖励^[1]，指的就是在完成某项行为后所获得的称心如意的回报。正是如此，奖励什么行为就会鼓励什么行为再次发生，而惩罚某种行为则会抑制该行为的发生。每当我们谈及学习时，总会很自然地关注如何促进对知识的理解，却忽略了另一个非常关键的因素，即如何养成良好的行为习惯。就好比家长们的心声，“如果孩子每天放学回家后，第一件事情是写作业而不是打游戏，那该多好啊！”

桑代克（Thorndike）的效果定律对强化行为的基本规律进行了概括：如果做一件事能引发你想要的结果和回报，你就会不断重复它；而如果导致了你不希望看到的结果，你也就不会再去做了。更为有趣的是，这条定律可以超越理性思考，让人对某些行为本身产生盲目迷信。想来点儿证据？看看旧金山巨人棒球队的奥布里·赫夫（Aubrey Huff）吧！由于锦标赛期间竞争激烈、气氛紧张，他就穿着红色内裤来缓解压力。而与此同时巨人队势头正盛，连续取得胜利，于是赫夫就迷信红内裤会给他带来好成绩，后来愣是连续穿了（据传闻，同一条内裤）好几个月！

同时，一系列有计划、有安排的合理奖励，可以逐渐塑造出相对复杂的行为。行为主义的主要倡导者斯金纳（B.F.Skinner，1986）讲述了一个培养艺术鉴赏兴趣的故事。两名同宿舍的学生商量着要在宿舍墙上挂一幅油画作为装饰、陶冶情操，然而另一位室友贺子飞却坚持在那儿挂上自己的棒球比赛奖状。两人拗不过他，决定当贺子飞表现出与艺术有关的行为时暗中奖励他，从而彻底改变他对艺术的看法。例如，在一次聚会中，两人邀请了一位年轻貌美的姑娘与子飞谈论艺术相关的话题，每次当子飞谈到艺术等关键词时，这位姑娘就会对他给予由衷的赞许。随后两位室友又带着子飞去艺术博物馆，当他正专心观赏一幅画作时，悄悄地丢了50块钱在他身边，创造个意外之喜。此外，每当子飞提到艺术话题时，这两位室友就都会放下手头的事，转过身来把注意力放到他身上，认真地聆听他对于艺术的分享。随着故事继续发展，一个月后，子飞终于买下了他人生中的第一幅画，并把画挂在了宿舍的墙上。

Ⅰ.奖励的原理

奖励通常被分为两类：外部奖励与内部奖励，这两者之间存在明显的区别。外部奖励^[2]通常发生在行为完成之后，且不属于行为的一部分。比如说，音乐家演奏乐器时不会用到任何纸币或硬币，但出色的演奏家在表演圆满结束后会获得金钱的奖励。相比之下，内部奖励^[3]则来自于一个人自身，且属于活动的一部分。陶醉于演奏的过程中身心愉悦，这种满足感本身就是一种对自己的奖赏，就算没有金钱的回报也无妨。

以外部奖励塑^[4]造行为

外部奖励在教育中主要用在塑造学习行为上。通过引导塑造，学习者会逐渐展现出我们期待的目标行为，在目标行为出现后，再进一步巩固强化。举个例子，假设我们希望让小鸡学会背对篱笆（其实是否理解为什么要这样做并不重要，因为外部奖励无论如何都会生效）。过程中我们需要循序渐进地塑造小鸡的行为，直到出现我们想要的最终结果。图R.1展示了塑造行为的整个过程。

图R.1　行为塑造

塑造阶段1：小鸡在地上啄食，啄的位置呈现出自然的随机性。每当它稍稍转向右边啄时，我们就立刻正向强化^[5]这个行为（比如，给吃的）。我们需要迅速精准地完成强化的过程，否则很可能会在拖延中不经意间奖励了其他行为。总之，对于理想行为的奖励，越及时越好。

塑造阶段2：小鸡啄食的范围稍微向右偏了一点，啄食位置随机分布在新的区域中。我们还是继续奖励向右的啄食行为，而当它不小心回到左边时就什么也不给。虽然我们可以在它向左转时惩罚它，但其实这样做没有必要，反而还会带来额外的压力。更何况惩罚并不能让它知道该做什么，它既有可能转向另一边，也可能受到惊吓而跳开到一旁。对人来说也是一样：惩罚可以阻止某个具体的行为，但对鼓励理想行为却毫无作用。

塑造阶段3：继续塑造小鸡向右转的行为，直到最终朝向期待的目标方向（背对篱笆）。

强化阶段：终于，我们可以奖励“小鸡背对篱笆”这个期盼已久的行为了。这个阶段中，奖励会进一步帮助小鸡区分被奖励的行为是“向右转”还是“背对篱笆”。为了防止小鸡一直向右转圈圈，奖励强化只出现在篱笆的正前方。

不规律的强化：这个部分理解起来可能不那么直观。事实上，我们并不会在每次出现目标行为时都给予奖励，时有时无的奖励反而更加有效。通过时有时无的奖励，小鸡慢慢就会明白一个道理：虽然这次好好表现没得到食物，但是只要继续好好表现，最终一定会得到食物的！随机给出的强化奖励能够避免行为过度依赖奖励，否则一旦奖励终止，目标行为也就烟消云散了。令人出乎意料的是，随机强化比稳定强化发挥的作用更持久、更稳定。不信就看看那些在麻将桌旁坐下就起不来的人吧！”

以内部奖励促进持续投入

内部奖励会调动起人们的内在驱动力，促使人们持续投身于那些能产生愉悦感的活动中。人们之所以这么做是因为活动本身的魅力，而非任何来自外部的奖励。与此同时，每个人内在享受的点也是不同的。比如大厨享受的可能是烹饪佳肴的过程，而球迷则喜欢沉浸在比赛的喝彩声中。对于学习来说，符合每个学习者兴趣的个性化学习路径可能是最完美的状态。然而美好的愿景在面对实际情况时，总显得有点遥不可及，毕竟学生人数众多，来自不同的成长背景，每个人的兴奋点与兴趣点也各不相同。幸亏有一些能够激发内在动力的情境，几乎人人受用。瑞安和德西（Ryan&Deci，2000）提出了三种基本的内在动机：自主权、胜任感，以及社交关联。

自主权指的是对自己的决定与行为具有掌控力的感觉。我们发现那些赋予学生更多自主权的班级，要比那些控制欲强、喜欢发号施令的班主任管理的班级展现出更强的好奇心、对挑战更强的渴望，以及对学习更持久的驱动力。

胜任感指的是当你完成预期目标时一种驾轻就熟的感觉。例如，练习投篮时不断提升的命中率，就会在无形中促使人乐此不疲地继续练习。

社交关联涉及的是人们渴望与他人建立关联的基本需求（请参考章节B）。虽然社交关联对于内在驱动力来说并非必要条件（很多适合一个人独自完成的活动也能激发人们的积极性），但它还是能起到一定程度的提升作用。例如，对自酿啤酒或自制家具感兴趣的业余爱好者来说，如果能有机会与他人分享自己的劳动成果，那该是一件多么值得骄傲的事情啊（请参考章节M）！

因此，任何能产生上述感受的活动都会非常鼓舞人心，毕竟触及人类心理需求的事情往往能发挥巨大的威力。

理想型挑战则是一种非常重要的内在激励，它能持续不断地吸引人们投身于更加困难的任务中去，在一往无前的闯关过程中边做边学。正如图R.2所示，任务难度与自身能力相差太远会导致焦虑，任务过于简单又会令人厌倦（这并非是说简单的任务都会无聊，如果是与好闺蜜一边聊天一边织围巾，就算重复相同的图案也会令人愉悦）。那些现有水平基本能够胜任，但还需要跳一跳才能达成的任务尤其引人入胜。理想型挑战正是由一系列这样的任务构成，因此理想型挑战常常会把人带入到这样一种状态：完全沉浸于眼下的任务之中，忘记了时间的流逝。这种状态被米哈里（Csikszentmihalyi）称为“心流”（flow）。我们在打扫房间的时候就经常有类似的感受：这边擦一擦，那边摆一摆，回过头来一看才发现已经过去好几个小时了！从学术的层面来看，并没有太多实验证据能够证明心流状态能够提升学习效果。但对理想型挑战的渴望，却能够不断驱使人们投身于新的挑战之中，开启新的学习篇章。

图R.2　理想型挑战。当任务难度适中的时候，人们会达到一种内在动力处于巅峰的状态，这被称为“心流”

此外，其他能让人们感到内心充满动力的因素还有：精彩的故事、美好的幻想、自主选择的机会，比如在游戏中捏一个自己的人物角色等（Malone，1981）。以此类推，如果可以让学习者自己选择先从哪个任务下手的话，也能稍稍提高一些学习的动力呢！

Ⅱ.如何运用奖励来促进学习

创造能够令人内心充满动力的学习体验是我们的目标。然而，在一些情况下，物质奖励的效果可能会更好。提示：当逻辑思维和内在动力沦陷的时候，物质奖励就该登场了。你可能会认为能够跟自己刚刚喂养的小狗狗讲道理，然而再怎么讲也是徒劳的，不如一颗零食这样的物质奖励来得简单直接。甚至有些时候你对要做事情的原因心知肚明，但还是会三天打鱼两天晒网，比如每日至少锻炼30分钟，每天至少阅读这本书30分钟，等等。如果我们谨慎地运用奖励来塑造强化自己的期望行为，也许会慢慢看到神奇的效果。

可实现的目标

无论是塑造行为还是保持心流状态，背后的秘诀都只有一个：为学习者提供一条循序渐进的上升路径，其中每个任务的难度都稍微超出现有水平一点点。斯金纳（Skinner，1986）提出了程序教学^[6]的概念：计算机会提出一系列难度递增的问题，每正确完成一步均会配合着强化巩固。这种形式仍广泛用于很多教育类游戏中：学生从入门级的问题开始，当能够轻松完成当前这一级别时，计算机就会提升难度抛出新问题。这类游戏能帮助学生掌握关键的目标行为，例如看到“2×5”，脱口而出“10”（当然，强化本身并不能帮助学生理解答案为何是“10”）。在我们的日常生活中，制定可实现的小目标也能发挥巨大的作用。就比如说，减肥30斤的确是个宏伟目标，但是在漫漫减肥路上，我们可以不断奖励那些有助于减肥的行为，比如每天走10000步？或者至少5000步？总之，需要谨记于心的是，制定当下可以实现的、值得嘉奖的小目标，是引领我们最终走向成功的不二法门。

奖励正确的行为

鉴于奖励的针对性非常强，在实际操作中我们需要谨慎留意是否奖励了真正期望奖励的行为。举个例子，在一节西班牙语课上，学生们要选出与英文“four”（4）对应的西班牙语单词：①cuatro，②uno，③tres，④dos，回答正确就会得到老师的奖励。这种做法在不经意间奖励了“从列表中选单词”的行为，对单词本身只要看个大致形态就好。而我们真正希望的是学生可以准确地说出，或是拼出cuatro这个单词。因此我们设计的学习场景，要让学习者能准确地展示出目标行为，而不是展现出“影子替身”行为。从学习形式上讲，开放式的问题可能比选择题更胜一筹，除非我们的目的就是训练学习者做选择题的能力（比如为标准化考试备考）。

开放式的问题对学习者来说难度也会更大。那么我们认为，在学习初期直接告诉学习者正确的答案也是可以接受的。斯金纳表示，“正如亚里士多德坚持的观点，人们并不通过实践本身学习，而是通过实践后的结果来强化学习。那么教学也是同理，就是要设计安排那些足以强化学习行为的结果。”（1986，p.107）你希望学习者展现出哪些行为，就去奖励哪些行为。随后再慢慢撤去当初的辅助工具与奖励手段。

选择恰当的奖励

众多形式的奖励中，效果最强的当属一级强化物^[7]（也称为非条件强化物，即人类天生就理解的奖励方式）。一级强化物有多种形式，包括食物、水、关爱，等等。这些强化物关系到我们的生死存亡，因此其重要性不言而喻。从伦理道德的层面来讲，教育工作者不应当使用一级强化物作为要挟，迫使学习者去完成一些事情。例如在实验研究中，在孩子身上使用一级强化物是被禁止的。研究人员既不能利用食物或额头一吻作为奖励，也不能以不给水喝或剥夺关爱作为惩罚。

鉴于以上情况，二级强化物^[8]就更容易被人们接受，比如成绩、分数、勋章，等等。二级强化物（也称为条件性强化物^[9]）之所以具有奖励效果，是因为它与其他奖励体验形成了关联。每当你夸赞小狗狗“做得真棒”的同时，给它喂点好吃的，就是在建立“好吃的”与“做得真棒”之间的关系，于是“做得真棒”这句表扬就变成了二级强化物。在本章一开始，艺术之所以变得具有奖励性，正是因为它和其他奖励形成了关联（异性的注意力、金钱、受到大家关注）。

二级强化物具有成本低、易实现、不突兀等优势。各类二级强化物中，代币体系^[10]是最常见、最易操作的策略之一。学习者按照要求完成任务，会得到相应的代币，比如积分或是小星星。当学习者攒够一定数量的代币时，就可以兑换自己想要的奖励，比如到外面多玩一会儿，或是在游戏中给主角升级，等等。在我们的日常生活中，航空公司的常旅客计划就是一套极为有效的代币体系。人们为了积累更多飞行里程，甚至会花更多的钱付机票，或者转乘一大早/半夜才起飞的航班，而这一切所换来的实际经济价值，可能还远不及为此所花费的金钱与精力。

另一个能让奖励大显身手的情景是对行为的改造，这通常需要依靠奖励的效力来实现最终目标，例如帮助人们戒烟、减肥，或者改变其他不良习惯，等等。我们需要特别注意那些“立竿见影”的应对方法，因为这些方法很可能会在不经意间节外生枝。比如，为了能够让公共场合下吵吵闹闹的孩子迅速安静下来，很多家长会把手机无奈地递给孩子。虽然孩子们立刻就安静了下来，但是这却强化了吵闹的行为。于是当孩子们又想玩儿手机的时候，就会继续吵闹，这时你意识到每次都用手机来安抚孩子是行不通的，于是就拒绝了玩儿手机的要求。这就等同于对吵闹的行为进行了时有时无的随机强化，吵闹会愈加频发，也愈难平抚。显然这并非长久之计。学校中的课堂管理可以算是类似情况的升级版。如果老师对那些上课调皮捣蛋的学生给予更多“关注”，反而会在不经意间鼓励了他们的不良行为，因为被人关注本身就是一件很有成就感的事情。为了应对这种情况，威尔奇维茨（Wielkiewicz）提出了一条课堂管理的黄金法则：“忽略，尽可能忽略那些恼人的不良行为。同时，尽可能多的关注那些举止端正、表现优良的学生（1995，p.5）。”

诱人的环境

引人入胜的游戏绝对是奖励机制的集大成者。游戏中会运用多种外部奖励的强化机制，包括几套并行的积分系统、精美绝伦的画面、新技能解锁，以及环环相扣的升级体系等。游戏中还常会时不时出现随机强化，即偶尔让玩家输几局，但是只要坚持下去总会获得最终的胜利。这还只是冰山一角，游戏中还设置了内部奖励机制，包括跌宕起伏的剧情、充满神秘的幻想世界、琳琅满目的定制系统（给玩家提供选择的机会），以及符合理想型挑战的成长路径。人们受到游戏中强大的奖励机制的启发，总结出了“游戏化”的概念，用于改造那些不那么吸引人的任务（Reeves&Read，2009）。例如，电话客服中心的员工流动率往往很高，毕竟很少有人愿意天天在电话里听陌生人吼吼叫叫。所以我们可以把接听工作变成游戏的一部分。员工们通过完成接听来获得分数、解锁新任务、提升等级，等等。

值得注意的是，游戏化策略并非万能。对于学术研究来说，游戏化机制能发挥的空间有限。强化机制是物种进化过程中一种古老的学习机制，在动物和人类身上都很奏效。虽然它能够促使特定行为的发生，但对于理解该行为背后的目的却爱莫能助。所以围绕强化机制而构建起的教学体系，很可能会与理想的目标结果（如促进理解、举一反三等）南辕北辙。即便如此，我们依然可以为创造优越的学习环境而建立起多维度内外结合的奖励机制，从而更好地融合其他章节中的学习技巧。比如，我们可以将类比学习（请参考章节A）与有趣的游戏情境相结合，让学习既高效又有趣。

Ⅲ.运用奖励能产生什么效果

有奖励就会有期待，有期待就会有动力，奖励既能鼓励人们初次尝试，又能确保持续的投入。事实上，尝试参与新活动的行为本身就是学习的有力证明，因为自身的行为已经发生了改变（从不参与变为参与）。若是再借助随机强化的奖励机制，即便在没有规律奖励的情况下，人们还是会持之以恒地遵循所期待的行为。

奖励行为具有很强的针对性。它会在具体的行为与特定的情境之间形成关联，具有一定的情景局限性，颇有一番“橘生淮南则为橘，生于淮北则为枳”的感觉。因此要想将奖励的这种关联推而广之，则需要将对应的奖励行为也应用到新的场景中。以图R.1中的小鸡为例，如果把它放到一段新篱笆面前，恐怕背对着篱笆的事情就会被抛之脑后，更不用说把小鸡放在消防栓或是草垛前面，转身背对着这些新的物品更是想都不用想！

要想深入了解行为与奖励情境之间的特殊关系，我们还可以反过来思考，参考一下戒除后天习惯的过程。举个例子，在加油站上班的万保鹿先生想要戒烟，实质上就是要打破吸烟（行为）与不同情境下获得快感（奖励）两者之间的关联。比如，万保鹿先生习惯每天早茶后抽支烟。他通过克制自己的欲望，成功打破了该情境下吸烟与快感之间的奖励关联。接着，他继续攻克“工休一支烟”，然后是“饭后一支烟”等，如此这般，通过全方位的努力，这位仁兄已经在日常的诸多情境中破除了吸烟与快感之间的关联，于是他宣布自己戒烟成功了。然而，可怜的万先生，在一次回乡探亲时，他突然又烟瘾大作。原来，他还没来得及打破“二舅聊天一支烟”的关联！所以客观地讲，人们很难做到全方位的戒烟，只能说是在某些情境下不再抽了。这对我们的启发是，如果希望通过奖励来塑造新行为的发生，就要在期待它发生的所有场景中，分别奖励该行为。同理，若是希望摒弃某种行为，就要分别排除所有场景中的奖励。

Ⅳ.如何培养奖励的能力

人们确实可以主动设计出一个适合塑造自身行为的学习环境。例如，史辛格先生希望自己能够坚持健身，但他总是会找出这样那样的理由给自己放水。但是为了自己的终生幸福，他绞尽脑汁地激励自己至少每周去健身房运动三次。于是他专门预约了一位美女教练的健身课，每次只要认真完成课程，教练就会送他一个甜美的微笑。周末的时候，他也会请朋友叫上他一起去登山。只过了半年，史辛格就已变身为肌排男了。

相信我们大多数人都会通过自我对话的方式来保持意志力，比如“我在看到冰激凌的时候能够做到岿然不动”。是的，这正是诱惑占据上风，理性一击即碎的时刻。与其每逢诱惑见真章，不如提前做好防御的强化机制。在一项研究中，研究人员给一群高中生讲解自我激励与目标维护的技巧，比如设定提醒、设计合理的小目标、创建自我奖励的积分系统，以及在目标完成后及时从家长那里换取奖励等（Oppezzo&Schwartz，2013）。随后，学生们给自己设立了多吃蔬菜水果的目标。三周后，这组学生的确提高了吃蔬菜水果的总量。作为对比，第二组高中生只学习了自我对话的应对策略（比如，给自己加油鼓劲，不给自己找借口等）。他们吃蔬菜水果的总量则没有明显提高。

Ⅴ.运用奖励容易出现的问题

人们天生喜爱奖励。假如此时的你坐拥金山，可能会认为只要拿出金子作为奖励，所有人就都会遵照你的意愿行事。然而凡事都没有那么简单，有时候也要为奖励而付出相应的代价。

在人们内心已经认定一些由衷热爱的事物时，外部奖励可能会让人们的理解偏离自己的初衷。若是为一件事许下奖励的诺言，那么人们源自心灵深处的热情就会冷却，取而代之的可能是一副更加功利的态度。针对幼儿园小朋友画画的一项经典研究很好地证明了这一观点（Lepper，Greene，&Nisbett，1973）。研究人员希望考察孩子们在使用水彩笔画画时的真实目的（要知道这些彩笔在当时可是幼儿园里的新玩意）。实验一共包括三个条件组。在“许诺奖励”组里，孩子们得知如果自己拿水彩笔画画，就会得到一个“最佳表现”奖状和一枚金丝带。孩子们画了6分钟后，如愿以偿获得了奖励。在“出乎意料”组里，孩子们并不知道画画能得奖，但是在画了6分钟后，意外地获得同样的奖励。最后，在“无奖励”组里，孩子们没有任何奖励，并且也不知道其他小朋友获得了奖励。一个星期过去了，研究人员把几支水彩笔散落在小朋友的游戏桌上，观察他们在自由活动时画画所持续的时间。

图R.3　奖励背后隐藏的代价。起初，幼儿园的小朋友们对用水彩笔画画都非常感兴趣，但是如果孩子们接受了奖励的条件，那么这刚刚萌发的兴趣很可能就戛然而止。获得意外之喜与没有奖励的小朋友们则依然保持着用彩笔画画的兴趣（Lepper，Greene，& Nisbett，1973）

图R.3表明，“许诺奖励”组的孩子们用彩笔画画的时间只有“无奖励”组的一半。正是因为当用水彩笔画画再也换不来之前的奖励时，孩子们就会对水彩笔的兴趣骤减，“都没奖励了我画画还图啥呢”可以说是奖励浇灭了兴趣。不过有趣的是，获得意外奖励的孩子们对画画的兴趣依旧如初。事实上，起初那些对画画感觉一般的孩子们，在获得意外的奖励后则会兴趣大增。因此，对于人们起初不太感兴趣的事情，如果在圆满完成后给予适当的嘉奖，就能够提高人们参与的积极性。另一方面，如果告知人们完成任务后可以换取奖励，就算这个人对任务是真爱，那他内心由衷的积极性也会被削弱。

人们在最初参与一项新活动时最容易掉进奖励的温柔陷阱里。这是因为在刚刚开始的时候，我们还听不清自己内心真实的声音。而那些经验丰富的人们则早已明确自己的初心，面对奖励的诱惑时也能不忘初心，客观接受，不为奖励而折腰。就比如说，与画廊签约的专业画家，面对潜力无限的商业利益时也能保护好心中对艺术创作的巨大热情。

奖励中暗藏的第二个陷阱在于它会造成人们思维的局限性，负面影响创造与探索的意愿。当人们明确得知一件事情会带来相应的奖励时，事情本身就会沦为换取奖励的手段。一心想的就只是如何能尽快地完成任务，哪里还会关注事情的本质是什么，就更不用说花时间去探索其他的可能性了（但这种探索却是创造过程中的关键一步）。例如在前文提到的幼儿园小朋友画画的实验中，研究人员发现在作画的6分钟内，“承诺奖励”组孩子的作品质量明显低于其他组。承诺奖励对创造力产生的副作用，在不同年龄层的人群中都被证实是广泛存在的（e.g.，Amabile，Hennessy，&Grossman，1986）。同理，以事先答应好的奖金作为激励员工创新的方法，很可能会适得其反（具体请参考Pink在2009年的TED演讲）。而更为有效的方法则是那些可以直接作用于激发创新活力的策略（比外出考察、林间漫步、湖畔观赏，等等）。以能够丰富灵感的活动作为基础，奖励才能更好地服务于目标本身（Oppezzo&Schwartz，2014）。

奖励还可能会反过来奴役人们的心灵，看看那些暴饮暴食、嗜赌如命、沉迷游戏的人们吧！至此境地，也并非无可救药。如果你觉得孩子们实在是沉迷于游戏无法自拔，可以尝试提供一些其他的奖励方式来吸引他们（比如做一桌美味的菜肴用香味吸引他，或者买一辆炫酷山地车把他的兴趣吸引到别的地方）。请注意，如果事情已经发展到了无法控制的局面，或是日常生活也已受到影响，那就尽快去寻求专业帮助吧。

Ⅵ.好例子，坏例子

我们来分析一下当下十分流行的运动传感器这个例子。比如手机计步，人们可以在应用程序里随时查看今天走了多少步，同时随着每天的持续累积，应用程序还会提供一些令人愉悦的奖励，比如，用积累的步数兑换成边疆防护林种植基金，等等。奖励目标设置得非常明确，且对运动量的要求不断递增，比如随着步数增长可以分别兑换梭梭树、沙柳、胡杨树，等等。除了对行为的引导塑造作用之外，系统还会带有随机奖励的强化机制，比如今日没有走到10000步也会给予一些意外之喜。灵活多变的奖励机制能够让人们更加主动地多锻炼，多种树。

有些时候被奖励者可能会反客为主，出现下面这种糟糕却极富戏剧效果的画面：在一个嘈杂混乱的班级中，老师刚管住了左边又漏掉了右边，完全陷入了恶性循环之中。最终她终于受不了了，爬到讲台上冲着全班大喊，“给我安静！”此时此刻，就成了学生们变相地塑造老师的行为。训练小狗狗的时候也可能会出现类似的情况，我们需要留意究竟是它在听到指令后坐下来，还是它主动坐下来等待你乖乖地交出食物。

奖励Reward

核心的学习原理是什么

奖励某种行为会促使人们（或动物）重复该行为。人们在学习新行为的过程中，可以借助持续的奖励来提供源源不断的动力，直到他们成功完成目标行为。

对学习什么有帮助，举个例子

奖励可以鼓励人们尝试原本不会去参与的事情。很多家长都希望自己的孩子按时完成作业，但是孩子们从来都不听话，依旧我行我素。作业本连碰都不碰，怎么有机会给奖励呢？因此我们可以先从“打开作业本”这个小目标开始塑造。孩子回家后及时掏出作业本的时候，家长奖励给孩子一朵小红花。过了几次，孩子把作业本放到了书桌上，此时家长可以奖励孩子两朵小红花。又过了几次，孩子主动翻开作业本的时候，可以奖励他三朵小红花，以此类推。

为什么会有用

通过来自外界的奖励或是内心产生的满足发挥作用，任何形式的奖励都能鼓励人们在相似的场景下采取被奖励的目标行为。

能解决什么样的学习问题

·人们无法激励自己完成某项任务。

·孩子不明白为什么要做一件自己不理解的事情。

·成年人虽然明白做一件事的目的，但却无法坚持下来。

·学习者对于教学内容提不起兴趣。

·学生们没有及时完成自己的数学作业。

·人们需要改变自己的行为。

·课堂管理手段没有发挥作用。

使用的范例

·老师创建了一套代币体系，学生们上交作业可以获得积分。当学生们攒够一定分数后，他们可以用积分兑换更多自由活动的时间。

·在精心设计的学习程序中，电脑会给学生提出×1的算术题，比如1×1，1×2，1×3。当学生回答正确“三连击”的时候，游戏中的人物会长高一些。当学生熟练掌握这些问题时，电脑会继续出×2的问题，比如1×2，2×2，3×2。连续答对5道题时，又会解锁一件帅气的新衣服，放到游戏中的衣橱里供学生自由搭配。

容易出现的问题

·奖励可能会让人们把行为视作达到目的（即获得奖励）的手段。

·学习者可能缺乏深入理解事情本质的耐心，因为他们琢磨的都是如何尽快完成任务，获取奖励。

·当学习者本身就对一项新任务充满积极性的时候，给予参与的奖励很可能会造成天然兴趣的丧失，造成没有奖励就没有参与动力的局面。

·对奖励的期待会限制人们的创造力，因为一心追求奖励的心态会让他们放弃探索更多可能性的机会。

·学习的内容可能无法被举一反三到新的场景之中。

·一名学生虽然在体育运动中能够做到锲而不舍，但是面对历史课却毫无动力。

·一位资深烟民虽然成功戒掉了“饭后一支烟”的习惯，但却依然逃不过“酒后一支烟”的冲动。

[1] 奖赏（reward）：通过食物、药物、金钱等物质或心理刺激使个体产生愉悦感，从而强化行为的过程。

[2] 外部奖励（extrinsic rewards）：指外在的任何使个体满意并强化其反应的刺激。

[3] 内部奖励（intrinsic rewards）：也称“内部报酬”，从工作或学习本身获得的快乐与满足。源自对自我的一种奖励，一般不是物质奖励，多属于精神方面的奖励，即个体感觉到自我快乐和自我满足的体会。

[4] 塑造法（shaping）：采用操作条件作用原理，对当事人的行为分步强化，渐进地形成目标反应的一种治疗方法。

[5] 强化（reinforcement）：通过某种刺激增强或减弱特定行为的过程。

[6] 程序教学（programmed instruction）：根据强化原理，将学习材料分解为小单元，由浅入深、逐步呈现的一种个别化教学方式。

[7] 一级强化物（primary reinforcer）：能满足生理需要的非习得性强化物。

[8] 二级强化物（secondary reinforcer）：习得的强化物。通过与一级强化物联系而获得强化性质。

[9] 条件性强化物（conditioned reinforcer）：与由生物学因素决定的一级强化物联合在一起，对操作反应起作用的中性刺激。

[10] 代币强化物（token reinforcer）：使用代币物可换取的真正强化物，如钱币、扑克牌、食品等。

R 奖励Reward——塑造学习行为

R　奖励Reward——塑造学习行为