Netflix可以预测出你想看什么电影,亚马逊能识别出你接下来想买什么书。有了大数据分析,新的在线教育平台就能预测出学生们对什么样的教育模式反映更好,从而帮助学生回到正确的轨道,不让他们中途退学。这一点非常重要。因为在经济合作与发展组织(OECD)[10]的成员国中,美国的大学辍学率是最高的,其中只有46%的大学生能取得学位。2009年,在一项针对34个成员国的调查中,美国的阅读排名第14,科学排名第17,数学排名第25。许多学生退学的理由是教育花费太高。皮尤研究中心(Pew Research Center)的一项研究表明,与公立学校45%的辍学率相比,在私立的营利性学校中,78%的学生经过6年的学习后仍毕不了业。
在18~34岁没有大学学历的人中,48%的人称他们只是因为交不起学费。而取得学历的人中有86%的人称,大学对于他们个人而言是一次很好的投资。
该数据告诉我们,待在学校是有好处的。可它同时也告诉我们,完成学业并非易事。Uncommon Schools的董事兼《数据驱动:改进授课的实际指南》(Driven by Data: A Practical Guide to Improve Instruction)一书的作者班布里克-桑托约(Bambrick-Santoyo)向我们展示,数据驱动大有用处。
班布里克-桑托约在罕见学校工作的那8年里,学校在学生成就方面取得了很大成绩,在各种状态评估和年级水平测试中达到了90%的过关率。数据驱动法能帮助我们更有效地教学。与此同时,那些平衡数据的科技则可以在学生的日常学习和生活中发挥作用。
适应性学习体系
计算机如何帮助学生们更有效地学习呢?不论是个体还是群体,在线学习系统都能评估学生过去的学习习惯,并且通过评估所得的数据来预测他们将来的学习习惯。在一节给定的课程或是一个课件框架中,适应性学习体系能确定接下来该教给学生什么内容,或者判定学生哪些地方还没有完全明白。它还能让学生们亲眼看到,他们在学习这些内容时是如何进步的,或是他们对这些内容掌握了多少。
适应性学习体系的优点之一是其内部的反馈环。该体系以学生的互动和表现为基础,对学生、教师和该体系本身提供反馈,于是用户或是该体系本身就可以利用这种反馈,来优化用以帮助学生们的预测公式。最终,学生、教师和适应性学习体系就能进一步见证他们的进步。此外,软件也能在一节给定的课程中预测出学生需要什么样的帮助。在线课件可以评估诸如注册频率和做家庭作业的及时性等因素,以此预测学生们能否完成学业。如此,这样的软件还能向课程导师发出警报,方便他们及时向害怕完不成学业的学生伸出援手,给予他们额外的帮助和鼓励。
在线教育服务Knewton是最著名的适应性学习体系之一。该体系由世界领先的终身教育服务商之一卡普兰(Kaplan)的前总经理创立,它注重区分个体学生的优缺点。该公司一开始只提供GMAT的测试准备,如今被用来改进大学教育。作为拥有72 000名学生的美国最大的公立大学,亚利桑那州立大学运用Knewton体系来提高学生的数学水平。该体系在2 000名学生中使用了两学期以后,亚利桑那州立大学的辍学率下降了56%,而毕业率也从64%升高到了75%。目前,该公司筹资5 400万美元作为风险投资,同时世界经济论坛将Knewton提名为科技先锋。而Dreambox 是另一家适应性学习体系的提供者,它旨在提高小学生的数学演算水平。为帮助提高数学水平,该公司提供了大约720节课程。
从更广泛的层面上讲,数据挖掘能为学生们推荐课程,并且帮助大学生们判定他们是否偏离了自己所选专业的轨道。亚利桑那州立大学运用E顾问系统来辅导大学生。该学校的学生保持率从77%上升到84%,这项改革是教务长伊丽莎白·卡帕尔迪(Elizabeth Capaldi)为E顾问系统所作出的贡献。
不管学生们是没有完成主要课程,还是一开始就没有报名,E顾问系统都可以追踪到。为了提供最恰当的课程建议,他们还将指定学生的有关数据同收集来的其他数千名学生的数据作了比较。这种日渐增加的透明性从学生之间扩展到了教师之间,再到学校的管理者之间。学生们对自身的进步有了更多的了解,教师们对个别学生的进步和全班同学的进步也看在眼里,管理者们也从整个学校的角度看到了什么有用、什么没有用。于是,管理领导们也就能总结出什么样的教育计划、软件和方法是最有效的,并相应调整总课程。
可汗学院与Codecademy,打造线上教育体系
大数据运用在教育中最有趣的作用就是,适应性学习体系能在诸多学生中测试出许多不同的教育方法。许多网站运用A/B测试法给不同的浏览者看不同的网页版本,学习系统也能做到这点。学习系统能判断学生们在进行了大量的解决问题的练习后,是否能学得更快。学习系统还能判断,经过一段时期后学生们还能记住多少知识,并将其与之前的学习方法联系起来。
当然,大数据和教育也从未忽略“学生是如何学习的”这个问题。新兴公司将教学资料放到了网上,这样更多人就能接收到这些资料。
可汗学院(Khan Academy)[11]是一家拥有数千个教育录像的在线教育组织。其创始人萨尔曼·可汗(Salman Khan)最初亲自录制视频,如今,该网站已拥有包括历史、医学、财经、生物、计算机科学等不同科目的讲义共3 600余件。该网站的录像被放到YouTube上,总计有2.02亿的浏览量。该网站的学习方法简单而有效。除了数千个视频短片外,该网站还使用了上千种练习,来帮助传授观念和评估每位学生的理解水平。
Codecademy是一家专门教授人们设计软件程序的新兴组织。它不像可汗学院那样依赖视频,而是注重互动练习。该网站以班组的形式。比如java描述语言组和网页原理组,将一系列课程聚集在一起,让学习者学到不同的程序语言。
至此,要想设计和销售苹果手机应用程序还非常遥远,但该网站提供了一个非常好的平台。你可以想象,这些网站上的视频可以培养数据科学家,或者教授人们如何使用数据分析软件。
一些重点大学也将它们的课程放到了网上。哈佛大学与麻省理工学院联手开创了edX数字教育平台,它是一个非营利性组织,以专设的在线学习为特色。该组织的座右铭是:“将来的在线教育:任何人、任何地点、任何时间。”如今,已有6个大学加入了该组织。与麻省理工学院和哈佛大学一道的还有加州大学伯克利分校、得克萨斯大学、韦尔斯利大学(Wellesley College)和乔治城大学(Georgetown University)。
大学教师在上课的时候,会使用简短的演讲视频,布置一些作业,并进行一系列测试和考试。除了能使这些大学通过电子形式传递课程内容外,edX还提供了一个学生们交流学习方法的平台。它通过分析学生的习惯,判定出哪一门课程最受欢迎,哪一门课程学生学得最好。《麻省理工科技评论》(The MIT Technology Review)将edX提供的科技称为近两百年来最重要的教育科技。
线上线下结合,未来的教育趋势
如《麻省理工科技评论》所说,在线学习已经不足为奇。在美国,已经有710万学生使用远程学习。不同的是新产品的运作规模以及传送这些产品的技术和低价甚至免费的传送模式。
就像在大数据的其他应用领域一样,所谓的改变并不是指大数据从无到有,而是指它的规模和价格发生了变化。其力量所在,是它不仅能收集和分析更多的数据,还能让更多的人以更低的价格接触到那些数据。
诸如edX一样免费或低价的教育课程被称作是大规模的网络公开课程(Massive Open Online Courses,MOOC)。
2002年,大约9.6%的大学生参加了至少一门在线课程。根据巴布森学院调研组(Babson Survey Research Group)的一项调研,截至2010年,人数已经上升到31.3%。也就是说,每一年就有6.1亿名大学生参加了至少一门在线课程。
Coursera是由斯坦福大学的计算机科学教授们创立的另一家公司。最初加入的有斯坦福大学、普林斯顿大学和密歇根大学以及宾夕法尼亚大学,此后又有另外12所大学加入。它拥有150万门课程和6 108万名注册学员。
与此同时,以“你的学院”为宣传语的uDemy公司将各大首席执行官、畅销作家和常青藤联盟教授的指导荟萃在一起。该网站采取了相对不那么学术性的方法,它的许多课程都是关于实际的商业化问题,比如如何筹集风险资本。与其他网站不同,uDemy允许课程的创建者免费提供他们的课程,也允许创建者对其收费。
由谷歌副总裁和斯坦福大学教授塞巴斯蒂安·特伦成立的uDacity公司,其目的在于使教育民主化。该公司最初的课程主要集中在计算机科学及其相关领域上,此外,他还在继续扩展其课程。
现有的学术机构都在想方设法与网络世界拉上关系,很显然,此类课程的激增,为我们寻求最有效的方法来传递教育内容提供了真知灼见。虽然你不能在网上取得哈佛、麻省理工或者斯坦福的学位,可你学习它们的课程却变得越来越容易。当然,在线课程不能提供教室所和实验室所能提供的社会或物理经验。生物、化学和医学需要动手实验。社会的鼓励和认可对于运动和节食来说非常重要,同样,它们对于学习也很重要。将来最具希望的教育体系很可能就是将最好的线上和线下环境相结合的体系。
跟踪教学效果
每一年,包括各联邦、州和地方政府在内的美国政府要花费8 200亿美元在教育体系上。而这还不是对私营机构的全部投资。然而,据布鲁金斯协会(Brookings Institution)的达雷尔· 韦斯特(Darrel M. West)所说,这并不表示管理者们希望亲眼看到学校系统是如何运作的,因为新的系统已经提供了这种可见性。适应性学习体系的提供者Dreambox同样为管理者们提供了可视性。除了传递适应性学习工具外,它还具有仪表盘的作用,可统计数据,供管理者们查阅。因此,管理者们就能追踪学生们的进程,并且掌握达到水平的学生所占的百分比。
从政府层面上看,美国教育部创造了一个仪表盘,总结了整个国家公立学校的情况。
国家运用不同的体系来汇报教育进程。密歇根州提供的仪表盘在http://www.michigan.gov/midashboard可见,诸如三年级的阅读能力、大学准备和三年级到八年级的学术水平等领域,不管它的教育水平如何,是提高还是下降,还是原地踏步,该网站上都有显示。比如,美国拥有三年级阅读能力的学生从2007—2008年的63.1%上升到2011—2012年的67.7%。据网站显示,这种趋势强烈预示着未来学术的成功。
据韦斯特所说,这种体系提高了可信度,同时提供了更多对于教育情况的可见性。仪表盘上的大多数数据是已经存在的,可是,拥有用户界面和可视地图的、基于网站的系统,与以往相比往前迈出了一大步,它使得人们更容易接触到这些数据。
此外,数据挖掘、数据分析、适应性学习方案以及网页仪表盘都为提高教育水平创造了机会。然而韦斯特称,最大的挑战是对“教育投入,而非教育产出”的关注。学校往往对师生比例、图书馆规模和资金开销进行测量,而相对忽视了最终结果。“教育机构不仅要判断什么样的资源可靠,还要判断这些资源是否能传递有效的教育。”韦斯特说。
就大数据而言,教育面临着与其他领域一样的挑战。不兼容的教育体系使得各学校难以统计校内的数据,更别说与不同的学术机构进行对比了。因此,一些学校会用独立的体系来追踪学术情况。
人们怎样学习
正如我们第1章谈到的,数据不仅使计算机变得更聪明,还让人类变得更聪明。可就教育和大数据而言,最大的问题也是教育本身最根本的问题就是:我们怎样学习?不同的人使用不同的学习方法。一些学生擅长视觉学习,另一些学生擅长动手学习。在20世纪,心理学家们花费了大半个世纪来构建关于人们怎样学习的理论,可都没有取得大的进展。
大约10年前,科学家们开始尝试不同的方法。他们用神经学和认知心理学来研究大脑是如何学习的,而不是去构建理论。最终,他们发现,我们学习能力的形成,大部分并不取决于别人教授的东西,而是我们自己在学习过程中的有效学习。有效的学习进程会促进更加有效的学习。
曾经有科学家说,我们只使用了大脑性能的5%~10%,这个观点是错误的。事实上,我们使用了大脑的全部性能。要了解我们是怎么学习的,关键之一就是要认识到,对于我们通过不同的感官收集来的巨大数据,我们的大脑处理起来也是非常有限的。因此,为了避免陷入泥沼,也就是众所周知的认知超负荷,我们的大脑会依靠各种捷径。
为了更加有效地学习,教师们可以不用提供太多的信息,或是采取谨慎的方法进行信息交流。因为如果声音少一些,人们也就很容易投入到获取的信息中。可是,声音少了,也就意味着获取的内容少了。因此,大脑使用的捷径之一就是将事物组合在一起。老师们为了更加有效地教学而将资料组合在一起,因此学生们就没有必要做无用功。另一个减轻认知超负荷的捷径就是,将每一个不必要的单词或每一幅不必要的图片放到一定的学习目标中。挑战大脑对学习有好处:调查者们发现,人们在第一次阅读一本书时比再读同一本书的时候学到的东西多。
当然,这一切都还没有回答“我们是怎样学习的”这个问题。要处理接收到的大量信息,大脑要经过很多道过滤。大脑已经运行了很多年,它要做的第一件事就是学会处理基本的生存问题。如果我们的祖先能够记住危险的情形,比如错误的捕食,并且避免类似情况再发生,或许他们的生存希望更大。此类情形通常发生在情绪高涨的时候。因此,我们很容易记住情绪高涨时接收到的信息,不管是积极情绪,还是消极情绪。
此外,以往的经验也会影响我们信息的保存。科学家们认为,我们的大脑以一种归档的方法储存信息。因此,往我们已知的区域中添加信息才变得更加容易。
数学学习策略
教育顾问大卫·苏泽(David Sousa)博士曾援引斯坦福大学基思·德夫林(Keith Devlin)博士的话,称“数学是一种模式的学科”。苏泽认为,数学往往只被当作一堆数字和符号来教授,而根本没有讨论过如何应用到日常生活当中去。由于意义是大脑用以识别信息是否应长期存储的标准之一,缺乏实际意义也就成为了一些学生头疼数学的一个原因。
德夫林提出了数学应用于现实生活的一些案例。使用概率确定赔率,购车时计算支付的利息金额,以及利用指数增长曲线了解人口变动,就是其中的三个例子。
但是,数学不仅与我们的学习方法有很大关系,也与我们用以代表数字的语言密切相关。正如马尔科姆·格拉德威尔(Malcolm Gladwell)在《异类》(Outliers)中引用斯坦尼斯拉斯·达哈恩(Stanislas Dahaene)在《数字的意义》(The Number Sense)中的话说,“英文数字系统高度不规则。”和英文数字使用eleven, twelve, thirteen(11,12,13)等单词不同,中国、韩国、日本的数字使用的编排方法逻辑连贯性更强:10加1为11 ,10加2为12等。
因此,亚洲儿童学习算术更快。到了4岁,中国的儿童就可以进行40以内的计算,而美国的同龄孩子则只会15以内的计算。他们要等到再长大一岁,才能学会40以内的计算,比中国的同龄孩子整整晚了一年。格拉德威尔还举了另外一个例子:分数。在汉语中,3/5的字面意思是“五部分中取其三”,这使得这样的数量更易于掌握:语言与概念相匹配。其中的启示还远不止这些。大脑具有一个工作记忆回路,每次可存储约两秒钟的信息。在一般情况下,汉语数字在极短的时间内就可以读完,明显比英语的报数速度要快,这意味着中国人每次可以记住更多的数字。
数学教育程度也与收入呈正相关。在加州公共政策研究所(Public Policy Institute of California)的一项研究中,作者希瑟·罗斯(Heather Rose)和朱利安·贝茨(Julian R. Betts)发现,已完成微积分课程的学生比那些仅完成高等代数课程的学生收入更高。同样地,完成高等代数的学生又比仅完成基本代数的学生收入更高。
更高的数学教育水平也与更高的大学毕业率有关系。研究者指出,它们之间的关系虽然不是简单的因果关系,但他们推断,数学教育水平与收入以及大学毕业率高度相关。
如果说谁更懂数学的学习,那就非哈维穆德学院(Harvey Mudd College)数学教授亚瑟·本杰明(Arthur Benjamin)莫属了。本杰明最为人称道的就是他的心算能力,借此,他能在大脑中正确地运算较大数字的乘法。本杰明表示,数学并不无聊。它可以变得极富趣味和娱乐性。证据就是,他的TED心算讲座浏览量已经超过了400万次。本杰明还撰写了一本书——《生活中的魔法数学:世界上最简单的心算法》,并制作了一张名为《数学的乐趣》的DVD。在他的书中,本杰明分享了一些在大脑中进行复杂运算的快捷方式。
语言学习策略
那么语言又是怎样的呢?据华盛顿大学心智、大脑与学习研究中心(the Center for Mind, Brain and Learning at the University of Washington),帕特里夏· 库尔博士(Dr. Patricia K. Kuhla)开展的研究显示,婴儿在开始讲话之前,就存储了大量关于语音和语言的信息。仅凭听语音的曲调,我们的大脑就能理解哪一种语言更好。
之前,我们谈到大脑如何筛选接触的大量信息。婴儿的大脑也对语言进行着类似的处理。而随着婴幼儿慢慢掌握看护人所说的语言开始,就会忽略不相关的声音差异。例如,英文中“r”和“l”的不同发音很重要(比如“rake”和“lake”) ,但在日文中却无关紧要。据测试,日本婴儿6个月的时候与美国同龄婴儿一样,可以分辨这两个发音的区别。但是到10~12个月的时候,美国婴儿分辨这两者的能力得到改善,而日本婴儿则变得更差。
库尔将发生这些变化的原因归为婴儿大脑专注于其听到的母语语音。在这个快速学习的期间,通过让婴儿接触多种语言,也有可能扭转这种能力下降的趋势。在一项研究中,库尔让中国学生对美国婴儿说中文。经过12次实验课之后,美国婴儿和中国台湾同龄婴儿一样,能够识别汉语语音。库尔由此推断,在说话甚至完全理解单词之前,婴儿大脑就已经对熟悉的语音模式进行编码和记忆了。到了6个月,婴儿大脑就能够映射语言模式,处理元音和辅音。到了9个月的时候,就是单词模式了。库尔将婴儿大脑描述为类似一台计算机,只是没有连接打印机。
关于阅读,库尔的研究表明,我们6个月时分辨语音的能力与以后的语言能力(如阅读)高度相关。换句话说,婴儿时期区分语音的基础建构表现越好,在以后的生活中掌握复杂语言技巧的能力也就越强。
据库尔称,我们出生时大脑中有约一万亿个神经元(神经细胞),但是神经元之间只有相对较少的突触连接。从出生起直到3岁左右,我们的大脑会以惊人的速度生成突触连接。到了3岁,一般儿童的大脑拥有的突触连接约为成年人的2倍。此外,这些连接产生的大脑活动量在成人的3倍以上。从这个时候起,大脑开始剪断不必要的连接。库尔将此描述为“简直就像一丛玫瑰,修剪一些枝叶,有助于其他枝叶的生长”。剪枝过程将继续进行,直到青春期结束。
如果你在年轻的时候并未开始多种语言的学习,难道就是运气不佳?一般人认为,童年之后学会一种新语言是有可能的,但却十分困难。不过,有一个爱冒险的人花了9年多的时间周游世界,看看自己能学到多少种新语言。
就像数学家亚瑟·本杰明为做快速运算,开发了一套快捷方式那样,博客《如何在3个月内学会一门语言》(Fluent in 3 Months: Unconventional Language Hacking Tips from Benny the Irish Polyglot)作者本尼·刘易斯(Benny Lewis)也开发了一套快速学习语言的快捷方式。刘易斯曾是电气工程专业的学生,自称不喜欢学习新的语言。不过,他后来的经历已经表明,作为一个成年人,如果采取正确的方法,是有可能学会一门新语言的。
据《非法闯入系统》(Hack the System)作者马内什·塞西(Maneesh Sethi)称,在以后的生活中学习一门语言的大部分挑战在于,我们的学习方法是错误的。在学习西班牙语4年后,塞西意识到,根据标准化测试,他已经是一个西班牙语专家了。但是,正如他所说:“我甚至不会用西班牙语在餐厅点一个卷饼。”
塞西将快速语言学习策略分为4个步骤:获取正确的资源,其中包括一本语法书,记忆软件,还有电影或书籍;请一个私人教师;尝试只用新语言进行表达和思考;以及找朋友和语言学习伙伴进行交谈。
塞西指出,每天记忆30个字词,你就可以学到一种语言沟通必需的80%的词汇。例如在俄语中,75个最常见词占现有单词总量的40%。2 925个最常见词占现有单词总量的80%[12]——每天学习30个词,不到30天你就可以完成。塞西还强调,拥有正确的心态十分重要。他现在开始把自己当作一个“意大利语学习者(在业余时间发博文)”,而不是一个想要学习意大利语的博文作者。
幸运的是,现代技术对许多关键领域均有推动作用,惠及从记忆到辅导再到寻找语言学习伙伴的各个环节。在苹果(Mac)系统中,Genius app程序将间隔重复的方法应用到单词记忆卡片当中,单词记忆卡片又能根据你过去的表现智能化地选择问题。你犯错误的次数越多,这个程序用这些错误的单词测试的概率就越大。在线网站eduFire则在网上提供实时、互动辅导课程。
应对数据超载
孩提时期,我们通过听和说来学习语言,而并非在一个教室里学习课本。因此,库尔强调的儿童学习语言的关键方法同样也适用于成人:集中、定期地听、说我们想要学习的语言。塞西指出,学习一门新的语言,就必须成为“积极的学习者。大多数人习惯于被动式教学,但你必须积极主动地问问题”。
为了处理所接收的大量信息,大脑使用模式匹配和其他快捷方式做出决定。由于这个原因,刘易斯、本杰明和赛西所采取的方法十分管用。等待大脑开发新的模式匹配方法,再将之转化为快捷方式,这是十分困难的。关键是要教大脑使用新的快捷方式。“真正的挑战并不在于学习一门语言,而是学习如何学习一门语言。”塞西说道。相同的方式在其他领域的学习中也同样有效。
归根结底,学习就是获取信息、存储信息、再建立起已知的信息和新获取的信息之间的联系。谈到大数据,大脑研究以及如何获取信息的一个结论就是,获取数据越多,得出的见解也就越深刻。但最终为了行之有效,它需要被消化、过滤,成为一套能付诸行动的见解,且这些见解能直接影响到我们的决定。
在教育上得到应用之后,大数据通过找出即将辍学的学生,维持了较多的在校生数量。无论适应化学习解决方案以何种形式——完整系统或是像Genius这样的数字记忆卡程序呈现,都能帮助我们更为有效地学习。对于大数据和教育而言,这是一个振奋人心的时刻。大数据不仅有希望帮助改善教学质量,也能帮助提升学生水平。

