TD,learning,PER和Epsilon:深度学习对高等教育教学的启示
摘要:本文从研究深度学习出发,提出深度学习在增强学习领域能被高等教育借鉴的三种重要算法:时间差分学习、优先经验回放、创新指数,通过对这些算法的具体分析,总结这些算法如何优势互补,综合运用到高等教育教学实践上,提高高等教育教学效果。
关键词:深度学习;时间差分学习;优先经验回放;创新指数
中图分类号:G642.41 文献标志码:A 文章编号:1674-9324(2018)31-0239-03
一、引言
“深度学习”本质上是一个计算机科学领域的概念。谷歌的深度学习机器人Alpha-Go在围棋上轻松战胜人类顶尖高手的故事已经家喻户晓。如果把中国棋院、韩国棋院、日本棋院比作世界围棋界最顶尖的三所高校,顶尖的棋手是这三所高校最优秀的毕业生。而Alpha-Go开发团队里围棋水平最高的工程师也只有业余五段,相当于小学毕业学历,一天大学都没有上过,但是掌握了深度学习方法的学生,结果成绩远远超越了所有顶尖大学最优秀的毕业生。这是一个值得思考和研究的问题。深度学习和AI(Artificial Intelligence)“人工智能”紧密相关。
计算机是通过数理逻辑运算来进行学习的,如果计算机的深度学习算法反向被人类学习借鉴,那就表明这些学习方法在数理逻辑上也是可以被证明有效的。本文从这个角度出发,提出已经在深度学习上得到检验有效的“算法”,反过来也可以让人类的学习方法和效率得到提升,最后提出深度學习的研究成果对高等教育教学的启示。
二、深度学习概述
深度学习是近十年才被提出的一个概念(Hinton[1],2006)。简单地说深度学习就是让计算机通过模仿人类大脑的神经网络能够像人类一样学习。
深度学习分为“认知”学习和“增强”学习两大类。
(一)认知学习
深度学习根据其应用的领域不同,或者说模仿人脑的机能不同,分为“认知”学习和“增强”学习两大类。
所谓“认知学习”,就是每一项输入都有一个标准的输出答案。例如图像识别、语音识别、数学计算题、史实知识点,等等。因为监督者立刻就可以反馈对或错,所以也被称为“有监督的学习”。
(二)增强学习
而“增强学习”和“认知学习”最大的不同就在于没有标准答案。对于没有标准答案的问题,就不能轻易地去否定或肯定一个与原来流行的权威理论不同的思想,而是随着不断地探索,会得到一些时而清晰时而模糊的反馈,要经历一个较长的过程才能看出最终的结果是好是坏。当下的每一步是对整体结果的“增强”。下围棋就是这样的,一步棋的好坏在当时并不明确,而随着棋局的进一步展开才会显现,而最终的输赢要在很多步之后才明确。因为无法立刻反馈对或错,所以这种学习也被称为“无监督的学习”。
增强学习核心有三个部分:
1.状态(State):关于当前状态的变量。
2.行动(Action):计划采取的行动。
3.回报(Reward)采取行动后新的状态对原有状态的改变。
深度学习对高等教育教研的启发主要在“增强”学习领域。
高等教育和初等教育的一个重要区别是,初等教育的学习方法中“认知”占了很大的比重,而高等教育的学习方法中“增强”占了很大的比重。这并不意味着增强学习要比认知学习来得更难。只能说对计算机来说意味着不同的算法,而对人类来说则意味着不同的思维方式,不同的算法(不同的思维方式)对应解决不同的问题。例如,让一个建筑工程师设计一幢新的楼房要比让他学会一门新的外语容易很多,虽然前者属于增强学习,而后者属于认知学习。
下面就具体分析三个增强学习中的重要算法及其对高等教育教学的启发。
三、增强学习中的三个重要算法:TD Learning,PER和Epsilon
(一)时间差分学习(Temporal Difference Learning,简称TD Learning)
时间差分学习是在“动态规划”算法和“蒙特卡罗模拟”算法的基础上发展起来的。
动态规划类似于“穷举法”,把未来可能出现的状况全部罗列出来,逐个比较。它的缺陷也很明显:当问题的复杂程度提高时(表现为变量的增加),它需要的计算量呈指数级增加。例如,一个真实的19*19的围棋盘,变化有3361种,这个数字比全宇宙的原子数还要大,现有的任何计算机都无法计算。这也即是所谓的“维度的诅咒”(Curse of Dimensionality)。
“蒙特卡罗”模拟针对“维度的诅咒”进行优化,不要求“穷举”,而是用数据反复试验来得到结果。蒙特卡罗模拟算法比动态规划算法的运算量大大减少了,但是因为每做一次实验都要从头算到尾,针对复杂问题的运算量依然很大。
时间差分学习法把动态规划和蒙特卡罗模拟结合起来,也就是说不需要每次都从头算到尾了,只要根据当前的回报和下一个状态值来更新现在的状态就可以了。
(二)优先经验回放Prioritized Experience Replay(简称PER)
前面讲到的时间差分学习法有一个弱点,那就是容易“一叶障目,不见泰山”。造成这个弱点的一个重要原因是,深度学习所使用的实验数据是高度相关的连续数列。解决这个问题的方法是“经验回放”。
深度学习领域的经验回放概念最早由Lin Long Ji[2](1993)提出。在学习过程中,经验(x,a,y,r)不断被保存到一个数据集中区,并且还不断地被调用,而不是只根据最新获取的经验来更新。在实际生活中,能够记住的“经验”总是有限的,计算机虽然储存容量大,但依然是有限制的。因此,一个改进的算法“优先经验回放”(Prioritized Experience Replay,PER)就很重要。结合上面的时间差分学习法,那些和预期值偏离越大的“经验”被赋予特别高的“优先级”,它们未来被调用的可能性就越高,这样就避免了传统学习中常见的“好了伤疤忘了疼”的重复犯错。