机器学习发展现状及应用的研究


  [摘 要]本文首先介绍了近几年有关机器学习的一些热门事件,例如大为火热的AlphaGo以及2017年首次举行的中国人工智能大会(CCAI)。接下来将文章分为3个部分来阐述机器学习:第一部分详细介绍机器学习的发展历程,包括萌芽-发展-繁荣三个阶段;第二部分着重分析了机器学习的常见方法,有监督学习、无监督学习以及强化学习;最后介绍了机器学习在各行各业中的一些具体应用。
  [关键词]人工智能;机器学习;强化学习;无人驾驶
  中图分类号:S265 文献标识码:A 文章编号:1009-914X(2018)24-0227-02
  1.引言
  2016年年初,AlphaGo以4:1战胜了世界围棋冠军李世石,这一大事件瞬间引起了全球对人工智能的兴趣。一时间,人们茶余饭后都在围绕着人工智能这一领域展开。2017年07月22-23号在杭州举行了中国国内级别最高,规模最大的人工智能大会—中国人工智能大会(CCAI)。大会上汇聚了全球人工智能领域的顶级专家、学者和产业界优秀人才,围绕当前人工智能热点话题、核心技术以及广泛关注的科学问题进行深入交流和探讨,再一次将人工智能推向了热潮。
  人工智能的主要三大驱动力:大数据,机器学习以及硬件GPU。本文主要从人工智能的算法——机器学习方面来展开论述。机器学习(MachineLearning)的本质是基于互联网的海量数据以及系统强大的并行运算能力,让机器自主模拟人类学习的过程,通过不断“学习”数据来做出智能决策行为。
  2.机器学习的发展历程与相关要素
  2.1 机器学习的发展历程
  机器学习属于人工智能中一个较为年轻的分支,可以大致分为以下三个发展历程:
  第一阶段:20世纪50年代中期—60年代中期,这一时期处于萌芽时期。人们试图通过软件编程来操控计算机完成一系列的逻辑推理功能,进而使计算机具有一定程度上类似人类一样的智能思考能力。然而这时期计算机所推理的结果远远没有达到人们对机器学习的期望。通过进一步研究发现,只具有逻辑推理能力并不能使得机器智能。研究者们认为,使得机器拥有人工智能的前提还必须是拥有大量的先验知识[1]。
  第二阶段:20世纪60年代中期—80年代中期,这一时期处于发展时期。人们试图利用自身思维提取出来的规则来教会计算机执行决策行为,主流之力便是各式各样的“专家系统”,然而这些系统总会面临“知识稀疏”的问题,即面对无穷无尽的知识与信息,人们无法总结出万无一失的规律。因此,让机器自主学习的设想自然地浮出水面。基于20世纪50年代对于神經网络的研究,人们开始研究如何让机器自主学习。
  第三阶段:20世纪80年代—至今,机器学习达到了一个繁荣时期。由于这一时期互联网大数据以及硬件GPU的出现,使得机器学习脱离了瓶颈期。机器学习开始爆炸式发展,开始成为了一门独立热门学科并且被应用到各个领域。各种机器学习算法不断涌现,而利用深层次神经网络的深度学习也得到进一步发展。同时,机器学习的蓬勃发展还促进了其他分支的出现,例如模式识别,数据挖掘,生物信息学和自动驾驶等等。
  2.2 机器学习的常见方法
  机器学习发展至今,常用的主要有以下三大类:监督学习,无监督学习和强化学习(图1)。
  2.2.1 监督学习
  监督学习表示机器学习的数据是带标记的,这些标记可以包括数据类别,数据属性以及特征点位置等等。这些标记作为预期效果,不断来修正机器的预测结果。具体首先过程是:通过大量带有标记的数据来训练机器,机器将预测结果与期望结果进行比对;之后根据比对结果来修改模型中的参数,再一次输出预测结果;再将预测结果与期望结果进行比对……重复多次直至收敛,最终生成具有一定鲁棒性的模型来达到智能决策的能力。
  常见的监督学习有分类,回归。分类(classification)是将一些实例数据分到合适的类别中,它的预测结果是离散的。回归(regression)是将数据归到一条“线”上,即为离散数据生产拟合曲线,因此其预测结果是连续的。
  2.2.2 无监督学习
  无监督学习表示机器学习的数据是没有标记的。机器从无标记的数据中探索并推断出潜在的联系。常见的无监督学习有聚类,降维。
  在聚类(clustering)工作中,由于事先不知道数据类别,因此只能通过分析数据样本在特征空间中的分布,例如基于密度或是基于统计学概率模型等等,从而将不同数据分开,把相似数据聚为一类。
  降维(dimensionality reduction)是将数据的维度降低。例如描述一个西瓜,若只考虑外皮色泽,根蒂,敲声,纹理,密度以及含糖率这6个属性,这6个属性代表了西瓜数据的维度为6。进一步考虑降维的工作,由于数据本身具有庞大的数量和各种属性特征,若对全部数据信息进行分析,将会增加训练的负担和存储空间。因此可以通过主成分分析等其他方法,考虑主要影响因素,舍弃次要因素,来平衡准确度与效率。
  2.2.3 强化学习
  强化学习是带激励的,具体来说就是,如果机器行动正确,将施与一定的“正激励”;如果行动错误,也同样会给出一个惩罚(也可称为“负激励”)。因此在这种情况下,机器将会考虑如何在一个环境中行动才能达到激励的最大化,具有一定的动态规划思想[2]。例如在贪吃蛇游戏中,贪吃蛇需要不断吃到“食物”来加分。为了不断提高分数,贪吃蛇需要考虑在自身位置上如何转向才能吃到“食物”,这种学习过程便可理解为是一种强化学习。
  强化学习最为火热的一个应用便是谷歌AlphaGo的升级品—AlphaGo Zero。相较于AlphaGo,AlphaGo Zero舍弃了先验知识。不再需要人为设计特征,直接将棋盘上黑白棋子的摆放情况作为原始数据输入到模型中,机器使用强化学习来自我博弈,不断提升自己最终出色完成下棋。AlphaGo Zero的成功证明了在没有人类的经验和指导下,深度强化学习依然能够出色完成指定任务。