大数据下一种高等教育个性化推荐教学方法的研究

http://img1.qikan.com.cn/qkimages/xygz/xygz201812/xygz20181221-1-l.jpghttp://img1.qikan.com.cn/qkimages/xygz/xygz201812/xygz20181221-2-l.jpg
   [摘要]大数据时代,科技的发展为教育带来了巨大变革,教育更关注学习者的需求,更关注学习者能力提升及综合素质的发展,数据挖掘支持的高校教学变革势在必行。提出一种挖掘高校教学网站频繁访问节点数据的新方法MFITTSSW,使该方法可以单遍扫描数据集以获得推荐模式。通过网站应用实践,发现该方法可以有效关注学习者个体发展需求,对大数据时代进行高校教学变革具有重要意义。
   [关键词] 大数据;数据挖掘;高校教学
   [中图分类号]  G642                  [文献标志码]  A                       [文章编号]  2096-0603(2018)34-0048-02
   随着现代信息技術的发展,“教育信息化”与人们日常生活的联系越来越紧密。教育信息化的改革与发展,使其成为教育发展的重点。如,电子白板、在线课程、各种多媒体应用软件、Web考试系统以及高校教学网站技术相当成熟。但在考试难度控制、题库选择等方面还存在一定的问题,主要是题库选题方法是随机的,考试的一些重要参数无法统计,很难实现对考试的客观评价,另外,高校学生尤其是新生在选课以及对自己的专业考虑不足,很难正确选择自己需要的课程,很难选择自己喜欢的教学内容。归根到底,这些信息化技术最大的不足之处就是缺乏对数据信息的分析,发掘数据是否有关系,然后透过数据之间的关系来进行相关内容的推荐。而在如今的大数据时代,数字数据以惊人的速度增长,人们的生活方式和生产方式也发生着前所未有的变化,这些新特点也是当前的教学改革、课程教学方向的热点。大数据具有三个特征:数据量大、数据产生得快、数据具有多样性。首先,由于高校课程选择数据、课程考核数据、评估数据和学习者数据等规模都非常大,因此用来分析的数据量非常庞大,并且在分析这些数据的过程中会产生新的数据,这些数据通常在运行过程中是指数倍增长,往往超出一般数据库软件所能捕捉、存储和分析的数据量。其次,大数据往往是在课程选择、课程考核和分析等过程中新产生的数据,这些数据是实时、在某一时间段数据量庞大,而不是事件发生后去采集的。再次,大数据拥有非常多的数据类型,选课、考试以及观看教学视频中的每个步骤都可以跟踪采集相关学习行为的数据,如选课的路径模式、观看教学视频时间长度、测试数据的分数、通过率、课程讨论论坛数据等数据采集、转换很困难,需要高质量的软硬件环境。从以上三点我们可以发现,大数据背景下,课程的选课模式、学习模式、教学考核模式等是通过挖掘大量相关数据从而科学地进行课程建设和改革的,从而提高教师教学和学生自主学习效率。而选课教学网站的数据挖掘不可能对所有数据进行挖掘,只能通过挖掘近期数据的关键信息,从频繁被访问的节点信息,找出数据摘要。从而推荐相应选课内容以及学习内容。国内外的一些专家学者在网站频繁访问节点挖掘方面提出的算法有FTP-DS、DSM-MFI等,弥补了传统频繁项集挖掘中多遍速扫描数据集和基于磁盘存储不足的缺陷。虽然这些算法都可以满足数据流挖掘中单遍扫描数据和基于内存存储的特点,但是这些应用滑动窗模型挖掘数据流频繁访问节点算法同样存在着挖掘效率不高和内存存储数据量过大的问题。
   本文针对滑动窗挖掘模型中存在的不足,提出基于时间和事务双敏感的滑动窗TTS作为概要结构,从而有效综合滑动窗模型的优点。并构建后缀树作为基于内存的数据结构存储到来的访问节点,通过压缩后缀树(CST)方法减少内存中树型结构所占用的空间,使算法MFITTSSW可以在单遍扫描数据集的基础上挖掘滑动窗中的频繁访问节点。文中主要讨论如何确立数据的高效存储、如何确保数据的高质量性以及如何对数据进行挖掘以保障课程选课和学生学习质量。
   一、问题定义
   设Ψ={i1,i2,…,im}为项的集合。项集X是Ψ的非空子集,k-项集是包含k个项的子集,可以用(x1,x2,…,xk)表示。带有唯一标识(tid)的事务T和项的集合由〈tid,(x1,x2,…,xq)〉表示,其中xi∈Ψ,■i=1,2,3,…,q。将数据流分为固定事务数量的窗口,称为基本窗,记为Bi。一个基本窗Bi是由k个事务组成,基本窗由窗的标识Bid唯一确定。
   二、时间和事务双敏感的滑动窗模型
   时间敏感的滑动窗模型是以时间为基本单位,如一分钟或一小时。然而,由于数据流的概念漂移性,在应用时间敏感滑动窗模型时,在某一个或者某几个时间单位中存在没有事务或者只存在一个事务的情况。但是以时间敏感的滑动窗为概要设计的算法不得不处理每一个时间单元的事务,这样就极大地浪费了CPU处理时间。
   事务敏感的滑动窗模型相对于时间敏感的滑动窗有一定的优势,然而事务敏感的滑动窗模型存在无法适当的定义事务块大小的问题。用户定义过大的事务单元块时,会对内存造成极大的压力,不利于处理;当用户定义较小的事务单元块时,处理又过于频繁,造成CPU资源的浪费。
   时间和事务双敏感的滑动窗模型TTS(Time and Transaction Sensitive sliding window)是同时限制时间和事务数量的滑动窗,它包括最小限定事务数y、限定的时间单位Tp和扩充时间单位Te。
   当给定一个时间t和时间周期Tp时,在[t-Tp+1,t]时间到来的所有事务集形成一个基本窗,叫做一块。如果在这一时间块内的事务数小于某一用户定义数量值y,这时将记录一个扩充的时间Te,Te的大小为记录的时间点开始直到整个中的事务数等于y为止。即在一个时间块中的事务数必须大于等于y。数据流可以分成这些数据块的和。滑动窗的大小可以由|W|表示,且|W|≥y。这种约束时间和事务的滑动窗称为时间和事务双敏感的滑动窗(TTS)模型。