精华内容
下载资源
问答
  • 知识追踪
    千次阅读
    2020-10-20 17:05:20

    背景 MOOC

    近年来,随着在线学习系统在教育环境中越来越普及,在线学习人数越来越多,教育者不可能追踪每一个学习者的知识状态并提供个性化的学习指导;在线学习系统中的知识需要学习者通过各种冗余信息自我查找,导致学习资源和学习路径多样化但却不一定有效。

    从教育研究的角度来看,在线学习系统提供了几个重要的优点,最显著的是留下学习者详细的学习轨迹,提供了调查不同轨迹下学习者行为效能的条件

    跟踪的问题本质上

    是做时间序列预测(sequence modeling, or sequence prediction)

    目的:个性化推荐

    为了解决上述问题,一个可以自动追踪学习者知识掌握情况的知识追踪模型对教育者和学习者都是必要的,因为它既可以向教育者

    馈学习者知识掌握情况,让教育者更加了解每一个学习者,也可以推断学习者的知识弱点,向学习者推荐高效的学习路径和恰当的学习资源,从而做到因材施教

    知识追踪模型

    知识追踪模型是模拟学习者知识掌握情况的一个典型模型,由Atkinson 于1972 年首次提出,每个知识点由猜测率、学习率、失误率和学习知识之前的先验概率4 个参数组成(Pardos & Heffernan,2010),并由Crbett 和Anderson (1994) 引入智能教育领域,目前已经发展成为智能辅导系统中对学习者知识掌握情况建模的主流方法。

    实际上知识追踪是一种特殊的隐马尔科夫模型(hidden markov model, HMM),每一个节点都通过条件概率表(conditional probability table,CPT) 来量化父节点对自身的影响

    研究方向 

    (一) 从知识层面分析知识追踪模型的教育应用 

    单个知识点和多个知识点两个角度

    多知识点的知识层级关系和知识拓扑顺序等知识组合问题

    (二) 从学习者层面分析知识追踪模型的教育应用
    学习者特性对模型预测精度有影响。在该研究层面也确定了可以提高预测精度的两类方法:模型本身包含的学习者参数特性和学习者学习参与特性

    研究表明:

    参数特性:赋予学习者不同的先验概率,模型精度不一样;学习过程可能会发生遗忘。(先验知识/学习速率/猜测概率/失误率/遗忘)

    参与特性:情绪、态度和参与度

    (三) 从数据层面分析知识追踪模型的教育应用

    选择不同的数据类型(二进制数据或连续数据)、题目数量和学习者样本量来训练知识追踪模型会导致模型预测精度的差异,所以应该根据不同的需求选择包含需要的知识点维度和学习者维度的数据。不同维度的选取要有相关性,否则会导致数据处理时难以形成逻辑,更多的只能流于表面和片段式分析。 

    (四)将知识追踪与其他模型组合应用

    展望

    知识追踪模型不仅仅应用在自动监督、自动评价和自动反馈等方面,还能向第二导师方向发展,真正实现教育领域的一对一、
    个性化和自适应,为教学程序的改善和学习效果的增强寻求可行的途径。

    存在疑问 

    知识追踪与知识图谱 目前知识追踪只是判断学生的掌握程度以及下道题是否回答正确等 并没有推荐题目

    参考资料:知识追踪模型在教育领域的应用:2008—2017 年相关研究的综述*

    更多相关内容
  • 随着教育信息化程度的不断加深,以预测学生知识状态为目标的知识追踪正成为个性化教育中一项重要且富有挑战性的任务。知识追踪作为一项教育数据挖掘的时间序列任务,与深度学习模型强大的特征提取和建模能力相结合,...
  • 基于深度学习的知识追踪研究进展论文总结
  • LFKT_学习与遗忘融合的深度知识追踪模型.pdf
  • 知识追踪模型(knowledgetracingmodel)被广泛地应用在教育系统(intelligenttutoringsystem)中以预测学生做题的表现。当学生做题时,教育系统采用该模型持续对学生的知识掌握情况作出评估并根据对每个学生的评估给出...
  • 基于知识追踪的个性化教学材料推荐方法探讨.pdf
  • 我们首先提高了知识跟踪模型的性能。现有的深度知识跟踪模型,例如动态键值存储网络(DKVMN),请忽略练习”概念标签,通常在补习系统中可用。我们评估了五年级的模型学生的数学运动数据集,TAL中最大的一个中国的...
  • 在深层知识追踪中预测长期学生的参与认知心理
  • 知识追踪理论入门

    千次阅读 2020-05-23 09:51:17
    知识追踪(Knowledge Tracing)是根据学生过去的答题情况对学生的知识掌握情况进行建模,从而得到学生当前知识状态表示的一种技术。便我们能准确地预测学生对于各个知识概念的掌握程度,以及学生在未来学习行为的...

    what

    知识追踪(Knowledge Tracing)是根据学生过去的答题情况对学生的知识掌握情况进行建模,从而得到学生当前知识状态表示的一种技术。便我们能准确地预测学生对于各个知识概念的掌握程度,以及学生在未来学习行为的表现。准确可靠的知识追踪意味着我们可以根据学生的自身的知识状态,给他们推荐合适的练习题目,比如,推荐给学生薄弱知识概念关联的题目,而过于困难或者过于简单的题目不应该被推荐,从而可以给学生进行高效的个性化教学。

    when

    知识追踪模型是模拟学习者知识掌握情况的一个典型模型,由Atkinson 于1972 年首次提出,Corbett和Anderson,1995年将BKT引入智能教育领域,应用于智能教育系统(ITS)
    霍索恩效应:指人们如果得知自己正在被研究或检测,行为表现就会有所增强。

    How

    为了解决知识追踪任务s首先要
    进行用户交互建模,现有的建模方法依据反馈的时间分为下面两种.
    第一种建模方式为实时反馈的用户交互建模.

    在现实中的棠些情况下学生完成一道习题后需要重刻更新模型中学生对于知识点的掌握情况倩息.比如在P常练习中,学生完成一道习题后可以立即得到反馈,学生的知识点掌握情况也随之发生变化.

    第二种建模方式为基于阶段性反馈的用户交互建模.

    与上一种情况完全相反,某些情况下学生宗成一道习题不能够立即获得反馈,因此不能立刻更新模型中学生对于知识点的掌握情况.比如在考试时,学生完成一道题目后不可能立刻获取答案,因此考试过程中学生对于知识点的掌握程度变化不大

     

    知识追踪模型

    现有的知识追踪模型大致可以分为3类:基于概率图模型的知识追踪、基于矩阵分解的知识追踪以及基于深度学习的知识追踪参考:

    贝叶斯知识追踪(BKT)-基于概率图模型的知识追踪

    采用实时反馈的用户交互建模,将学习者的潜在知识状态建模为一组二元变量,每个突量代表是否理解某个知识,随着学生不断地练习,对于知识点的掌握也会有动态的变化,BKT通过利用隐马尔可夫模型(HMM)来维护代表知识点熟练度的二元变量{掌握该知识点,没掌握该知识点},原始的BKT模型假设学生一旦學会了技能,就永远不会被遗忘,最近有研究将学生的猜测和失误个体学习者的先验知识估计M以及问题难度估计等因素融入到BKT模型中

    首先我们来看一下BKT的模型是如何的:

             如下图,是BKT的一个模型,以及对应的4个主要参数,L0,T,G,S。模型需要根据学生以往的历史答题系列情况学习出这4个对应的参数。

            BKT是对不同的的知识点进行建模的,理论上来说,训练数据有多少个知识点,就有多少组对应的(L0,T,G,S)参数。

            L0:表示学生的未开始做这道题目时,或者为开始连续这项知识点的时候,他的一个掌握程度如何(即掌握这个知识点的概率是多少),这个一般我们可以从训练数据里面求平均值获得,也可以使用经验,比如一般来说掌握的程度是对半概率,那么L0=0.5

            T :表示学生经过做题练习后,知识点从不会到学会的概率

            G:表示学生没掌握这项知识点,但是还是蒙对的概率

            S:表示学生实际上掌握了这项知识点,但是还是给做错了的概率

           

             通过这4个参数,可以构造一个HMM的模型,剩下的事就是训练这个模型

    基于矩阵分解的知识追踪


    PMF 概率矩阵分解、由于推荐领域与知识追踪建模的相似性,部分学者将PMF算法改进应用于知识追踪领
    域,本节主要阐述原始的PMF算法如何应用于知识追踪任务.
    KPT:一个基于PMF的解释性的概率知识熟练度追踪模型,通过用教育先验来追踪学生知识熟练程度.具体而,KFT首先将每个练习与知识向量组关联,其中每一个元素代一个显性的知谀点.
     

    深度知识追踪(DKT

    https://blog.csdn.net/qq_40367479/article/details/105737469

    优势:

    模型可以反映出长时间的知识掌握程度,相比传统贝BKT假设知识一旦掌握了就不再会被遗忘,深度知识追踪引入循环神经网络模型可以很好地模拟知识长时间不做会被遗忘的行为,更加符合人们的认知。

    能够对复杂的知识点间的联系进行建模,从而发现不同知识点间的内在联系。

    不同于BKT用0/1来表示学生知识点掌握状态,DKT输出的 yt 是连续值,DKT可以反映出学生连续的知识水平变化。

    当然深度知识追踪模型也是存在着缺点的 [4]:

    模型存在无法重构的可能性,比如学生在此刻做对 i 知识点,但是某些情况下,模型认为下一刻对 i 知识点的掌握水平反而下降。

    在时间序列上,学生存在对知识点掌握程度不连续的情况,部分学生的波动可能过大。

    上述两个缺点可以通过修改损失函数进行解决,已有相关的论文对深度知识追踪模型进行改良,提出了对应的解决方案,并获得精度上进一步提升,同时对上面缺点中提到的问题有了很好的提升与修复。

     


    [1]刘恒宇,张天成,武培文,于戈.知识追踪综述[J].华东师范大学学报(自然科学版),2019(05):1-15.


    https://blog.csdn.net/qq_40367479/article/details/10573746


    [1]艾方哲. 基于知识追踪的智能导学算法设计[D].北京交通大学,2019.
    ***** https://www.cnblogs.com/jiangxinyang/p/9732447.html

    https://www.cnblogs.com/vwvwvwgwg/p/12833451.html

    展开全文
  • 基于图神经网络的知识追踪

    千次阅读 2020-11-22 19:27:32
    知识追踪:使用图神经网络对学生知识点熟练度建模(将学生的知识点掌握程度基于时间进行建模) 计算机辅助教学系统的进步带来了知识追踪的研究工作增加,在这个平台上,学生的表现是随着时间逐渐被预测的,正确的...

    (持续更新ing)

    github源码:https://github.com/jhljx/GKT

    Interaction Networks for Learning about Objects, Relations and Physics  Code

    Relational inductive biases, deep learning, and graph networks(关系归纳偏差,深度学习和图网络) code

    Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation  code

    Inductive Representation Learning on Large Graphs (从大图中学习归纳表示)   code

    Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

    目录

    知识追踪 —— 使用图神经网络对学生知识点熟练度建模

    (将学生的知识点掌握程度基于时间进行建模,用来预测学生随着时间做对练习题的概率)

    1、背景介绍

    2、知识追踪

    3、GNN

    4、基于图模型的知识追踪

    4.1问题定义

    4.2 解决方法

    4.3 实现潜在的图结构和​任意函数

    4.4 同之前方法的比较

    5、实验

    5.1 数据集

     5.2实现细节

    5.3 预测性能

    5.4 预测的可解释性

    5.5 网络分析

    6、合并Richer_GNN架构


    知识追踪 —— 使用图神经网络对学生知识点熟练度建模

    (将学生的知识点掌握程度基于时间进行建模,用来预测学生随着时间做对练习题的概率)

    1、背景介绍

    在智慧教育系统(E-learning 系统)上,学生的表现可以随着时间逐渐被预测,正确的预测能够帮助学生准确选择和现在认知水平相当的试题,这种电子学习平台可以帮助学生提高学习积极性,目前有很多知识追踪的方法,最近提出有:DKT(使用了RNN模型),这个方法证明比之前的方法都要好,从数据结构的角度来看,课程学习也可以被建模成图模型,将熟练掌握一个知识概念,所需要掌握的知识点建模成图上的点,并且这些知识点之间是互相关联的。众所周知,将关于数据的图结构性质的先验知识引入模型可以提高模型的性能和可解释性。

    如:将一个知识概念拆分为三个知识点,表示为 V={v1,v2,v3},并且掌握v1,就必须要掌握知识点v2,同时,掌握知识点v2,也必须要掌握v3  (比如要解决二元一次方程就必须会解一元一次方程,要解决一元一次方程就必须会移项),因此结合图结构的知识点模型,可以有效地提高知识追踪模型,然而DKT并没有考虑到知识点之间地这种关系,以往基于深度学习地方法(如RNN)的体系结构,通常对序列数据表现良好,但是不能有效地处理图形结构的数据。

    最近,基于图神经网络的研究兴起,虽然在这种不规则的域上操作数据,对现有的及其学习方法提出了挑战,各种泛化框架和重要操作在多个研究中也取得了比较好的结果,GNN从关系归纳偏差的角度出发,结合人类对数据本质的先验知识,提高了机器学习模型的效率,这部分,Battaglia等人认为是可解释的。GNN可以找到潜在的知识结构,但问题也在这,在知识追踪中使用图神经网络的时候,如何表示潜在知识结构是很困难的,GNN对于图形结构数据的建模具有相当大的表达能力。这篇论文,我们将其重新定义为一个GNN应用程序,并提出了一个新的模型,可以在考虑潜在知识结构的情况下预测学生知识掌握程度

    在一些知识追踪的案例中,知识点之间的关系和关系的强度,没有明确的提供,对于人类专家来说,启发式和手动注释内容关系是必要的,但是需要有领域专家花费大量时间才可以完成。所以很难提前将所有的知识都进行知识点图建模,我们把这种问题定义为隐藏的图结构问题,像概念回答转移概率,另外一个解决方案是在学习图结构本身的同时优化主要任务,最近关于GNN研究中,相关的话题就是图的边(知识点关系)的学习。

    这篇论文,主要提出了基于图神经网络的图知识追踪,将知识追踪重新定义为GNN中的时间序列节点级分类问题。这种构想是基于3种假设:1.课程知识被分解为指定数目的知识点 2.学生目前是有指定的知识掌握程度,设为(knowledge state)3. 课程知识被建模为一个图,这个图用来更新学生的知识点掌握程度,当学生答对/答错一道题,那么学生的认知状态受影响的不仅仅是这道题的知识点,还有这个知识点相关的其他知识点,也就是邻接点。

    数据集使用的是两个开放的数学联系日志数据集的子集,对这个方法进行了实例验证,在预测性能上面,我们的模型比以往的基于深度学习的模型表现要优,这意味着我们的模型在改善学生成绩预测上面有很大的潜力。此外,通过对训练模型的预测模式的分析,可以从模型的预测中清楚地解释学生熟练程度的过程,即学生所理解的概念及其所需的时间,而以往的方法解释能力较差。这意味着我们的模型比以前的模型提供了更多可解释的预测。在假设目标课程是图结构的情况下,跟踪实际教育环境中的应用,所得结果都验证了我们的模型在提高知识的性能和适用性方面的潜力。

    贡献如下:

    我们证明了将图神经网络应用在知识追踪中,提高了学生学习成绩预测的性能,不需要任何附加的信息,在更加精准的内容个性化下,学生可以有效地掌握课程知识。平台可以提供更高质量的服务来维护用户的高参与度。

    我们的模型提高了模型预测的可解释性。教师和学生可以更准确地识别学生的知识状态,通过理解推荐练习的原因,学生可以更积极地进行推荐练习。E-learning平台和教师可以通过分析学生的失败点来更容易地重新设计课程。

    为了解决隐式图结构问题,我们提出各种实现方式,并通过实验验证其有效性。不需要专家花费大量的精力,对概念之间的关系进行的注释。教育专家可以有一个新的标准来考虑什么良好的知识结构是对课程的改进设计。

    2、知识追踪

          Xt 表示在时间t时刻是否正确回答一系列问题q(向量) 的概率 r,yt是学生在下个时间 t+1正确回答每个练习 的概率,KT是知识追踪模型。Since Piech等人第一次提出以深度学习为基础来做知识追踪,并且也证明了RNN的强大的解释能力,后续的研究都采用RNN或者其拓展知识来做知识追踪,这个模型定义了一个隐藏的状态,或者是学生当前的一个知识储备状态,并且随着学生做题的状态不断地更新,以RNN为代表地模型,定义了一个固定长度的向量X,Xt由两种离散的值0和1表示,0表示题目做错,1表示题目做对,训练目标是最小化模型下观察到的学生反应序列的负对数似然(NLL)。

    3、GNN

    GNN(Graph Nueral network)图神经网络是一种作用在图数据上的神经网络,虽然表示图数据很复杂,但是它的超强解释性还是吸引了很多人对此投入研究,对GNN的研究兴趣有很大一部分原因是来自CNN,CNN可以摘录多尺度局部空间特征及其组合构造表现力,从而在各种研究领域,如计算机视觉。然而,CNNs只能对常规的欧几里德数据(如图像和文本),而现实世界中的一些应用程序生成非欧几里德数据。另一方面,GNN将这些非欧几里德数据结构视为图形,并使CNN的相同优点也能反映在这些高度多样化的数据上。巴塔利亚等人从关系归纳偏置的角度解释了GNN和CNN的这种表达能力,通过融合人类对数据本质的先验知识,提高了机器学习模型的样本效率。

    在GNN的几个研究课题中,边缘特征学习是与我们工作最相关的。图形注意力网络(GATs)将多头部注意力机制应用于GNN,并在训练过程中学习边缘权值,而不需要预先定义它们。神经关系推理(NRI)利用变分自动编码器(VAE)以无监督的方式学习潜在的图结构。我们的方法假设一个课程的知识概念的潜在的图结构,并使用图形运算符来模拟学生随着时间对于知识点的熟练度变化。然而,在许多情况下,图结构本身并没有显式地提供。我们通过设计模型来解决这个问题,这些模型学习边连接本身,同时优化学生的表现,通过扩展这些边缘特征学习进行预测机制。我们请在第3.3节对此进行详细解释。

    4、基于图模型的知识追踪

    4.1问题定义

    将一门知识建模为图,要熟练掌握这个知识,需要掌握很多子知识点,这里知识定义为 G = (V,E) , 知识点为 {v1,v2,v3....vN} ,这些子知识点之间的关系定义为边E(edge),其中 ,学生当前的知识点熟练度建模为表示学生在t时刻,对于知识点v的掌握程度,并且这个掌握程度是随着时间而变化的,当学生回答了包含知识点vi的题目时候,与vi相关的,就会更新,并且与v相关的邻接知识点也会更新,Ni表示vi的所有相连的知识点

    4.2 解决方法

    GKT将GNN应用于知识跟踪任务,并利用知识的图结构特性。我们在图1中展示了GKT的体系结构。以下段落详细解释了这些过程。

    4.2.1 聚合,首先,该模型集合了所回答的概念i及其邻近概念j∈Ni的隐藏状态和嵌入

    ,X表示对每一道题回答的结果的记录,是一个输入向量,是一个矩阵,嵌入了知识点的下标和的反馈,

    表示每个知识点的下标,表示知识点矩阵的第K行,并且e是embeeding的大小。

    4.2.2 更新。接下来将根据已经聚合的特征和知识图架构来更新整个知识的结构图

    是一个多层的感知器,是一个擦除-添加门,是一个门控递归单元,表示任意函数,用来表示基于知识图谱结构将信息传送到邻接结点,我们在3.3节提出不同的实现方法。

    4.2.3 预测。最后,这个模型输出的是,每个学生在下一个时间点正确回答每个知识点的预测概率。

    Wout是每个节点的公共权重矩阵,bk是节点k的偏置项,是sigmoid函数,训练模型来最小化观测到的NLL的值。我们可以用边缘信息,从邻接的知识点中收集学生的知识掌握程度。我们验证了,基于目标学生知识状态来预测是更好的一种预测方式,所以我们只使用更新过的学生认知状态。

    4.3 实现潜在的图结构和任意函数

    GKT能够利用知识本质的图结构来进行知识追踪,但在大多数情况下,这种结构并没有给出,为了实现这种图结构和,我们介绍两种方法。

    4.3.1 基于统计的方法,这种方法实现了基于一定统计量的邻接矩阵A,并且将这种方法应用到了

    这里都是多层感知机,这里介绍三种类型的图结构

    (1)Dense graph 是一个紧密连接的图

    (2)Transition graph 是一个转变概率矩阵,当i <> j,Ai,j = ,否则 就是 0. 表示在概念i被回答后,j立马被回答的次数。

    (3)DKT graph 基于被训练好的DKT模型的条件预测概率而生成的图。

    GKT模型的架构,当学生回答了某一个知识点时,GKT首先聚合与其相关的知识点的特征,根据这些特征更新学生的认知状态,最后预测学生在下次正确回答这些知识点的概率。

    4.3.2 基于学习的方法,在优化性能预测的同时,会同步学习到这种图结构,这里介绍三种图结构学习的方法。

    (1)参数邻接矩阵(Parametric adjacency matrix PAM),简单地参数化邻接矩阵A,并且在一定条件下,用其他参数对其进行优化,比如A满足邻接矩阵,和公式2定义类似。

    (2)多头机制 (Multi-head Attention MHA) :利用多头注意力机制,依据两点之间的特征,推断两点之间关系(边)的权重。定义入下:

    这里k是下标,标注是第k个head,表示从点vi到点vj的第k个head的注意力权重,fk表示第k个head的注意力权重。

    (3)变量自动编码器(Variational autoencoder VAE)假设表示边类型的离散变量,并使用点的特征来进行填充,定义入下:

    共有k种边类型,是从Gumbel-Softmax分布中采取的潜在变量,是第k个边类型的神经网络,VAE用来最小化NLL和在编码分布q(z|x)和先验分布p(z)中的KL散度的,使用一个边类型来展示非边类型,表示在这种类型的边上不会有任何信息会被传递,在这种非边的类型上设置高概率会导致生成稀疏图。

    这种学习方法接近于基于边的特征的学习策略,MHA和VAE分别受到了GAT和NRI的启发,然而,我们是基于两种方法来修改的,首先,我们根据静态特征而不是动态特征计算边缘权值,如概念和响应的嵌入。这使得知识图的结构不会随着学生和时间而改变,考虑到知识追踪的实质,这种方式是更好的。然后,依据VAE的说法,我们限制了每一个时刻里面的与答案相关的边类型的推测,这符合知识追踪的状况,学生在每一个时间段里面只需要回答一小部分的概念,这也使得计算成本从原始NRI的降低到O(KN)。

    我们会在5.1节讨论这三种方法的不同点

    4.4 同之前方法的比较

    可以从两个方面来进行比较,如图2

    一个比较的点,是对学生当前认知水平的定义,在DKT中,表示单个隐藏的向量,并且每个知识状态都是相关的,但是,对每个概念的知识状态进行建模会变得复杂,导致长时间序列的性能下降,预测学生对于每一个知识点熟练度的可解释性变差,为了解决这些缺点,有人提出了动态键值记忆网络(Dynamic Key-Value memory network DKVMN)DKVMN使用了两种记忆矩阵,一种矩阵看作学生当前认知状态的栈,分别定义每个知识点,虽然这和GKT的概念差不多,但还是有些许差别,GKT是直接对每个知识点进行建模,而DKVMN则是定义了低维的潜在向量,再对它们的知识状态建模。

    另一个方面是指知识状态更新过程中概念之间的相互作用。在DKVMN中,使用简单的点积注意机制计算原始输入概念和潜在概念之间的关系权重,这可能不足以建模知识概念之间的复杂和多重关系。同时,GKT利用K个不同神经网络对K个边缘类型的输入概念之间的关系权值或边缘权值进行建模。 这可以对概念之间的多个复杂关系进行建模。

     

    5、实验

    5.1 数据集

    这个实验我们使用了两个开放的学生数学练习日志数据集:在线教育服务ASSISTments的数据和KDDCU的用于教育数据挖掘挑战的数据。我们提供了表1中现有概念标签的示例。

    使用某些条件对于数据进行预处理,对于ASSISTments数据集,将同时回答的日志组合成为一个,随后提取与命名概念标记关联的日志,最后提取回答了至少有10次的日志。对于KDDCup数据集,我们将问题和步骤的结合视为一个答案,然后抽取与概念标签相关的日志,最后抽取回答了至少有10次的日志。

    将同步答案日志合并到一个集合中,可以防止不公平的高预测性能,因为频繁出现的标记,不包括概念***,每个概念标记的相应次数对日志进行阙值化,可以确保足够数量的日志来消除噪声。利用上述条件对数据集进行处理,最终在ASSISTments中获得了62,955条日志记录,包括1000个学生和101个知识点,在KDDCup数据集中获得了1000个学生和211个知识点。

     5.2实现细节

    每个数据集,都将学生的数据分成:训练、验证、测试三大块,所占比例分别为8:1:1,使用训练数据集来进行训练,用验证数据集来调整超参数。

    DKT:根据Piech等人的研究,使用循环神经网络中的GRU来寻找超参数,隐藏层的大小为200,使用dropout为0.5的速率进行减枝,将变成,批大小为32,使用Adam为优化器,学习速率为0.001

    DKVMN:根据Zhang等人的研究,对ASSISTments数据集,内存槽的大小为20,隐藏向量的大小为32;对KDDCup数据集,内存槽的的大小为50,隐藏向量的大小为128;批大小为32,使用Adam为优化器,学习速率为0.001

    GKT:所有的隐藏向量和嵌入层矩阵的大小为32,对于模型中的MLP,将隐藏向量的dropout下降为

    5.3 预测性能

     

    5.4 预测的可解释性

    接下来,将GKT预测学生认知状态的过程进行可视化,并且评估模型预测的可解释性。可视化帮助学生以及老师发现过去的知识掌握情况,高效且直观,这是非常有必要的。

    我们从两个角度来评估模型的可解释性。1、根据学生已经回答过的知识点,更新相关知识点的掌握情况        2、被更新的部分是根据知识点的结构图来调整的

    以下步骤是分析整个知识点状态的变化过程

    (1)在时间T之前,随机抽取学生的做题情况

    (2)在训练模型的输出层,移除掉偏差向量。

    (3)将学生的回答向量输入到训练模型,并将输出向量进行叠加

    (4)将输出值进行正则化,结果控制在0到1之间

    在图3a和图3b中,我们随机抽取了一名学生的做题日志,并以图的形式描绘了学生的知识状态,x轴表示时间,Y轴表示知识点,格子颜色表示学生知识点掌握的变化情况,红格子表示掌握程度降低,绿色表示掌握情况增加。

    图3a表示GKT会更具知识点的相关性来更新学生的知识点掌握情况,而DKT依据模糊的依据将所有状态进行更新,在图3b中,能看到时间点28和75的时候,虽然知识点29没有被回答,但是因为和4有关,4有被回答,所以29的状态也被更新了。这表明GKT可以对学生的知识点掌握情况提供更明确和合理的解释。

    5.5 网络分析

    最后,从被训练的GKT模型中抽象出已经学习到的图结构,进行分析。在基于学习的方法中,GKT学习有助于预测学生表现的图形结构。 因此,从模型中提取的图显示了较高的预测性能,可以提供对良好知识结构的洞察。 图中描述了网络,其中左侧显示网络概述,右侧显示图形的本地连接。 节点的颜色是从蓝色到红色的,在那里,一个练习的答案越早,蓝色的是阴影。 节点的大小与它们的出度成正比,这意味着更大的节点会影响更多的节点。首先,在用于比较的可视化DKT图中,类似颜色的节点相互连接,从而生成集群。 当DKT用相同的单个隐藏向量对所有概念的隐藏状态进行建模时,对概念之间的存在长期依赖的建模是困难的。 因此,该模型倾向于学习以时间接近的顺序回答的节点之间的依赖关系。 从PAM中提取的图形表现出类似于DKT图的结构,其中构造了簇;从图形的右上角,我们可以看到一些几何概念是连接的。 从MHA 中提取的图显示了来自某些节点的几个即将到来的边缘。虽然模型可能已经了解了不同于其他图中概念之间的一些 特殊依赖关系,但它的预测可能是有偏差的。 因此,我们必须评估这种结构对预测性能的影响。 从VAE中提取的图与其他图不同,因为它形成了一个密集的图,其中几个节点相互连接。 虽然这些联系很多都很难解释,但从图的右下角,我们可以识别一些统计概念是连接的。

    6、合并Richer_GNN架构

    我们提出了第一种基于GNN的知识跟踪方法,并验证了相对 简单的体系结构。 在下面,我们讨论了三个方向来改进我 们的模型。 一种是根据节点的边缘类型对节点之间的信息传播施加适当的约束。 在本研究中,为了进行公平的比较,我们为基于统计的方法和基于学习的方法定义了两种类型的边缘。 然而,我们没有对每个节点类型施加任何约束;因此,对每个节点类型(如依赖方向和因果关系)的意义可能很小,特别是对于学习的边缘。 解决办法是根据节点的边缘类型对节点之间的信息传播施加一些约束例如定义边缘的方向,并将传播限制在从源节点到目标节点的一个方向上。 此外,这可 以作为关系归纳偏差,提高GKT的样本效率和可解释性。 另一个是将所有概念(如DKT)所共有的隐藏状态合并到GKT中。虽然只采用单个隐藏向量来表示学生知识状态,使DKT中概念之间复杂交互的建模复杂化,但将这种类型的表示添加到GKT中可以通过充当全局特征来提高性能。 全局特征意味着每个节点的共同特征,并且可以表示跨变量概念或学生原始概念的共同知识状态智力对个体概念理解的不变。最后一个可能的解决方案是实现多跳传播。 在本研究中,我们将传播限制在单个跳,即响应某个节点的信息只在一个时间步长传播到其相邻节点。 然而,要有效地模拟人类的学习机制,使用多跳将更合适。 此外,这可以使模型能够学习稀疏连接,因为模型可以将特征传播到远程节点,而不连接到其他节点。

    深度学习的黑盒问题被人诟病已久,图神经网络的信息传播机制相较传统深度学习模型更具有可解释性。知识图谱提供了现实世界的事实知识,利用图神经网络模型尤其是概率图神经网络应用在知识图谱中实现逻辑推理,从而显式地生成基于知识图谱的推理路径,或许可以期待打开深度学习的黑盒。 

    展开全文
  • 深度知识追踪(Deep Knowledge Tracing)·论文学习归纳

    千次阅读 多人点赞 2021-01-05 11:27:45
    深度知识追踪(Deep Knowledge Tracing) 0 摘要 在计算机支持的教育中,知识追踪(机器在学生与课程作业交互时对学生的知识进行建模)是一个公认的问题。虽然有效地对学生知识进行建模会产生很高的教育影响,但这项任务...

    深度知识追踪(Deep Knowledge Tracing)

    0 摘要

    在计算机支持的教育中,知识追踪(机器在学生与课程作业交互时对学生的知识进行建模)是一个公认的问题。虽然有效地对学生知识进行建模会产生很高的教育影响,但这项任务存在许多内在的挑战。在这篇文章中,我们探索使用递归神经网络(RNNs)来模拟学生的学习。与以前的方法相比,RNN模型家族具有重要的优势,因为它们不需要对人类领域知识进行显式编码,并且可以捕获更复杂的学生知识表示。使用神经网络可以显著提高对一系列知识跟踪数据集的预测性能。此外,学习的模型可以用于智能课程设计,并允许直接解释和发现学生任务中的结构。这些结果为知识追踪提供了一条很有前途的新研究方向,并为RNN提供了一个典型的应用任务。

    1 介绍

    计算机辅助教育承诺开放获取世界级的教育,并降低日益增长的学习成本。我们可以通过在Khan Academy、Coursera和EdX等流行的教育平台上构建大规模学生跟踪数据模型来实现这一承诺。
    知识追踪的任务是对学生的知识进行建模,这样我们就可以准确地预测学生在未来的互动中将如何表现。对这项任务的改进意味着可以根据学生的个人需要向他们建议资源,并且可以跳过或推迟预测太容易或太难的内容。尝试定制内容的手动调整智能教学系统已经显示出令人振奋的结果。一对一的人类辅导可以为普通学生带来大约两个标准差的学习收益,而机器学习解决方案可以免费为世界上任何人提供高质量个性化教学的这些好处。由于人类学习的基础是人脑和人类知识的复杂性,因此知识追溯问题本身就很困难。因此,使用丰富的模型似乎是合适的。然而,以往的教育工作大多依赖于函数形式受限的一阶马尔可夫模型。
    本文提出了一种称为深度知识追踪(Deep Knowledge Tracing,DKT)的公式,它将时间上“深度”的灵活递归神经网络应用到知识追踪任务中。这一系列模型使用大量人工“神经元”来表示潜在的知识状态及其时间动态,并允许从数据中学习学生知识的潜在变量表示,而不是硬编码。这项工作的主要贡献是:
    1.一种将学生交互编码为递归神经网络输入的新方法。
    2.在知识跟踪基准上,AUC比之前最好的结果提高了25%。
    3.证明了我们的知识追踪模型不需要专家注释。
    4.练习影响的发现和改进练习课程的生成。

    在这里插入图片描述
    图1:一个学生和她在解决50个Khan练习时的预测反应。她似乎掌握了寻找x和y截距的技巧,然后在将知识转化为线性方程时遇到了困难。

    知识追踪的任务可以形式化为:给定对交互的观察X0。学生在特定学习任务中使用的xt,预测他们下一次交互的各个方面xt+1。在最普遍的知识跟踪实例化中,交互采用xt={qt,at}的元组的形式,该元组将正在回答的练习的标签qt与在练习中是否被正确回答结合在一起。当进行预测时,模型被提供回答的练习的标签qt,并且必须预测学生是否会正确地完成练习。图1显示了学习8年级数学的单个学生的跟踪知识的可视化。学生首先正确回答两个平方根问题,然后得到一个错误的x截取练习。在随后的47次互动中,学生解决了一系列的x-截取、y-截取和绘图练习。每次学生回答练习时,我们都可以预测她是否会在下一次互动中正确回答每种类型的练习。在可视化中,我们只显示随着时间的推移对相关练习类型子集的预测。在大多数以前的工作中,练习标签表示人类专家分配给练习的单一“概念”。我们的模型可以利用但不需要这样的专家注释。我们证明了在没有注释的情况下,该模型可以自主学习内容子结构。

    2 相关工作

    建模和预测人类如何学习的任务涉及教育、心理学、神经科学和认知科学等多个领域。从社会科学的角度来看,学习被理解为受到复杂的宏观层面的相互作用的影响,包括情感、动机,甚至身份认同。目前存在的挑战在微观层面上进一步暴露出来。学习本质上是人类认知的反映,人类认知是一个高度复杂的过程。认知科学领域中两个特别相关的主题是理论,即人类的大脑及其学习过程是递归的,并由类比驱动。首先提出了知识竞赛的问题,并在智能家教社区中进行了深入的研究。面对上述挑战,建立可能无法捕捉所有认知过程但仍有用的模型一直是一个主要目标。

    2.1 贝叶斯知识追踪

    贝叶斯知识追踪(Bayesian Knowledge Tracking,BKT)是建立学生学习时间模型最常用的方法。BKT将学习者的潜在知识状态建模为一组二元变量,每个变量代表对单个概念的理解或不理解。当学习者正确或错误地回答给定概念的练习时,隐马尔可夫模型(HMM)被用来更新这些二进制变量中的每一个的概率。最初的模型公式假设,一旦学习了一项技能,它就永远不会被忘记。该模型最近的扩展包括猜测和滑动估计的情境化,估计单个学习者的先验知识,以及估计问题难度。
    无论有没有这样的扩展,知识追踪都会遇到几个困难。首先,学生理解的二进制表示可能是不切实际的。其次,隐藏变量的含义及其在练习中的映射可能是模糊的,很少能满足模型对每个练习只有一个概念的期望。已经开发了几种技术来创建和改进概念类别和概念练习映射。当前的黄金标准,认知任务分析是一个艰难而迭代的过程,领域专家要求学习者在解决问题的同时讨论他们的思维过程。最后,用于建模转换的二元响应数据限制了可以建模的练习类型。

    2.2 其他动态概率模型

    部分可观测的马尔可夫决策过程(POMDP)已经被用来模拟学习者随着时间的推移的行为,在学习者沿着一条开放的路径到达解决方案的情况下。虽然POMDP提供了一个极其灵活的框架,但它们需要探索指数级大的状态空间。当前的实现也被限制在离散状态空间,对于潜在变量具有硬编码的含义。这使得它们在实践中变得顽固或僵化,尽管它们有可能克服这两个限制。
    来自绩效因素分析(PFA)框架和学习因素分析(LFA)框架的更简单的模型已经显示出与BKT相当的预测能力。为了获得比单独使用任何一个模型更好的预测结果,各种集成方法被用来结合BKT和PFA。AdaBoost、Random Forest、线性回归、Logistic回归和前馈神经网络支持的模型组合都显示出比BKT和PFA本身更好的结果。但由于他们所依赖的学习者模型,这些集成技术面临着同样的限制,包括对准确的概念标注的要求。
    最近的工作探索了将项目反应理论(IRT)模型与切换非线性卡尔曼滤波器以及与知识跟踪相结合。虽然这些方法很有前途,但目前它们在函数形式上受到更多限制,而且(由于潜变量的推断)比我们这里提出的方法更昂贵。

    2.3 递归神经网络

    递归神经网络是一类灵活的动态模型,随着时间的推移将人工神经元连接起来。信息的传播是递归的,因为隐藏的神经元基于对系统的输入和它们先前的激活而进化。与教育中出现的隐马尔可夫模型不同,隐马尔可夫模型也是动态的,RNN具有对潜在状态的高维、连续的表示。RNN的更丰富表示的一个显著优势是它们能够在更晚的时间点将来自输入的信息用于预测。这对于长期短期记忆(LSTM)网络尤其如此–这是一种流行的RNN。
    递归神经网络对于几个时间序列任务(例如,语音到文本、翻译和图像字幕)是竞争性的或最先进的,在这些任务中有大量的训练数据可用。这些结果表明,如果我们将这项任务表述为时间神经网络的一种新应用,我们可以更成功地追踪学生的知识。

    3 深度知识追踪

    我们认为,人类的学习受到许多不同属性的支配–材料、上下文、呈现的时间进程和涉及的个人–其中许多属性很难量化,只依靠第一原则为练习分配属性或构建图形模型。在这里,我们将应用两种不同类型的RNN-一个带有乙状结节的普通RNN模型和一个长短期记忆(LSTM)模型-来根据学生过去的活动来预测学生对练习的反应。

    3.1 模型

    传统的递归神经网络(RNNs)映射向量的输入序列(x1,…,Xt)转换为矢量的输出序列(y1,…,YT)。这是通过计算一系列“隐藏”状态(h1,…,hT)可以被视为来自过去观测的相关信息的连续编码,这将对未来的预测有用。有关图解,请参见图2。变量使用由公式定义的简单网络进行关联:
    **HT=Tanh(Whxxt+Whhht−1+bh),(1)yt=σ(Wyhht+By),(2)**

    在这里插入图片描述
    图2:简单递归神经网络中变量之间的联系。动态网络的输入(Xt)是学生动作的单热编码或压缩表示,而预测(Yt)是表示让每个数据集练习正确的概率的向量。

    其中,TANH和Sigmoid函数σ(·)都是按元素应用的。该模型由输入权重矩阵Whx、递归权重矩阵Whh、初始状态H0和读出权重矩阵Wyh参数化。潜伏单元和读出单元的偏置由bh和by给出。
    长短期记忆(LSTM)网络是RNN的一种更复杂的变体,通常被证明更强大。在LSTM中,潜在单元保留它们的值,直到通过“遗忘门”的动作将其显式清除。因此,它们更自然地在许多时间步长内保持信息,这被认为使它们更容易训练。此外,隐藏单元使用乘法交互进行更新,因此它们可以对相同数量的潜在单元执行更复杂的转换。LSTM的更新公式比RNN复杂得多,可以在附录A中找到。

    3.2 输入输出时间序列

    为了对RNN或LSTM进行关于学生交互的训练,有必要将这些交互转换成固定长度的输入向量序列XT。根据这些交互的性质,我们使用两种方法来实现这一点:
    对于具有少量M个独特练习的数据集,我们将xt设置为学生交互元组ht={qt,at}的一次one-hot编码,它表示哪个练习被回答的组合,以及该练习是否被正确回答,因此xt∈{0,1}^2M。我们发现,对qt和at有单独的表示会降低性能。
    对于大的特征空间,one-hot编码可能很快就会变得不切实际的大。因此,对于具有大量独特练习的数据集,我们改为为每个输入元组分配一个随机向量nq∼N(0,i),其中nq∈R^N,和N<<M.然后我们将每个输入向量xt设置为对应的随机向量xt=nqt。这种一个one-hot高维向量的随机低维表示是由压缩传感驱动的。压缩传感指出,d维的k-稀疏信号可以从k log d随机线性投影(最大比例和加性常数)中精确恢复。由于一one-hot编码是1稀疏信号,因此可以通过将学生交互元组分配给长度为∼log 2M的固定随机高斯输入向量来对其进行精确编码。虽然目前的论文只涉及1-one-hot向量,但这一技术可以很容易地扩展到以固定长度向量捕捉更复杂的学生交互的各个方面。
    输出yt是一个长度等于问题数量的向量,其中每个条目代表学生正确回答该特定问题的预测概率。因此,然后可以从对应于qt+1的yt中的条目中读取at+1的预测。

    3.3 Optimization

    训练目标是在该模型下观察到的学生反应序列的负对数似然。设δ(qt+1)是练习在时间t+1回答的one-hot编码,l是二进制交叉熵。给定预测的损失是l(y^Tδ(qt+1),at+1),并且单个学生的损失是:
    在这里插入图片描述
    该目标是最小化的随机梯度下降的小批量。为了防止训练过程中的过度拟合,在计算读数yt时,将丢弃应用于ht值,但在计算下一个隐藏状态ht+1时不应用。我们通过截断范数高于阈值的梯度的长度来防止梯度在时间中反向传播。对于本文中的所有模型,我们始终使用200的隐藏维度和100的小批量大小。为了促进对DKTS的研究,我们发布了我们的代码和相关的预处理数据。

    4 教育应用

    知识追踪的训练目标是根据学生过去的活动来预测他们未来的表现。这是直接有用的。例如,如果学生的能力经过持续的评估,就不再需要正式测试。正如第6节中的实验所探讨的那样,DKT模型还可以推动其他一些改进。

    4.1 改善课程设置

    我们的模型最大的潜在影响之一是选择最佳的学习项目顺序呈现给学生。给定一个具有估计的隐藏知识状态的学生,我们可以查询我们的RNN来计算如果我们给他们布置一个特定的练习,他们的预期知识状态会是什么。例如,在图1中,在学生回答了50个练习之后,我们可以测试我们可以向她展示的每一个可能的下一个练习,并计算她在给定该选择的情况下的预期知识状态。对于这个学生来说,预计最优的下一个问题是重温y-截距的求解。
    我们使用一个训练有素的DKT来测试教育文献中的两个经典课程规则:在不同主题的练习混合的情况下混合,在学生回答相同类型的一系列练习的情况下封闭。由于选择下一练习的整个序列以最大化预测精度可以表述为马尔可夫决策问题,因此我们还可以评估使用期望最大算法选择最优问题序列的好处。

    4.2 发现训练关系

    DKT模型还可以应用于发现数据中的潜在结构或概念的任务,该任务通常由人类专家执行。我们通过给每个有向的练习i和j对分配一个影响Jij来解决这个问题,
    在这里插入图片描述
    其中(j|i)是RNN在第二个时间步分配给练习j的正确概率,假设学生在第一个时间步正确回答了练习i。我们表明,RNN捕获的依赖项的这种表征恢复了与练习相关的前提条件。

    5 数据集

    我们在三个数据集上测试了预测学生表现的能力:模拟数据、Khan Academy数据和Assistments benchmark数据集。在每个数据集上,我们测量曲线下面积(AUC)。对于非模拟数据,我们使用5次交叉验证来评估我们的结果,并且在所有情况下都从训练数据中学习超参数。我们将深度知识追踪的结果与标准的BKT进行比较,并在可能的情况下优化BKT的变体。此外,我们将我们的结果与通过简单计算学生在特定练习中答对的边际概率所做的预测进行比较。
    在这里插入图片描述
    表1:测试的所有数据集的AUC结果。BKT是标准的BKT。BKT是literature for Assistments中报道的最好的结果。DKT是使用LSTM深度知识追踪的结果。*

    模拟数据: 我们模拟虚拟学生学习虚拟概念,并测试我们在这种受控环境下预测反应的准确性。对于这个实验的每一次运行,我们生成了2000名学生,他们回答了从k∈1…5概念中抽取的50个练习。仅针对此数据集,所有学生回答相同的50个练习序列。每个学生对每个概念都有一个潜在的知识状态“技能”,每个练习都有一个单一的概念和一个难点。使用经典项目反应理论对学生在概念技能正确的情况下完成练习的困难和正确的概率建模为:p(βα|α,β)=c+(1-c)/(1+e^(β−α)),其中c是随机猜测的概率(设置为0.25)。随着时间的推移,学生通过增加与他们回答的练习相对应的概念技能来“学习”。为了理解不同模型如何合并未标记的数据,我们不提供带有隐藏概念标签的模型(相反,输入只是练习指数以及练习回答是否正确)。我们对另外2000名模拟测试生的预测性能进行了评估。对于每个数量的概念,我们用不同的随机生成的数据重复实验20次,以评估准确性、平均数和标准误差。
    Khan Academy Data: 我们使用了来自可汗学院八年级共同核心课程的匿名学生使用互动的样本。数据集包括47,495名学生完成的140万个练习,涉及69种不同的练习类型。它不包含任何个人信息。只有从事这篇论文的研究人员才有权访问这个匿名的数据集,它的使用受一项协议的约束,该协议旨在根据Khan Academy的隐私声明保护学生的隐私。Khan Academy提供了一个特别相关的学习数据来源,因为学生经常与网站互动很长一段时间和各种内容,而且学生通常在他们研究的主题和他们通过材料所走的轨迹上是自我指导的。
    Benchmark Dataset: 为了了解我们的模型与其他模型相比如何,我们在Assistments 2009-2010“Skill Builder”公共基准数据集2上对模型进行了评估。Assistments是一个在线辅导,同时教授和评估小学数学的学生。据我们所知,它是最大的公开可用的知识跟踪数据集。

    6 结果

    在所有三个数据集上,深度知识追踪的性能都大大优于以前的方法。在Khan Academy Data上,使用LSTM神经网络模型得到的AUC为0.85,这比标准BKT的性能(AUC=0.68)有了显著的改善,特别是与边缘基线(AUC=0.63)的BKT相比有很小的改善。参见表1和图3(B)。在Assistments数据集上,DKT比之前最好的报告结果(AUC分别为0.86和0.69)提高了25%。与边际基线(0.24)相比,我们在AUC中报告的增益是迄今为止在数据集上实现的最大增益(0.07)的三倍多。
    来自合成数据集的预测结果提供了对深层知识追踪能力的有趣演示。LSTM和RNN模型在预测学生反应方面的表现都不亚于一个对所有模型参数都有完美了解的先知(只需拟合潜在的学生知识变量)。参见图3(A)。为了获得与预测不相上下的精确度,模型必须模拟包含以下几个方面的功能:潜在的概念、每次练习的难度、学生知识的先验分布以及发生的概念技能的增长。
    在这里插入图片描述
    图3:左:(A)模拟数据和(B)Khan Academy Data的预测结果。右:©关于不同练习课程的辅助数据的预测知识。误差条是平均值的标准误差。

    在每次练习之后。相比之下,BKT的预测随着隐藏概念数量的增加而大幅下降,因为它没有学习未标记概念的机制。
    我们测试了我们在Assistment数据集中五个概念的子集上智能选择练习的能力。对于每种课程方法,我们使用我们的DKT模型来模拟学生如何回答问题,并评估学生在30次练习后知道了多少。我们重复学生模拟500次,测量学生未来答对问题的平均预测概率。在Assistment上下文中,阻塞策略比混合策略具有显着优势。参见图3©。虽然阻塞的表现与解决期望最大一次练习深度(MDP-1)不相上下,但如果我们在选择下一个问题时更深入地展望未来,我们提出的课程中,学生在解决较少问题后拥有更高的预测知识(MDP-8)。
    对合成数据集的预测精度表明,有可能使用DKT模型来提取数据集中评估之间的潜在结构。我们的模型对合成数据集的条件影响图显示了五个潜在概念的完美群集(参见图4),并使用公式4中的影响函数设置了有向边。一个有趣的观察是,同一概念中的一些练习在时间上相隔很远。例如,在节点编号描述序列的合成数据集中,合成数据集中的第5个练习来自隐藏的概念1,尽管直到第22个问题才问到同一概念的另一个问题,但我们能够了解到两者之间的强烈条件依赖性。我们使用相同的技术分析了Khan Academy Data。生成的图表令人信服地清楚地说明了8年级共同核心中的概念是如何相互联系的(参见图4。节点编号描述了练习标签)。我们将分析限制在有序的练习对{A,B}中,以便在A出现之后,B在序列的其余部分中出现的时间超过1%)。为了确定产生的条件关系是否是数据中明显的潜在趋势的产物,我们将我们的结果与两个基线测量进行了比较(1)假设学生刚刚回答了A,那么他们回答B的转移概率;(2)如果学生之前回答了A,那么数据集中正确回答B的概率(不使用DKT模型)。这两种基线方法都生成了不一致的图表,如附录所示。虽然我们发现的许多关系对教育专家来说可能并不令人惊讶,但它们的发现肯定了DKT网络学习了一个连贯的模式。

    7 结论

    在本文中,我们将RNN应用于教育中的知识跟踪问题,在Assistments测试和Khan Academy Data上显示出比以往更先进的性能。我们的新模型有两个特别有趣的新特性:
    (1)它不需要专家注释(它可以自己学习概念模式)
    (2)它可以对任何可以矢量化的学生输入进行操作。与简单的隐马尔可夫方法相比,RNN的一个缺点是需要大量的训练数据,因此非常适合在线教育环境,而不是小课堂环境。
    在这里插入图片描述
    图4:DKT模型中练习之间的条件影响图。上图:我们在合成数据中观察到了潜在概念的完美聚类。下面是对8年级数学共同核心练习如何相互影响的令人信服的描述。箭头大小表示连接强度。注意,节点可以在两个方向上连接。幅值小于0.1的边已设置阈值。群集标签是手工添加的,但与每个群集中的练习完全一致。

    RNN在知识追踪中的应用为未来的研究提供了很多方向。进一步的研究可以纳入其他特征作为输入(如花费的时间),探索其他教育影响(如提示生成、辍学预测),并验证教育文献中提出的假设(如间隔重复,模拟学生是如何忘记的)。因为DKT接受矢量输入,所以应该可以在更复杂的学习活动中跟踪知识。一个特别有趣的扩展是在学生解决开放式编程任务时跟踪他们的知识。使用最近开发的程序矢量化方法,我们希望能够在学生学习编程的过程中,随着时间的推移对他们的知识进行智能建模。
    在与Khan Academy的持续合作中,我们计划在一个对照实验中测试DKT在课程规划方面的有效性,方法是在现场提出练习建议。

    论文相关资料

    Deep Knowledge Tracing(原文)
    论文源码数据集
    在这里插入图片描述

    展开全文
  • boss又让我看这块的内容了,刚开学,还不太适应实验室的学习生活...早期的知识追踪模型都是依赖于一阶马尔科夫模型,例如贝叶斯知识追踪(Bayesian Knowledge Tracing,BKT)。在本文中引入灵活的循环神经网络(RNN).
  • 知识追踪模型——教育大数据挖掘

    千次阅读 2021-01-15 13:16:45
    知识追踪模型概述 BKT 贝叶斯知识追踪(BKT)是最流行的知识追踪模型。在BKT模型中提出了一个关于学生知识状态的隐变量,学生的知识状态由一个二元组表示 {掌握该知识点,没掌握该知识点}。整个模型结构实际上是一个...
  • 基于深度学习的知识追踪研究进展 计算机研究与发展 中文核心期刊 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=JFYZ20210608001&v=8SqcXNnYzq3Od8MixO%25mmd...
  • 知识追踪(一):BKT

    千次阅读 2021-11-02 17:33:15
    知识追踪(Knowledge Tracing)是根据学生过去的答题情况对学生的知识掌握情况进行建模,从而得到学生当前知识状态表示的一种技术。Bayesian Knowledge Tracing (BKT) 1是最早期的一种知识追踪模型,是含有隐变量的...
  • 知识追踪方法比较

    千次阅读 2020-10-29 19:10:27
    如上图所示,纵轴SiSi表示知识成分,横轴为学生在各个知识成分上的答题情况。 问题一,在图1中的第6个时间步,与上一个时间步相比,正确回答s45相关练习的概率增加,即使学生回答s45不正确。 问题二,我们观察到,...
  • 1. 知识追踪的定义、现状及挑战 在上学的时候经常碰到过这样的状况,老师会经常考试,那么老师不能平白无故的给你考试,为什么要考试呢?他考试的主要目的就是为了掌握你对于某一知识的衡量水平,那么对于现在的...
  • DKVMN知识追踪描述

    千次阅读 2019-11-08 10:13:45
    由于在线学习课程的兴起,学习者在课程学习过程中有很多习题练习的记录,利用这些记录,知识追踪(Knowledge Tracing)希望通过对学习者过往练习的结果分析其当前对一些概念的掌握程度。知识追踪任务可以形式化为一个...
  • {neighbor} fneighbor​ 基于统计的方法 基于学习的方法 Graph-based Knowledge Tracing: Modeling Student Proficiency Using Graph Neural Network 题目:《基于图的知识追踪:利用图神经网络建模学生熟练度》 ...
  • 《情境感知的注意力知识追踪》,注意力知识追踪,情感感知。通过建立问题和回答的上下文感知(情感感知)表示,使用单调的注意机制来总结过去的学习者在正确的时间尺度上的表现。 注意力机制:根据权重的不同,将...
  • 简单的说就是让我们用一些算法来对在线教育平台中学生的学习状态进行追踪模拟,达到传统的线下教育中...目前主流的几种研究方法:基于贝叶斯的知识追踪(BKT)、项目反应理论(IRT)、基于深度学习的知识追踪(DKT)...
  • 知识追踪入门系列-论文资料汇总

    千次阅读 2020-10-25 19:32:27
    Paper : 知识追踪相关论文 下载论文和代码见reference第一个链接 Deep Knowledge Tracing: 首次提出将RNN用于知识追踪,并能够基于复杂的知识联系进行建模(如构建知识图谱) Deep Knowledge Tracing and ...
  • 答题数 第二行:题目编号(从0开始) 第三行:答题结果,0表示错,1表示对) data.py import csv import random def load_data(fileName): rows = [] max_skill_num = 0 # max_skill_num是知识点(题目)个数 ...
  • 融合注意力机制的时间卷积知识追踪模型 这里重点学“注意力机制” 2 摘要 深度知识追踪(DKT):基于RNN。问题:可解释性不足和长序列依赖 时间卷积网络(TCN):基于卷积,可以提取学生动态变化的知识状态,利用...
  • 8.基于深度学习的知识追踪研究进展 Research Advances in the Knowledge Tracing Based on Deep Learning 摘要:知识追踪是教育数据挖掘领域的一个重要研究方向,其目标是通过建立学生知识状态随时间变化的模型,来...
  • 可解释深度知识追踪模型.docx
  • 深度知识追踪(Deep Knowledge Tracing)

    万次阅读 多人点赞 2018-11-26 15:28:40
    知识追踪是基于学生行为序列进行建模,预测学生对知识的掌握程度。知识追踪是构建自适应教育系统的核心和关键。在自适应的教育系统中,无论是做精准推送,学生学习的路径规划或知识图谱的构建,第一步都是能够精准...
  • 深度知识追踪(Deep Knowledge Tracing) Contributions Knowledge Tracing ​Motivation Recurrent Neural Networks(RNN) Long Short Term Memory (LSTM) Previous Work Bayesian Knowledge Tracing (BKT) ...
  • 知识追踪 Deep Knowledge Tracing 虽然知识追踪这个方向很早就被提出来了,但是直到2015年,才首次将深度神经网络(RNN)引入到知识追踪领域,并显示出卓越的性能。 模型部分使用的是一个传统的RNN模型: 这里面...
  • 知识追踪数据集介绍

    千次阅读 2021-06-05 15:30:37
    2009~2010学年收集的ASSISTment数据。完整数据集分为两个不同的文件,一个是所有技能构建者数据,一个是所有非技能构建者数据。 来自 <... 技能建设者数据也称为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 75,872
精华内容 30,348
关键字:

知识追踪