文章快速检索     高级检索
  华东师范大学学报(自然科学版)  2019 Issue (5): 1-15  DOI: 10.3969/j.issn.1000-5641.2019.05.001
0

引用本文  

刘恒宇, 张天成, 武培文, 等. 知识追踪综述[J]. 华东师范大学学报(自然科学版), 2019, (5): 1-15. DOI: 10.3969/j.issn.1000-5641.2019.05.001.
LIU Heng-yu, ZHANG Tian-cheng, WU Pei-wen, et al. A review of knowledge tracking[J]. Journal of East China Normal University (Natural Science), 2019, (5): 1-15. DOI: 10.3969/j.issn.1000-5641.2019.05.001.

基金项目

国家自然科学基金(U1811261,61602103)

第一作者

刘恒宇, 男, 博士研究生, 研究方向为智慧教育.E-mail:l372511387@163.com

通信作者

张天成, 男, 副教授, 研究方向为大数据分析与挖掘、时空数据管理、智慧教育.E-mail:tczhang@mail.neu.edu.cn

文章历史

收稿日期:2019-07-29
知识追踪综述
刘恒宇 , 张天成 , 武培文 , 于戈     
东北大学 计算机科学与工程学院, 沈阳 110819
摘要:在教育领域中,科学地、有针对性地对学生的知识状态进行有效追踪具有十分重要的意义.根据学生的历史学习轨迹,可以对学生与习题的交互过程进行建模.在此基础上,能够自动地对学生各个阶段的知识状态进行追踪,进而预测学生表现,实现个性化导学和自适应学习.首先,对知识追踪及其应用背景进行介绍,总结知识追踪所涉及的教育学与数据挖掘理论;其次,总结基于概率图、矩阵分解、深度学习的知识追踪研究现状,并根据方法的不同特点进行更为细致的分类;最后对目前的知识追踪技术进行分析比较,并对未来的研究方向进行展望.
关键词知识追踪    认知诊断    深度学习    概率图模型    
A review of knowledge tracking
LIU Heng-yu , ZHANG Tian-cheng , WU Pei-wen , YU Ge     
Computer Science and Engineering, Northeastern University, Shenyang 110819, China
Abstract: In the field of education, scientifically and purposefully tracking the progression of student knowledge is a topic of great significance. With a student's historical learning trajectory and a model for the interaction process between students and exercises, knowledge tracking can automatically track the progression of a student's learning at each stage. This provides a technical basis for predicting student performance and achieving personalized guidance and adaptive learning. This paper first introduces the background of knowledge tracking and summarizes the pedagogy and data mining theory involved in knowledge tracking. Then, the paper summarizes the research status of knowledge tracking based on probability graphs, matrix factorization, and deep learning; we use these tools to classify the tracking methods according to different characteristics. Finally, the paper analyzes and compares the latest knowledge tracking technologies, and looks ahead to the future direction of ongoing research.
Keywords: knowledge tracking    cognitive diagnosis    deep learning    probability map model    
0 引言

随着互联网教育的迅猛发展, 智能教学系统(Intelligent Tutoring System, ITS)和大规模在线开放课程(Massive Open Online Course, MOOC)等平台日益普及, 这为学生自主学习以及辅助教学提供了可能.然而, 在线教育系统在提供便利的同时, 由于学习平台上的学生人数远远超过教师数量, 导致平台提供自主学习服务和个性化教学存在诸多困难.研究人员试图利用人工智能技术来提供类似教师的指导服务.具体来说, 基于学生的学习记录, 准确地对学生的学习状态进行分析, 进而为学生提供个性化导学服务.如何让在线教育系统做到因材施教, 已成为当前智慧教育领域中的重要研究课题.

知识追踪是个性化导学中的关键问题, 特点是自动化和个性化, 其任务是根据学生的历史学习轨迹来自动追踪学生的知识水平随时间的变化过程, 以便能够准确地预测学生在未来的学习中的表现, 从而提供相应的学习辅导.在这个过程中, 知识空间被用来描述学生知识的掌握程度.知识空间是一些概念的集合, 学生掌握概念集合中的一部分, 即构成该学生掌握的知识集合.有教育学研究者认为, 习题会考查一组特定的、相关联的知识点, 学生对于习题所考察知识点的掌握程度会影响其在习题上的表现, 即学生掌握的知识集合和其外在的做题表现密切相关.

通常, 知识追踪任务可以形式化为:给定一个学生在特定学习任务上的历史学习交互序列$ X_t = (x_1 , x_2 , \cdots , x_t ) $, 预测该学生在下一个交互$ x_{t+1} $的表现.问答交互是知识追踪中最常见的类型, 因此$ x_t $通常表示为一个有序对$ (q_t , a_t ) $, 该有序对表示学生在时间$ t $回答了问题$ q_t $, 得分情况用$ a_t $表示.在许多情况下, 知识追踪试图预测学生在下一个时间步正确回答问题的概率, 即$ P(a_{t+1} = 1\vert q_{t+1}, X_t ) $.由于知识追踪对于学习过程的重要意义, 业界已经出现了很多相关的模型, 如贝叶斯知识追踪(Bayesian knowledge tracing, BKT)[1], 循环神经网络(Recurrent Neural Network, RNN)[2]等.其中, RNN被应用于一种称为深度知识追踪(Deep knowledge tracing, DKT)[3]的方法中, 实验结果表明, DKT方法在不需要人工选取大量特征的情况下, 优于传统方法.总体来说, 由于人脑和知识的复杂性, 知识追踪问题还有很多内容有待解决.

未来教育要更加关注个性化、多样性和适应性的学习, 要关注人机协作的高效学习和教学过程.在人工智能技术的支持下, 面向大规模的学习者群体, 建立促进个性发展的教育体系, 是未来教育发展的基本趋势.知识追踪的目标在于可以根据学生的个人需求向他们推荐资源, 并且可以跳过或延迟那些被预测为太容易或太难的内容, 让学生可以花更多的时间研究适合他们理解水平的问题.知识追踪技术与知识图等技术结合起来, 可以用于优化学生的知识结构.利用知识追踪还可以进行智能辅导、布置个性化的作业、生成学习计划和评价报告, 从而辅助学生规划学习生涯, 实现个性化发展.另外, 通过对学生知识状态的评估, 教师在教学过程中可以更好地了解学生, 并相应地调整教学方案.

1 知识追踪的相关理论 1.1 认知诊断

在教育心理学领域, 认知诊断是一种利用学生做题的历史记录来诊断学生对知识点熟练程度的技术[4]. 图 1显示了认知诊断的过程.传统的认知诊断模型可以分为一维连续模型和多维离散模型.其中, IRT(Item response theory)[5]作为典型的一维连续模型, 通过变量来表征每个学生, 并使用逻辑函数来模拟学生正确解答问题的概率.相比之下, 多维离散模型DINA[6]通过二进制向量来描述学生, 该二进制向量表示学生是否掌握了与题目相关的知识点[6], 并使用给定的Q矩阵来对诊断结果进行解释.近年来, Wu等人[7]提出FuzzyCDF模型来诊断学生在考试中的知识状态, 该模型同时考虑了主观题与客观题.

图 1 认知诊断简化过程 Fig.1 Simplified cognitive diagnosis process
1.2 状态模型

知识追踪通常依赖于整个过程中学习者的状态建模.建模目的是从学生的练习中学习学生状态的潜在表示, 这些状态表示有许多应用场景, 如分数预测、习题推荐等.通常, 我们也把获得的状态表示看作是学生的知识熟练度.传统的学生建模采用BKT进行建模, 它是含有隐变量的马尔可夫模型(HMM), 通过将学生的知识状态假设为一组二进制变量来对学生知识点的变化进行追踪.近年来有两种代表性的技术:分解模型和神经网络.例如, Thai-Nghe等人[8]利用矩阵分解模型将每个学生映射到描述学生知识状态的潜在向量中.为了跟踪学生学习过程的变化, Thai-Nghe等人和Xiong等人[9]提出了张量因子分解法, 并在其中加入了时间维度.近年来, Piech等人[3]开发了一种基于循环神经网络的方法来模拟学生的学习过程, 提高了预测学生成绩任务的效果. Su等人[10]在此基础上进行了扩展, 他们利用文本信息进行更加深入的习题语义挖掘. Chen等人[11]则利用教育先验知识改进了传统的矩阵分解, 使得模型的可解释性增强.为了解释学生在学习过程中知识熟练程度的动态变化, 教育心理学家融合了两种经典理论:学习曲线理论和艾宾浩斯遗忘曲线理论.学习曲线理论认为, 学生可以通过不断的训练或练习来提高他们的知识熟练度, 艾宾浩斯遗忘曲线理论表明, 学生的知识熟练程度可能会随着时间的推移而下降.基于这两个理论, 研究人员试图从不断发展的角度开发一系列解决KPD任务的模型.一些基于IRT的模型, 如学习因素分析[6]和绩效因素分析[8], 被提议用于改进传统的IRT, 假设学生在练习时共享相同的学习率参数.此外, 研究人员提出了基于贝叶斯知识追踪[12]的模型的变体, 以捕捉学生的知识熟练程度随时间的变化.近年来, 为了提供更好的帮助和指导, 部分研究人员还尝试用kolb学习风格理论来建模学习者的学习风格[13].如图 2所示, 该理论定义了四种学习风格.

图 2 LSI模型中的学习风格 Fig.2 Learning style in LSI model
1.3 深度学习

深度学习是目前的先进技术, 在许多应用中取得了巨大成功, 如语音识别[14]、图像分类[15]、自然语言处理[16]以及一些教育应用, 如问题难度预测[17].受其卓越表现的启发, 深度知识追踪[3]尝试利用递归神经网络(LSTM)来模拟学生的练习过程并预测学生的表现[3].此外, 通过弥合练习和知识概念之间的关系, Zhang等人[18]提出了一种用于学生表现预测的动态键值记忆网络模型. Su等人[10]利用学生练习记录和练习的文本信息, 使用LSTM建模并通过注意力机制重点关注学生对于相似题目的练习情况, 从而提高了预测的准确性.由于学生练习数据的稀疏性限制了知识追踪的性能和应用, Chen等人[19]提出将知识结构信息, 特别是教学概念之间的先决条件关系纳入知识追踪模型.

2 知识追踪中交互建模

知识追踪的本质是根据学生的历史学习记录来推测任意时刻学生对于知识点的掌握程度, 进而预测学生的未来成绩, 并辅助教师布置教学计划等.为了解决知识追踪任务, 首先要进行用户交互建模, 现有的建模方法依据反馈的时间分为下面两种.

第一种建模方式为实时反馈的用户交互建模.在现实中的某些情况下, 学生完成一道习题后需要立刻更新模型中学生对于知识点的掌握情况信息.比如在日常练习中, 学生完成一道习题后可以立即得到反馈, 学生的知识点掌握情况也随之发生变化.显然, 在追踪当前时刻的知识点掌握情况时, 我们应该考虑之前的所有练习.其建模方式如图 3所示, 给定学生在特定学习任务上的历史学习记录$ X_t = (x_1 , x_2 , \cdots , x_t ) $, 预测学生在下一个练习$ x_{t+1} $的表现.其中$ x_t $通常表示为一个有序对$ (q_t , a_t ) $, 该有序对表示该学生在时间$ t $回答了问题$ q_t $, $ a_t $表示该问题是否被正确回答.每个问题$ q_t $将会包含问题的文本描述$ E_q $, 题目设计的知识点$ k_q $. DKT[3], EERNN[10], 基于BKT拓展的模型[20-22]都采用这种建模方式.

图 3 实时反馈的用户交互建模 Fig.3 User interaction modeling with real-time feedback

第二种建模方式为基于阶段性反馈的用户交互建模.与上一种情况完全相反, 某些情况下学生完成一道习题后, 不能够立即获得反馈, 因此不能立刻更新模型中学生对于知识点的掌握情况信息.比如在考试时, 学生完成一道题目后不可能立刻获取答案, 因此考试过程中, 学生对于知识点的掌握程度变化不大.换句话说, 在一场考试中, 先答题目的对错是不会影响到后续题目的, 其建模方式如图 4所示.给定学生历史学习记录$ E_t = (e_1 , e_2 , \cdots , e_t ) $, 预测学生在下一时间窗口$ e_{t+1} $的表现.其中$ e_i = (x_1 , x_2 , \cdots , x_n ) $表示学生第$ i $个时间窗口的学习记录, $ n $表示该时间段中完成题目的数量; $ x_k $表示为一个有序对$ (q_k , a_k ) $, 该有序对表示该学生回答了该时间窗口中的第k个问题$ q_k $, $ a_k $表示该问题是否被正确回答.每个时间窗口的长短可以根据不同需求灵活变动. KPT[11], PMF[23]都采用这种建模方式.

图 4 阶段性反馈的用户交互建模 Fig.4 User interaction modeling with phased feedback
3 知识追踪的研究现状

现有的知识追踪模型大致可以分为3类:基于概率图模型的知识追踪、基于矩阵分解的知识追踪以及基于深度学习的知识追踪.下面将分别详细介绍这3类模型.

3.1 基于概率图模型的知识追踪 3.1.1 贝叶斯知识追踪

贝叶斯知识追踪(BKT)[1]是最流行的知识追踪模型之一. BKT采用实时反馈的用户交互建模, 将学习者的潜在知识状态建模为一组二元变量, 每个变量代表是否理解某个知识点[24].随着学生不断地练习, 对于知识点的掌握也会有动态的变化, BKT通过利用隐马尔可夫模型(HMM)来维护代表知识点熟练度的二元变量.原始的BKT模型假设学生一旦学会了技能, 就永远不会被遗忘.最近有研究将学生的猜测和失误[20]、个体学习者的先验知识估计[21]以及问题难度估计[22]等因素融入到BKT模型中.

BKT中模型参数如表 1所示, 其结构如图 5所示.学生$ u $初始掌握知识点$ k $的概率如公式(1)所示.

表 1 BKT模型参数表 Tab. 1 BKT model parameter table
图 5 BKT概率图结构 Fig.5 BKT probability graph structure
$ \begin{align} p(L_1)_u^k = p(L_0)^k. \end{align} $ (1)

$ t+1 $时刻, 学生回答问题$ Q $正确的情况下, 学生$ u $掌握知识点$ k $的概率如公式(2)所示, 其考虑到了学生猜测的情况.

$ \begin{align} p(L_{t+1}\vert Q = {\rm correct})_u^k = \frac{p(L_t)_u^k\cdot (1-p(S)^k)}{p(L_t )_u^k \cdot(1-p(S)^k)+(1-p(L_t)_u^k)\cdot p(G)^k}. \end{align} $ (2)

$ t+1 $时刻, 学生回答问题$ Q $错误的情况下, 学生$ u $掌握知识点$ k $的概率如公式(3)所示, 其考虑到了学生失误的情况.

$ \begin{align} p(L_{t+1} \vert Q = {\rm wrong})_u^k = \frac{p(L_t )_u^k \cdot p(S)^k}{p(L_t )_u^k \cdot p(S)^k+(1-p(L_t )_u^k )\cdot (1-p(G)^k)}. \end{align} $ (3)

学生$ u $$ t+1 $时刻对于知识点$ k $的掌握情况如公式(4)所示.

$ \begin{align} p(L_{t+1} )_u^k = p(L_{t+1} \vert Q)_u^k +(1-p(L_{t+1} \vert Q)_u^k )\cdot p(T)^k. \end{align} $ (4)

学生$ u $$ t+1 $时刻回答对问题$ Q $的概率如公式(5)所示.

$ \begin{align} p(Q_{t+1} )_u^k = p(L_t )_u^k \cdot (1-p(S)^k)+(1-p(L_t )_u^k )\cdot p(G)^k. \end{align} $ (5)
3.1.2 FuzzyCDF

FuzzyCDF[7]采用一种受到模糊系统启发的模型来解决主观题目的回答可能部分正确这一问题.具体来说, FuzzyCDF首先使用模糊集理论来量化学生的知识熟练程度.然后假设客观问题与主观问题上的知识互动满足两个不同的假设:结合和补偿[25], 并基于这两个假设来计算某个学生的知识熟练程度.除此之外, FuzzyCDF还通过考虑失误和猜测来模拟问题得分生成的过程.该模型使用了蒙特卡洛马尔可夫链(MCMC)采样算法[26]来进行参数估计.

在FuzzyCDF模型中采用实时反馈的用户交互建模, 其图形表示如图 6所示.其中$ \alpha _{jk} $表示用户$ j $对于知识点$ k $的掌握程度, $ q_{ik} $表示题目$ i $包含知识点$ k $, $ \eta _{ji} $表示用户$ j $掌握题目$ i $的概率, $ R_{ji} $表示用户$ j $在真实情况中答对题目$ i $的概率.

图 6 FuzzyCDF概率图结构 Fig.6 FuzzyCDF probability graph structure

$ \alpha _{jk} $$ \mu _k (j) $通过一个类IRT高阶逻辑模型计算得到, 如公式(6)所示.其中$ a_{jk} $为知识点$ k $对学生$ j $的区分度参数, $ b_{jk} $为知识点$ k $对于学生$ j $的难度系数, $ \theta _j $表示学生$ j $的能力, 系数1.7使用逻辑认知模型[27-28]中的经验缩放常数.

$ \begin{align} \alpha _{jk} = \mu _k (j) = \frac{1}{1+\exp(-1.7a_{jk} (\theta _j -b_{jk} ))}. \end{align} $ (6)

对于需要学生同时掌握多个知识点的题目时, $ \eta_{ji} $可由公式(7)得到.

$ \begin{align} \eta _{ji} = \mu _{\cap _{1\leqslant k\leqslant K, q_{i, k} = 1} , k} (j). \end{align} $ (7)

对于仅需要学生掌握部分知识点的题目, $ \eta _{ji} $可由公式(8)得到.

$ \begin{align} \eta _{ji} = \mu _{\cup _{1\leqslant k\leqslant K, q_{i, k} = 1} , k} (j). \end{align} $ (8)

公式(7), (8)中$ \mu $可由公式(9)计算得到.

$ \begin{align} & \mu _{A\cap B} (x) = \min(\mu _A (x), \mu _B (x)), \\ & \mu _{A\cup B} (x) = \max(\mu _A (x), \mu _B (x)). \end{align} $ (9)

考虑到了主观题与客观题的区别, FuzzyCDF模型通过公式(10)和(11)分别计算客观题和主观题的$ R_{ji} $.

$ \begin{align} &p(R_{ij} = 1\vert \eta _{ji} , s_i , g_i ) = (1-s_i )\eta _{ji} +g_i (1-\eta _{ji} ). \end{align} $ (10)
$ \begin{align} &p(R_{ij} \vert \eta _{ji} , s_i , g_i ) = {\cal N}(R_{ji} \vert [(1-s_i )\eta _{ji} +g_i (1-\eta _{ji} )], \sigma ^2). \end{align} $ (11)

FuzzyCDF模型中的所有参数的先验分布如公式(12)所示.

$ \begin{align} &\theta _j \sim {\cal N}(\mu _\theta , \sigma _\theta ^2 ), \alpha _{jk} \sim {\rm ln}{\cal N}(\mu _a , \sigma _a^2 ), b_{jk} \sim {\cal N}(\mu _b , \sigma _b^2 ), \\ &s_i \sim {\rm Beta}(v_s , w_s , {\rm min}_s , {\rm min}_s), \\ &g_i \sim {\rm Beta}(v_g , w_g , {\rm min}_g , {\rm min}_g), \\ &1/\sigma ^2\sim \Gamma (x_\sigma , y_\sigma). \end{align} $ (12)

其中, Beta为贝塔分布, $ \Gamma $表示伽马函数, $ v_s $$ w_s $$ \max_s $$ \max_s $表示$ s_i $服从贝塔分布对应的参数, $ v_g $$ w_g $$ \max_g $$ \max_g $表示$ g_i $服从贝塔分布对应的参数, $ s_i $表示学生失误的概率, $ g_i $表示学生$ i $猜对的概率.

最后, FuzzyCDF模型使用基于MCMC[7]的Metropolis-Hastings进行参数估计.

3.2 基于矩阵分解的知识追踪 3.2.1 PMF

概率矩阵分解(Probabilistic Matrix Factorization, PMF)[23]是推荐系统领域的经典算法之一.由于推荐领域与知识追踪建模的相似性, 部分学者将PMF算法[11]改进应用于知识追踪领域, 本节主要阐述原始的PMF算法如何应用于知识追踪任务.

PMF采用阶段性反馈的用户交互建模.首先建立了一个$ R $矩阵, 其中的每个元素$ R_{ij} $表示学生$ i $是否答对过题目$ j $, 并假设$ R_{ij} $是由学生$ i $的知识熟练度$ U_i $与题目包含知识点向量$ V_j $的内积决定的, 即

$ \begin{align} R_{ij} = {\cal N}(U_i^{\rm T} V_j , \sigma ^2). \end{align} $ (13)

其中, $ {\cal N} $表示正态分布, $ \sigma^2 $为正态分布的方差.

观察到$ R $矩阵的条件概率为

$ \begin{align} p(R\vert U, V, \sigma ) = \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {{\cal N}(U_i^{\rm T} V_j , \sigma^2 )^{I_{ij}}}}. \end{align} $ (14)

其中$ I_{ij} $是指示函数, 若观察到$ R_{ij} $则值为1, 否则值为0. PMF进一步假设学生知识熟练度向量与题目包含知识点向量也服从正态分布, 如公式(15)所示, 式中$ I $为单位矩阵.

$ \begin{align} & P(U\vert \sigma _U )\sim \prod\limits_{i = 1}^N {{\cal N}(0, \sigma _U^2 I)}, \\ & P(V\vert \sigma _V )\sim \prod\limits_{j = 1}^M {{\cal N}(0, \sigma _V^2 I)}. \end{align} $ (15)

根据对后验分布$ p(U, V\vert R, \sigma _U^2 , \sigma _V^2 , \sigma ^2) $取对数可以得到目标函数, 如公式(16)所示.

$ \begin{align} {\rm loss} = -\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {I_{ij} (R_{ij} -U_i^{\rm T} V_j )^2} } -\frac{\lambda _U }{2}\sum\limits_{i = 1}^M {U_i^{\rm T} U_i } -\frac{\lambda _V }{2}\sum\limits_{j = 1}^N {V_j^{\rm T} V_j}. \end{align} $ (16)

其中, $ \lambda _U = \frac{\sigma ^2}{\sigma _U^2 } $, $ \lambda _V = \frac{\sigma ^2}{\sigma _V^2 } $, $ \sigma^2_U $表示$ U $服从正态分布的方差, $ \sigma^2 _V $表示$ V $服从正态分布的方差.最终采用随机梯度下降算法更新$ U $$ V $.

3.2.2 KPT

KPT(Knowledge Proficiency Tracing, KPT)[11]是一个基于PMF的解释性的概率知识熟练度追踪模型, 通过用教育先验来追踪学生知识熟练程度.具体而言, KPT首先将每个练习与知识向量相关联, 其中每一个元素代表一个显性的知识点.由教育专家提供的$ Q $矩阵描绘了练习题目与知识点之间的关系, 将其用于题目的嵌入.为了追踪学生的知识熟练程度, 每个学生的相关信息被嵌入到同一个知识空间中.除此之外, KPT将传统教育学理论中记忆曲线与遗忘曲线融入到建模中, 用以捕捉学生知识熟练度随着时间的变化.

KPT整体流程如图 7所示.其采用阶段性反馈的用户交互建模, 在给定学生练习反馈日志和专家标注的$ Q $矩阵后, KPT利用$ Q $矩阵将每个学生的潜在向量映射到知识空间中.而后根据学习和遗忘曲线来解决知识追踪问题.在预测阶段, KPT模型预测学生$ T+1 $时间窗口中的练习表现情况$ R^{T+1} $和学生$ T+1 $时间窗口的知识点掌握情况$ U^{T+1} $.

图 7 KPT模型框架 Fig.7 KPT model framework

受到现有工作[20, 29]的启发, KPT模型建模练习表现张量$ R $如公式(17)所示.

$ \begin{align} p(R\vert U, V, b) = \prod\limits_{t = 1}^T {\prod\limits_{i = 1}^N {\mathop \prod \limits_{j = 1}^M } } [{\cal N}(R_{ij}^t \vert \langle U_i^t , V_j \rangle -b_j , \sigma _R^2 )]^{I_{ij}^t }. \end{align} $ (17)

其中, $ {\cal N} $表示正态分布, $ \sigma^2_R $表示$ R $服从的正态分布的方差, $ \langle U_i^t $, $ V_j \rangle $表示$ U_i^t $$ V_j $的点积, $ I_{ij}^t $表示$ t $时间窗口学生$ i $是否做对题目$ j $(1表示做对, 0表示未做对).

对于$ V $矩阵的计算方式如公式(18)所示,

$ \begin{align} {\rm ln}p(V\vert D_T )& = {\rm ln}\prod\limits_{(j, q, p)\in D_T } p (>_j^+ \vert V)p(V) \\ & = \sum\limits_{j = 1}^M {\sum\limits_{q = 1}^K {\sum\limits_{p = 1}^K I } } (q>_j^+ p){\rm ln}\frac{1}{1+{\rm e}^{-(V_{jq} -V_{jp} )}}-\frac{1}{2\sigma _V^2 }\left\| V \right\|_F^2. \end{align} $ (18)

其中, $ D_T $是通过$ Q $矩阵获得的一组集合, 集合中的每一组元素$ (j, q, p) $表示题目$ j $包含知识点$ q $但是未包含知识点$ p $. $ D_T $可由公式(19)计算得到.

$ \begin{align} &D_T = \{(j, q, p)\vert q>_j^+ p\}, \\ &q>_j^+ p, \;\;\;{\mbox {满足}}\;\;\; Q_{jq} = 1 \;\;\;{\mbox {且}}\;\;\; Q_{jp} = 0. \end{align} $ (19)

基于记忆与遗忘曲线理论, KPT提出了两个假设, 首先, 学生对于某个知识点的练习越多, 那么学生对于该知识点的掌握越牢固; 其次, 随着时间的流逝, 学生会渐渐地遗忘知识点.基于这两个假设, KPT对于$ U $矩阵建模方式如公式(20)所示.

$ \begin{align} & p(U_i^t ) = {\cal N}(U_i^t \vert \overline {U_i^t } , \sigma _U^2 I), \;\;\;{\mbox{其中}}\;\;\; \overline {U_i^t } = \{\overline {U_{i1}^t } , \overline {U_{i2}^t}, \cdots, \overline {U_{iK}^t } \}, \\ & \overline {U_{ik}^t } = \alpha _i l^t(\ast )+(1-\alpha _i )f^t(\ast ), \;\;\;{\mbox{满足}}\;\;\; 0\leqslant \alpha _i \leqslant 1. \end{align} $ (20)

其中, $ l^t(\ast ) $表示学生在$ t $时间窗口进行若干练习后的记忆因素, $ f^t(\ast ) $表示$ t $时间窗口的遗忘因素, $ \alpha _i $用以平衡遗忘因素与记忆因素, 同时也捕获到学生的学习能力.

$ l^t(\ast ) $用于捕获随着不断地练习, 学生对于知识掌握的提升情况; $ f^t(\ast ) $表示知识熟练度随着时间递增的衰减情况, 具体如公式(21)所示.

$ \begin{align} &l^t(\ast ) = U_{ik}^{t-1} \frac{D\cdot f_k^t }{f_k^t +r}, \\ &f^t(\ast ) = U_{ik}^{t-1} e^{-\frac{t}{S}}. \end{align} $ (21)

其中, $ f_k^t $表示学生在时间窗口$ t $对于知识点$ k $的练习频率, $ r $$ D $为两个超参数, 用于控制知识掌握提升的规模; $ t $表示当前时刻与$ t-1 $时间窗口的时间间隔, $ S $是用于表示记忆强度的超参数.

由于在$ t = 1 $时间窗口并不知道学生的初始知识水平, 所以KPT模型假设其服从零均值高斯分布, 最终表示用户知识掌握程度的张量$ U $可由公式(22)计算得到.

$ \begin{align} p(U\vert \sigma _U^2 , \sigma _{U_1}^2 ) = \prod\limits_{i = 1}^N N (U_i^1 \vert 0, \sigma _{U_1}^2 I)\prod\limits_{t = 2}^T {N(U_i^t \vert \bar {U}_i^t , \sigma _U^2 I)}. \end{align} $ (22)

KPT模型的优化目标如公式(23)所示,

$ \begin{align} \mathop {\min}\limits_\Phi \xi (\Phi )& = \frac{1}{2}\sum\limits_{t = 1}^T {\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {I_{ij}^t } } } [\hat {R}_{ij}^t -R_{ij}^t ]^2 \\ &-\lambda _P \sum\limits_{j = 1}^M {\sum\limits_{q = 1}^K {\sum\limits_{p = 1}^K {I(q>_j^+ p){\rm ln}\frac{1}{1+e^{-(V_{jq} -V_{jp} )}}} } } +\frac{\lambda _V }{2}\sum\limits_{i = 1}^M {\left\| {V_i } \right\|_F^2 } \\ &+\frac{\lambda _U }{2}\sum\limits_{t = 2}^T {\sum\limits_{i = 1}^N {\vert \overline {U_i^t } -U_i^t \vert _F^2 } } +\frac{\lambda _1 }{2}\sum\limits_{i = 1}^N {\vert U_i^1 \vert _F^2 }. \end{align} $ (23)

其中, $ \lambda _P = \sigma _R^2 $, $ \lambda _U = \frac{\sigma _R^2 }{\sigma _U^2 } $, $ \lambda _{U_1 } = \frac{\sigma _R^2 }{\sigma _{U_1}^2 } $, $ \lambda _V = \frac{\sigma _R^2 }{\sigma _V^2 } $, $ \sigma^2 _R $表示$ R $服从正态分布的方差, $ \sigma^2 _U $表示$ U $服从的正态分布的方差, $ \sigma^2 _V $表示$ V $服从正态分布的方差, $ \sigma^2 _{U_1} $表示$ U_1 $服从正态分布的方差.

3.3 基于深度学习的知识追踪 3.3.1 DKT

DKT(Deep Knowledge Tracing, DKT)[3]模型首次将循环神经网络应用于知识追踪任务, 利用LSTM(Long Short-Term Memory, LSTM)[30]模型追踪学生知识熟练度随着时间动态变化的过程, 并从数据中直接学习学生对于知识熟练度的潜在向量表示.

DKT模型采用实时反馈的用户交互建模, 其输入为$ x_t = \{q_t , a_t \} $, 其中$ q_t $表示题目编号, $ a_t $表示反馈结果(1表示正确, 0表示错误).如图 8所示, $ x_t $在进入DKT模型前先经过one-hot编码转化为one-hot向量, 再输入到LSTM[30]中.

图 8 DKT模型框架 Fig.8 DKT model framework

LSTM结构中每个模块如公式(24)所示, 其中$ f_t $用于决定是否丢弃之前记忆单元存放的信息, $ i_t $用于确定更新$ t $时刻的更新信息, $ \widetilde{C_t } $$ t $时刻获取得到的消息, $ C_t $中存放的信息综合考虑到了长期记忆$ f_t $与短期记忆$ i_t $的影响, 最终根据$ C_t $与输出控制门$ o_t $计算LSTM在$ t $时刻的输出$ h_t $.

$ \begin{align} &f_t = \sigma (W_f \cdot [h_{t-1} , x_t ]+b_f ), \\ &i_t = \sigma (W_i \cdot [h_{t-1} , x_t ]+b_i ), \\ &o_t = \sigma (W_o \cdot [h_{t-1} , x_t ]+b_o ), \\ &\widetilde{C_t } = {\rm tanh}(W_C \cdot [h_{t-1} , x_t ]+b_C ), \\ &C_t = f_t \cdot C_{t-1} +i_t \cdot \widetilde{C_t }, \\ &h_t = o_t \cdot {\rm tanh}(C_t). \end{align} $ (24)

其中, tanh为tanh函数, $ \sigma $为sigmoid函数.

通过使用LSTM, DKT可以综合考虑学生较长时间前通过的题目情况与近期通过的题目情况, 用以确定当前时刻学生对于知识的熟练度.其中遗忘门$ f_t $的设计符合学生随着时间的流逝, 对之前学习的知识的熟练度逐渐降低这一特点.

DKT的输出$ y_t $表示学生完成各个题目的正确率, 其中$ y_t $的维度等于题目的数量.需要特殊说明的是, $ x_{t+1} = \{q_{t+1} , a_{t+1} \} $, 其中$ a_{t+1} = y_t (q_{t+1} ) $.

最后, DKT的优化目标如公式(25)所示.模型通过使用随机梯度下降算法来最小化了该目标函数, 即

$ \begin{align} {\cal L} = \sum\limits_t {\ell (y^{\rm T}\delta (q_{t+1} ), a_{t+1} )}. \end{align} $ (25)
3.3.2 EERNN

EERNN(Exercise-Enhanced Recurrent Neural Network, EERNN)[10]通过充分利用学生练习记录和题目文本来预测学生的表现.具体来说, 其对于学生练习过程建模, 首先设计一个双向LSTM, 利用文本来对每个题目进行嵌入.然后, EERNN设计了一种新的基于注意力机制的LSTM架构, 它根据学生练习记录中的类似题目来追踪学生的知识熟练度.通过这种方式, EERNN可以根据学生的练习记录自然地预测每个学生在未来练习中的表现.

与DKT模型相似, EERNN同样使用LSTM用以追踪学生知识掌握程度的动态变化.但是与DKT不同的是, EERNN充分地利用了题目中的文本信息, 以解决冷启动问题.除此之外, EERNN还引入了注意力机制, 通过进一步考虑题目相似性来提升学生未来表现的预测准确率.此外, EERNN同DKT一样, 采用了实时反馈的用户交互建模方式.

图 9为题目嵌入的过程, 每道题目表示为$ e_i = w_1^i , w_2^i , \cdots , w_M^i $, 其中$ s_j^i $为题目$ i $中的第$ j $个单词.将每个单词$ w_j^i $经过词嵌入后输入到双向LSTM中获得$ v_i = concatenate(\overrightarrow {v_i } , \overleftarrow {v_i } ) $, 最终题目嵌入结果$ x_i = \max(v_1 , v_2 , \cdots, v_M ) $.

图 9 EERNN中的练习题嵌入 Fig.9 Exercises embedded in EERNN

图 10所示, 题目嵌入结果作为LSTM输入后, 以预测学生$ t+1 $时刻表现, 题目$ e_{t+1} $的预测结果$ r_{T+1} $可由公式(26)计算得到.

图 10 参数a对数值解的影响 Fig.10 EERNN model framework
$ \begin{align} &y_{T+1} = ReLu(W_{W_1 } \cdot [h_{hatt} , x_t ]+b_1 ), \\ &\widetilde{r_{T+1} } = \sigma (W_2 \cdot y_{T+1} +b_2 ). \end{align} $ (26)

其中, 注意力机制具体体现在计算$ h_{att} $, 其计算公式(27)如下所示.

$ \begin{align} h_{att} = \sum\limits_{j = 1}^T {\alpha _j h_j } , \alpha _j = {\rm cos}\langle x_{T+1} , x_j \rangle. \end{align} $ (27)

EERNN的优化目标如公式(28)所示, EERNN利用Adam optimization[12]来优化目标函数, 即

$ \begin{align} {\cal L} = -\sum\limits_{t = 1}^T {r_t \log\widetilde{r_t }+(1-r_t )\log(1-\widetilde{r_t })}. \end{align} $ (28)
4 现有研究方法对比

概率模型, 矩阵分解模型和深度学习模型因其建模理念与模型结构的不同分别具有不同的优点与缺陷, 表 2展示了第三章中介绍的各个模型所考虑到的因素.下面我们将详细地分析这三类模型.

表 2 模型对比 Tab. 2 Model comparison
4.1 概率图模型

概率图模型的核心在于建立合理的概率图, 概率图中的节点分为观察量与隐变量.其中观察量为我们可以真实观察到的结果, 如某位同学答对了某道题目; 隐变量则为真实存在但是不能直接观察到的结果, 如学生对于某个知识点的掌握程度.可以根据教育学的先验知识与专家意见设计隐变量以及变量之间的联系, 并进一步假设每个随机变量(观察量与隐变量)服从的分布.比如, BKT利用隐马尔科夫来模拟知识点随着时间的变化, FuzzyCDF设计了两个隐变量将学生的猜测与失误等因素也考虑在内.

概率图模型的优势在于能够很好地利用教育学理论, 可解释性强.在训练数据数量较少的情况下, 概率图模型也具有较好的表现.然而概率图的合理性本身决定了概率图模型的表现.当概率图建立得非常符合真实情况的时候, 概率图模型会有极为优秀的表现; 但是当概率图建立得不够合理的时候, 模型性能就将会变得极差.其性能高度依赖于专家对教学场景的理解, 并且不能探索未被专家定义的新特征.

4.2 矩阵分解模型

矩阵分解模型认为用户$ i $在习题$ j $上的表现$ R_{ij} $等于用户知识点熟练度向量$ U_i $与题目$ j $包含知识点向量$ V_j $的点积, 学生题目表现矩阵$ R $就等于$ U^{\rm T}V $.由于学生对于知识点的掌握程度会随着时间的变化而变化, KPT模型引入隐马尔科夫模型, 使得可以随着时间的变化动态地调整用户知识点掌握程度矩阵$ U $.此外, KPT模型还将记忆与遗忘理论融入到了$ U $动态变化的过程中.

矩阵分解模型能够更好地利用题目所包含的知识点信息, 其利用$ Q $矩阵(根据专家标注建立的题目包含知识点矩阵)不仅能够较好地提升模型效果, 还能直观地反映出学生对于每个知识点的掌握情况.然而矩阵分解模型的拓展性较差, 难以进一步利用题目文本、学生社交关系、MOOC平台中学生的诸多反馈(如在线教育系统中学生在某道题目的停留时间)等信息.

4.3 深度学习模型

深度学习模型主要利用现有的一些深度学习工具来解决知识追踪中面临的一系列问题. DKT将学生的做题记录转化为序列数据, 交由LSTM进行处理.通过使用LSTM挖掘学生做题记录中的有效信息以预测学生的未来成绩.除此之外, 还有学者使用NLP领域中的词嵌入技术来处理题目中的文本信息, 以提升知识追踪的准确性. EERNN通过利用词嵌入技术将每道题目的描述文本嵌入为一个题目向量, 并将其作为LSTM的输入, 同时通过使用注意力机制, 利用题目的文本相似性进一步提升知识追踪的准确性.

深度学习已经被证明在图像处理、语音识别、自然语言处理等领域拥有较好的性能.学生的真实学习环境中包含了多种异构数据, 比如在英语考试中就包含了文本信息、语音信息以及少量的图片信息, 深度学习恰好可以处理并利用这些异构数据解决知识追踪任务.然而深度学习也存在着其特有的问题, 深度学习模型需要在拥有海量的训练数据的情况下才能够表现出良好的性能.另外, 深度学习技术可解释性较差, 大部分情况下仅仅可以解释模型输出代表什么含义, 而中间过程是黑箱, 不能解释为什么会得到这样的输出结果.然而在很多应用场景中, 希望模型给出表现差的原因, 以使得学生能够有针对性地查缺补漏, 提升自己对于知识点的熟练度.

5 研究展望

学生的真实学习环境极为复杂, 学生学习效果受到多方面因素影响.因此在知识追踪的过程中, 应该考虑诸如题目的文本信息、题目中包含的图片信息以及MOOC平台中学生与平台之间多种类型的交互信息等异构数据.为此, 应该引入自然语言处理、图像识别等领域中的模型, 以处理异构数据, 将异构数据嵌入到高维空间中, 以方便之后综合多种因素进行学生知识追踪.除此之外, 在建模过程中还应该考虑将更多的传统教育学中的经典理论, 如记忆曲线、遗忘曲线、LSI模型中的学习风格等考虑在内, 以加强模型构建的合理性, 进一步提升知识追踪的性能.

参考文献
[1]
YUDELSON M V, KOEDINGER K R, GORDON G J. Individualized Bayesian knowledge tracing models[C]//Artificial Intelligence in Education. Springer Berlin Heidelberg, 2013.
[2]
SCHUSTER M, PALIWAL K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681. DOI:10.1109/78.650093
[3]
PIECH C, BASSEN J, HUANG J, et al. Deep knowledge tracing[C]//NIPS, 2015: 505-513.
[4]
DIBELLO L, ROUSSOS L, STOUT W. 31a review of cognitively diagnostic assessment and a summary of psychometric models[J]. Handbook of Statistics, 2006, 26(12): 979-1030.
[5]
EMBRETSON S E, REISE S P. Item response theory[M]. [S.l.]: Psychology Press, 2013.
[6]
TORRE D L. DINA model and parameter estimation:A didactic[J]. Journal of Educational and Behavioral Statistics, 2008, 34(1): 115-130.
[7]
WU R, LIU Q, LIU Y, et al. Cognitive modelling for predicting examinee performance[C]//International Conference on Artificial Intelligence. AAAI Press, 2015.
[8]
THAINGHE N, HORVATH T, SCHMIDTTHIEME L, et al. Factorization models for forecasting student performance[C]//Educational Data Mining, 2011: 11-20.
[9]
XIONG L, CHEN X, HUANG T K, et al. Temporal collaborative filtering with Bayesian probabilistic tensor factorization[C]//Proceedings of the 2010 SIAM International Conference on Data Mining, 2010: 211-222
[10]
SU Y, LIU Q, LIU Q, et al. Exercise-enhanced sequential modeling for student performance prediction[C]//AAAI, 2018: 2435-2443.
[11]
CHEN Y, LIU Q, HUANG Z, et al. Tracking knowledge proficiency of students with educational priors[C]//CIKM. ACM, 2017: 989-998.
[12]
KINGMA D, BA J. Adam: A method for stochastic optimization[C]//International Conference on Learning Representations, 2015.
[13]
SHI Y, PENG Z, WANG H. Modeling student learning styles in MOOCs[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. ACM, 2017: 979-988. http://cn.bing.com/academic/profile?id=3a439bfe9c5503cc9607936143dce1f1&encoded=0&v=paper_preview&mkt=zh-cn
[14]
GRAVES A, MOHAMED A, HINTON G E. Speech recognition with deep recurrent neural networks[C]//ICASSP. IEEE, 2013: 6645-6649. http://cn.bing.com/academic/profile?id=2218c8639beeaf1f08999a2daa3be152&encoded=0&v=paper_preview&mkt=zh-cn
[15]
KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet Classification with Deep Convolutional Neural Networks[C]//NIPS. Curran Associates Inc, 2012.
[16]
MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems, 2013.
[17]
HUANG Z, LIU Q, CHEN E, et al. Question difficulty prediction for reading problems in standard tests[C]//National Conference on Artificial Intelligence, 2017: 1352-1359.
[18]
ZHANG J, SHI X, KING I, et al. Dynamic key-value memory networks for knowledge tracing[C]//The Web Conference, ACM, 2017: 765-774.
[19]
CHEN P, LU Y, ZHENG V W, et al. Prerequisite-driven deep knowledge tracing[C]//IEEE Computer Society. ICDM, 2018: 39-48.
[20]
DE BAKER R S J, CORBETT A T, ALEVEN V. More accurate student modeling through contextual estimation of slip and guess probabilities in Bayesian knowledge tracing[C]//Proceedings of the 9th international conference on Intelligent Tutoring Systems. Springer-Verlag, 1970.
[21]
PARDOS Z A, HEFFERNAN N T. KT-IDEM: Introducing item difficulty to the knowledge tracing model[C]//International Conference on User Modeling Adaptation and Personalization, 2011: 243-254.
[22]
YUDELSON M, KOEDINGER K R, GORDON G J, et al. Individualized Bayesian knowledge tracing models[C]//Artificial Intelligence in Education, 2013: 171-180.
[23]
MNIH A, SALAKHUTDINOV R. Probabilistic matrix factorization[C]//Neural Information Processing Systems, 2007: 1257-1264.
[24]
CORBETT A T, ANDERSON J R. Knowledge tracing:Modeling the acquisition of procedural knowledge[J]. User Modeling and User-Adapted Interaction, 1994, 4(4): 253-278.
[25]
PARDOS Z, HEFFERNAN N, RUIZ C, et al. The composition effect: Conjuntive or compensatory? an analysis of multi-skill math questions in ITS[C]//Educational Data Mining, 2008: 147-156.
[26]
HASTINGS W K. Monte Carlo Sampling Methods Using Markov Chains and Their Applications[J]. Biometrika, 1970, 57(1): 97-109. DOI:10.1093/biomet/57.1.97
[27]
CAMILLI G. Teacher's Corner:Origin of the scaling constant d=1.7 in item response theory[J]. Journal of Educational Statistics, 1994, 19(3): 293-295.
[28]
RAJU N S, SLINDE J. ISSUES IN ITEM BANKING[J]. Journal of Educational Measurement, 1984, 21(4): 415-417.
[29]
TANG J, GAO H, HU X, et al. Exploiting homophily effect for trust prediction[C]//Proceedings of the sixth ACM international conference on Web search and data mining. ACM, 2013: 53-62.
[30]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735