随着互联网教育的迅猛发展, 智能教学系统(Intelligent Tutoring System, ITS)和大规模在线开放课程(Massive Open Online Course, MOOC)等平台日益普及, 这为学生自主学习以及辅助教学提供了可能.然而, 在线教育系统在提供便利的同时, 由于学习平台上的学生人数远远超过教师数量, 导致平台提供自主学习服务和个性化教学存在诸多困难.研究人员试图利用人工智能技术来提供类似教师的指导服务.具体来说, 基于学生的学习记录, 准确地对学生的学习状态进行分析, 进而为学生提供个性化导学服务.如何让在线教育系统做到因材施教, 已成为当前智慧教育领域中的重要研究课题.
知识追踪是个性化导学中的关键问题, 特点是自动化和个性化, 其任务是根据学生的历史学习轨迹来自动追踪学生的知识水平随时间的变化过程, 以便能够准确地预测学生在未来的学习中的表现, 从而提供相应的学习辅导.在这个过程中, 知识空间被用来描述学生知识的掌握程度.知识空间是一些概念的集合, 学生掌握概念集合中的一部分, 即构成该学生掌握的知识集合.有教育学研究者认为, 习题会考查一组特定的、相关联的知识点, 学生对于习题所考察知识点的掌握程度会影响其在习题上的表现, 即学生掌握的知识集合和其外在的做题表现密切相关.
通常, 知识追踪任务可以形式化为:给定一个学生在特定学习任务上的历史学习交互序列
未来教育要更加关注个性化、多样性和适应性的学习, 要关注人机协作的高效学习和教学过程.在人工智能技术的支持下, 面向大规模的学习者群体, 建立促进个性发展的教育体系, 是未来教育发展的基本趋势.知识追踪的目标在于可以根据学生的个人需求向他们推荐资源, 并且可以跳过或延迟那些被预测为太容易或太难的内容, 让学生可以花更多的时间研究适合他们理解水平的问题.知识追踪技术与知识图等技术结合起来, 可以用于优化学生的知识结构.利用知识追踪还可以进行智能辅导、布置个性化的作业、生成学习计划和评价报告, 从而辅助学生规划学习生涯, 实现个性化发展.另外, 通过对学生知识状态的评估, 教师在教学过程中可以更好地了解学生, 并相应地调整教学方案.
1 知识追踪的相关理论 1.1 认知诊断在教育心理学领域, 认知诊断是一种利用学生做题的历史记录来诊断学生对知识点熟练程度的技术[4]. 图 1显示了认知诊断的过程.传统的认知诊断模型可以分为一维连续模型和多维离散模型.其中, IRT(Item response theory)[5]作为典型的一维连续模型, 通过变量来表征每个学生, 并使用逻辑函数来模拟学生正确解答问题的概率.相比之下, 多维离散模型DINA[6]通过二进制向量来描述学生, 该二进制向量表示学生是否掌握了与题目相关的知识点[6], 并使用给定的Q矩阵来对诊断结果进行解释.近年来, Wu等人[7]提出FuzzyCDF模型来诊断学生在考试中的知识状态, 该模型同时考虑了主观题与客观题.
知识追踪通常依赖于整个过程中学习者的状态建模.建模目的是从学生的练习中学习学生状态的潜在表示, 这些状态表示有许多应用场景, 如分数预测、习题推荐等.通常, 我们也把获得的状态表示看作是学生的知识熟练度.传统的学生建模采用BKT进行建模, 它是含有隐变量的马尔可夫模型(HMM), 通过将学生的知识状态假设为一组二进制变量来对学生知识点的变化进行追踪.近年来有两种代表性的技术:分解模型和神经网络.例如, Thai-Nghe等人[8]利用矩阵分解模型将每个学生映射到描述学生知识状态的潜在向量中.为了跟踪学生学习过程的变化, Thai-Nghe等人和Xiong等人[9]提出了张量因子分解法, 并在其中加入了时间维度.近年来, Piech等人[3]开发了一种基于循环神经网络的方法来模拟学生的学习过程, 提高了预测学生成绩任务的效果. Su等人[10]在此基础上进行了扩展, 他们利用文本信息进行更加深入的习题语义挖掘. Chen等人[11]则利用教育先验知识改进了传统的矩阵分解, 使得模型的可解释性增强.为了解释学生在学习过程中知识熟练程度的动态变化, 教育心理学家融合了两种经典理论:学习曲线理论和艾宾浩斯遗忘曲线理论.学习曲线理论认为, 学生可以通过不断的训练或练习来提高他们的知识熟练度, 艾宾浩斯遗忘曲线理论表明, 学生的知识熟练程度可能会随着时间的推移而下降.基于这两个理论, 研究人员试图从不断发展的角度开发一系列解决KPD任务的模型.一些基于IRT的模型, 如学习因素分析[6]和绩效因素分析[8], 被提议用于改进传统的IRT, 假设学生在练习时共享相同的学习率参数.此外, 研究人员提出了基于贝叶斯知识追踪[12]的模型的变体, 以捕捉学生的知识熟练程度随时间的变化.近年来, 为了提供更好的帮助和指导, 部分研究人员还尝试用kolb学习风格理论来建模学习者的学习风格[13].如图 2所示, 该理论定义了四种学习风格.
深度学习是目前的先进技术, 在许多应用中取得了巨大成功, 如语音识别[14]、图像分类[15]、自然语言处理[16]以及一些教育应用, 如问题难度预测[17].受其卓越表现的启发, 深度知识追踪[3]尝试利用递归神经网络(LSTM)来模拟学生的练习过程并预测学生的表现[3].此外, 通过弥合练习和知识概念之间的关系, Zhang等人[18]提出了一种用于学生表现预测的动态键值记忆网络模型. Su等人[10]利用学生练习记录和练习的文本信息, 使用LSTM建模并通过注意力机制重点关注学生对于相似题目的练习情况, 从而提高了预测的准确性.由于学生练习数据的稀疏性限制了知识追踪的性能和应用, Chen等人[19]提出将知识结构信息, 特别是教学概念之间的先决条件关系纳入知识追踪模型.
2 知识追踪中交互建模知识追踪的本质是根据学生的历史学习记录来推测任意时刻学生对于知识点的掌握程度, 进而预测学生的未来成绩, 并辅助教师布置教学计划等.为了解决知识追踪任务, 首先要进行用户交互建模, 现有的建模方法依据反馈的时间分为下面两种.
第一种建模方式为实时反馈的用户交互建模.在现实中的某些情况下, 学生完成一道习题后需要立刻更新模型中学生对于知识点的掌握情况信息.比如在日常练习中, 学生完成一道习题后可以立即得到反馈, 学生的知识点掌握情况也随之发生变化.显然, 在追踪当前时刻的知识点掌握情况时, 我们应该考虑之前的所有练习.其建模方式如图 3所示, 给定学生在特定学习任务上的历史学习记录
第二种建模方式为基于阶段性反馈的用户交互建模.与上一种情况完全相反, 某些情况下学生完成一道习题后, 不能够立即获得反馈, 因此不能立刻更新模型中学生对于知识点的掌握情况信息.比如在考试时, 学生完成一道题目后不可能立刻获取答案, 因此考试过程中, 学生对于知识点的掌握程度变化不大.换句话说, 在一场考试中, 先答题目的对错是不会影响到后续题目的, 其建模方式如图 4所示.给定学生历史学习记录
现有的知识追踪模型大致可以分为3类:基于概率图模型的知识追踪、基于矩阵分解的知识追踪以及基于深度学习的知识追踪.下面将分别详细介绍这3类模型.
3.1 基于概率图模型的知识追踪 3.1.1 贝叶斯知识追踪贝叶斯知识追踪(BKT)[1]是最流行的知识追踪模型之一. BKT采用实时反馈的用户交互建模, 将学习者的潜在知识状态建模为一组二元变量, 每个变量代表是否理解某个知识点[24].随着学生不断地练习, 对于知识点的掌握也会有动态的变化, BKT通过利用隐马尔可夫模型(HMM)来维护代表知识点熟练度的二元变量.原始的BKT模型假设学生一旦学会了技能, 就永远不会被遗忘.最近有研究将学生的猜测和失误[20]、个体学习者的先验知识估计[21]以及问题难度估计[22]等因素融入到BKT模型中.
BKT中模型参数如表 1所示, 其结构如图 5所示.学生
$ \begin{align} p(L_1)_u^k = p(L_0)^k. \end{align} $ | (1) |
在
$ \begin{align} p(L_{t+1}\vert Q = {\rm correct})_u^k = \frac{p(L_t)_u^k\cdot (1-p(S)^k)}{p(L_t )_u^k \cdot(1-p(S)^k)+(1-p(L_t)_u^k)\cdot p(G)^k}. \end{align} $ | (2) |
在
$ \begin{align} p(L_{t+1} \vert Q = {\rm wrong})_u^k = \frac{p(L_t )_u^k \cdot p(S)^k}{p(L_t )_u^k \cdot p(S)^k+(1-p(L_t )_u^k )\cdot (1-p(G)^k)}. \end{align} $ | (3) |
学生
$ \begin{align} p(L_{t+1} )_u^k = p(L_{t+1} \vert Q)_u^k +(1-p(L_{t+1} \vert Q)_u^k )\cdot p(T)^k. \end{align} $ | (4) |
学生
$ \begin{align} p(Q_{t+1} )_u^k = p(L_t )_u^k \cdot (1-p(S)^k)+(1-p(L_t )_u^k )\cdot p(G)^k. \end{align} $ | (5) |
FuzzyCDF[7]采用一种受到模糊系统启发的模型来解决主观题目的回答可能部分正确这一问题.具体来说, FuzzyCDF首先使用模糊集理论来量化学生的知识熟练程度.然后假设客观问题与主观问题上的知识互动满足两个不同的假设:结合和补偿[25], 并基于这两个假设来计算某个学生的知识熟练程度.除此之外, FuzzyCDF还通过考虑失误和猜测来模拟问题得分生成的过程.该模型使用了蒙特卡洛马尔可夫链(MCMC)采样算法[26]来进行参数估计.
在FuzzyCDF模型中采用实时反馈的用户交互建模, 其图形表示如图 6所示.其中
$ \begin{align} \alpha _{jk} = \mu _k (j) = \frac{1}{1+\exp(-1.7a_{jk} (\theta _j -b_{jk} ))}. \end{align} $ | (6) |
对于需要学生同时掌握多个知识点的题目时,
$ \begin{align} \eta _{ji} = \mu _{\cap _{1\leqslant k\leqslant K, q_{i, k} = 1} , k} (j). \end{align} $ | (7) |
对于仅需要学生掌握部分知识点的题目,
$ \begin{align} \eta _{ji} = \mu _{\cup _{1\leqslant k\leqslant K, q_{i, k} = 1} , k} (j). \end{align} $ | (8) |
公式(7), (8)中
$ \begin{align} & \mu _{A\cap B} (x) = \min(\mu _A (x), \mu _B (x)), \\ & \mu _{A\cup B} (x) = \max(\mu _A (x), \mu _B (x)). \end{align} $ | (9) |
考虑到了主观题与客观题的区别, FuzzyCDF模型通过公式(10)和(11)分别计算客观题和主观题的
$ \begin{align} &p(R_{ij} = 1\vert \eta _{ji} , s_i , g_i ) = (1-s_i )\eta _{ji} +g_i (1-\eta _{ji} ). \end{align} $ | (10) |
$ \begin{align} &p(R_{ij} \vert \eta _{ji} , s_i , g_i ) = {\cal N}(R_{ji} \vert [(1-s_i )\eta _{ji} +g_i (1-\eta _{ji} )], \sigma ^2). \end{align} $ | (11) |
FuzzyCDF模型中的所有参数的先验分布如公式(12)所示.
$ \begin{align} &\theta _j \sim {\cal N}(\mu _\theta , \sigma _\theta ^2 ), \alpha _{jk} \sim {\rm ln}{\cal N}(\mu _a , \sigma _a^2 ), b_{jk} \sim {\cal N}(\mu _b , \sigma _b^2 ), \\ &s_i \sim {\rm Beta}(v_s , w_s , {\rm min}_s , {\rm min}_s), \\ &g_i \sim {\rm Beta}(v_g , w_g , {\rm min}_g , {\rm min}_g), \\ &1/\sigma ^2\sim \Gamma (x_\sigma , y_\sigma). \end{align} $ | (12) |
其中, Beta为贝塔分布,
最后, FuzzyCDF模型使用基于MCMC[7]的Metropolis-Hastings进行参数估计.
3.2 基于矩阵分解的知识追踪 3.2.1 PMF概率矩阵分解(Probabilistic Matrix Factorization, PMF)[23]是推荐系统领域的经典算法之一.由于推荐领域与知识追踪建模的相似性, 部分学者将PMF算法[11]改进应用于知识追踪领域, 本节主要阐述原始的PMF算法如何应用于知识追踪任务.
PMF采用阶段性反馈的用户交互建模.首先建立了一个
$ \begin{align} R_{ij} = {\cal N}(U_i^{\rm T} V_j , \sigma ^2). \end{align} $ | (13) |
其中,
观察到
$ \begin{align} p(R\vert U, V, \sigma ) = \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {{\cal N}(U_i^{\rm T} V_j , \sigma^2 )^{I_{ij}}}}. \end{align} $ | (14) |
其中
$ \begin{align} & P(U\vert \sigma _U )\sim \prod\limits_{i = 1}^N {{\cal N}(0, \sigma _U^2 I)}, \\ & P(V\vert \sigma _V )\sim \prod\limits_{j = 1}^M {{\cal N}(0, \sigma _V^2 I)}. \end{align} $ | (15) |
根据对后验分布
$ \begin{align} {\rm loss} = -\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {I_{ij} (R_{ij} -U_i^{\rm T} V_j )^2} } -\frac{\lambda _U }{2}\sum\limits_{i = 1}^M {U_i^{\rm T} U_i } -\frac{\lambda _V }{2}\sum\limits_{j = 1}^N {V_j^{\rm T} V_j}. \end{align} $ | (16) |
其中,
KPT(Knowledge Proficiency Tracing, KPT)[11]是一个基于PMF的解释性的概率知识熟练度追踪模型, 通过用教育先验来追踪学生知识熟练程度.具体而言, KPT首先将每个练习与知识向量相关联, 其中每一个元素代表一个显性的知识点.由教育专家提供的
KPT整体流程如图 7所示.其采用阶段性反馈的用户交互建模, 在给定学生练习反馈日志和专家标注的
受到现有工作[20, 29]的启发, KPT模型建模练习表现张量
$ \begin{align} p(R\vert U, V, b) = \prod\limits_{t = 1}^T {\prod\limits_{i = 1}^N {\mathop \prod \limits_{j = 1}^M } } [{\cal N}(R_{ij}^t \vert \langle U_i^t , V_j \rangle -b_j , \sigma _R^2 )]^{I_{ij}^t }. \end{align} $ | (17) |
其中,
对于
$ \begin{align} {\rm ln}p(V\vert D_T )& = {\rm ln}\prod\limits_{(j, q, p)\in D_T } p (>_j^+ \vert V)p(V) \\ & = \sum\limits_{j = 1}^M {\sum\limits_{q = 1}^K {\sum\limits_{p = 1}^K I } } (q>_j^+ p){\rm ln}\frac{1}{1+{\rm e}^{-(V_{jq} -V_{jp} )}}-\frac{1}{2\sigma _V^2 }\left\| V \right\|_F^2. \end{align} $ | (18) |
其中,
$ \begin{align} &D_T = \{(j, q, p)\vert q>_j^+ p\}, \\ &q>_j^+ p, \;\;\;{\mbox {满足}}\;\;\; Q_{jq} = 1 \;\;\;{\mbox {且}}\;\;\; Q_{jp} = 0. \end{align} $ | (19) |
基于记忆与遗忘曲线理论, KPT提出了两个假设, 首先, 学生对于某个知识点的练习越多, 那么学生对于该知识点的掌握越牢固; 其次, 随着时间的流逝, 学生会渐渐地遗忘知识点.基于这两个假设, KPT对于
$ \begin{align} & p(U_i^t ) = {\cal N}(U_i^t \vert \overline {U_i^t } , \sigma _U^2 I), \;\;\;{\mbox{其中}}\;\;\; \overline {U_i^t } = \{\overline {U_{i1}^t } , \overline {U_{i2}^t}, \cdots, \overline {U_{iK}^t } \}, \\ & \overline {U_{ik}^t } = \alpha _i l^t(\ast )+(1-\alpha _i )f^t(\ast ), \;\;\;{\mbox{满足}}\;\;\; 0\leqslant \alpha _i \leqslant 1. \end{align} $ | (20) |
其中,
$ \begin{align} &l^t(\ast ) = U_{ik}^{t-1} \frac{D\cdot f_k^t }{f_k^t +r}, \\ &f^t(\ast ) = U_{ik}^{t-1} e^{-\frac{t}{S}}. \end{align} $ | (21) |
其中,
由于在
$ \begin{align} p(U\vert \sigma _U^2 , \sigma _{U_1}^2 ) = \prod\limits_{i = 1}^N N (U_i^1 \vert 0, \sigma _{U_1}^2 I)\prod\limits_{t = 2}^T {N(U_i^t \vert \bar {U}_i^t , \sigma _U^2 I)}. \end{align} $ | (22) |
KPT模型的优化目标如公式(23)所示,
$ \begin{align} \mathop {\min}\limits_\Phi \xi (\Phi )& = \frac{1}{2}\sum\limits_{t = 1}^T {\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {I_{ij}^t } } } [\hat {R}_{ij}^t -R_{ij}^t ]^2 \\ &-\lambda _P \sum\limits_{j = 1}^M {\sum\limits_{q = 1}^K {\sum\limits_{p = 1}^K {I(q>_j^+ p){\rm ln}\frac{1}{1+e^{-(V_{jq} -V_{jp} )}}} } } +\frac{\lambda _V }{2}\sum\limits_{i = 1}^M {\left\| {V_i } \right\|_F^2 } \\ &+\frac{\lambda _U }{2}\sum\limits_{t = 2}^T {\sum\limits_{i = 1}^N {\vert \overline {U_i^t } -U_i^t \vert _F^2 } } +\frac{\lambda _1 }{2}\sum\limits_{i = 1}^N {\vert U_i^1 \vert _F^2 }. \end{align} $ | (23) |
其中,
DKT(Deep Knowledge Tracing, DKT)[3]模型首次将循环神经网络应用于知识追踪任务, 利用LSTM(Long Short-Term Memory, LSTM)[30]模型追踪学生知识熟练度随着时间动态变化的过程, 并从数据中直接学习学生对于知识熟练度的潜在向量表示.
DKT模型采用实时反馈的用户交互建模, 其输入为
LSTM结构中每个模块如公式(24)所示, 其中
$ \begin{align} &f_t = \sigma (W_f \cdot [h_{t-1} , x_t ]+b_f ), \\ &i_t = \sigma (W_i \cdot [h_{t-1} , x_t ]+b_i ), \\ &o_t = \sigma (W_o \cdot [h_{t-1} , x_t ]+b_o ), \\ &\widetilde{C_t } = {\rm tanh}(W_C \cdot [h_{t-1} , x_t ]+b_C ), \\ &C_t = f_t \cdot C_{t-1} +i_t \cdot \widetilde{C_t }, \\ &h_t = o_t \cdot {\rm tanh}(C_t). \end{align} $ | (24) |
其中, tanh为tanh函数,
通过使用LSTM, DKT可以综合考虑学生较长时间前通过的题目情况与近期通过的题目情况, 用以确定当前时刻学生对于知识的熟练度.其中遗忘门
DKT的输出
最后, DKT的优化目标如公式(25)所示.模型通过使用随机梯度下降算法来最小化了该目标函数, 即
$ \begin{align} {\cal L} = \sum\limits_t {\ell (y^{\rm T}\delta (q_{t+1} ), a_{t+1} )}. \end{align} $ | (25) |
EERNN(Exercise-Enhanced Recurrent Neural Network, EERNN)[10]通过充分利用学生练习记录和题目文本来预测学生的表现.具体来说, 其对于学生练习过程建模, 首先设计一个双向LSTM, 利用文本来对每个题目进行嵌入.然后, EERNN设计了一种新的基于注意力机制的LSTM架构, 它根据学生练习记录中的类似题目来追踪学生的知识熟练度.通过这种方式, EERNN可以根据学生的练习记录自然地预测每个学生在未来练习中的表现.
与DKT模型相似, EERNN同样使用LSTM用以追踪学生知识掌握程度的动态变化.但是与DKT不同的是, EERNN充分地利用了题目中的文本信息, 以解决冷启动问题.除此之外, EERNN还引入了注意力机制, 通过进一步考虑题目相似性来提升学生未来表现的预测准确率.此外, EERNN同DKT一样, 采用了实时反馈的用户交互建模方式.
图 9为题目嵌入的过程, 每道题目表示为
如图 10所示, 题目嵌入结果作为LSTM输入后, 以预测学生
$ \begin{align} &y_{T+1} = ReLu(W_{W_1 } \cdot [h_{hatt} , x_t ]+b_1 ), \\ &\widetilde{r_{T+1} } = \sigma (W_2 \cdot y_{T+1} +b_2 ). \end{align} $ | (26) |
其中, 注意力机制具体体现在计算
$ \begin{align} h_{att} = \sum\limits_{j = 1}^T {\alpha _j h_j } , \alpha _j = {\rm cos}\langle x_{T+1} , x_j \rangle. \end{align} $ | (27) |
EERNN的优化目标如公式(28)所示, EERNN利用Adam optimization[12]来优化目标函数, 即
$ \begin{align} {\cal L} = -\sum\limits_{t = 1}^T {r_t \log\widetilde{r_t }+(1-r_t )\log(1-\widetilde{r_t })}. \end{align} $ | (28) |
概率模型, 矩阵分解模型和深度学习模型因其建模理念与模型结构的不同分别具有不同的优点与缺陷, 表 2展示了第三章中介绍的各个模型所考虑到的因素.下面我们将详细地分析这三类模型.
概率图模型的核心在于建立合理的概率图, 概率图中的节点分为观察量与隐变量.其中观察量为我们可以真实观察到的结果, 如某位同学答对了某道题目; 隐变量则为真实存在但是不能直接观察到的结果, 如学生对于某个知识点的掌握程度.可以根据教育学的先验知识与专家意见设计隐变量以及变量之间的联系, 并进一步假设每个随机变量(观察量与隐变量)服从的分布.比如, BKT利用隐马尔科夫来模拟知识点随着时间的变化, FuzzyCDF设计了两个隐变量将学生的猜测与失误等因素也考虑在内.
概率图模型的优势在于能够很好地利用教育学理论, 可解释性强.在训练数据数量较少的情况下, 概率图模型也具有较好的表现.然而概率图的合理性本身决定了概率图模型的表现.当概率图建立得非常符合真实情况的时候, 概率图模型会有极为优秀的表现; 但是当概率图建立得不够合理的时候, 模型性能就将会变得极差.其性能高度依赖于专家对教学场景的理解, 并且不能探索未被专家定义的新特征.
4.2 矩阵分解模型矩阵分解模型认为用户
矩阵分解模型能够更好地利用题目所包含的知识点信息, 其利用
深度学习模型主要利用现有的一些深度学习工具来解决知识追踪中面临的一系列问题. DKT将学生的做题记录转化为序列数据, 交由LSTM进行处理.通过使用LSTM挖掘学生做题记录中的有效信息以预测学生的未来成绩.除此之外, 还有学者使用NLP领域中的词嵌入技术来处理题目中的文本信息, 以提升知识追踪的准确性. EERNN通过利用词嵌入技术将每道题目的描述文本嵌入为一个题目向量, 并将其作为LSTM的输入, 同时通过使用注意力机制, 利用题目的文本相似性进一步提升知识追踪的准确性.
深度学习已经被证明在图像处理、语音识别、自然语言处理等领域拥有较好的性能.学生的真实学习环境中包含了多种异构数据, 比如在英语考试中就包含了文本信息、语音信息以及少量的图片信息, 深度学习恰好可以处理并利用这些异构数据解决知识追踪任务.然而深度学习也存在着其特有的问题, 深度学习模型需要在拥有海量的训练数据的情况下才能够表现出良好的性能.另外, 深度学习技术可解释性较差, 大部分情况下仅仅可以解释模型输出代表什么含义, 而中间过程是黑箱, 不能解释为什么会得到这样的输出结果.然而在很多应用场景中, 希望模型给出表现差的原因, 以使得学生能够有针对性地查缺补漏, 提升自己对于知识点的熟练度.
5 研究展望学生的真实学习环境极为复杂, 学生学习效果受到多方面因素影响.因此在知识追踪的过程中, 应该考虑诸如题目的文本信息、题目中包含的图片信息以及MOOC平台中学生与平台之间多种类型的交互信息等异构数据.为此, 应该引入自然语言处理、图像识别等领域中的模型, 以处理异构数据, 将异构数据嵌入到高维空间中, 以方便之后综合多种因素进行学生知识追踪.除此之外, 在建模过程中还应该考虑将更多的传统教育学中的经典理论, 如记忆曲线、遗忘曲线、LSI模型中的学习风格等考虑在内, 以加强模型构建的合理性, 进一步提升知识追踪的性能.
[1] |
YUDELSON M V, KOEDINGER K R, GORDON G J. Individualized Bayesian knowledge tracing models[C]//Artificial Intelligence in Education. Springer Berlin Heidelberg, 2013.
|
[2] |
SCHUSTER M, PALIWAL K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681. DOI:10.1109/78.650093 |
[3] |
PIECH C, BASSEN J, HUANG J, et al. Deep knowledge tracing[C]//NIPS, 2015: 505-513.
|
[4] |
DIBELLO L, ROUSSOS L, STOUT W. 31a review of cognitively diagnostic assessment and a summary of psychometric models[J]. Handbook of Statistics, 2006, 26(12): 979-1030. |
[5] |
EMBRETSON S E, REISE S P. Item response theory[M]. [S.l.]: Psychology Press, 2013.
|
[6] |
TORRE D L. DINA model and parameter estimation:A didactic[J]. Journal of Educational and Behavioral Statistics, 2008, 34(1): 115-130. |
[7] |
WU R, LIU Q, LIU Y, et al. Cognitive modelling for predicting examinee performance[C]//International Conference on Artificial Intelligence. AAAI Press, 2015.
|
[8] |
THAINGHE N, HORVATH T, SCHMIDTTHIEME L, et al. Factorization models for forecasting student performance[C]//Educational Data Mining, 2011: 11-20.
|
[9] |
XIONG L, CHEN X, HUANG T K, et al. Temporal collaborative filtering with Bayesian probabilistic tensor factorization[C]//Proceedings of the 2010 SIAM International Conference on Data Mining, 2010: 211-222
|
[10] |
SU Y, LIU Q, LIU Q, et al. Exercise-enhanced sequential modeling for student performance prediction[C]//AAAI, 2018: 2435-2443.
|
[11] |
CHEN Y, LIU Q, HUANG Z, et al. Tracking knowledge proficiency of students with educational priors[C]//CIKM. ACM, 2017: 989-998.
|
[12] |
KINGMA D, BA J. Adam: A method for stochastic optimization[C]//International Conference on Learning Representations, 2015.
|
[13] |
SHI Y, PENG Z, WANG H. Modeling student learning styles in MOOCs[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. ACM, 2017: 979-988. http://cn.bing.com/academic/profile?id=3a439bfe9c5503cc9607936143dce1f1&encoded=0&v=paper_preview&mkt=zh-cn
|
[14] |
GRAVES A, MOHAMED A, HINTON G E. Speech recognition with deep recurrent neural networks[C]//ICASSP. IEEE, 2013: 6645-6649. http://cn.bing.com/academic/profile?id=2218c8639beeaf1f08999a2daa3be152&encoded=0&v=paper_preview&mkt=zh-cn
|
[15] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet Classification with Deep Convolutional Neural Networks[C]//NIPS. Curran Associates Inc, 2012.
|
[16] |
MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems, 2013.
|
[17] |
HUANG Z, LIU Q, CHEN E, et al. Question difficulty prediction for reading problems in standard tests[C]//National Conference on Artificial Intelligence, 2017: 1352-1359.
|
[18] |
ZHANG J, SHI X, KING I, et al. Dynamic key-value memory networks for knowledge tracing[C]//The Web Conference, ACM, 2017: 765-774.
|
[19] |
CHEN P, LU Y, ZHENG V W, et al. Prerequisite-driven deep knowledge tracing[C]//IEEE Computer Society. ICDM, 2018: 39-48.
|
[20] |
DE BAKER R S J, CORBETT A T, ALEVEN V. More accurate student modeling through contextual estimation of slip and guess probabilities in Bayesian knowledge tracing[C]//Proceedings of the 9th international conference on Intelligent Tutoring Systems. Springer-Verlag, 1970.
|
[21] |
PARDOS Z A, HEFFERNAN N T. KT-IDEM: Introducing item difficulty to the knowledge tracing model[C]//International Conference on User Modeling Adaptation and Personalization, 2011: 243-254.
|
[22] |
YUDELSON M, KOEDINGER K R, GORDON G J, et al. Individualized Bayesian knowledge tracing models[C]//Artificial Intelligence in Education, 2013: 171-180.
|
[23] |
MNIH A, SALAKHUTDINOV R. Probabilistic matrix factorization[C]//Neural Information Processing Systems, 2007: 1257-1264.
|
[24] |
CORBETT A T, ANDERSON J R. Knowledge tracing:Modeling the acquisition of procedural knowledge[J]. User Modeling and User-Adapted Interaction, 1994, 4(4): 253-278. |
[25] |
PARDOS Z, HEFFERNAN N, RUIZ C, et al. The composition effect: Conjuntive or compensatory? an analysis of multi-skill math questions in ITS[C]//Educational Data Mining, 2008: 147-156.
|
[26] |
HASTINGS W K. Monte Carlo Sampling Methods Using Markov Chains and Their Applications[J]. Biometrika, 1970, 57(1): 97-109. DOI:10.1093/biomet/57.1.97 |
[27] |
CAMILLI G. Teacher's Corner:Origin of the scaling constant d=1.7 in item response theory[J]. Journal of Educational Statistics, 1994, 19(3): 293-295. |
[28] |
RAJU N S, SLINDE J. ISSUES IN ITEM BANKING[J]. Journal of Educational Measurement, 1984, 21(4): 415-417. |
[29] |
TANG J, GAO H, HU X, et al. Exploiting homophily effect for trust prediction[C]//Proceedings of the sixth ACM international conference on Web search and data mining. ACM, 2013: 53-62.
|
[30] |
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |