UMAP 2017
作者:Zachary A. Pardos(UC Berkeley),Anant Dadu(IIT-BHU Varanasi)
一、背景简介
1、研究背景:在智能教育系统(ITS)中,有大量crowdsourcing的内容,但这些内容往往缺少一些类似于“标签”的元数据,以至于这些内容无法很好地组织起来。所谓的“标签”其实就是知识点,以ASSISTments平台为例,共有198种知识点,但平台上大多数内容都是由普通用户提供,缺少知识点标签。
3、相关工作:简单文本表示+分类器(如BoW+SVM);非负矩阵分解(item-skill);神经网络(Deep Knowledge Tracing)
二、模型算法
(a) 基于距离对problem所属的skill进行分类(即找最相似的skill):首先skill的embedding可以通过计算problem的均值得到,用了几个不同的距离函数(方差、cosine、euclidean)
(b) 有监督的分类方法:使用有label的problem集合进行训练,input是embedding,一个隐藏层,output是softmax,loss用交叉熵(只包含一个知识点)
2、Bag-of-Words:用了tf-idf作为problem的特征表示,模型采用神经网络和朴素贝叶斯
三、实验结果
1、数据集:50000+个problem,28000+个user,2630000+个record
2、combine两种方法(representation和BoW):两个模型的vector直接拼接,作为一个神经网络的输入,训练一个分类器
3、实验内容:skip-gram调参、使用距离函数进行分类(不同距离函数没太大差异、是否使用答对的record)、使用有监督方法(设置min-count会有提升)、BoW(神经网络>NB)、ensemble方法最好
四、思考
1、怎么迁移到MOOC上?(MOOC题目太少、有天然的划分)
2、怎么加入知识点的难度关系、先修关系?(做题的context一般来说是从简单到难以及课本顺序等)
作者:朱纪乐,北京大学在读硕士,研究方向为教育数据挖掘、推荐系统
领取专属 10元无门槛券
私享最新 技术干货