大数据、自然语言理解、人工智能在现今科技创新的时代已成为各行各业的热门词汇,教育领域当然也不例外。2018年1月,教育部将人工智能、物联网、大数据处理正式划入全国高中新课标。正在热议的两会,多位全国政协委员热议人工智能与教育:加快培养人工智能化人才,人工智能助力个性化学习,人工智能辅助教师工作(决策、教育、教学)等。
大数据、人工智能技术如何真正服务教育领域?
《红楼梦》作者前后同一性识别
近期,新版《红楼梦》作者署名改动为:(前八十回)曹雪芹著,(后四十回)无名氏续,引发学界广泛的关注与讨论。红学界关于《红楼梦》的作者争议一直很大,前八十回和后四十回到底是不是同一个作者?红学研究者们经过多年的史料研究至今也没有定论。事实上,学术界多有此类作者判别之争议与难题,本文将利用大数据语义智能分析技术,通过分词、语言统计、概率计算与文本相似度分析来进行《红楼梦》前后作者同一性判别。
虚词统计
每位作者都有自己独特的写作小习惯,比如使用虚词的顺序与数量会存在着差异,这就是我们研究的切入点。我们根据1987李贤平发表的《〈红楼梦〉成书新说》一书中选择的四十七个虚字,将《红楼梦》120回均分为3组(第1回-第40回、第41回-第80回、第81-第120回),使用NLPIR-paser统计出文言虚词的词频与概率,三组数据中部分虚词统计结果如下:
表1 虚词统计
KL距离
KL距离(相对熵),它衡量的是相同事件空间里的两个概率分布的差异情况。当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大,所以相对熵可以用于比较文本的相似度。
表2 KL距离分析
回数KL值回数 | 1-40 | 41-80 | 81-120 |
---|---|---|---|
1-40 | 0 | 0.008 | 0.082 |
41-80 | 0.007 | 0 | 0.06 |
81-120 | 0.051 | 0.049 | 0 |
分析结果显示:前两组任意一组与第三组的KL值都是前两组组内KL值的近十倍,也就是说前八十回两组数据与第三组的差别比前两组组内差别大的多,即前八十回文本相似度较高,与后四十回文本差异较大。
我们还将红楼梦120回分别分为六组、十二组数据分别进行分析,不仅分析前八十回与后四十回的差异,还分析了前八十回与后四十回组内的差异,通过反复的推敲得出前八十回与后四十回的写作风格存在明显差异。故可以大胆猜测红楼梦前后作者并非同一人。
关于教育,我们能做的还有很多…
人工智能的教育应用场景
知识传播
大数据不仅是一种技术,还是实实在在的硬学问,有系统的理论与方法,所以必须增加这门知识学问的传播力度,尤其不能仅局限于理论的课堂,教学、科研、实践必须并重地扎根于具体应用场景中才有意义。人工智能人才产教融合才能满足市场对人工智能专业技术人才的大量需求。
教育管理
首先,教育管理工作会面临海量文档的管理与分析,论文类、报告类、统计类等。比如论文管理:文章分类,文档查重、相似度分析,精准检索等功能需求,自然语言理解正是文档处理的专家,基于自然语言处理技术的平台完全可以成为文档管理与分析的得力助手。其次,教育机构,尤其是高校因其高等教育属性,公众有特别期待,舆情管理的需求更加迫切。近期网红教授薛兆丰北大离职事件引起热议,我们完全可以利用大数据挖掘分析技术实现舆情管理与分析的各个功能需求:热点发现、话题追踪、负面信息倾向性分析、舆情搜索、自动报告等。
教、学、科研
我们在教、学、科研的过程中都会面临许多需求,比如查找文献,了解学术研究的热点与趋势,文本内容处理(分词、翻译、分类聚类、作者、摘要、关键词的自动提取与自动摘要)等,尤其是语言类、管理类、计算机类或需要处理大量文本的专业,自然语言理解将成为一大利器。另一方面,知识的领域庞大而深奥,知识图谱技术可以历史文献、动态快报、活动会议、项目课题、期刊杂志、专家作者等多个维度整合知识体系,挖掘知识关联关系,构建一个便于管理与分析的知识图书馆。
人工智能教育应用的核心:自然语言理解
NLPIR大数据语义智能分析平台针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后历时十八年,服务了全球四十万家机构用户,是大数据时代语义智能分析的一大利器。
NLPIR大数据语义智能分析平台十三大功能:
NLPIR大数据语义智能分析平台客户端。欢迎大家下载使用。
NLPIR大数据语义智能分析平台白皮书: http://www.nlpir.org/NLPIR-Parser-WhitePaper.pdf (约3MB)
NLPIR大数据语义智能分析平台:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。