设计并实现了一个基于Django+LayUI+HBase的文献数据挖掘系统,以帮助科研人员分析出相关科技前沿领域的专家、机构等的学术影响力。并挖掘领域高频词和不同协作者之间的关系图谱,如此便可达到科研决策支持的目的。
本系统的功能主要分为三个模块,分别是数据统计分析结果展示平台、后台管理系统和数据存储平台,其总体功能架构如图所示。
考虑到系统需求,采用在CentOS系统上,搭建整个开发和运行环境,其中包括Hadoop分布式平台以及HBase分布式数据库,在Win10上搭建Django框架和关系型数据库MySQL等必要的开发环境。
①. 注册页面如下:
点击注册按钮后,系统邮箱会自动给注册用户邮箱发激活链接(如下图),当用户在个人邮箱中点击激活链接后方可登录,以此来确认注册为本人操作。
②. 登录页面如下:
③. 忘记密码页面如下,使用邮箱验证修改密码:
用户在收到邮件后点击修改页面链接后,跳转到如下页面进行密码修改。点击“提交”按钮后会自动跳转到登录页面进行登录,如图为修改密码页面图。
用户成功登录进入系统主页面后,可进入个人中心查看个人信息,同时可以完善或修改自己的个人信息,其中包括头像、密码、昵称、性别和地址等信息。
全局检索功能主要方便用户快速查找所需信息。其中,本系统提供了“标题”、“作者”和“机构”三个方面的模糊查询服务,并对英文关键词大小写不敏感。如图为按论文标题查找,关键词为Machine LEARNING。
1. 论文所属国家分布(图表基于Echarts实现)
2. AAAI会议历年中稿率
3. AAAI词云图
①. 动态词云图,使用WordArt第三方在线工具导入。
②. 静态词云图,使用Python中的wordcloud制作。
4. AAAI作者关系图谱
在对作者数据构建共现矩阵并得出其三元组存储形式后,将数据导入到Gephi,使用力引导布局绘制出如下知识图谱,并以SVG矢量可伸缩图片保存,将其导入到HTML中,借用开源JavaScript包svg_Zoom_Pan实现可无限伸缩且可平移的网页效果。
5. AAAI会议论文主题聚类(使用LDA主题模型)
其中top5主题分别是:
6. AAAI会议论文概览及下载页面
点击标题链接后可进入到论文详情页面,可看到论文标题、摘要以及作者和所属机构,同时对于已登录用户可提供PDF论文下载服务。
7. AAAI会议论文作者统计
本系统对前五年的作者、前三年以及2018年的做了统计(其中细化为所有作者和第一作者两部分)
8. AAAI会议论文机构统计
本系统同时对前五年、前三年和2018年机构做了统计,细化规则同上,此处不再赘述。