Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0 版本”

清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0 版本”

作者头像
用户1737318
发布于 2019-03-15 02:56:34
发布于 2019-03-15 02:56:34
1.1K0
举报
文章被收录于专栏:人工智能头条人工智能头条

转自 | “SciTouTiao”微信公众号

开放学术图谱 (OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术 (Microsoft Academic Graph,MAG)和AMiner 。 近日,清华大学和微软研究院联合发布了OAG v2,包含7亿多实体数据和20亿关系,其中包括 AMiner 的2.8亿实体数据(包括:作者、论文、会议、话题)和微软学术的4亿多实体。 OAG v2 实现了两个数据集中实体的自动匹配链接。OAG v2 也是之前发布的OAG v1的一个更新版本。

免费下载网址:https://www.openacademic.ai/oag/

OAG v1

2017年8月,清华大学和微软研究院联合发布的 OAG v1,具体来说包含了来自 MAG 的 166,192,182 篇论文和来自 AMiner 的 154,771,162 篇论文的元数据信息。

经过集成这些数据信息,生成了两个学术图谱之间近 64,639,608 对链接(匹配)关系。

OAG v1概览

OAG v1 在过去一年多的时间里吸引了约 40,000 次下载。这次,OAG v2 在 OAG v1 的基础上增加了作者以及出版地点相关的数据。

OAG v2

OAG v2 包含了更多类型实体(作者,出版地点,论文)以及相应的匹配关系。OAG v2 定义的问题如下图所示。

大规模实体匹配的示例

上面的表格介绍了 OAG 目前有约7亿实体数量,不同实体相互联系构成一个大规模异构网络。图中间表示作者名字的歧义性。

图下面展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。

OAG 致力提供完全开放、免费的公开学术图谱。截止2019年1月,OAG 包括约7亿实体和约20亿实体之间的链接关系。OAG v2 的统计数据如下面三个表所示。MAG和AMiner两个学术图谱都在不断演变,OAG v2 采用了 MAG 2018年11月的快照和 AMiner 2018年7月或2019年1月的快照。

数据类型

#匹配对/出版地点

日期

匹配关系

29,841

2018.12

AMiner出版地点

69,397

2018.07

MAG出版地点

52,678

2018.11

表1:OAG出版地点数据统计

数据类型

#匹配对/论文

日期

匹配关系

91,137,597

2018.12

AMiner论文

172,209,563

2019.01

MAG 论文

208,915,369

2018.11

表2:OAG论文数据统计

数据类型

#匹配对/作者

日期

匹配关系

1,717,680

2019.01

AMiner作者

113,171,945

2018.07

MAG作者

253,144,301

2018.11

表3:OAG作者数据统计

注:对于作者匹配,学者们只考虑了论文数不少于5的作者。将论文数量较少的作者排除后, AMiner 中有 6,855,193 位作者,MAG 中有 13,173,936 位作者。

挑战与困难

构建亿级开放学术图谱是一项极具挑战的研究工作。下面举例说明主要的难点所在:

1. 实体异构

OAG 中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。

此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如 Quoc Le 和 Le, Quoc;出版地点有全称或缩写等多种形式。

2. 实体歧义

同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在 KDD 2016 中收集了两篇题为 “robust influence maximization” 的不同论文。

3. 大规模匹配

要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner 和 MAG 各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。

为此,学者们尝试结合哈希算法,不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。

评估

学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),准确率如表4所示。

实体类型

出版地点

论文 (新匹配)

作者

准确率

99.26%

99.10%

97.41%

表4:实体匹配准确率

开放学术图谱是开放学术组织 (Open Academic Society) 的一个重要项目。 它是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。 开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。

OAG 可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。

详细信息欢迎访问:

https://aminer.org/open-academic-graph

https://www.openacademic.ai/oag/

参考文献

[1] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246. [PDF ][System ][API ]

[2] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998. [PDF ] [Slides ] [System ] [API ]

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2亿篇论文免费看!「微软学术」停用,OpenAlex要接班
最近,大型免费学术资源索引OpenAlex宣布上线,该索引包含超过 2 亿份科学文献。
新智元
2022/02/24
6850
2亿篇论文免费看!「微软学术」停用,OpenAlex要接班
亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约 7 亿实体数据、20 亿关系
AI 科技评论按:继 2017 年 8 月份首度联合发布开放学术图谱(Open Academic Graph, OAG),近日,清华大学和微软研究院再度携手将 OAG 更新为 2.0 版本并进行了发布。
AI研习社
2019/03/14
1.2K0
亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约 7 亿实体数据、20 亿关系
AMiner背后的技术细节与挑战
本文为《程序员》电子刊原创文章,如需转载请注名出处 作者:唐杰、张静、张宇韬 摘要:AMiner利用数据挖掘和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别等众多功能。 学术文献记载着科学的发展和进步,在科技日新月异高速发展并成为“第一生产力”的今天,学术信息,包括:论文,作者和会议,以及这些实体之间的相互关系,对研究界和企业界都起着越来越重要的作用。有效进行科技论文的组织与管理不仅可以有效提高论文质量
用户1737318
2018/06/05
1.2K0
AAAI&KDD:带你了解“神经网络的代码生成”与“开放学术图谱 ” | 清华AI TIME PhD
2019年11月20日,第二期AI Time PhD在冬日寒冷的北京擦出了学术的火花。现场来自各大高校的学子与嘉宾一同认真聆听、仔细记录、热烈讨论。
数据派THU
2019/11/28
8170
AAAI&KDD:带你了解“神经网络的代码生成”与“开放学术图谱 ” | 清华AI TIME PhD
上交大 Acemap 团队发布学术知识图谱 AceKG,涵盖 1 亿多个学术实体
日前,上海交通大学王新兵教授和张伟楠教授指导的 Acemap 团队知识图谱小组发布了学术知识图谱 AceKG。从官网可以看到,Acemap 知识图谱(AceKG)描述了超过 1 亿个学术实体、22 亿条三元组信息,包含六千多万篇论文、五千多万位学者、五万多个研究领域、将近两万个学术研究机构等,数据集将近 100G。 知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数
AI研习社
2018/03/28
2.4K0
上交大 Acemap 团队发布学术知识图谱 AceKG,涵盖 1 亿多个学术实体
​清华&中国工程院联合发布:人工智能全球2000位最具影响力学者
今天上午,清华和中国工程院知识智能联合研究中心在清华大学联合发布《人工智能全球2000位最具影响力学者》,通过AMiner学术数据在全球范围内遴选出了2000位人工智能学科最有影响力、最具活力的顶级学者并进行了分析,揭秘了人工智能领域人才现状。
大数据文摘
2020/02/12
4670
人工智能学术引擎帮助科学家应对海量文献
目前有超过3.4万种同行评议学术期刊,这些期刊每年合计发表的文章数约250万篇。据估计,一名研究人员每年约能阅读其中的270篇文章,具体取决于所研究的学科。 科学家们永远追赶不上学术文章发表的速度,因而会错过一些重要的学术见解。幸运的是,美国艾伦人工智能研究所(Allen Institute for Artificial Intelligence,AI2)的新研究成果有助于克服这一难题。AI2将其基于人工智能的搜索引擎Semantic Scholar扩展到了神经科学领域。此功能的推出意味着AI2向其长期愿景
人工智能快报
2018/03/07
1.2K0
Aminer学术社交网络数据知识图谱构建(三元组与嵌入)
科技情报大数据挖掘与服务系统平台AMiner是由清华大学计算机科学与技术系教授唐杰率领团队建立的,具有完全自主知识产权的新一代科技情报分析与挖掘平台 。
里克贝斯
2021/05/21
1.2K0
Aminer学术社交网络数据知识图谱构建(三元组与嵌入)
手握近30篇顶会!90后学霸韩旭喜提清华大学优秀博士学位论文奖
---- 新智元报道   编辑:如願 桃子 【新智元导读】手持近30篇论文,师从清华大学孙茂松和刘知远,这位90后斩获了清华大学2022年度优秀博士学位论文奖。 近日,一位90后清华博士生斩获了清华大学2022年度优秀博士学位论文奖。 这篇获奖博士论文题目是《开放域文本的结构化知识获取》。 手握近30篇顶会,师从孙茂松 或许我们对韩旭这个人并没有太多了解。 但你一定熟悉清华大学自然语言处理实验室两位大牛孙茂松教授和刘知远副教授。 这位90后在博士期间便师从刘知远副教授,博士后导师为孙茂松教授。
新智元
2022/07/12
1.1K0
手握近30篇顶会!90后学霸韩旭喜提清华大学优秀博士学位论文奖
吐血整理!12种通用知识图谱项目简介
通用知识图谱大体可以分为百科知识图谱(Encyclopedia Knowledge Graph)和常识知识图谱(Common Sense Knowledge Graph)。
IT阅读排行榜
2022/04/14
3.3K0
吐血整理!12种通用知识图谱项目简介
知识图谱入门(一)
本文是一篇最新的知识图谱综述论文 Knowledge Graphs[1] 的阅读笔记。由于篇幅较长,故拆分为多个部分推送。
口仆
2020/08/14
2.6K0
清华大学发布:人脸识别最全知识图谱
自20世纪下半叶,计算机视觉技术逐渐地发展壮大。同时,伴随着数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种图像处理与分析的需求和应用也不断促使该技术的革新。计算机视觉技术的应用十分广泛。数字图像检索管理、医学影像分析、智能安检、人机交互等领域都有计算机视觉技术的涉足。该技术是人工智能技术的重要组成部分,也是当今计算机科学研究的前沿领域。经过近年的不断发展,已逐步形成一套以数字信号处理技术。计算机图形图像、信息论和语义学相互结合的综合性技术,并具有较强的边缘性和学科交叉性。其中,人脸检测与识别当前图像处理、模式识别和计算机视觉内的一个热门研究课题, 也是目前生物特征识别中最受人们关注的一个分支。
钱塘数据
2018/12/24
1.4K0
清华大学发布:人脸识别最全知识图谱
中科院赵军:开放域事件抽取 | CCF-GAIR 2018
AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。
AI科技评论
2018/07/27
1.5K0
中科院赵军:开放域事件抽取 | CCF-GAIR 2018
伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱!
近日,图灵奖得主、深度学习教父Yann LeCun在社交媒体发出警告,称“人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待。”
AI科技评论
2020/11/06
2K0
伯克利&清华从GPT等预训练语言模型中无监督构建出知识图谱!
清华大学成立AI研究院:张钹院士任院长,Jeff Dean成为计算机学科顾问
在上午的发布会上,清华大学表示,新成立的研究院将致力于以人工智能理论和基础方法研究为核心,积极推进大跨度学科交叉融合,积极推进大范围技术与产业、学校与企业的融合。目前,国内高校在人工智能领域的教育投入正进入高速发展阶段。今年 3 月 6 日,南京大学成立了人工智能学院,著名学者周志华任院长,南大表示,该校将致力于建设一流的人工智能基础研究基地和人才培养基地。
机器之心
2018/07/26
3000
清华大学成立AI研究院:张钹院士任院长,Jeff Dean成为计算机学科顾问
知识图谱综述论文阅读
论文为A Survey on Knowledge Graphs: Representation, Acquisition and Applications,发表日期2020年,论文PDF,点击链接。
里克贝斯
2021/05/21
9210
知识图谱综述论文阅读
微软亚洲研究院副院长周明:微软的 NLP 帝国
【新智元导读】 微软几乎所有和 AI 相关的重要产品,背后都体现了 NLP 技术的重要性,这也是微软亚洲研究院深耕已久的领域。微软亚洲研究院副院长、ACL主席周明博士以《自然语言处理前沿技术》为主题,分享了微软对包括神经网络翻译、聊天机器人、阅读理解等板块在内的 NLP 领域的思考,并接受了新智元等媒体的采访。周博士指出,“语言智能是人工智能皇冠上的明珠”,他认为目前 NLP 技术的发展呈现出六大趋势,同时为大家阐述了未来的 NLP 技术的六大研究方向。 自然语言处理对于微软有多重要? 微软几乎所有和 AI
新智元
2018/03/28
1.2K0
微软亚洲研究院副院长周明:微软的 NLP 帝国
从技术到人才,清华-中国工程院知识智能联合实验室发布「2018自然语言处理研究报告」
摘自AMiner 机器之心整理 参与:李亚洲、思源 自然语言处理是现代技术最重要的组成部分之一,而最近清华大学和中国工程院知识智能联合实验室发布一份非常全面的 NLP 报告。该报告从 NLP 的概念介
机器之心
2018/08/07
4910
从技术到人才,清华-中国工程院知识智能联合实验室发布「2018自然语言处理研究报告」
推荐算法不够精准?让知识图谱来解决
来源 | 微软研究院AI头条(公众号ID:MSRAsia) 编者按:我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐系统作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务。但传统的推荐系统容易出现稀疏性和冷启动的问题,而知识图谱作为一种新兴类型的辅助信息,近几年逐渐引起了研究人员的关注,本文将向大家介绍知识图谱的相关知识以及知识图谱在推荐系统中可能的应用价值。一起来学习一下吧! 小王是一名程序员。早上八点,他被闹铃叫醒,拿起手机开始浏览手机上的
用户1737318
2018/06/05
1.5K0
Academic social networks: Modeling, analysis, mining and applications 2019翻译
在快速增长的学术大数据背景下,社交网络技术最近引起了学术界和工业界的广泛关注。学术社会网络的概念正是在学术大数据的背景下产生的,指的是由学术实体及其关系形成的复杂的学术网络。有大量的学术大数据处理方法来分析学术社交网络丰富的结构类型和相关信息。现在各种学术数据都很容易获取,这让我们更容易分析和研究学术社交网络。本研究调查了学术社交网络的背景、现状和趋势。我们首先阐述了学术社会网络的概念和相关研究背景。其次,基于节点类型和时效性分析模型。第三,我们回顾分析方法,包括相关的指标,网络属性,和可用的学术分析工具。此外,我们还梳理了一些学术社交网络的关键挖掘技术。最后,我们从行动者、关系和网络三个层面系统地回顾了该领域具有代表性的研究任务。此外,还介绍了一些学术社交网站。本调查总结了当前的挑战和未解决的问题。
全栈程序员站长
2022/09/05
8090
Academic social networks: Modeling, analysis, mining and applications 2019翻译
推荐阅读
相关推荐
2亿篇论文免费看!「微软学术」停用,OpenAlex要接班
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档