机器之心报道
机器之心编辑部
机器之心又一产品「SOTA模型」今天上线啦!机器学习 SOTA 研究一网打尽。
想象一下,你是一位从事机器学习的研究者,需要持续了解最前沿研究进展;或者你希望将最前沿的机器学习研究应用于自己从事的领域。为此,当你在浩瀚无边的论文海洋中畅游时,你最需要的找到的是 SOTA 论文。
SOTA,全称「state-of-the-art」,用于描述机器学习中取得某个任务上当前最优效果的模型。例如在图像分类任务上,某个模型在常用的数据集(如 ImageNet)上取得了当前最优的性能表现,我们就可以说这个模型达到了 SOTA。
那么,怎样才能高效找到 SOTA 论文呢?遗憾的是,经过多年的发展,现在依然没有一个平台能够完整地汇总、整理、归档所有 SOTA 论文。在全世界最著名的论文预印发布平台 arXiv 上,搜索 SOTA 的结果也非常杂乱无章。此外,即使有类似于 GLEU leaderboard 之类的网站可以看到一些 SOTA 模型,但也只是机器学习庞杂体系下的一小部分。
在 arXiv 上搜索 state-of-the-art 时,返回的结果会很多,但仍然不够系统。想要知道达到了 SOTA 的论文是关于什么任务、使用了什么数据,需要点进去一一查看。
机器之心作为专业的人工智能信息平台,有着多年的学术资源积累。经过对大量数据的分类与汇总,机器之心再次上线新产品:SOTA模型。你可以根据自己的需要寻找机器学习对应领域和任务下的 SOTA 论文,平台会提供论文、模型、数据集和 benchmark 的相关信息。
前沿研究触手可及
在「SOTA模型」首页,你可以直接搜索技术任务,系统会立刻返回任务定义、取得 SOTA 的模型名称、研究中最常用的模型和最热门的数据集。
如果你继续向下浏览网页,就可以看到此技术任务下所有使用过的数据集和模型,并且可以按照数据或模型的类型进行筛选。
想知道历史 SOTA?完整榜单送给你
当然,这还远远不够。SOTA 是随着时间变化的,如果我们想要看到历史上取得过 SOTA 的模型和论文呢?
再往下拉页面,就可以看到历史上在该任务上取得过 SOTA 的榜单了。
你也可以点击「数据集」、「模型」或「Metrics」进行排序。
如果你对某个研究感兴趣,可以展开详情,查看研究的出处论文。
这样一来,「SOTA模型」如同一个强大的论文搜索引擎,为你直接寻找机器学习中各种各样的 SOTA 研究。它不仅仅会告诉你是什么研究,还会提供研究使用的数据集、模型、取得的 SOTA 指标数值,以及什么时候取得的 SOTA 结果。
全面系统的知识点归档
当然,你可能是一位刚刚入门机器学习的初学者,对于机器学习中的各项任务不太清楚。这时候,「SOTA模型」会是你很好的入门学习伙伴。如下图所示,「SOTA模型」首页会提供各个机器学习子领域的入口。
以「计算机视觉」为例,你可以点击这一子领域,「SOTA模型」会提供这一领域的定义,并提供这一领域所涉及的基础概念和技术方法。你可以根据需要选择查看。
而在这一页的下方,「SOTA模型」提供了这一领域所有涉及到的任务。如边缘检测、人脸识别等。
这时候,你就可以知道是否有自己需要了解的机器学习任务了。你可以点开其中的任务查看。对于一些非常火热或成熟的研究领域,「SOTA模型」还提供了相关的活动、会议和期刊。
「人脸识别」任务下,提供了相关会议和期刊的信息
海量知识库加持的模型库
能够提供如此丰富的 SOTA 论文信息,得益于机器之心背后强大的信息平台支持。在前几个月,机器之心已上线了机器之心Pro,一个为企业、学者等各方提供专业人工智能信息服务的平台。在 Pro 平台上汇聚了海量机器学习相关信息,为「SOTA模型」提供数据加持,使得「SOTA模型」能够更进一步,提供最为前沿的研究领域 SOTA 资讯和系统的机器学习知识。
目前「SOTA模型」中已涵盖 15 个机器学习领域大类,共计 127 个机器学习任务,共收录 SOTA 论文 1174 篇,归档模型 2031 个,有记录的数据集总数为 561 个。我们也将持续更新数据。
能够囊括如此之多的信息,离不开机器之心在机器学习领域的投入研究。为了提供 SOTA 论文的数据,「SOTA模型」投入了多数据源的自动化爬虫和数据清理工具,使用了机器学习和自动化工具,对特定类型的数据进行结构化处理、数据校验和去重工作。在论文数据方面,使用了论文文本数据分析和信息提取相关技术。
论文爆炸时代,更需要为读者提供精准服务
每年,机器学习领域都会有大量的投稿论文,例如 2019 年的 CVPR 大会投稿数量就超过了 5000 篇,是 2018 年投稿数的两倍。泥沙俱下的研究,增加了业内人士筛选优秀论文的成本。「SOTA 模型」产品的上线,标志着机器之心信息服务进入了新的阶段。
接下来,「SOTA 模型」将会进一步完善内容,增加更多、更为清晰和完善的数据。如果在现有的版本中没能找到自己想要的数据,稍安勿躁,我们近期也将会添加近一倍的数据。假期归来,想要了解某个技术领域或者做项目需要查找资源时,你就能用到。
同时我们也会提供更多的分析项目,并努力和机器之心现有的知识库、新闻库等模块关联。产品也会根据用户的需求提供更为精准完善的数据分类和推荐、数据对比和可视化功能。
PC 访问,体验更佳
领取专属 10元无门槛券
私享最新 技术干货