如今,这场疫情早已开始在全球范围内传播,全球数十家实验室陆续关闭,这对冠状病毒的研究工作进展十分不利。与此同时,全球众多国家和地区联合签名要求共享 COVID-19 研究数据集以及相关论文,并建议发布者同时提供 AI 软件和其他计算机系统可以直接使用的数据格式,以加速研究过程。
近日,科技界、学术界正式宣布了一个公开数据集 CORD-19,内含截至 3 月 13 日的所有新型冠状病毒的论文,并包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,汇集了有关 SARS-CoV-2 病毒内容在内的共计近 3 万篇文献。
根据相关人员介绍,新的数据集是机器可读的,可以轻松进行解析以用于机器学习目的。为了让研究人员可以快速梳理清楚数据,美国国家科学、工程和医学研究院与世界卫生组织合作,提出了与冠状病毒有关的“高优先级”问题,这些问题与遗传、治疗、症状和预防等相关。
此前,全球已有包含美国、意大利、韩国、英国等在内的 11 个国家和地区要求相关机构开放这些数据集,以供研究。这里的相关机构包括 PubMed Central(美国国立卫生研究院提供的一项服务, 存档生物医学, 生命科学科研文献)和世界卫生组织的 Covid 数据库。在呼吁开放数据集的公开信中写道:
希望发布者可以提供相关的 AI 软件和计算机系统可以直接读取和使用的数据格式,而不是一个简单的 PDF 文档。
除了用于研究,相关机构也需要对内容进行筛选。此前,很多研究人员已经发布了不少与疫情相关的研究成果,但由于时间问题,不少论文都属于“预印本”状态,未经同行评审,可能存在一些问题,需要审查。《新英格兰医学杂志 (NEJM)》执行主编 Edward Campion 就曾表示:
我们每天收到多达 20 份关于冠状病毒的报告,坦率地说, 其中一些并不是高质量的文章。我们的部分责任是选择我们认为对临床受众和公共卫生受众最重要的内容。
值得注意的是,Kaggle 还围绕此主持了一场 COVID-19 开放研究数据集挑战赛,旨在激发开发人员使用 CORD-19 来寻找有关本次疫情如此大规模流行的新见解,包括该病毒的历史、传播和诊断,人畜接触的管理措施,先前流行病学研究的经验教训等。Kaggle 为获奖者提供了每项任务 1000 美元的奖励,其他奖品和详细信息参照挑战赛官网说明。
COVID-19 开放研究数据集地址:https://pages.semanticscholar.org/coronavirus-research
因新冠病毒疫情影响,哈佛最近在陆续关闭实验室或大规模缩减实验室成员,这样的事情同样发生在其他实验室,这导致疫情相关的很多研究开展受阻,业界需要开放数据集进一步提高生产力。
通常,实验室是根据当地爆发的程度来决定运营方式,但目前全球疫情爆发严重,有些实验室陆续关闭,有些不鼓励继续研究,开放的一些机构虽然允许人员进入实验室,但也在控制人数,最大程度避免聚集在建筑物中的人数。爱荷华大学长期致力于冠状病毒研究的研究员 Stanley Perlman 表示:
已经不再允许学生在实验室里工作,而且研究生有一定的限制。这样一来,可以同时限制人数,并减少有人传播 SARS-CoV-2 病毒的机会。
这也在一定程度上影响了疫情的相关研究,研究人员表示,公共卫生和实验室成员的安全至高无上,但他们仍然担心离开实验室数周或数月将意味着必须重新启动某些项目或放弃实验,浪费时间和资源。约翰霍普金斯大学彭博公共卫生学院分子微生物学和免疫学教授 Arturo Casadevall 表示:到目前为止,我们保持开放状态,但情况非常不稳定。据了解,他正在研究针对 Covid-19 的治疗方法。
早在一月份,在疫情被宣布为国际公共卫生紧急事件前,中国科学家就快速分享了 SARS-CoV-2 病毒首个基因组信息。去年 12 月底,武汉首次报告了新型冠状病毒肺炎。1 月 8 日,中国科学家完成了病毒基因组测序,并将其公开,以便让全世界的科学家投入到对抗 SARS-CoV-2 的战役中。
今年 1 月 31 日,也就是新型冠状病毒成为全球关注的突发公共卫生事件的第二天,94 家学术期刊、学会、研究机构和公司就曾签署了一项协议, 承诺至少在疫情爆发期间免费提供有关该疾病的研究和数据。
签署了这项协议的《公共科学图书馆(PLOS)》一直是开放获取,他们向作者而不是读者收取费用。PLOS 的主编 Joerg Heber 表示:
公共科学图书馆已做好应对任何疫情的准备。除了开放获取外,该期刊还要求复制研究所需的所有数据与之一起发表。尽管如此,同行评议研究仍然需要时间,因此 PLOS 强烈鼓励所有提交与冠状病毒相关论文的研究人员将这些论文作为预印本发表,以便尽快获得。
如今,汇集了所有研究成果的数据集正式开放,这不仅可以加速疫情的研究过程,同样可以对相关传染病的研究提供经验。如果开发者感兴趣,可以访问 COVID-19 数据集的官网进行下载,同意相关许可即可。
相关链接:
COVID-19 开放研究数据集地址: https://pages.semanticscholar.org/coronavirus-research
COVID-19 开放研究数据集挑战赛地址: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
领取专属 10元无门槛券
私享最新 技术干货