Pubmed拥有超过两百四十万的生物医学文献。它们来源于MEDLINE (生物医学文献数据库)、生命科学领域学术杂志以及在线的专业书籍。这些文献大部分提供全文链接。
生物医学领域涉及庞大而不断增长的文献数据库,其中蕴含着宝贵的医学知识。为了更好地利用这些信息,自然语言处理(NLP)技术逐渐成为生物医学文献挖掘的得力工具。本文将深入探讨NLP在生物医学文献挖掘中的应用,通过结合实例,展示NLP如何加速科研发现、支持临床决策和推动医学领域的创新。
本文介绍了如何将不同数据库的检索结果导出,并提供了具体的数据库名单和导出方法。主要目的是方便用户对检索结果进行进一步处理。
IBM近日宣布,将把人工智能应用到癌症的治疗中,这意味着,IBM公司的Watson系统(认知计算系统)将进一步拓展其应用范围。 IBM公司宣布与美国制药公司辉瑞(Pfizer)合作,由此,辉瑞公司将成
二十一世纪是生命科学和医学的世纪,在医学科研研究领域,医学信息的获取是医学研究活动的基础。与在实验室做基础医学研究的同行不一样,临床医生忙于大量的医疗工作的同时,还要花大量宝贵的时间去互联网查询资料。
机器学习领域在过去几十年中经历了巨大的变化,不可否认的是,虽然有些方法已经存在了很长时间,但仍然是该领域的主要内容。例如,最小二乘法( least squares)的概念在19世纪早期由勒让德和高斯提出,最基本的形式的神经网络( neural networks)早在1958年就引入的,并在过去的几十年中大幅提升、支持向量机(SVM)等方法则更是较新的方法,这些方法仍然占据了机器学习领域应用中的半壁江山。 随着科研的进行,有大量可用的监督学习方法被发明。使用者通常会提出以下问题:什么是最好的模型?众所周知,这个问题没有标准答案,因为模型的有用性取决于手头的数据以及具体处理的问题,合适的就是最好的。那么,可以转换下思路,换成这个问题:最受欢迎的模型是什么?这将是本文的关注点。
今天给大家介绍2020年5月康奈尔大学Fei Wang教授团队发表在Briefings in Bioinformatics的综述“Recent advances in biomedical literature mining”。该综述总结了生物医学文献挖掘研究中存在的问题、方法和最新进展,并讨论了未来的研究方向。
今天为大家介绍的是来自Zhiyong Lu团队的一篇论文。生物医学研究产生了大量信息,其中许多信息只能通过文献获取。因此,文献搜索对于医疗保健和生物医学至关重要。最近在人工智能(AI)方面的进步已经扩展了该功能,不再局限于关键词搜索,但这些进步可能对临床医生和研究人员来说不太熟悉。
今天为大家介绍的是美国国立卫生研究院陆致用教授团队的一篇论文。PubTator 3.0是一款结合了最先进人工智能技术的生物医学文献搜索工具,它专注于蛋白质、遗传变异、疾病和化学物质等关键生物医学概念的语义及关联性搜索。该平台已累积提供超过十亿个实体和关系的注释,覆盖约3,600万篇PubMed摘要和600万篇PMC开放获取的全文文章,每周获取最新的相关信息。作者通过一系列实体对比查询展示了PubTator 3.0在文章检索方面的卓越性能,其检索量和前20条结果的精确度均优于PubMed和Google Scholar。此外,整合ChatGPT(GPT-4)的PubTator API显著提升了查询结果的事实性和可验证性。
【导读】生物医学文本挖掘领域近年来受到越来越多的关注,这得益于,科学文章,报告,医疗记录的电子化,使医疗数据更容易得到。这些生物医学数据包含许多生物和医学实体,如化学成分,基因,蛋白质,药物,疾病,症状等。在文本集合中准确识别这些实体是生物医学文本挖掘领域信息抽取系统的一个非常重要的任务,因为它有助于将文本中的非结构化信息转换为结构化数据。搜索引擎可以使用这种识别的实体来索引,组织和链接医学文档,这可以改善医疗信息检索效率。 实体的标识也可以用于数据挖掘和从医学研究文献中提取。例如,可以提取存储在关系数据库
今天给大家介绍我们湖南大学DrugAI课题组发表在Briefings in Bioinformatics上发表的一篇综述。这篇综述从“单一神经网络、多任务学习、迁移学习和混合模型”这4个方面,介绍了近年来深度学习如何从生物医学文献文中挖掘命名实体以及相关数据集。作者挑选了几个有代表性的方法,在6个常用的数据集上进行了实验比较。结果发现,深度学习的方法要普遍优于传统方法,并且不同的方法和数据集之间也有较大的差异。最后,作者总结了生物医学命名实体(BioNER)存在的一些挑战和未来的发展。
scGraph: a graph neural network-based approach to automatically identify cell types 论文摘要:
今天给大家介绍国防科技大学计算机学院王伟博士、吴诚堃副研究员等人发表于BMC Bioinformatics的一项研究工作“CGINet: graph convolutional network‐based model for identifying chemical‐gene interaction in an integrated multi‐relational graph”。在这项研究中,作者利用多个已有的生物医学关系知识库,构建了一个大规模药物信息网络,并提出一种化合物-基因相互作用预测模型。
BioGPT: generative pre-trained transformer for biomedical text generation and mining
VenomKB,简称毒液知识库,总结了5117项医学文献的研究结果,这些文献描述了毒素作为止痛片和作为癌症、糖尿病、肥胖、心脏衰竭等疾病的治疗药物。 转自|动脉网(ID:vcbeat) 翻译|陈坤 责编|黄佳 你听说过不会毒杀人反而可以治愈人的毒素吗?由于对动物毒液治疗价值的兴趣日益增长,一对哥伦比亚大学的数据科学家创建了关于已知动物毒素及其对人类的生理效应的第一个目录。 VenomKB,简称毒液知识库,总结了5117项医学文献的研究结果,这些文献描述了毒素作为止痛片和作为癌症、糖尿病、肥胖、心脏衰竭等疾
近日,「德睿智药」与广州生物岛科学家团队的合作论文“An Extensive Benchmark Study on Biomedical Text Generation and Mining with ChatGPT”,发表在国际顶级生物信息学期刊Bioinformatics上。AI大语言模型应用于生物医药领域需要深入的领域理解能力,同时科学的模型表现评估也是研发出应用于生物医药领域大语言模型的基础。为此,本论文研究团队开发出一项全面的基准测试流程,以评估各种AI大语言模型在生物医学数据挖掘上的性能。
生物系统和生物过程非常复杂,包含大量的相互作用和调控机制,理解和解析这些复杂性是一项巨大的挑战。 举例来说,单单一个人类,体内的生物信息就非常复杂:
今天我们就以小白的课题——自噬 (Autophagy) 为例,给大家展示一波。这个时候给大家隆重介绍我们的——PubMed。
文献搜索在每个科学家的日常生活中都是不变的。我们花费大部分时间来积累信息。无论是编写一个基金本子,设计/排除一个棘手的实验···这都需要我们了解领域的最新动态。其中,我们的大多数研究和文献搜索都是在线完成的。
据泰晤士高等教育报道,该机构的数据分析表明,中国的人工智能论文发表数量几乎是该领域内世界排名第二的国家的两倍,但水平较低。
本次介绍一篇由清华大学计算机系孙茂松团队发表于nature communications,名为《A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals》的论文。该论文通讯作者为计算机系党委副书记刘知远副教授与孙茂松教授,第一作者为计算机系博士生曾哲妮与姚远。该研究由国家重点研发计划与清华大学国强研究院提供支持。
Engineering Village(EV)、Web of Science数据库使用权限
今日介绍的是Alberto Santos 最新发表在《自然生物技术》上的文章 ” A knowledge graph to interpret clinical proteomics data”. 针对生物医学数据数量大、种类丰富而带来的数据整合困难,该工作提出了一个开源的临床知识图谱平台CKG(Clinical Knowledge Graph), 该平台结合了统计和机器学习算法,加速了典型蛋白质组学工作流程的分析和解释。相比于其他解决方案,CKG平台显得更加友好,将一系列数据库和科学文献信息与omic数据整合到一个易于使用的工作流中,显著增强了科学研究和临床实践的能力。
信息学正在跨学科发展,影响着化学、生物和生物医学的多个领域。除了成熟的生物信息学学科,其他以信息学为基础的跨学科领域也在不断发展,如化学信息学和生物医学信息学。其他相关的研究领域,如药物信息学、食品信息学、表观信息学、材料信息学和神经信息学等最近才出现,并作为独立的子学科继续发展。这些学科的目标和影响通常在文献中被单独回顾。因此,确定共同点和关键差异仍然具有挑战性。研究人员结合自然科学和生命科学中的三个主要信息学学科,包括生物信息学、化学信息学和生物医学信息学进行讨论,并对相关的子学科进行简要评论。重点讨论了生物信息学、化学信息学和生物医学信息学的定义、历史背景、实际影响、主要异同,并对生物信息学、化学信息学和生物医学信息学的传播和教学进行了评价。
今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章。在文中,作者提出了一种从大规模文献库中自动提取生物医学关系的机器学习框架—BERE。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子,并在考虑所有相关语句后使用特征聚合网络进行预测。更重要的是,BERE也可以通过远程监督技术在没有任何人工标注的情况下进行训练。
2022年5月5日,AI计算领域的先驱Cerebras Systems和艾伯维 (AbbVie) 宣布,艾伯维的人工智能工作取得了里程碑式的成就。在生物医学自然语言处理 (NLP) 模型上使用Cerebras CS-2,艾伯维实现了超过图形处理单元 (GPU) 128倍的性能,而能耗只有1/3。
参考:文献检索神器之Research Rabbit - 知乎 (zhihu.com)[1]
2022年2月16日,美国北卡罗来纳大学Eshelman药学院的Alexander Tropshab等人在Drug Discov Today杂志发表文章,提出了临床结果路径 (COP) 的概念,将其定义为有关药物分子治疗效果的一系列关键的分子和细胞事件。COP可以通过挖掘生物医学知识图谱进行计算阐释,这为产生新的、有指导意义的药物发现和再利用的假设铺平道路。
探索疾病之间的潜在关系一直是一个活跃的研究领域。2022年《Briefings in Bioinformatics》发表了一篇综述文章,为当前的疾病关联研究提供了一个系统的概述:总结了用于评估疾病相关性的可用生物医学数据和数据库、计算方法、软件工具/平台等,以促进疾病关联计算方法和工具/平台的开发和应用。
随着信息技术的不断发展,药物设计方法学的新概念、新方法和新思路持续更新,药物发现范式也与时俱进。人工智能作为新工具,已应用于药物发现过程的多个方面,引起了制药行业的高度关注,也带来了对药物发现科学理论和方法学的新思考和新探索。
作者:Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon, Tie-Yan Liu
EBI (European Bioinformatics Institute) 和 NCBI (National Center for Biotechnology Information) 都是全球领先的生物信息学研究机构,它们提供了大量的生物信息学数据库和工具,对全球的科研工作者开放。
AI 科技评论按:近期来自纽约雪城大学的 Daniel Acuna 等人在 bioRxiv 上发表了一篇文章,作者在文章提出了一种机器学习算法,该算法能够自动进行论文图片查重,其目的旨在解决文献查重中
文献检索是科研的基本功。传统检索文献的方法大多以关键词、主题词、作者、期刊名称等为线索,查找符合要求的文章。然而,这种检索方法忽略了科技论文的精髓–插图。在查阅文献时,直接阅读插图与图注是快速了解文章内容的捷径。所以,如果能直接通过关键词搜索插图,将会极大地提高查找文献的效率和精准度。今天,我以生物医学研究的明星信号通路NF-κB为例,介绍一种直观查询文献的新方法–以图搜文法。
不知道大家有没有发现,21 世纪网上冲浪有一个明显的特征,那就是随处可见的“缩写词”。从博大精深的中文拼音 awsl,plmm,lsp,yxh 等等,到英文缩写诸如 wtf,asap,btw,再到“中英混血” rnb,ojbk,就想问你能看懂几个? 现在,这种“缩略词潮流”不仅渗透进人们的日常生活,更是在各个科学研究领域中盛行。从歧义繁多的缩写词到不必要的术语(jargon),科研论文的可读性似乎变得越来越糟糕。 近日,澳大利亚昆士兰科技大学(Queensland University of Technology)的统计学家 Adrian Barnett 就针对科研文献中缩略词的使用,在 eLife 上发表了题为 Meta-Research: The growth of acronyms in the scientific literature 的论文,报告了对 1950 年至 2019 年之间发表的超过 2400 万篇文章标题和 1800 万篇文章摘要的分析结果。 最终发现,其中 19%的论文标题和 73%的摘要中至少包含一个缩写词。同时,缩略语的数量随着时间的推移而增加,但同一个缩略词重复使用的频率却有所减少。
机器之心发布 机器之心编辑部 12 月 18 日,在世界人工智能大会发起的 AIWIN 抗新冠人工智能挑战赛的颁奖典礼上,由天士力国际基因网络药物创新中心公司研发的、包含新冠文献智能分析功能的 「星斗云生物医学文献全息智能管理平台」脱颖而出,获得知识图谱类比赛的冠军,并荣获「抗新冠,助科研,AI 赋能者」称号。 平台链接:http://literature.tasly.com/covid19 在分享现场,天士力基因网络公司的数据总监李旭博士介绍称,天士力的星斗云平台基于多维度生物大数据(海量组学与药物数据
小蛋白是翻译自小开放阅读框(small open reading frame, sORF)、长度低于100个氨基酸的蛋白质,在此前的基因组注释中通常被忽略。sORF广泛存在于人类等多种生物的基因组中,包括mRNA的非翻译区(untranslated regions, UTR)以及多种非编码RNA (non-coding RNA, ncRNA)区域,部分能够翻译成小蛋白。近年来,越来越多的研究发现小蛋白在胚胎发育、细胞凋亡、肌肉收缩等多种生物学过程中行使功能,并在肿瘤等疾病进展中发挥作用。
大数据文摘翻译作品 作者:Mary Shacklett 翻译:孙沁 校对:康欣 如需转载,后台留言申请授权 欢迎熟悉外语(含各种“小语种”)的朋友,加入大数据文摘翻译志愿者团队,分别回复“翻译”和“志愿者”可了解更详细信息。 斯坦福大学将于2015年5月20到22日举办一个生物医学领域的大数据会议,该会议针对各大高校、医院、政府部门和机构的医学研究人员,旨在鼓励合作、应对挑战以及建立在医疗保健领域使用大数据的可行步骤。 这里存在着很多机遇。无论是通过能处理海量数据的科学计算项目(mega-scientif
近日,北京哲源科技有限责任公司(Phil Rivers Tech)宣布已完成A轮融资。本轮融资由博行资本以及泰雅资本领投,海金格医药等跟投。本轮融资将用于“计算医学”平台升级和推进自研管线。
艾伦AI研究所的科学家,改造了著名的谷歌语言模型BERT,让它学习过往的医学文献,来分析补充剂和药物之间的作用,还开发了一个搜索引擎:
2022年7月7日-10日举行的中国创新药物(械)医学大会暨第七届中华医学事务年会(CMAC)首次设置了“计算医学”专场论坛。CMAC年会是医学领域规模最大、最高端的行业盛会。2022年第七届CMAC年会受到了中国食品药品国际交流中心、中国药品监督管理研究会、中国外商投资企业协会药品研制和开发行业委员会(RDPAC)、中国卫生信息和健康医疗大数据学会数字医学与医学事务专业委员会等相关部门和机构支持。计算医学分论坛由赛诺菲大中华区医学部负责人兼CMAC大会主席谷成明博士、中国科学院计算技术研究所高性能计算机研究中心主任谭光明担任该论坛主席,中科计算西研院客座研究员、图灵-达尔文实验室副主任赵宇主持了论坛全部活动。
又到了一年一度的学论文的时候到了,是否还在为无法下载论文资料苦恼?今天带给大家的是支付宝骚操作,免费下载万方、知网、方正、中国仲裁等近160多个国家重点数据库的文献资料,你只要有一个支付宝账户就可!
Highly accurate classification of chest radiographic reports using a deep learning natural language model pre-trained on 3.8 million text reports 论文摘要:
“我们很高兴发布一种在PubMed上训练的新生物医学模型,这是构建可支持生物医学研究的基础模型的第一步。”——CRFM主任Percy Liang
今天为大家介绍的是来自Christoph Bock和Matthias Samwald的一篇评估大语言模型的论文。生物过程的计算模拟可以加速生物医学研究,但通常需要广泛的领域知识和手动调整。最近,如GPT-4等大型语言模型(LLMs)已经证明在生成人类语言方面取得了惊人的成功,可用于各种任务。在这里,作者探讨了利用LLMs作为生物系统模拟器的潜力,建立了一个名为SimulateGPT的文本模拟器,该模拟器利用了LLM的推理能力。作者展示了模型在各种生物医学应用中具有良好的预测性能,无需显式的领域知识或手动调整。因此,LLMs为一类新的通用生物模拟器提供了可能。
本次活动从前沿技术、产品以及商业化落地等多个角度出发,旨在为智能医疗行业内的玩家们提供新的思考。
文献:Erik Faessler and others, GEPI: large-scale text mining, customized retrieval and flexible filtering of gene/protein interactions, Nucleic Acids Research, 2023;, gkad445, https://doi.org/10.1093/nar/gkad445
为什么别人总是那么秀? Paper不断,成果一堆! 隔壁生产队的驴都没这么能干的~ 不选择躺平是第一步 其次他没告诉你 自己一直关注的硬核公众号 不仅学术动态尽知 还能习得深度干货 掌握学术思维方法 让你分分钟成为资深学术人 还等什么 赶紧关注吧 赶紧♥长按二维码, 选择“识别图中二维码”订阅。 ---- ▼ 日读好书 ID:rdhs888 简介:读每一次的翻阅,都是一场久别的重逢,一个人,一句话;一段故事,一生思索,关注我,让文字触动你的灵魂! ▲长按上方二维码识别关注 医学硕博园 ID:yixu
领取专属 10元无门槛券
手把手带您无忧上云