机器之心发布 机器之心编辑部 CT 图像在对新冠肺炎提供准确、快速、廉价的筛查和检测方面很有前景,但很多研究者都苦于找不到合适的数据集。...结果表明,CT 扫描有望用于筛选和检测新冠肺炎,然而还需要更先进的方法来进一步提高准确性。 创建数据集 本节描述如何构建 COVID-CT 数据集。...尽管他们所使用的关于新冠肺炎的 CT 图像数据集是目前最大的公开可使用的新冠 CT 数据集,然而它依旧较难达到训练模型所需的数据量。...为了解决训练数据不足的问题,研究者采用了迁移学习的方法:使用 NIH 发布的 ChestX-ray14 数据集来预训练 DenseNet,然后在 COVID-CT 数据集上对预训练后的 DenseNet...其中,他们根据病人将其分为训练集、验证集和测试集。 表 1 总结了每个数据集中新冠阳性和新冠阴性图像的数量。每个 CT 图像的大小都调整为 224*224。在验证集上对超参数进行调优。
刚刚(好吧,其实是前两天),美国国立卫生研究院(NIH)临床中心宣布:一份堪称最大规模的胸部X光片数据集,正式开放给科研学术使用。...NIH临床中心发布的该数据集含盖了超过10万个匿名胸部X光片图像及其相应数据,还增加了教授计算机如何检测和诊断疾病的方法,NIH希望开放数据集后可以让医院借用AI为临床医生提供更好的诊断决策辅助。...该数据集采集过程中,NIH参与编辑了3万多名患者的扫描数据,其中还有很多患有晚期肺部疾病的扫描数据。此外,还有来自合作研究机构,以及资源参加临床试验的志愿者。...不过NIH临床中心相信,这份数据集的开放,将有利于胸部X光片图像被计算机更加高效、精准地“阅读”,而且技术也更容易普及到发展中国家。 NIH也承诺,将在未来几个月内增加大量的CT扫描数据。...互动时间 想要这份胸部X光片图片数据集,以及在这一数据集上形成的研发论文?可以在量子位微信公众号(QbitAI)后台对话界面,回复“X光”两个字即可获得。
构建COVID-CT数据集,训练深度学习模型诊断新冠肺炎 为了解决这个问题,研究团队构建了一个COVID-CT数据集,其中包含275个新冠肺炎检测呈阳性的CT图像,并向公众开放,以助于基于CT图像的新冠肺炎检测的研发...尽管研究团队所使用的关于新冠肺炎的CT图像数据集是目前最大的公开可使用的CT图像数据集,然而它依旧较难达到训练模型所需的数据量。...具体来讲,研究团队使用NIH发布的ChestX-ray14 数据集来预训练DenseNet,然后在COVID-CT数据集上对预训练后的DenseNet进行微调。...其中,研究团队根据患者数据将其分为训练集,检验集和测试集,图表1总结了每个数据集中新冠阳性和新冠阴性图像的数量,每个CT图像的大小都调整为224*224,并通过验证集对超参数进行调优。...总结 研究团队建立了一个关于新冠肺炎的公开CT扫描数据集,来促进通过读取CT图像进而筛选和检测新冠肺炎患者的AI技术的发展。 此数据集包含275个CT扫描结果为阳性的新冠肺炎患者的CT图像。
我们创建的图像看起来非常逼真,适合创建用于深入学习的训练数据集。我们应用此方法为Covid19的CT挑战赛的开发人员创建一个合成玩具数据集。 数据隐私是医学图像数据公开的一个重要挑战。...在这个比赛中的CT数据,不像大脑成像数据那么敏感,因为病人的头部和面部都被剪掉了,其余的图像数据本身不包含与人相关的信息,病人信息只为主要医务人员所知。...在数据传输之后,任何剩余的元数据都会被剥离到与质询相关的最小信息集,其余的临床元数据不是特定于患者的(年龄、性别、PCR结果、入院后天数、结果类别、临床事件)。...然而,作为数据科学家,我们希望至少有一个最小的代表性数据集可用,这有助于感受数据的外观和可变性、潜在的挑战以及算法的快速原型。...我们不想从这个toy数据集中恢复原始图像,所以我们采用了三种随机化形式: 首先,toy数据集是从总数据的随机选择子集生成的。
---- 新智元报道 来源:HIN 作者:大明,闻菲 【新智元导读】NIH临床中心最新公布了一个迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集DeepLesion,研究人员在此基础上训练深度神经网络...CT图像数据集DeepLesion,也是迄今全球规模最大的多类别、病灶级别标注的开放获取临床医疗图像数据集。...DeepLesion:迄今最大的多类别、病灶级标注临床医疗图像开源数据集 在NIH临床中心,每当有患者做完CT扫描后,相应的扫描图像都会被送至放射科医生处,然后医生会对图像进行解读。...在开发DeepLesion数据集时,研究人员决定使用NIH临床PACS数据库中的“RECIST diameters”(Response Evaluation Criteria In Solid Tumors...“CT图像的动态范围较大,因此我们采用16比特无损压缩png格式来保存所有图像。这些图像的使用方法可以参考数据集的FAQ文件,也可以参考论文[5]的源代码。”
相关文章:LIDC-IDRI肺结节公开数据集Dicom和XML标注详解 ---- 一、数据源 训练数据源为LIDC-IDRI,该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。...【有利点】 CT图像的连续性(等间隔多次断层扫描,可以更有利于对结节的判别) 三维CT图像(不同轴切方向扫描) 进行预处理(如去噪,增强,平滑等处理) 【不利点】 数据不平衡,不对称(带标注的数据点所占的比例太低...标注图+其他非标注切割 由于仅取标注点的图片来训练,无法让分类器识别影像边缘位置,会造成大量误判,因此再重新调整数据集,将有标注的图和没有标注的图都加入训练集。...因此,需要调整数据集的分布,放大Positive数据的比例,减小Negative数据的比例,让分类器可以有效识别positive。...在实验中,按以下方法调整数据集: 旋转有标记的图片,每次旋转27度,每次旋转后形成一张新的图片。这样所有有原始标记的图片则扩大了10倍。 所有没有原始标记的图片,只取2%,剩下则全部舍弃。
【新智元导读】NIH临床中心最新发布了一个含有超过100,000个胸部X光图像及其相应数据的数据集,免费开放,供全世界研究人员使用,这些数据将用于训练计算机学习如何检测和诊断疾病,最终辅助医生做出更好的诊断决策...在这个数据库中,NIH提供了近期工作中使用数据集的一个增强版本(增加了6个疾病类别和更多的图像),规模大约是Openi的正面胸部X光片数量的27倍。...NIH研究人员预期这个数据集相比以前的胸部X光片数据集更能够代表真实的患者群体分布和现实中的临床诊断挑战。这个数据集的规模,从图像总数和胸腔疾病频率来看,也将会更好地促进深度神经网络的训练。...构建真正大规模医学图像数据集 以下是吕乐博士今年5月GTC演讲《构建真正大规模医学图像数据集:深度标签发现和开放端识别》的部分PPT,从中可以了解到本次NIH公布的大规模胸部X光数据集背后的具体工作。...下面这篇CVPR-17论文就是本次NIH公布的X光图像数据集的基础。 ? ? ? ? ? ? ? ? ?
为了解决该问题,一般会借助迁移学习使用ImageNet等大规模数据集上的预训练参数加快模型的收敛;然而,对于3D医学图像(例如CT、MRI等),目前并没有很好的3D模型预训练参数。...文章发表于MICCAI 2020 [1],该研究在迄今规模最大的CT图像数据集NIH DeepLesion上进行了实验,取得了SOTA的病灶检测结果。...关键层面病灶检出问题的实验设计与结果分析 该研究采用NIH DeepLesion数据集作为模型的对比,模型的效果评价方法使用每幅图像在不同误报(FPs)下的灵敏度以及MAP@0.5。...本研究为了全面对比不同预训练方法在不同数据集上不同任务上的效果。分别在LIDC-IDRI数据集,LITS肝脏数据集,NIH DeepLesion数据集上进行分类,分割以及检测任务。...表3:LIDC以及LITS分割数据集效果 表4:LIDC分类数据集效果 表5: NIH DeepLesion检测数据集效果 图3:LITS可视化 为了进一步验证我们的预训练方法在有限数据场景下的模型效果
欢迎关注R语言数据分析指南 ❝本节来分享介绍一个可用于GBD数据进行连接点分析的R包nih.joinpoint,该包依赖Joinpoint软件,因此要先安装此软件才能使用,具体信息请参考官方文档。...官方文档 ❝https://github.com/DanChaltiel/nih.joinpoint 安装R包 devtools::install_github("DanChaltiel/nih.joinpoint...协议内容 需要将协议转换为pdf格式在申请时上传 library(tidyverse) library(nih.joinpoint) nih_sample_data %>% group_by(sex)...分析过程 jp = joinpoint(nih_sample_data, x=year, y=rate, by=sex, se=se, run_opts=run_opt,...data_export" "selected_model" #> [5] "perm_test" "report" "run_summary" 默认参数 jp2 = joinpoint(nih_sample_data
研究者利用 3D 体建模的进展,结合来自谷歌合作伙伴(包括美国西北大学)的数据集,在建模肺癌预测方面取得了很大进步,为未来临床测试奠定了基础。...display/Public/LIDC-IDRI NLST: https://biometry.nci.nih.gov/cdas/learn/nlst/images/ 该研究中来自美国西北大学的数据集暂未公开...)和美国西北大学的 NIH 研究数据集。...研究者使用另一个数据集进行验证,并将实验结果与六名美国认证放射科医生的诊断结果进行对比。 在使用单次 CT 扫描进行诊断时,谷歌的模型性能堪比甚至优于六名放射科医生。...该模型在完整 NLST 数据集上和在单独测试集上的结果。 下图展示了在仅使用当前 CT 扫描时,该模型与人类放射科医生的肺癌检测性能对比: ?
1.1.8 LUNA16 数据集地址: https://luna16.grand-challenge.org/Home/ 发布于2016年,是肺部肿瘤检测最常用的数据集之一,它包含888个CT图像,...LUNA16的CT图像取自LIDC/IDRI数据集,选取了三个以上放射科医师意见一致的annotation,并且去掉了小于3mm的肿瘤,所以数据集里不含有小于3mm的肿瘤,便于训练。...数据集来自211名受试者的非小细胞肺癌(NSCLC)队列的独特放射基因组数据集。该数据集包括计算机断层扫描(CT),正电子发射断层扫描(PET)/ CT图像。...,是迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集。...1.3.5 NIH 数据集地址: https://www.kaggle.com/nih-chest-xrays 发布于2017年,这是一个胸部X射线数据集,包含30,805个患者,14个疾病图像标签
下载数据集请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源 当当网搜索页面爬取。
下载数据集请登录爱数科(www.idatascience.cn) 其记录了2014年之前天文学家在恒星(除了太阳)周围发现的行星的信息。 1. 字段描述 2. 数据预览 3....数据来源 来源于UCI机器学习库。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集记录了一家全球超市4年的订购数据,包含订单的订单号、下单时间、发货时间、运输模式、顾客名称和地区等信息。 1....数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 通过物理测量预测鲍鱼的年龄。...从原始数据中删除了缺失值的样本,并且对连续值的范围进行了缩放。数据集共4177个样本,8个字段 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源 Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn and Wes B Ford (1994) "The Population...数据引用 Nash W J, Sellers T L, Talbot S R, et al.
下载数据集请登录爱数科(www.idatascience.cn) 小费数据集 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源
下载数据集请登录爱数科(www.idatascience.cn) 数据集由 Jose Portilla 和 Pierian Data 为他的 Udemy 课程(Python 数据科学和机器学习训练营)...创建,适合用于数据分析与逻辑回归预测。...数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
这两个数据集分别是人和鼠的SMC异质性探索的,文献标题是:《Single-Cell Genomics Reveals a Novel Cell State During Smooth Muscle Cell...可以看到GSE155513和GSE155512这两个单细胞转录组表达量矩阵是可以很好的整合: 两个单细胞转录组表达量矩阵是可以很好的整合 其中小鼠的样品比较多:https://www.ncbi.nlm.nih.gov...ids=intersect(rownames(human_ct),rownames(mouse_ct)) mouse_ct = mouse_ct[ids,] human_ct = human_ct[ids...可以使用如Ensembl、UniProt或NCBI Gene等数据库来获取不同物种中基因的准确信息。...而且在后面的降维聚类分群也可以看到其实是整合效果不好, 两个物种仍然是泾渭分明的, 如下所示: 两个物种仍然是泾渭分明的 但是一般人都会忽略它,其实是RunHarmony函数可以修改参数的,比如同时抹去样品和数据集的差异
下载数据集请登录爱数科(www.idatascience.cn) 该数据集包含来自Udemy的4个科目(商业金融、平面设计、乐器和网页设计)的3.682条课程记录。...数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用
数据集下载请登录爱数科(www.idatascience.cn) 根据世界卫生组织(WHO)的数据,中风是全球第二大死亡原因,约占总死亡人数的11%。...该数据集用于根据输入参数(例如性别,年龄,各种疾病和吸烟状况)预测患者是否可能中风。数据中的每一行都提供有关患者的相关信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息
领取专属 10元无门槛券
手把手带您无忧上云