前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[GBD数据库挖掘] 1.数据的下载与整合

[GBD数据库挖掘] 1.数据的下载与整合

作者头像
R语言数据分析指南
发布于 2022-09-23 06:16:47
发布于 2022-09-23 06:16:47
2.3K12
代码可运行
举报
运行总次数:2
代码可运行

「最近有观众老爷在做GBD数据库挖掘问小编一些数据处理的问题」,正好去年也写过相关的代码,既然观众老爷们有需求那么就写一些文档来介绍一下,「数据代码已经上传VIP群,请自行下载」

正文

「数据库主页(https://www.healthdata.org/)」

❝该数据库具体内容各位可以自行了解,下面让我们直接来到数据下载的页面进行数据下载,「近期可能由于改版缘故下载数据需要进行账号注册」,小编去年是不需要登录账号就能下载数据 ❞

数据下载

「https://vizhub.healthdata.org/gbd-results/」

数据选择

❝可以看到左侧有很多选项,一般小编做如下选择 「GBD Estimate (Cause of death or inijury)」 「Measure (Deaths,DALYs,Incidence)」 「Metric (Number,Percent,Rate)」 「Cause (这个选自己需要研究的)」 「Location (select all)」 「Age (select all)」 「Sex (select all)」 「year (select all)」

数据下载

❝执行完选择后点「Download」网站就会开始为我们准备数据,准备完成后克看到如下画面 ❞

批量下载数据

❝如果数据量较大,系统会自动帮我们切割成很多个文件,大概几十个之多;当然你也可以点击 「Download」 一个一个下载,如果要批量下载数据复制下载链接终端进行下载即可,由于这份数据只有两个所以为 {1..2}请不要执行这个输入你自己的网址即可

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
for i in {1..2}
do
    wget "https://dl.healthdata.org/gbd-api-2019-public/2e492f56c96451fce3d1ac_files/IHME-GBD_2019_DATA-8c0d0ff4-$i.zip"
done

批量解压缩

❝由于下载的都为压缩文件,如果数据量较大会有几十个之多;所以还是批量处理来的痛快 ❞

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
for z in *.zip; do unzip "$z"; done

批量合并数据

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(tidyverse)

list.files(path = "~/liver-cancer/data",
           pattern = "*.csv", full.names=TRUE) %>% 
  lapply(read_csv) %>% bind_rows() %>% write_csv(.,file="liver_cancer.csv",quote="none")

❝经过上面的步骤,我们就顺利的下载好了后续需要进行数据挖掘的文件,后面就是一系列的数据统计分析内容了,本节只是简单介绍一下数据下载仅此而已;喜欢的观众老爷欢迎分享转发

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 R语言数据分析指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
第一个语句运行不了
第一个语句运行不了
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
[GBD数据库挖掘2] ggplot2优雅的展示发病率
❝本节继续来进行GBD数据库的挖掘,小编在去年写过代码的基础上进行了更加精细的加工,各位观众老爷们细细品味,「数据代码已经上传VIP群,请自行下载」 加载R包 library(tidyverse) library(ggh4x) library(ggsci) library(magrittr) library(grid) 导入数据 df <- read_csv("liver_cancer.csv") 数据清洗 df1 <- df %>% select(measure,year,val,location,
R语言数据分析指南
2022/09/23
6860
[GBD数据库挖掘2] ggplot2优雅的展示发病率
dbGaP数据库的测序数据当然是可以申请成功的
一般来说,NCBI数据库提供的prefetch命令下载sra文件速度太慢,可以参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:
生信技能树
2021/07/06
1.8K0
一行代码即可下载TGCA数据库的数据
但是TCGA数据库这2年就更新了两次,有些以前的教程可能就不在适用,我也写了一篇文章来介绍了最新版的内容:2024年TCGA数据库改版后的数据下载问题,为了下载数据方便,以及我后续分析数据方便,我正在把以前的代码渐渐封装成一个R包,让一些常规分析变得更加方便快捷,这个R包在慢慢的开发中,包的内容比较杂,没有一个好的名字,我就用我公众号ID(MedBioInfoCloud)作为包名:
DoubleHelix
2024/06/13
4630
一行代码即可下载TGCA数据库的数据
难道铁死亡数据库记录的基因都是人类未知基因吗
只需要打开任意就近的GTF(Gene Transfer Format)文件即可,它是一种广泛使用的基因组注释文件格式,它详细描述了基因组中的各种基因特征。在GTF文件中,每一行代表一个基因组特征,并且通常会包含该特征的类型(gene_type)、位置、分数、链、相位以及属性等信息。属性字段(通常在第九列)可以包含多种不同的标签,其中就包括了gene_type,它描述了基因的具体类型。我们简单的统计如下所示:
生信技能树
2024/04/26
3090
难道铁死亡数据库记录的基因都是人类未知基因吗
KEGG数据库的12大代谢通路分类
其实这样的KEGG数据库的12大代谢通路数据挖掘文章很多,其中一个佼佼者是复旦大学邵志敏团队三阴性乳腺癌的代谢组学文章,文献标题是:《Metabolic-Pathway-Based Subtyping of Triple- Negative Breast Cancer Reveals Potential Therapeutic Targets》,其数据挖掘仅仅是一个引子,后续仍然是有大量真实病人自己的代谢组数据做支撑。如下所示,可以看到在the tumor samples versus paired normal samples in the FUSCC cohort. 的差异分析里面,统计学显著(upregulated or downregulated (FDR < 0.05))的失调代谢通路,在 10 metabolic categories 分类展示 :
生信技能树
2022/03/03
10.5K0
KEGG数据库的12大代谢通路分类
TCGA数据库R包集大成者TCGAbiolinks
主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:
生信技能树
2022/07/26
1K0
TCGA数据库R包集大成者TCGAbiolinks
使用aspera从EBI下载fastq数据,抛弃NCBI的SRA数据库吧!
ENA主页:https://www.ebi.ac.uk/ena/browser/home
生信技能树
2020/02/20
9.6K3
R语言︱文件读入、读出一些方法罗列(批量xlsx文件、数据库、文本txt、文件夹)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51100736
悟乙己
2019/05/27
6K0
解锁生物信息学必备!核心数据库使用指南
生物信息学研究离不开数据支撑,这些数据库能让你事半功倍! 本文详解常用数据库的检索下载技巧,并提供可直接复用的代码模板。
天意生信云
2025/02/08
3540
解锁生物信息学必备!核心数据库使用指南
数据科学工具包(万余字介绍几百种工具,经典收藏版!)
翻译:秦陇纪等人 摘自:数据简化DataSimp 本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科学教育和知识分享,提高数据科学人员素质。 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的
大数据文摘
2018/05/22
1K0
TCGA数据库| 如何将表达矩阵与样本临床数据进行合并?
不同缩写代表的含义可取这个地址查看:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/bcr-batch-codes
生信技能树
2025/01/08
4770
TCGA数据库| 如何将表达矩阵与样本临床数据进行合并?
《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式6.1 读写文本格式的数据6.2 二进制数据格式6.3 Web APIs交互6.4 数据库交互6.5 总结
访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加
SeanCheney
2018/04/24
7.5K0
《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式6.1 读写文本格式的数据6.2 二进制数据格式6.3 Web APIs交互6.4 数据库交互6.5 总结
Nebula 分布式图数据库介绍
本文介绍的图和日常生活中常见的图片有所不同。通常,在英文中,为了区分这两种不同的图,前者会称为 Image,后者称为 Graph。在中文中,前者会强调为“图片”,后者会强调为“拓扑图”、“网络图”等。
Se7en258
2021/11/12
1.7K0
Nebula 分布式图数据库介绍
1.Redis数据库基础入门介绍与安装
描述: 在一个中大的应用网站中有可能有海量用户同时访问某也查询业务时从而出现高并发的相关问题,其罪魁祸首就是关系型数据库。因为其性能瓶颈(磁盘IO性能低下)和扩展瓶颈(数据关系复杂,扩展性差,不便于大规模集群)导致上述情况, 那除开从代码层面优化外,我们可以采用以下思路解决:
全栈工程师修炼指南
2022/09/28
9820
1.Redis数据库基础入门介绍与安装
大数据技术人员必备工具包,为工作提质增效
本文作者:秦陇纪 本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科
钱塘数据
2018/03/06
1.4K0
大数据技术人员必备工具包,为工作提质增效
TensorFlow 机器学习秘籍第二版:6~8
在本章中,我们将介绍神经网络以及如何在 TensorFlow 中实现它们。大多数后续章节将基于神经网络,因此学习如何在 TensorFlow 中使用它们非常重要。在开始使用多层网络之前,我们将首先介绍神经网络的基本概念。在上一节中,我们将创建一个神经网络,学习如何玩井字棋。
ApacheCN_飞龙
2023/04/23
9520
【资源分享】生物信息学编程实战
市面上唯一适合生物信息学从业者的教学视频 直接复制链接 https://ke.qq.com/course/285055 到浏览器即可打开购买 永不打折,但是会下架,请抓紧机会购买! 编程这个技能,随着
生信技能树
2018/06/07
3.9K0
PyTorch 深度学习(GPT 重译)(四)
第 2 部分的结构与第 1 部分不同;它几乎是一本书中的一本书。我们将以几章的篇幅深入探讨一个单一用例,从第 1 部分学到的基本构建模块开始,构建一个比我们迄今为止看到的更完整的项目。我们的第一次尝试将是不完整和不准确的,我们将探讨如何诊断这些问题,然后修复它们。我们还将确定我们解决方案的各种其他改进措施,实施它们,并衡量它们的影响。为了训练第 2 部分中将开发的模型,您将需要访问至少 8 GB RAM 的 GPU,以及数百 GB 的可用磁盘空间来存储训练数据。
ApacheCN_飞龙
2024/03/21
3530
PyTorch 深度学习(GPT 重译)(四)
大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例
  每一台 host 上面可以并行 N 个 worker,每一个 worker 下面可以并行 M 个 executor,task 们会被分配到 executor 上面去执行。stage 指的是一组并行运行的 task,stage 内部是不能出现 shuffle 的,因为 shuffle 就像篱笆一样阻止了并行 task 的运行,遇到 shuffle 就意味着到了 stage 的边界。   CPU 的 core 数量,每个 executor 可以占用一个或多个 core,可以通过观察 CPU 的使用率变化来了解计算资源的使用情况,例如,很常见的一种浪费是一个 executor 占用了多个 core,但是总的 CPU 使用率却不高(因为一个 executor 并不总能充分利用多核的能力),这个时候可以考虑让一个 executor 占用更少的 core,同时 worker 下面增加更多的 executor,或者一台 host 上面增加更多的 worker 来增加并行执行的 executor 的数量,从而增加 CPU 利用率。但是增加 executor 的时候需要考虑好内存消耗,因为一台机器的内存分配给越多的 executor,每个 executor 的内存就越小,以致出现过多的数据 spill over 甚至 out of memory 的情况。   partition 和 parallelism,partition 指的就是数据分片的数量,每一次 task 只能处理一个 partition 的数据,这个值太小了会导致每片数据量太大,导致内存压力,或者诸多 executor 的计算能力无法利用充分;但是如果太大了则会导致分片太多,执行效率降低。在执行 action 类型操作的时候(比如各种 reduce 操作),partition 的数量会选择 parent RDD 中最大的那一个。而 parallelism 则指的是在 RDD 进行 reduce 类操作的时候,默认返回数据的 paritition 数量(而在进行 map 类操作的时候,partition 数量通常取自 parent RDD 中较大的一个,而且也不会涉及 shuffle,因此这个 parallelism 的参数没有影响)。所以说,这两个概念密切相关,都是涉及到数据分片的,作用方式其实是统一的。通过 spark.default.parallelism 可以设置默认的分片数量,而很多 RDD 的操作都可以指定一个 partition 参数来显式控制具体的分片数量。   看这样几个例子:   (1)实践中跑的 Spark job,有的特别慢,查看 CPU 利用率很低,可以尝试减少每个 executor 占用 CPU core 的数量,增加并行的 executor 数量,同时配合增加分片,整体上增加了 CPU 的利用率,加快数据处理速度。   (2)发现某 job 很容易发生内存溢出,我们就增大分片数量,从而减少了每片数据的规模,同时还减少并行的 executor 数量,这样相同的内存资源分配给数量更少的 executor,相当于增加了每个 task 的内存分配,这样运行速度可能慢了些,但是总比 OOM 强。   (3)数据量特别少,有大量的小文件生成,就减少文件分片,没必要创建那么多 task,这种情况,如果只是最原始的 input 比较小,一般都能被注意到;但是,如果是在运算过程中,比如应用某个 reduceBy 或者某个 filter 以后,数据大量减少,这种低效情况就很少被留意到。   最后再补充一点,随着参数和配置的变化,性能的瓶颈是变化的,在分析问题的时候不要忘记。例如在每台机器上部署的 executor 数量增加的时候,性能一开始是增加的,同时也观察到 CPU 的平均使用率在增加;但是随着单台机器上的 executor 越来越多,性能下降了,因为随着 executor 的数量增加,被分配到每个 executor 的内存数量减小,在内存里直接操作的越来越少,spill over 到磁盘上的数据越来越多,自然性能就变差了。   下面给这样一个直观的例子,当前总的 cpu 利用率并不高:
黑泽君
2019/05/14
3K0
大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例
学徒带你7步3251行代码+300行注释完成TCGA数据库挖掘实战全文复现
作者从TCGA数据库下载乳腺癌(以下简称BRCA)样本的miRNA相关数据(104个Normal,1103个Tumr)。 进行了如下分析: 1.下载数据 2.筛选差异表达的miRNA(DEM):使用EdgeR包 得到370个DEM,108 Down DEM, 262 Up DEM 对筛选出的370个DEM绘制了热图,文章使用的gplots 包中的heatmap.2()绘图
生信技能树
2020/03/26
4.1K0
推荐阅读
相关推荐
[GBD数据库挖掘2] ggplot2优雅的展示发病率
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验