[GBD数据库挖掘] 1.数据的下载与整合

R语言数据分析指南

发布于 2022-09-23 06:16:47

2.3K12

代码可运行

文章被收录于专栏：R语言数据分析指南R语言数据分析指南

运行总次数：2

代码可运行

❝「最近有观众老爷在做GBD数据库挖掘问小编一些数据处理的问题」，正好去年也写过相关的代码，既然观众老爷们有需求那么就写一些文档来介绍一下，「数据代码已经上传VIP群，请自行下载」 ❞

正文

「数据库主页(https://www.healthdata.org/)」

❝该数据库具体内容各位可以自行了解，下面让我们直接来到数据下载的页面进行数据下载，「近期可能由于改版缘故下载数据需要进行账号注册」，小编去年是不需要登录账号就能下载数据 ❞

数据下载

「https://vizhub.healthdata.org/gbd-results/」

数据选择

❝可以看到左侧有很多选项，一般小编做如下选择 「GBD Estimate (Cause of death or inijury)」 「Measure (Deaths,DALYs,Incidence)」 「Metric (Number,Percent,Rate)」 「Cause (这个选自己需要研究的)」 「Location (select all)」「Age (select all)」 「Sex (select all)」「year (select all)」 ❞

数据下载

❝执行完选择后点「Download」网站就会开始为我们准备数据，准备完成后克看到如下画面 ❞

批量下载数据

❝如果数据量较大，系统会自动帮我们切割成很多个文件，大概几十个之多；当然你也可以点击 「Download」 一个一个下载，如果要批量下载数据复制下载链接终端进行下载即可,由于这份数据只有两个所以为 {1..2}；请不要执行这个输入你自己的网址即可 ❞

for i in {1..2}
do
    wget "https://dl.healthdata.org/gbd-api-2019-public/2e492f56c96451fce3d1ac_files/IHME-GBD_2019_DATA-8c0d0ff4-$i.zip"
done

批量解压缩

❝由于下载的都为压缩文件，如果数据量较大会有几十个之多；所以还是批量处理来的痛快 ❞

for z in *.zip; do unzip "$z"; done

批量合并数据

library(tidyverse)

list.files(path = "~/liver-cancer/data",
           pattern = "*.csv", full.names=TRUE) %>% 
  lapply(read_csv) %>% bind_rows() %>% write_csv(.,file="liver_cancer.csv",quote="none")