大数据文摘出品
作者:曹培信
疫情蔓延全球,韩国是重灾区。
昨天,韩国疾控中心(KCDC,Korea Centers for Disease Control & Prevention)在Kaggle上更新了一个COVID-2019的全国病例数据集,共计5766个病例。
该数据集详细记录了韩国目前已经确诊的5766名病例的基本信息,以及自韩国首例确诊病例以来全国的数据增长情况。
数据由韩国疾控中心官方公布,目前在Kaggle上已有近5000次下载。
数据集地址:
https://www.kaggle.com/kimjihoo/coronavirusdataset
数据共分为三个部分:
一是病例的一些基本信息,包括编号、性别、国籍、地区、感染原因、接触人数、确诊时间、目前状态等;
二是病毒的传染路线,里面记录了1月19日以来各省市的首次发现确诊的地点,包括是在机场还是在餐馆,以及经纬度都进行了详细的记录;
三是韩国的1月20日以来韩国感染病例的增加情况,包括每天的确诊数量,疑似数量等。
目前,Kaggle上已经有三十多人对该数据进行了相关分析,主要是一些统计和可视化的工作。
比如一位名叫Vansh Jatana的印度学生就用Python进行一些分析。
项目地址:
https://www.kaggle.com/vanshjatana/analysis-on-coronavirus
首先是确诊数量随时间的变化,可以看到从2月22日开始,韩国的确诊数了开始暴增,迅速突破了1000.
而后是死亡病例的年龄分布情况,可以看出,死亡病例大多集中在40岁以上,呈正态分布。
结合性别来看,男性的死亡病例数量要大于女性。
根据地理信息,作者也绘制了一份韩国的疫情地图。
另外,作者还根据病例数据的增长情况进行了拟合,对未来的韩国疫情情况进行了预测。
数据集公开后,许多Kaggle的网友都对韩国疾控中心公开的数据集表示感谢,认为这有助于大家对疾病的了解,另外也有网友表示,可否进一步添加一些信息,比如患者是否有吸烟史等等。
韩国的疫情目前已经进入到了高速增长的时期,根据韩国政府6日通报,截止当地时间5日0时至6日0时,韩国新增518例新冠肺炎确诊病例,累计确诊6284例。韩国疾控中心官方表示,此数据集也将根据疫情情况每日进行更新。
点「在看」的人都变好看了哦!
领取专属 10元无门槛券
私享最新 技术干货