首页
学习
活动
专区
圈层
工具
发布

想做疫情分析却没有数据?看这篇就够了

大家好,之前我们已经将疫情可视化的各种操作基本都讲了一遍,从爬取数据到数据分析、建模、可视化甚至有关如何开发疫情实时追踪网站我们都讲了一遍,因此很久没有更新过疫情相关的文章。...但最近几乎每天都有小伙伴在后台问我如何获取最新的疫情数据,尤其是历史数据很难找到。...在三月份我曾经在疫情数据哪里找,看这篇就够了这篇文章中详细介绍了5种获取疫情数据的方法,不过部分API已经失效,了解到很多读者是为了科研、论文需要使用相关数据,所以今天我们再来聊聊现在如何取得疫情相关数据...全球疫情历史数据 难倒大家的大多数是在全球疫情历史数据,也就是分国家时间序列数据,因为之前介绍的API接口停止返回该数据? ?...这就导致很多使用了该接口的其他接口/第三方库直接失效(比如我强烈推荐的Akshare),虽然我们依旧能够从该项目中下载json数据自己处理但是却比较麻烦,因此我们使用其他项目提供的数据,比如这个名为covid

1.4K30

新冠疫情地市级时间序列数据采集_python数据处理

但是我发现了丁香园数据中的几个问题: 统计口径较混乱,同一地级市在不同的时间指向不同的字段名; 部分省(广东、四川、吉林、甘肃)没有单独统计境外输入数据,境外输入被归于各地级市中,该部分数据无法清洗;...找到api的位置 返回的json中时间序列不齐,只包含卫健委公布实时新闻当天的更新数据,因此在两次时间中的空缺数据需要我自行填补(两次公告之前的数据理论上不变,取时间靠前的数据填补缺失值) json...截图 api需要的参数是省份province和城市(直辖市的区)city,api的制作使用了一个睿智办法肉身编码。...地名字典不是完整字典,有部分是从百度疫情信息扒下来的,会有几个无确诊的地级市获取不到数据,视为"截至当前时间确诊为0"处理。...关于时间序列的补齐,我的想法是城市列表与时间期限作笛卡尔积后,再连接原表。这样有记录时间的数据就会被填入,两次公告之间没有记录的数据留空。时间期限取所有数据记录中最早和最晚的两天。

74820
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    离开 FB 两年后,Instagram 创始人干嘛去了?

    两位创始人 Kevin Systrom 和 Mike Krieger 最近推出了一个新网站 Rt.live,该网站不是像一般数据统计网站,只提供原始的 COVID-19 数据,而是使用统计方法来衡量病毒的传播速度...4 月 21 日更新的数据,更多的州 Rt 降低至 1 以下 通过该网站,用户能够按地区过滤,因此你可以看到西部各州在控制 COVID-19 方面比南部各州做得更好,而且越来越多的州疫情有好转趋势。...未实施居家隔离措施的北达科他州 Rt 值未见下降趋势 该网站的数据来自 COVID-19 跟踪项目,Kevin 已经将 Rt.live 的建模系统上传至 GitHub。...看到这一消息,很多人也会感到意外:对于照片应用巨头来说,建立一个医疗统计网站,似乎有点跨界? 不过事实上,二者背后并不是看起来那样毫无关联。...Mike Krieger,2004 年从巴西圣保罗,移居加利福尼亚,进入斯坦福大学就读。

    60630

    2021 年开始使用开源的 10 种方式

    《利用 Python 爬取网站的新手指南》 你是否想通过实践而不是阅读来学习 Python?在本教程中,Julia Piaskowski 将会指导你完成她的第一个Python 网页爬取项目。...她利用了大量截图解释了如何以最终目标为目的进行爬取。 有关爬取相关内容的部分特别有用;当遇到困难处时,她会详细解释。但是,与本文的其余部分一样,她会指导你完成每个步骤。...Jason 还解释了如何利用有用的信息,从如何在领英个人资料中添加开源信息,到如何将这些贡献转变为付费角色。最后还列出了供初学者参与的出色项目。...Joseph 介绍了她如何以 Linux 系统管理员的身份来改善开源项目。用户支持、托管项目资源、寻找新的网站环境是让社区比她发现时变得更好的几种方式。 也许最重要的贡献是什么?文档!...如果开源团队中不存在这样的角色,开发人员应该怎么做? 在本文中,Catherine Robson 介绍了开源团队如何从目标用户那里收集反馈。

    75030

    【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享|附代码数据

    p=24057 最近我们被客户要求撰写关于KNN算法的研究报告,包括一些图形和统计输出。...考虑下图: K近邻 是如何工作的? K近邻 的工作原理可以根据以下算法进行解释: 步骤1:选择邻居的数量K 步骤2:计算K个邻居的欧几里得距离 步骤3:根据计算出的欧几里得距离取K个最近邻。...那么如何选择最优的K值呢? 没有预先定义的统计方法来找到最有利的 K 值。 初始化一个随机的 K 值并开始计算。 选择较小的 K 值会导致决策边界不稳定。...为了分析COVID-19对Google股票价格的影响,我们从quantmod数据包中获取了两组数据。 首先将其命名为data_before_covid,其中包含截至2020年2月28日的数据。...选择k值的一般经验法则是取样本中数据点数的平方根。因此,对于COVID-19之前的数据集,我们取k = 32;对于COVID-19之后的数据集,我们取k = 36。

    1.8K00

    【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享|附代码数据

    考虑下图: K近邻 是如何工作的? K近邻 的工作原理可以根据以下算法进行解释: 步骤1:选择邻居的数量K 步骤2:计算K个邻居的欧几里得距离 步骤3:根据计算出的欧几里得距离取K个最近邻。...步骤4:在这k个邻居中,统计每个类别的数据点个数。 步骤 5:将新数据点分配给邻居数量最大的类别。 步骤6:我们的模型准备好了。 假设我们有一个新的数据点,我们需要把它放在所需的类别中。...那么如何选择最优的K值呢? 没有预先定义的统计方法来找到最有利的 K 值。 初始化一个随机的 K 值并开始计算。 选择较小的 K 值会导致决策边界不稳定。...为了分析COVID-19对Google股票价格的影响,我们从quantmod数据包中获取了两组数据。 首先将其命名为data_before_covid,其中包含截至2020年2月28日的数据。...选择k值的一般经验法则是取样本中数据点数的平方根。因此,对于COVID-19之前的数据集,我们取k = 32;对于COVID-19之后的数据集,我们取k = 36。

    2.2K10

    AWS CloudFront CDN + S3 CORS 跨域访问的问题

    这个是提示跨域错误,显然这格式 AWS 的配置问题。 如何解决问题? ---- 是否有跨域访问问题。...要从您的 CloudFront 分配转发标头,请执行以下步骤: 从 CloudFront 控制台打开分配。 选择行为选项卡。 选择创建行为,或者选择现有行为,然后选择编辑。...在基于所选的请求标头进行缓存中,选择白名单。 在将标头列入白名单下,从左侧菜单中选择标头,然后选择添加。 选择是,编辑。 注意:另外,请务必将标头作为请求的一部分转发到源。.../covid19-current.json" 上面的命令是从 S3 中拉取数据,如果能够返回数据则表明 S3 的 CORS 没有问题。...然后进行测试: curl -H "origin: example.com" -v "https://cdn.ossez.com/json/covid19/covid19-current.json" 如果能够返回正确的数据

    5.7K50

    NumPy 1.26 中文文档(五十三)

    其他“结构性”缺陷,如损坏的链接也优先处理。 所有这些修复都易于确认并放置。 如果你知道如何做,你可以提交一个拉取请求(PR)来修复,否则请提交一个问题。...除了提供课程,该网站还解释了如何有效地展示思想。 文档团队会议 NumPy 社区已经确立了改进文档的明确目标。...API 参考文档直接从代码中的文档字符串生成,当生成文档时(如何构建文档),它们会为用户展示每个函数和类的参考文档,但部分函数缺乏使用示例。 我们缺乏范围更广泛的文档 - 教程,操作说明和解释。...除了提供课程内容外,该网站还解释了如何有效地展示观点。...UFunc API 进行实验性暴露 新特性 NEP 49 配置分配器 实施 NEP 47(采用数组 API 标准) 从注释块生成 C/C++ API 参考文档现在可以实现

    1.5K10

    WordPress评论ajax动态加载,解决静态缓存下评论不更新问题

    那么我之前写的ajax 清理缓存以及评论删除缓存失去了效果,因为只能删除本地的 html 缓存,而 CDN 节点的缓存百度并未提供 API 控制接口,所以用户看到的还是缓存内容!...一、自动动态加载评论 这是我最初想到的、而且是老早就想实现一种方案:当静态的 html 页面加载时,评论部分实时从数据库动态拉取数据,由于是纯静态下的 html 页面,所以这个功能需要 JS+Ajax...部署无误之后,每次页面加载都会动态去拉取一次最新的评论,并呈现给用户。...优点:每次打开页面用户都能看到最新评论; 缺点:每次打开页面都会动态拉取评论,降低了纯静态效果,拉取的评论分页有点误差(影响不大)。...ajax 拉取之前,我们只要通过 js 判断来决定要拉取的目标地址即可。

    3.1K60

    sparkStreaming与kafka 两种对接方式与exectly once 实现

    ,会单独开启reciver进程从数据源中获取数据,kafka reciver使用high level api从kafka 中拉取数据,并且每个批次生成batchInterval / spark.streaming.blockInterval...2. direct direct 方式使用simple level api的方式从kafka 拉取数据,kafka simple api 不同于high api需要自动维护offset决定从kakfa...反压机制比对:反压机制是指下游数据处理过慢或者过快如何调整上游数据源的生产速率 reciver 方式按照一定的数据大小从kafka中拉取数据,若该批次处理时间大于设置的batchInterval...kafka拉取数据的offset范围,若批次时间过长减少拉取的数据量,若批次时间过短增加拉取的数据量,既保证不会有任务堆积又保证资源的充分利用 offset管理比对: reciver 方式不需要手动管理...端到端的exectly once语义实现 流式处理系统中很重的一个指标就是消费语义实现,从数据源到数据处理过程再到处理结果的数据如何保证每条数据恰好精确被 处理一次对于实时计费、实时指标统计是一个很重要的标准

    65120

    癌症医学图像数据库TCIA

    TCIA程序化接口Rest API 这部分主要介绍了TCIA程序化接口(REST API)的使用方法 8....数据分析中心Data Analysis Centers 数据分析中心(DAC)是一种工具或网站,通过连接到TCIA编程接口(REST API)或镜像Collections....数据使用统计Data Usage Statistics 03 提交数据Submit Your Data 1....请注意,这些挑战并不是由TCIA员工管理的,如果浏览细节的话,可能会被送到与TCIA无关的网站去了解更多信息。 5. COVID-19 新型COVID-19感染患者有多种临床表现和预后。...除了呼吸系统,先进的成像技术也被用于追踪COVID-19在肾脏、肝脏、心脏和神经系统方面的后遗症。同时,从活组织切片和死后标本中提取的数字病理图像也在不断增长。

    9.3K32

    监控指标能给我们解决什么问题

    如何将这些指标告诉服务端? 它通常有两种解决方案:拉取式采集(Pull-Based Metrics Collection)和推送式采集(Push-Based Metrics Collection)。...所谓 Pull 是指度量系统主动从目标系统中拉取指标;相对地,Push 就是由目标系统主动向度量系统推送指标。...Push Gateway 中去拉取。...,这就只能由目标系统主动推送数据;又比如某些小型短生命周期服务,可能还等不及 Prometheus 来拉取,服务就已经结束运行了,因此也只能由服务自己 Push 来保证度量的及时和准确。...Runtime Interface,CRI)也是这样从Docker独立出来的,关于OpenMetrics最终结果究竟如何,要看 Prometheus 本身的发展情况,还有 OpenTelemetry 与

    91220

    开源软件在应对新冠病毒中的贡献

    在当前紧张的疫情环境下,保持专注和积极性是一个很大的挑战。而研究开源社区如何应对这一次疫情爆发,对于我来说却成为了一种宣泄。...这个项目有趣的地方在于,它的数据是是通过 GitHub 用户 ExpDev07 创建的开源 API 进行检索的,这个 API 的数据来源是约翰·霍普金斯大学的开源数据集,而约翰·霍普金斯大学这份聚合了多个来源的数据集则是...BlankerL:DXY-COVID-19-Crawler image.png DXY-COVID-19-Crawler 建立于今年 1 月份,是开源社区对新冠病毒最早发起响应的项目之一。...当时该病毒主要在中国范围内传播,中国医学界通过丁香园网站来进行病例的报告和跟踪。...为了使这些疫情信息具有更高的可读性和易用性,GitHub 用户 BlankerL 开发了一个爬虫,系统地从丁香园网站获取数据,并通过 API 和数据仓库的方式对外公开。

    69510

    Spark踩坑记:Spark Streaming+kafka应用及调优

    作者:肖力涛 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming...从kafka中不断拉取数据进行词频统计。...Spark向kafka中写入数据 上文阐述了Spark如何从Kafka中流式的读取数据,下面我整理向Kafka中写数据。...Direct方式从Kafka拉取batch,之后经过分词、统计等相关处理,回写到DB上(至于Spark中DB的回写方式可参考我之前总结的博文:Spark踩坑记——数据库(Hbase+Mysql)),由此高效实时的完成每天大量数据的词频统计任务...,Spark Streaming能够实时的拉取Kafka当中的数据,并且能够保持稳定,如下图所示: 当然不同的应用场景会有不同的图形,这是本文词频统计优化稳定后的监控图,我们可以看到Processing

    98550

    疫情之后,医生们希望他们的机器助手留下来

    在爱尔兰塔拉莫尔医院的骨科医生克里斯汀·基尔南(Christine Kiernan)被诊断出COVID-19之后没几天,机器人Violet就到了。...“我们从12月开始增加产量,当时我们刚听到国际同行关于中国情况的报道,” Xenex首席执行官莫里斯·米勒(Morris Miller) 通过电子邮件告诉了The Verge。...但是,通过将清洁时间从1小时缩短到15分钟,医院的CT扫描频度提高了四倍。 基尔南说,这种额外的净空空间在降低人类清洁工的风险的同时,也带来了不容忽视的好处。...例如,他们现在在Zoom上进行物理治疗,并创建了一个网站,向患者介绍髋关节和膝关节置换术之前的情况,并征得他们的手术同意。在疫情发生之前要花费整个下午的时间做这种介绍;现在,只需几分钟。...“如果你想在平时引入网站,那么,请想象下你需要申请获批的人数,”基尔南说。

    44330

    5个适用于Analytics(分析)专业人员的功能强大的Excel仪表板

    每个分析师都应该精通如何创建仪表板 Excel是用于创建功能强大的仪表板的出色工具,我们将在此处看到5个来自不同行业的示例 介绍 一张图片胜过千言万语。 业务分析涉及使用数据做出关键的战略级决策。...问题是如何以能够帮助领导团队或决策者迅速达成共识的方式来表示这些数据?这是作为分析师的技能,并且仪表板专家将脱颖而出。 举一个简单的例子来说明这一点。 假设是一家大公司的销售经理。...Microsoft Excel提供了许多用于制作仪表板的选项,它也是大多数组织可以普遍访问的工具之一。同样许多小型初创公司可能无法负担起昂贵的商业智能软件。...仪表板提供业务的高层次概述。它通常包含各种图表,表格和可视化效果,这些效果令人耳目一新,易于理解。仪表板的设计和内容是预先确定的,单击按钮始终可用,这有助于快速决策。这些仪表板通常便于执行向下钻取。...既然已经掌握了什么是仪表板,那么看看可以在Excel中设计的不同类型的仪表板! Excel仪表板#1:在线销售跟踪 最近许多企业关闭了线下商店,并在其网站上开始销售。

    93020

    NumPy 1.26 中文官方指南(四)

    要了解步进是如何支撑 NumPy 视图的强大功能,请参见NumPy 数组:高效数值计算的结构。 结构化数组 其 dtype 为结构化数据类型的数组。...1.23.5 贡献者 合并的拉取请求 1.23.4 贡献者 合并的拉取请求 1.23.3 贡献者 合并的拉取请求 1.23.2 贡献者...1.22.4 贡献者 已合并的拉取请求 1.22.3 贡献者 已合并的拉取请求 1.22.2 贡献者 已合并的拉取请求 1.22.1...Framework 1.20.3 贡献者 合并的拉取请求 1.20.2 贡献者 合并的拉取请求 1.20.1 亮点 贡献者 合并的拉取请求...兼容性说明 修复 bool 类型在 matmul(*@*操作符)中的回归 改进 数组比较断言包含最大差异 贡献者 已合并的拉取请求 1.16.5 贡献者 已合并的拉取请求

    1.2K10
    领券