首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    "清华-腾讯联合实验室"针对疫情的分析3:非湖北新增病例的五连降,意味着什么?

    文章内容转自:腾讯医典 新型冠状病毒感染的肺炎疫情仍在蔓延,国家卫计委今天发布的数据,有两点引起公众的关注: 1)全国新增病例数为2656,和此前五天比有大幅的下降; 2)非湖北地区的新增确诊病例数连续5天递减下降。 全国疫情,特别是非湖北地区的疫情是否有根本的好转?湖北地区的疫情在全国人民的支援下,疫情有没有得到有效控制? 我们继续结合扩散指数和消亡指数来看下。 疫情的两个关键指标:扩散指数和消亡指数 扩散指数:当天的新增确诊病例数相对于前一天的现有病例数的增长率(%)。 消亡指数:当天的新增的治愈和

    01

    使用Storm处理事务型实时计算需求时的几处难点

    比流量或者订单淘宝可以把我们甩出几条大街。淘宝的兄弟可以自豪地说他们的实时应用已经承受住了双十一全世界范围内最大的单日数据流的冲击。而阿里巴巴中文站的流量和订单与淘宝相比则少的可怜。同时B2B自身业务又存在不同的特点,我们的客单价和笔单价要高得多,因此对于实时数据的误差是零容忍的(比如丢了一个几百万的单子,那实时数据就没有参考价值了)。 所以中文站的实时应用的特点是零误差,事务性,故障可恢复。 在开发实时应用的过程中,我发现当实时计算需要保证数据完全不出错的时候,逻辑就变得复杂起来。效率和精度本身就是不

    07

    "清华-腾讯联合实验室"针对疫情的分析1:新冠肺炎疫情拐点何时出现?

    文章内容转自:腾讯医典 新型冠状病毒感染的肺炎疫情仍在蔓延,国家卫计委每天发布疫情情况,变化的疫情数字也牵动着千万人的心。 这些变化的数字中,有什么内在的规律和趋势?又反映出什么疫情发展信号? 腾讯医典邀请“清华-腾讯互联网创新技术联合实验室”专家进行科学解读。希望通过进一步的数据处理、分析和可视化展示,让更多的人对疫情有更科学的认知。 疫情的两个关键指标:扩散指数和消亡指数 疫情何时出现拐点,是现在大家最受关注的话题。想要准确判断拐点,需要知道两个关键的指标:疫情的扩散指数和疫情的消亡指数。 1.疫情的

    01

    分布式数据仓库最佳实践:讨论帖1:ETL异常情况下载,数据重载策略和机制

    守护撤回了一条消息 【潜水】 A 2019/1/15 8:50:46 之前的做法是先卸数到数据文件,如果调度出问题,第二天还可以从数据文件再重新把数据加载上去,还有什么其他的方法吗 【话唠】B 2019/1/15 8:53:04 增量数据,还是全量 【话唠】B 2019/1/15 8:54:27 源库数据归档备份几天呢,这方法可行? 【潜水】A 2019/1/15 9:08:21 有的增量有的全量,考虑在不动源库的情况下,源库可能已经有备份机制,在仓库也考虑一下这个情况的处理~ 【活跃】C  2019/1/15 9:26:16 ETL不应该都支持重跑历史么? 前一天挂了,第二天重跑一下就好了,只要调度工具支持重跑,ETL的代码也要写成支持重跑的。 【冒泡】D 2019/1/15 9:51:28 Indeed 贴源缓冲+作业重跑机制,一般是调度要支持N次自动失败重跑。 【话唠】B  2019/1/15 9:54:37 @C 它这是从源库抽取到ods,正常业务系统源库不保存历史,只保留最新的,如果是ods到dwd,在仓库里,当然可以重跑。 【话唠】B 2019/1/15 9:56:31 n次自动失败重跑,作业预警,发短信,邮件? 【潜水】A 2019/1/15 10:04:03 @ 是的,只能支持库内重跑,源库只有最新 【潜水】A 2019/1/15 10:05:36 @ @ 现在确实没有失败自动重跑的机制,考虑加一下,请问下你们做etl一般会做卸数到数据文件,备份数据文件的操作吗 【潜水】A 2019/1/15 10:08:05 其实可以直接不用卸数可以直接从源库加载带仓库,但是考虑一个异常情况和数据的备份,为了更安全,加上卸数到数据文件的操作,一般有没有必要呢想了解一下 【冒泡】E 2019/1/15 10:11:48 @A 一般都是要卸载为文件,源库是不断变化的,你的度量会丢失 【群主】北京-胖子哥(1106110976) 2019/1/15 10:12:21 这个里面就可以看到ODS的价值了。 ODS存储短周期,贴源数据 【话唠】B 2019/1/15 10:20:15  @A 你们的源业务系统库,都是啥数据库啊,mysql还是oracle或者其它mongodb,redis,hbase啥的 【冒泡】K 2019/1/15 10:23:30 混杂,Ora、GP、TD都有 【活跃】G  2019/1/15 10:24:32 你讲的是源库到ods当天任务没成功,第二天跑就丢掉了历史变更? 【冒泡】K 2019/1/15 10:27:23 对 【潜水】A 2019/1/15 10:28:02 源是oracle @ 对,第二天源业务库数据就变了,已经无法从源库取到前一天的数据了 【活跃】C 2019/1/15 10:42:11 你举个场景,看看大家有什么想法,我们很多时候中间状态可以不要 【潜水】A  10:55:19 比如由于源库的表结构变了,没有同步修改仓库;源库有异常的数据加载到仓库出错了;或者源库数据量太大数据加载时候出错了。就是一些比较异常的情况,可能有的也不会发生,就是怕一旦发生什么想象不到的情况,导致某些表的数据没有加载过来,还没有在当天及时处理。 【话唠】B  10:58:53 你们数仓也是基于hive的吗 【话唠】B  11:00:55 我们这边权限控制严格,普通用户没有删表,删字段权限。如果源库做变更了增加字段了,必须发邮件,看看上下游是否有影响,再做同步变更。 【话唠】B 11:02:42 etl报错是难免的,及时的预警,处理,因为各种问题,可以维护个问题集,后边的人报错了,也可以查看。 【潜水】J  11:04:05 源系统变更一般都会做影响分析的吧 【潜水】A  11:18:22 对  是基于hive的   源库的变化都会做影响分析 主要是考虑一些预想外的情况或者疏漏之类的 【潜水】A 11:23:10 非常感谢上面几位的分享建议,我都参考一下想一想

    02
    领券