首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PB 级数据秒级分析:腾讯云原生湖仓DLC 架构揭秘

    导读|过去几年,数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB至 EB 级别。在此基础上,腾讯自研业务也启动了云原生湖仓能力建设。云原生湖仓架构最大的挑战什么?腾讯云原生湖仓 DLC 从哪些方面着手解决问题?接下来由腾讯云大数据专家工程师于华丽带来相关分享。 云原生湖仓的诞生背景、价值、挑战 当前这个阶段,相信大家对于数据湖,数据仓,湖仓一系列的名词已经不算陌生了,我用最直白、最狭义方式去解释“湖仓”的话,就是数据湖跟数仓存储架构统一。 数据湖最初的需求是,要存储和

    02

    Cloudera和Hortonworks 合并的整体梳理

    0. 下一代的企业数据云     将创建世界领先的下一代数据平台提供商,涵盖多云,内部部署和Edge。该组合为混合云数据管理建立了行业标准,加速了客户采用,社区发展和合作伙伴参与。     我们两家公司的业务具有很强的互补性和战略性。通过将Hortonworks在端到端数据管理方面的投资与Cloudera在数据仓库和机器学习方面的投资结合起来,我们将提供业界首个从Edge到AI的企业数据云。这一愿景将使我们的公司能够在追求数字化转型的过程中推动我们对客户成功的共同承诺。     两个公司希望通过合并,创造出一个年收入达到 7.2 亿美元的新实体,并制定清晰的行业标准,成为下一代数据平台领先者,提供业界第一个企业级数据云,提高公共云的易用性和灵活性     一直以来 Hortonworks 团队投资于实时数据流和数据摄取以支持边缘的物联网使用案例,而 Cloudera 更专注于 AI 和 ML 领域,使数据科学家能够使用极其复杂的工具来自动化机器学习工作流。     Cloudera新的CDP平台会同时支持运行在本地,私有云,以及5个最大的公有云包括Amazon,Microsoft,Google,IBM和Oracle     第一个CDP版本将包含CDH6.x和HDP3.x中的一系列组件,并将专注于运行客户现有的工作负载和数据     两家公司对外正式宣称统一版本会基于最新的HDP3.0+CDH6.0     Hadoop 商业化最典型的公司就是Hadoop的三驾马车——Hortonworks、Cloudera和MapR。     昨天我们是 Hortonworks,今天,随着我们合并的正式完成,我们是 Cloudera——现在是全球第二大开源软件公司。”,目前全球第一大开源软件公司仍旧是红帽。 1. 新的趋势     1.1 企业向公有云转变(aws,azure,google cloud)         hadoop/spark 只是其一部分     1.2 云存储成本底 对象存储服务(aws s3,axure blob,google 云端存储)         比hadoop/spark 便宜了5倍     1.3 云服务器 以完全不一样的方式解决了同样的问题,运行即席查询         用户按计算时间计费,无需维护操作hadoop/spark集群     1.4 容器,kenernates和机器学习,今天在python/R语言下进行机器学习,容器与kubernates 为分布式计算提供了更加强大灵活的框架         不打算基于hadoop/spark 进行分发心得饿微服务应用程序 2. 产品影像     2.1  毫无疑问         对于一些无论是Cloudera还是Hortonworks都打包的较为通用的的组件,基本可以毫无疑问的确定会包含在统一版本中。具体包括核心的Apache Hadoop项目如MapReduce,HDFS和YARN - 以及Apache Spark,Apache Hive,Apache HBase,Apache Kafka,Apache Solr,Apache Oozie,Apache Pig,Apache Sqoop和Apache Zookeeper。             我们对新兴的对象存储项目Apache Hadoop Ozone的信心略有不足     2.2 存疑的          有一些开源项目目前仅包含在CDH或HDP中,而Cloudera也没有与之专门对标的产品,它们是否能包含在合并版中目前还存疑。比如说Apache Kudu和Apache Impala,这2个最初都是由Cloudera开发的,用于提供列式数据存储和ad hoc的分析,而最近Hortonworks引入了Apache Druid与之对应。     2.3 有争议的         Apache Ambari直接与Cloudera Manager竞争,再比如Cloudera使用Cloudera Navigator来实现数据治理和数据溯源,而Hortonworks则使用Apache Atlas。     Cloudera将清楚地意识到任何关于它想要扼杀开源功能的建议都将被认为是“大棒”,而不是“胡萝卜”,它将不会被Hortonworks客户和Apache软件基金会开发社区所接受。这是我们认为Cloudera如果想要退出开源需要很谨慎的考虑的另一个原因 - 至少在短期内如此     注:“Carrot and stick”(胡萝卜加大棒)

    01
    领券