首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    洞察|淘宝大数据之路:回顾这些年淘宝大数据所经历过的故事

    ,并将之命名为天网调度系统,形成了如下第一代调度系统的架构和原型: ?...图5 云梯1数据同步工具 天网调度系统也不断进行完善,开始支持小时调度、甚至分钟调度,并且集成了自动告警等一系统功能,升级为在云端,相关的DQC系统、数据地图、血缘分析等周边系统在这个时期不断推出,数据团队也不在断壮大...第三个阶段:MaxCompute(原ODPS)时代 就在Hadoop大量应用的同时,另外一个项目正在悄悄进行,那就是阿里云团队自主研发的ODPS系统ODPS所有的代码都由阿里自己完成,在统一、安全、可管理...、能开放方面相比于Hadoop做了大量的完善,ODPS系统命名为云梯二,从2010年开始,在很长一段时间内,一直处于云梯一和云梯二并存的状态; 这期间,集团为更好的打造数据生态,成立了CDO,统一数据平台事业群...,叫做“登月项目”,将全集团的数据加工应用全部搬移到ODPS,项目一直持续到2015年,Hadoop正式下线,淘宝大数据彻底进入ODPS时代,整个数据的生态圈也越来越丰富,同时,阿里云开始对外提供云服务

    2.7K50

    如何快速搭建一个类似于神策数据或诸葛IO的数据分析平台?

    七日留存率的一个简单计算公式如下: 七日留存率 = 七天前注册的当日活跃用户数 / 七天前注册的用户数 根据不同公司业务的运营策略,有时也直接将登录系统的用户等价为活跃用户,这个例子中允许定义活跃用户的关键行为...阿里大数据计算平台好像也是今年9月份左右开始对外公测,之前的名称叫做ODPS,后来改名叫做大数据计算服务(MaxCompute),虽然对于我来说都一样拗口难懂(后面我就用ODPS来统一代指这个服务)……..., 数据运算和运维则基于ODPS实现多人协作开发数据处理任务并进行上线管理。...图7 数据同步任务开发 步骤二:基于ODPS数据库表的定时任务开发 步骤一基本上完成了数据在ODPS平台上的准备,如每日的用户行为数据和注册数据,下面所需的就是开发定时计算任务了(如计算每天的七日留存指标...、可以扩展的数据分析平台(你也可以基于这个平台搭建出一个商用的推荐系统),当然,这一切的前提是你的BOSS能知道数据分析的价值。

    2.8K60

    SQL解析过程详解

    作者:一帅 简介 SQL任务是ODPS中使用最频繁的一类作业,大部分用户开始使用ODPS时要做的第一件事情就是学习怎么写ODPS的SQL。...ODPS SQL是一种非常灵活的语言,兼容大部分的SQL92规范,也对大规模计算场景做了一些特别的定制。...至此,逻辑查询与逻辑优化就结束了,逻辑查询计划和逻辑优化在所有的SQL系统中都是差不多的,下面来讲讲与我们分布式系统MapReduce相关的物理查询计划。...SQL跑在分布式的飞天系统上,就需要按照分布式系统编程框架来抽象出一些新的物理运算符。...Shuffle-Sort算子(在ODPS中,这个算子叫ReduceSink)在飞天系统上,我们如果想做Group by或者Join操作,那么必须把相同key的数据放到同一个进程节点上来执行,而在这直线,

    3.6K20

    datax详细介绍及使用

    1.1 DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS...同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。...1.4 Quick Start 二、dataX详解 2.1 DataX 3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS...2.3 DataX3.0插件体系 经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。...否则,异常退出,进程退出值非0 2.4.2 DataX调度流程: 举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。

    11.6K31

    Paper Digest|OpenSPG 超大规模知识仓储 KGFabric 论文解读

    在平台建设迭代的过程中,随着跨域图谱融合、图匹配和图表示学习等任务对系统能力的要求日渐增高,现存的数据仓库系统(例如ODPS)和图数据库越来越难以满足需求。...例如从消息队列导入;Delta Level-1 主要考虑批量导入场景,例如从 Hive 或 ODPS 导入。...3.4 图分析系统集成为了优化金融场景下的负载性能,KGFabric 可以作为图分析系统的存储后端,提供原生图检索和图加载能力,避免了分布式构图场景下 shuffle 的额外开销。...相较于 ODPS 或 Hive 省去了数据 shuffle 环节,大幅提升了读取性能Backend Cache:主要包含 meta cache 和 data cache。...4.4 Graph Fabric 扩展性对于默认链指策略(IDE),随着数据源的增多,相较于 ODPS,KGFabric 表现出了良好的扩展性。

    19210

    Archery审核平台之功能篇

    √ × × × × × × × Oracle √ √ √ √ × × × × × × MongoDB √ √ √ × × × × × × × Phoenix √ × √ × × × × × × × ODPS...依托工作流实现流程化管理 审核执行分离 审批和执行可以分配给不同的用户进行操作 SQL工单自动审批、高危语句驳回 支持正则判断工单是否需要人工审批,开启自动审批后,不在正则范围内的SQL语句无需审批,系统自动审核...表级授权、脱敏查询 MsSQL 库级授权、脱敏查询 Redis 库级授权 PostgreSQL 库级授权、脱敏查询 Oracle 库级授权、脱敏查询 MongoDB 库级授权 Phoenix 库级授权 ODPS...权限可以分配给用户,也可以分配给权限组,支持对大多数操作进行限制,独立控制用户的审核、执行等操作权限 工作流 工作流审批流程支持多层级多用户,并且隔离资源组,不同资源组不同的工单类型可以配置不同的审批层级 配置管理 系统配置项

    3K10

    实时数仓混沌演练实践

    测试人员组成蓝军:负责制定混沌演练方案,执行目标系统故障注入,详细记录演练过程;实时数仓开发为红军:负责发现故障、应急响应、排除故障,同时验证系统在不同故障场景下的容错能力、监控能力、人员响应能力、恢复能力等可靠性能力...3.复盘和改进阶段在混沌演练结束后,进行总结和评估,分析红队和蓝队的表现,评估系统的安全性和抗攻击能力;‍总结经验教训,总结成功的防御措施和失败的攻击手法,以便于改进系统的安全策略;‍根据评估结果和总结经验...,制定改进计划,修补系统中的漏洞和薄弱点,提升系统的抗风险能力。...2.故障注入odps将需要注入的数据导入odps。...3.odps同步到kafka执行flink同步脚本,将odsp du_qa_dw_dev.hundun_case表表数据同步到对应的kafka topic中。

    28620

    Hadoop的数据采集框架

    Hadoop提供了一个高度容错的分布式存储系统,帮助我们实现集中式的数据分析和数据共享。...Github Star 462, Fork 362 Apache Flume Apache Flume是一个分布式、可靠、高可用的日志收集系统,支持各种各样的数据来源,如http,log文件,监听端口数据等等...,将这些数据源的海量日志数据进行高效收集、聚合、移动,最后存储到指定存储系统中(可扩展),如kafka、HDFS分布式文件系统、Solr,HBase等。...Github Star 1381, Fork 540 DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase...DataX本身由阿里开发对于阿里自身的数据库比如ODPS、ADS等支持更好。

    1.9K20

    【SQL 审核查询平台】Archery使用介绍

    Connector psycopg2 Oracle Connector cx_Oracle MongoDB Connector pymongo Phoenix Connector phoenixdb ODPS...9123/ 修改配置项 配置项说明 基础设置 添加实例 实例类型分为主库/从库,支持的数据库类型为MySQL/MsSQL/Redis/PostgreSQL/Oracle/MongoDB/Phoenix/ODPS...- 在添加用户和实例的时候也可以批量关联资源组 添加权限组 权限组是一堆权限的集合,类似于角色的概念,工作流的审批配置就是配置的权限组 - 权限组可以按照角色来创建,比如DBA、工程师、项目经理,目前系统初始化数据中会提供五个默认权限组...设置工单上线和查询的审批流程 项目提供简单的多级审批流配置,审批流程和资源组以及审批类型相关,不同资源组和审批类型可以配置不同的审批流程,审批流程配置的是权限组,可避免审批人单点的问题 设置默认资源组和默认权限组 可在系统配置中进行修改

    84310

    大巧不工,袋鼠云正式开源大数据任务调度平台——Taier(太阿)

    随着数字化转型的深入,很多企业在建设数据中台过程中,将涉及大量数据采集、处理、计算等方面的工作,需求的不断叠加,出现了单个系统难以满足复杂业务的情况,迫切需要一种兼容多个子系统互相协作的任务调度系统协调...,正是基于这种背景,Taier分布式DAG任务调度系统应运而生。...Taier(太阿)调度系统架构图 在Taier Logo的设计上,我们围绕系统本身开放包容、简单易用的特性,在设计中融入了积木、剑、蜂巢等元素。...Spark SQL、Flinkx;后续开源支持:SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、Tersorflow、Pytorch、HadoopMR、Kylin、Odps...将持续提升用户体验,计划将优化: 任务类型:支持SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、Tersorflow、Pytorch、HadoopMR、Kylin、Odps

    1.1K40
    领券