井显生,2019年加入去哪儿,现负责国内机票出票、退款、改签核心业务。在领域驱动设计(DDD)、高并发有大量实践经验。
移动智能应用可以分为在线模式、纯离线模式与“在线+离线”混合模式。在线模式下系统数据一般存储在服务器端的大中型数据库(如 SQL Server、Oracle、MySQL 等),移动应用依赖于稳定可靠的网络连接;纯离线模式下系统数据一般存储在移动终端的轻量级数据库(如 SQLite等),移动应用不需要网络连接;“在线+离线”混合模式则比较复杂,通常情况下系统数据存储在服务器端,移动终端暂存部分数据,因而形成了分布式异构数据库。在移动应用运行过程中,当移动终端或服务器端执行数据更新操作后,为了保证数据的完整性和一致性,需要进行双向的数据同步。然而,由于移动网络本身具有复杂性、动态性、弱连接性以及通信延迟与带宽相对有限等特性,因而移动应用的数据同步技术备受考验。
数字经济时代,各行各业数字化转型大趋势下,数据要素成为关键。海量多源异构数据汇聚,使得数据同步面临同步速率受限、稳定性差、维护成本高等挑战。
Grab 是一家总部位于新加坡的东南亚网约车和送餐平台公司,业务遍及东南亚大部分地区,为 8 个国家的 350 多座城市的 1.87 亿多用户提供服务。Grab 当前提供包括网约车、送餐、酒店预订、网上银行、移动支付和保险服务。是东南亚的“美团”。Grab Engineering 分享了他们对搜索索引进行优化的方法与心得,InfoQ 中文站翻译并分享。
一、日志采集 1.1 浏览器的页面日志采集 1.2 无线客户端的日志采集 1.3 日志采集的挑战案例
DM(TiDB Data Migration)是由 PingCAP 开发的一体化数据同步平台,支持从 MySQL 或 MariaDB 到 TiDB 的全量数据迁移和增量数据同步。无论是从 MySQL 向 TiDB 进行平滑数据迁移还是用 TiDB 作为多个 MySQL 实例的数据汇总库,都可以通过 DM 来实现。DM 在 TiDB DevCon 2019 上正式开源,经过半年多时间在大量用户、开发者的支持和反馈下,其功能和稳定性越来越完善。在今天,我们宣布 DM 1.0 GA 正式发布。
在大数据平台中,是不生产数据的,或者说原始数据都是来源于业务系统。所以,我们需要做的第一件事,就是将业务系统的数据搬运到数据平台。改用那句耳熟能详的话,我不生产数据,我只是数据的搬运工。这个数据的搬运工,就是数据平台的第一个模块--数据集成。
我应该是公司第一个专职搜索的,当时搜索所有组件只有一个ES(elasticsearch),虽然之前在干过将近两年的solr,不过主要还是以数据检索为主(类似于为hbase建一个二级索引),既然组织安排也就接下了这口锅,从基础的查询解析/数据同步做起,一点点的把整个搜索的框架立起来,团队“一度扩张”到3个人,承接了整个公司大部分的搜索业务,负责的数据大概有几十亿,从第一年双十一忙于救火的状态到去年的平稳渡过,都不同程度证明了整个搜索团队的成长。
随着互联网流量爆发式增长,越来越多的公司业务需要支撑海量数据存储,对高并发、高可用、高可扩展性等特性提出了更高的要求,这促使各种类型的数据库快速发展,至今常见数据库已经达到 200 多个。与之相伴的便是,各种数据库之间的同步与转换需求激增,数据集成便成了大数据领域的一个亟需优秀解决方案的方向。当前市面上没有一个简单易用且支持每天数百亿条海量数据同步的开源软件,于是 SeaTunnel 应运而生。
数据库中间件承担应用与数据库之间的粘合与润滑,数据库中间件设计的合理应用跑起来就丝滑,否则会拉胯。本文就常见数据库组件相关的功能设计点做个归纳整理:
ChunJun(原FlinkX)是一个基于Flink提供易用、稳定、高效的批流统一的数据集成工具,是袋鼠云一站式大数据开发平台-数栈DTinsight的核心计算引擎,其技术架构基于实时计算框架Flink,打造出“具有袋鼠特色”的实时计算引擎。
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的诉求。当企业内部经过评估选定容灾建设整体方向,即同城双活;需要对方案进行验证,包括组件容灾能力建设,数据同步以及切换验证等。通常对组件容灾能力建设和验证会花费大量时间,如果测试不符合预期,对之前调研、部署以及测试人力和时间成本带来较大耗费。因此借助云平台能力“一站式”提升系统容灾能力,助力企业降本增效。
服务框架的功能侧重点往往不尽相同,因而大家也会用各种大同小异的名称来称呼这类服务,比如数据传输服务,数据采集服务,数据交换服务等等
FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾),并维护该开源社区。目前已完成批流统一,离线计算与流计算的数据同步任务都可基于FlinkX实现。
毫无疑问,乘着云计算发展的东风,Ceph已经是当今最火热的软件定义存储开源项目。如下图所示,它在同一底层平台之上可以对外提供三种存储接口,分别是文件存储、对象存储以及块存储,本文主要关注的是对象存储即radosgw。
基于数据库的数据复制技术大体上可分为两类:数据库自己提供的数据容灾模块和第三方厂商提供的数据库复制技术。以最常见的Oracle数据库为例,Oracle自己的数据复制技术有Data Guard,Streams,Advanced Replication和Golden Gate数据复制软件。第三方厂商的数据复制技术有Quest公司的Share Plex和DSG的RealSync等。
企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。
是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。
新的一年我们加紧了更新迭代的速度,增加了数据湖平台 EasyLake 和大数据基础平台 EasyMR,超 40 项功能升级优化。我们将继续保持产品升级节奏,满足不同行业用户的更多需求,为用户带来极致的产品使用体验。
Canalys发布2022年中国云市场数据,销售总额达到303亿美元,市场同比增长10%。
分库分表的文章网上非常多,但是大多内容比较零散,以讲解知识点为主,没有完整地说明一个大表的切分、新架构设计、上线的完整过程。
本文主要介绍数据交换过程中常用的数据交换方法和方式以及数据交换在新技术下所面对的“挑战”,方便大家深入理解数据交换过程。普元实施数据交换项目已有多年成功经验,本文也将分享大数据时代数据交换所遇到的问题和应对策略。
蓝鲸的配置平台(CMDB)底层使用的是 Mongodb 作为数据存储,其优点不用多说,相信使用过的小伙伴应该都会觉得设计很灵活方便。
系列文章索引: [WCF邮件通信系统应用 之 数据同步程序 之 设计内幕 之 一] 同步一个数据库要发多少个数据包? [WCF邮件通信系统应用 之 数据同步程序 之 设计内幕 之 二] "开门待客"还是“送货上门”? [WCF邮件通信系统应用 之 数据同步程序 之 设计内幕 之 三] “设计应对变化”--实例讲解一个数据同步系统 [WCF邮件通信系统应用 之 数据同步程序 之 设计内幕 之 四] 唯一不变的就是一直在变”--“数据”的华丽“变身术” 数据同步系统的功能: 支持同种数据库间的数据同步
有赞大数据技术应用的早期,我们使用 Sqoop 作为数据同步工具,满足了 MySQL 与 Hive 之间数据同步的日常开发需求。
年底啦~2022 年即将走到尾声,不过袋鼠云对产品品质的坚持始终如一,这段时间我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,例如新增任务告警,进行了 Connector 相关功能优化,以及支持跨时间分区圈群等。
淘宝开放平台(open.taobao.com)是阿里系统与外部系统通讯的最重要平台,每天承载百亿级的API调用,百亿级的消息推送,十亿级的数据同步,经历了8年双11成倍流量增长的洗礼。本文将为您揭开淘宝开放平台的高性能API网关、高可靠消息服务、零漏单数据同步的技术内幕。
万里牛ERP是一款主要针对电商、外贸、实体门店等业务群体的SaaS软件,帮助企业快速布局新零售,提升订单处理效率,实现数据化业务管理,为企业降本增效。
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!
同盾科技是中国领先的人工智能科技企业。为了确保服务的低延迟和高可用性,同盾的技术团队不断寻找最佳的技术架构。经过长时间调研,他们最终选择了新一代分布式数据库 TiDB 作为离线层的核心数据库,基于 TiDB 打造的实时数据架构为风控智能决策保驾护航。
摘要:很多 DBA 同学经常会遇到要从一个数据库实时同步到另一个数据库的问题,同构数据还相对容易,遇上异构数据、表多、数据量大等情况就难以同步。我自己亲测了一种方式,可以非常方便地完成 MySQL 数据实时同步到ClickHouse,跟大家分享一下,希望对你有帮助。
首先本次说的 JIT 指的是 Just In Time ,可以理解为及时录入,一般用在什么样的场景呢?
异地多活相对于异地热备,最大不同点在于应用在不同地域都承载流量,从业务流量调度,数据同步以及业务性能等方面技术复杂度会大幅度的提升。同时业务异地多活有一个前提,就是业务支持单元化部署,这里对存量有历史技术债业务也存在非常大的挑战。因此本篇幅讨论异地多活前提是,业务已经具备单元化部署的能力。
摘要:很多 DBA 同学经常会遇到要从一个数据库实时同步到另一个数据库的问题,同构数据还相对容易,遇上异构数据、表多、数据量大等情况就难以同步。我自己亲测了一种方式,可以非常方便地完成 MySQL 数据实时同步到ADB MySQL,跟大家分享一下,希望对你有帮助。
摘要:很多 DBA 同学经常会遇到要从一个数据库实时同步到另一个数据库的问题,同构数据还相对容易,遇上异构数据、表多、数据量大等情况就难以同步。我自己亲测了一种方式,可以非常方便地完成 MySQL 数据实时同步到DM DB 达梦数据库,跟大家分享一下,希望对你有帮助。
我们团队目前主要的工作只能就是一套网关系统,围绕网关或者是接入层系统来说,是存在一套通用解决方案的。
摘要:很多 DBA 同学经常会遇到要从一个数据库实时同步到另一个数据库的问题,同构数据还相对容易,遇上异构数据、表多、数据量大等情况就难以同步。我自己亲测了一种方式,可以非常方便地完成 MySQL 数据实时同步到ADB PostgreSQL,跟大家分享一下,希望对你有帮助。
摘要:很多 DBA 同学经常会遇到要从一个数据库实时同步到另一个数据库的问题,同构数据还相对容易,遇上异构数据、表多、数据量大等情况就难以同步。我自己亲测了一种方式,可以非常方便地完成 MySQL 数据实时同步到Greenplum,跟大家分享一下,希望对你有帮助。
通常金融、医疗等行业的大型企业,可以建设传统灾备中心来保障核心业务的安全,但是每年在灾备上的花费都是一笔不小的数目。
随着得物 App 的用户流量增长,业务选择的数据库越来越多样化,异构数据源之间的数据同步需求也逐渐增多。为了控制成本并更好地支持业务发展,我们决定自建 DTS 平台。本文主要从技术选型、能力支持与演化的角度出发,分享了在 DTS 平台升级过程中获得的经验,并提供一些参考。
使用袋鼠云数栈的某教育行业客户,在之前的信息化过程中建设了多个系统,已经意识到自身数据孤立的现状,面对TB级的数据量,需要更高效的方式进行数据治理和分析,为业务方提供高质量数据。
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
2008年负责的一个大中型项目,一二十个人的团队,1000万的硬件,500多万的软件,回忆起来收获还是满满的。
快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面:数据开发工程师则首先根据业务需求开发好高质量的数据,通常是结构化数据(数据表);其次,开发稳定可靠的数据服务,并通过API方式交付给业务方使用。数据开发工程师有两个痛点:1)开发数据服务门槛高;2)重复开发数据服务。
本次版本更新对 Flink 的支持升级到 Flink1.12,支持多种流类型任务,新版本的使用文档已在社区中推送,大家可以随时下载查阅。
领取专属 10元无门槛券
手把手带您无忧上云