文章/答案/技术大牛

发布

首页视频23.腾讯云EMR-需求及架构-同步策略&开启MySQL Binlog

23.腾讯云EMR-需求及架构-同步策略&开启MySQL Binlog原创

2022-12-142022-12-14 12:18:22播放372

本项目由尚硅谷大数据研究院与腾讯云团队共同合作研发，依托国内电商巨头的真实业务场景，基于各大互联网企业对于腾讯云EMR架构体系的需求，将整个电商的实时数据仓库体系搭建在腾讯云架构上。全方面完成了整个实时数据仓库架构的海量数据采集、存储、计算、可视化展示，整个业务流程全部搭建在腾讯云服务器上并且全部使用腾讯云EMR的服务组件，将各腾讯云EMR服务组件充分进行联动。通过本项目的学习，学员可以全方位掌握腾讯云的大数据服务组件的使用和调优。

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
安装完这个卡夫卡之后呢，我们就要将数据导入到我们的卡夫卡里边来，对吧？呃，那这就涉及到我们导入的一个策略，也在生产环境当中称为业务数据的同步策略，对于我们实时出仓而言啊，这个地方就比较简单了，我们只能选用一种，那就是增量同步，因为毕竟我们要做的是一个实时，对不对，所以增量，呃，那所谓的增量呢，就是说当数据库当中发生写操作，那写操作呢，就包括新增，更新或删除，我们要及时的把它拿过来，现在市面上比应用比较多的像这种同步的工具有。Maxwell。Canal，还有这个flink CDC啊，这些东西呢，都是用的比较多的，呃，那我们这个fli CDC呢，也是近期非常火的一个工具，那我们这个项目当中呢，采用的就是弗Li CDC啊呃，那关于通过策略呢，我们就没有什么太多可说的，因为实时数仓我们刚才说了只能选用增量同步啊，那弗林克CDC呢，它可以动态的去获取到我们的变更数据啊啊，那这属于我们的一个前置课程，那我们等会就直接去用啊，大家想要了解的，第一你自己可以看一下这个。
01:15
开源的地址，它上面呢也有自己的文档，第二呢，在B站上面也有我本人所讲的弗林CDC的一个课程，而且那套课程当中呢，还分析了一下弗林CDC2.x的一个源码，因为它相比较于1.x呢做了一些。更新功能上的更新，对吧？那我们通过源码的角度去了解了一下，这是我们前置课程，我们在这儿就不多聊了，等会儿呢我就直接去使用啊，那弗利CC等会儿呢，会抓取到我们买S当中这种变化的数据，它是以这样的形式，一个大的接格式给我们展示的，那首先呢，大的接算格式当中有这几个字段，第一个before，第二个after，然后呢，它的source啊，表明库明等信息，还有它操作那增删改对吧？时间戳是否有事物啊，事物的ID，如果有事物的话，事物ID将会是什么？OK，那其实对于这几个内容呢，我们倒是比较好理解，因为看到名字就知道了，对吧？那before跟after是什么意思呢？因为我们刚才提到了，在我们获取变更数据的时候，它有三种不同的类型，第一新增对吧？呃，然后更新，还有这个删除，那这块呢，到时候对应不同的类型的，它里边封装的内容就不一样，我们举一个简单例子，比如说我们新增一条数据，也就是说音色的插入一条数据。
02:33
那么它的before呢，将会是空的，然后after数据，因为毕竟是新增，新增数据呢，它不可能有之前的数据，这也就是说在你更改之前的数据，那意味着我们如果是一个更新操作，我相信大家就应该知道了，如果更新操作，那么在这两个大的K里边呢，都会有数据，因为更新操作呢，它分为前或者后，对吧，那如果是我们的。删除操作呢，大家可以自己思考一下，那哪个字段有哪个字段没有啊。
03:03
啊，大家可以把这个答案打到这个公屏上对吧？好，那没有问题啊，呃，很简单，那我们如果是一个删除操作的话，那只有before啊，没有after，因为毕竟你把数据删了，那我只有之前的，没有之后的，对吧？好，这是它封装的格式，比较简单，未来我们使用的时候呢，也很舒服，OK吧？好，那除了这个之外呢，我们就说一说弗Li CC，它为什么能够拉取到我们买当中这种动态变化的数据呢？很简单，我们在生产环境当中呢，同学都了解到，在对于我们买色克呢，我们经常会配置这个主从复制。为了安全性的一个考虑，对吧，那主从复制中间它是不会用到这个blog。所谓的blog呢，就是它的一个预写日志，对不对。对吧？好，那既然这个是一个预写日志，也就是说他在做任何操作的时候呢，他会把他的操作给他写到我们的日志里边，然后呢，我们可以访问这个日志来恢复我们的数据，那么弗Li CDC呢，就是模拟的这种环境，诶把自己想象成一个从节点去找这个主节点拿到它的操作日志，然后接下来我们把操作日志变化为我们所需要的数据，那讲到这儿大家就应该明白了，其实我们要想使用弗Li CDC能够去抓取我们买斯克数据呢，那我们必须要开启一个blo，好吧，那接下来呢，我们就把这个买S克的blo给它打开。
04:30
呃，回到我们最初的这个101节点啊啊嗯，然后接下来我直接把刚才的那套东西，我就给它放在这个位置好吧。这里边儿的内容呢，我们给大家做一个介绍。呃，这边都是注释掉了是吧，我们把这个注释打开啊，当然这个无所谓啊，这几个。啊，就是每一个，你把这个井号删一个就好了啊。好，那第一个呢是ID。
05:02
在外力啊，那这个主要跟这个主节点不同啊，如果那所以说可能主节点我不知道多少，那你可以搞一个比较大的值对不对啊，那第二个呢，是我们前缀并log的一个前缀名啊，因为未来我们刚才提到了，它是一个预写日志，也就是说它是一个文件，那有文件名对吧？那这个是它的格式，除了肉之外，它还有这个pre statementment啊，Statement级别的，也就语句级别，还有一个呢，是mix叫混合的，那呃，那这三种有什么区别呢？那我们简单的跟大家聊一聊啊。Mix混合的结结合了两者的优势啊，那他说你为什么不用mix的呢，对吧，那混合的有优势啊，好，那首先呢是肉级别，肉级别的话它是直接把我们的结果拿到啊，那statement呢，就是比如说我们INSERT1条数据，那么它会把直接这条四个语句放到我们日志里边，而mix呢，它会结合两者优势，那我们就分别聊一聊这两者之间的一个区别，因为我们知道在。
06:02
MYS当中，它是可以批量操作，也就一条S语句，可能会同时更改多条这个数据，对不对？好，那嗯，很明显，我们用语句级别它的数据量，我们的日志的数据量是不是会小，因为我一条数据。一条S会对多条数据对吧？那如果你用肉级别的话会怎么样？数据量会很大，那这样看来是不是statement更更有优势啊？对不对，但是呢，他也不是全球优势，比如说我们在这个搜索语句里边用了一个随机数的这样的一个函数，那会怎么样呢。我们使用了一个随机数函数。那你想想看，我们主节点调用这个搜狗语句，随机到的数字可能是个二。对吧，那接下来你把这个搜狗语句写到日志里边，当我们从节点拿到这条语句进行执行的时候，它有没有可能随机到是三而不是二？对吧？也就是说用statement这种呢，优点在于日志文件的数据量比较小，但是它可能存在这个一致性数据问题，而肉级别恰恰相反，它是将数据结果给它写到日志里，也就是说你主节点在执行类似于这种随机数的时候，你的结果是二，我是将二这个结果写到日志文件里边，那你从节点拿到这个数据的时候，一定会跟我们主节点保持一致，大家能明白吗？但是它的缺点就在于数据量会比较大。
07:29
那mix呢，就会结合两者的。优点啊，当你里边没有这个随机数，也就是说这个无论谁执行这个搜索语句结果都是一样的，那么它会启用C的，那如果存在这种自定义函数随机数啊，这样的它会用肉这种方式，哎，那这样看来确实mix会更好，对吧？啊，但是你要知道有一个问题，我们现在呢，是用的弗Li CDC，或者类似的同步的框架，像mael，它的原理都是一样的，那我想问大家，像这样的框架，它虽然通过满足主节点它的一个协议拿到这个日志数据，但是。
08:09
我们像弗林格CDC麦L这种工具里边，它会有一个。买的引擎吗？大家所熟悉的像my I in the DB这种引擎，它是不存在的，也就是说当我们给它这个四个语句的时候，它是没办法把它解析成我们要的数据，所以这边我们如果要做实时分析，那我们只能选用肉级别，我相信大家应该能够明白是什么意思，对吧？好，那这边呢，我们配完了，配完了最后一个是我们要开启的数据库，你要对哪个数据库进行开启blog啊，当然了，那就说我要有多个，怎么该怎么配置，跟大家简单的说一下，如果有多个的话，那么这边呢，YY。P，比如说我们有一个杠一啊，那我们就加一个就好了。懂吧，你再开启三个，再开启三个对吧，那也就是说这样会不是这这边很麻烦吗？这种方式，假如说我的数据库很多我都要开启怎么办？如果说你想要对当前这个MYSL服务当中所有的数据库都开启当前的这个blog，那么怎样，这个你就不写了，不写默认是所有数据库都开启的，OK吧，这样就比较方便啊，那我们只有这个数据库要开启，所以我们把这个给它删掉好吧，呃，那这边呢，保存保存之后呢，切记我们一定要干什么要去。
09:29
重启，因为我们修改了这个配置文件，重启一下我们的买服务啊，那system。Controlar。买。哦，我们稍等一下，重启完之后呢，同样的我们也可以查看一下它的一个状态，对不对，诶还是这个running，那没有问题。啊好，那接下来有同学们想我们这个有没有生效呢？那也可以去看对吧，比如说我们到它的这个哇，Li my这个目录底下啊，呃，那看这边就是我们刚才写的这个前缀啊，它就有第一个文件了，每次重启呢，它会更新一个，但这个数据量比较大的时候也会更新，现在呢，大家注意一下它的大小是154对吧，很简单，我们呢，来尝试插入一条数据，看看这个会不会改变。
10:22
啊，那找到一个比较简单的表啊，我通常用的呢，嗯，像这个，呃，开一对吧，这里边数据量比较少，就两个字段，比如说我增加一个，然后呢是爱硅谷。保存保存好以后呢，我们到这儿来看，刚才是154啊，一下再看变成了436，说明我们的blog开启是没有问题的，OK吧？啊，那这个就比较简单了啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者社区

腾讯云 | 产品运营

腾讯云 | 产品运营（已认证）

【合辑】《基于腾讯云EMR搭建实时数据仓库-上》

（23/58）

4分15秒

1.腾讯云EMR-实时数仓-课程介绍

2.8K1

1分52秒

2.腾讯云EMR-需求及架构-简介

1K2

3分28秒

3.腾讯云EMR-需求及架构-课程目标

5511

5分18秒

4.腾讯云EMR-需求及架构-数据仓库概念

3791

3分39秒

5.腾讯云EMR-需求及架构-项目需求

5841

10分28秒

6.腾讯云EMR-需求及架构-技术选型

6091

4分16秒

7.腾讯云EMR-需求及架构-数据流程设计

3681

3分26秒

8.腾讯云EMR-需求及架构-框架的版本选型

1.4K1

2分39秒

9.腾讯云EMR-需求及架构-服务器选型

3771

5分41秒

10.腾讯云EMR-需求及架构-集群规模及集群规划

3741

5分11秒

11.腾讯云EMR-需求及架构-电商业务简介

6061

9分12秒

12.腾讯云EMR-需求及架构-EMR的购买与启动

3751

1分37秒

13.腾讯云EMR-需求及架构-EMR集群简单说明

1.4K1

1分7秒

14.腾讯云EMR-需求及架构-使用XShell连接服务

1.3K1

1分37秒

15.腾讯云EMR-需求及架构-修改主机映射&配置无密登录

7341

1分37秒

16.腾讯云EMR-需求及架构-电商业务数据说明

5681

6分9秒

17.腾讯云EMR-需求及架构-上传资料包

5800

3分47秒

18.腾讯云EMR-需求及架构-MySQL的安装与启动

3730

7分54秒

19.腾讯云EMR-需求及架构-MySQL修改密码&远程访问

6050

7分54秒

20.腾讯云EMR-需求及架构-生成业务数据

3800

14分47秒

21.腾讯云EMR-需求及架构-Kafka安装

3690

5分27秒

22.腾讯云EMR-需求及架构-Kafka配置环境变量&群起

3760

10分48秒

23.腾讯云EMR-需求及架构-同步策略&开启MySQL Binlog

3720

1分40秒

24.腾讯云EMR-需求及架构-Flink安装

1.7K0

3分31秒

25.腾讯云EMR-需求及架构-项目构建

3740

9分17秒

26.腾讯云EMR-需求及架构-FlinkCDC代码讲解&本地测试

1.4K0

10分38秒

27.腾讯云EMR-需求及架构-FlinkCDC代码远程测试

1.4K0

1分51秒

28.腾讯云EMR-实时数仓搭建-课程介绍

3620

27分49秒

29.腾讯云EMR-实时数仓搭建-分层框架-ODS&DIM层

3660

12分45秒

30.腾讯云EMR-实时数仓搭建-DWD&DWS&ADS层

3650

14分27秒

31.腾讯云EMR-实时数仓搭建-架构分析

3750

25分36秒

32.腾讯云EMR-实时数仓搭建-准备工作

3640

16分7秒

33.腾讯云EMR-实时数仓搭建-具体工作

3660

16分13秒

34.腾讯云EMR-实时数仓搭建-HBase部署

3650

4分38秒

35.腾讯云EMR-实时数仓搭建-HBase启动&测试

3640

54秒

36.腾讯云EMR-实时数仓搭建-IDEA代码环境说明

3790

6分20秒

37.腾讯云EMR-实时数仓搭建-Phoenix部署

3710

1分56秒

38.腾讯云EMR-实时数仓搭建-Phoenix启动

3690

6分33秒

39.腾讯云EMR-实时数仓搭建-Redis部署

3670

1分15秒

40.腾讯云EMR-实时数仓搭建-Redis启动&测试

3790

5分9秒

41.腾讯云EMR-实时数仓搭建-ClickHouse安装&启动&测试

3620

2分12秒

42.腾讯云EMR-实时数仓搭建-课程说明

3500

6分57秒

43.腾讯云EMR-实时数仓搭建-DIM层-思路分析 1

3660

16分33秒

44.腾讯云EMR-实时数仓搭建-DIM层-思路分析 2

3610

12分12秒

45.腾讯云EMR-实时数仓搭建-DIM层-思路分析 3

3480

5分57秒

46.腾讯云EMR-实时数仓搭建-DIM层-思路整理

3800

14分7秒

47.腾讯云EMR-实时数仓搭建-DIM层-消费&过滤&转换数据

3690

19分53秒

48.腾讯云EMR-实时数仓搭建-DIM层-配置信息表

3470

12分8秒

49.腾讯云EMR-实时数仓搭建-DIM层-读取配置信息&处理成广播流

3750

10分1秒

50.腾讯云EMR-实时数仓搭建-DIM层-处理连接流-思路分析

5900

10分32秒

51.腾讯云EMR-实时数仓搭建-DIM层-处理连接流-广播流-解析数据

3460

21分1秒

52.腾讯云EMR-实时数仓搭建-DIM层-处理连接流-广播流-校验并建表

3510

3分0秒

53.腾讯云EMR-实时数仓搭建-DIM层-处理连接流-广播流-写入状态

3750

24分50秒

54.腾讯云EMR-实时数仓搭建-DIM层-处理连接流-主流-读取状态&过滤数据

3550

1分34秒

55.腾讯云EMR-实时数仓搭建-DIM层-处理连接流-主流-补充字段并写出数据

3780

17分6秒

56.腾讯云EMR-实时数仓搭建-DIM层-将数据写出到Phoenix-编码

3980

2分1秒

57.腾讯云EMR-实时数仓搭建-DIM层-将数据写出到Phoenix-测试

3530

3分31秒

58.腾讯云EMR-实时数仓搭建-DIM层-将数据写出到Phoenix-打包上传集群

3650

23.腾讯云EMR-需求及架构-同步策略&开启MySQL Binlog原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐