尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/027-腾讯云EMR-离线数仓-使用Sqoop完成全量数据同步.mp4原创

2023-03-072023-03-07 18:50:13播放339

点赞0 收藏 0

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/027-腾讯云EMR-离线数仓-使用Sqoop完成全量数据同步.mp4

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那接下来呢，我们先做这个全量表的数据同步，也就是采用我们的scoop，将那些数据量比较小的表呢，直接从my circleql业务数据库导出到我们的HDFS当中，好吧，整个流下了，就这样的MYS当中的一些表，然后用scoop采集到HDFS，当然这边的路径呢，你可以自己去写啊，在scoop的脚本里边自己去写就OK了啊好，那接下来我们先测试一下我们的scoop是否能正常连接到我们的数据库，好吧，呃，那么把这个命令拿过来我们看一下啊，这是b scoop，因为在我们。安装腾讯云MR弹性的时候，对吧，它这个我们就已经勾选过了，跟一样啊呃，N这边呢，执行的叫list database，列出数据库的表啊，整个的数据库列表，呃，就跟我们在数据库里边执行收database是一个道理，然后连接的。
01:09
地址啊，然后呢，Usename password啊很简单的一个点对吧。好，直接拿过来，那在我们的user local serviceco底下啊，那在腾讯云给我们安装的这些服务呢，默认都是在这看见没对吧啊阿杜op have，然后呢，Sparkco super set ZK啊，这是我们当时选择的一些内容，对吧，都在这，好那我们就直接执行看一下啊。啊啊，我退出了这个SCO，刚才为了给大家看这个服务对吧，好，那我们进来。我们稍等一下，诶这边呢，打印出来几个。数据库啊，那这个呢，跟这是一样的来看，跟这个地方一样的，因为它刚好就是打印了我们这块的一个数据库的名称嘛，所以完全一样，那这样的话也就说明这个呢执行成功啊，能打印出来说明咱们的库连接数据库没有问题，那接下来呢，我们就把这个数据导出去啊，那这个时候呢，我们就要写一个脚本去做这样的一个事情，好吧，呃，当然这个脚本里边最核心的是这个函数，我们自己定义了一个函数啊，后面呢，这一些都是调用这个函数到不同的表。
02:27
啊呃，那这个地方呢，一定要注意，那等于说这个函数呢，里边内容其实并不复杂，对吧，就是我们执行一个school命令，那school不熟，那我们现在呢，是讲项目，像这些框架的简单的应用呢，我们并不在项目当中去给大家讲，如果大家有需要，哎，那我需要看一下这个SCO到底怎么用的，每一个参数什么意思对吧，那你就去B站。啊，搜索上硅谷大数据之scoop，里边有详细的课程，好吧，这边呢我就不多说了，那这边呢，简单来看一下啊，这块是关于我们的。
03:07
MYL服务对吧？那这儿呢，是关于HDFS路径啊，刚才我们说的没有路径，你可以随便改，那后面呢，就是查询语句，每一张表呢，查询语句可能不太一样，下面一些呢，字段的分割符呀，压缩方式啊，对于浪字段的处理呀，等等一些参数，好吧，啊，那我们就直接在这儿来编辑我们的脚本，呃，脚本呢，我们还是统一放到这个B目录下啊，之前有一个卡不卡的群体群关脚本对吧，那我们。直接YM，然后呢，把这个东西拿过来比较长，因为我们要导的表呢比较多啊。好，直接。拿过来放在这儿保存退出，然后接下来我们也要给他附上这个执行权限。
04:01
好，那这样的话呢，它就有这个执行权限了，好吧，啊，附上这个执行权限之后呢，这边我们脚本使用的时候，我们要提前做一个这个事儿啊，那我们来看一下为什么啊，呃，是这样的，现在呢，咱们用的是这个root用户对不对，而我们腾讯云这个em Mr当中呢，它的哈杜也就IDFS还有。Name node等等这些服务它是通过哈豆op用户启动的，也就是说在我们HDFST上给大家看一下啊。来回到我们的弹性。呃，点击这个服务。进到我们的HDFS好，那这边呢，显示不是。私立链接对吧，那我们直接高级啊，来继续访问这边用户名密码root，然后呢，密码就是你最初在购买腾讯云Emma集群的时候，你输的那个密码。
05:13
好，来，我们直接进到这边。谢到。啊，胳膊落下，呃，看到这边呢，所属者都是哈杜，那如果你直接拿。Root用户去操作。啊呃。他是不允许往里边去写东西的，那有的人说我入的用户呢，他不是权限最高的吗？那凭什么不让我写呢？那不好意思，哈多这个框架呢，是谁启动谁就是超级用户，他就是最高级别的，好吧，那这边呢有两种方式，第一我们呢采用哈杜用户去执行这个脚本啊，第二种方式呢，我们将我们所需要的这个目录，把这DF的目录，把它修改为，诶，所有人都有这个读写执行的权限，那也可以，两种方案都行啊，只不过说如果你采用第一种，那你要注意，因为这个地方你采用哈度用户去执行脚本，那脚本当中呢，会调用我们scoop命令，而scoop这个内容以及其他的服务都是拿root用户安装的，呃，防止有哈权限达不到的这个点，所以呢，我们接下来做这个事情来看啊，首先。
06:33
切到。我们的。哈，用户啊呃，然后接下来采用命令将我们的根目录修改为777，也就是说所有人都可以有这个权限。啊，那我们稍等一下。当然生长环境当中，不建议大家这样去干，把所有的，因为有可能有的目录呢，嗯，那我们就规定哪些目录给哪些人用啊，你就改为谁就好了，Mode，诶加一个用户名对吧？好。
07:12
因为我们这个测试比较简单，接下来呢，退出当前用户啊，然后呢，我们就可以去执行我们的脚本了，比如说我们用3月12号作为我们的例子，好吧。来执行我们的脚本。当然这个时间呢，也会比较久一些啊。因为我们要导的表呢很多啊，所以呢，我还是一样的把这个任务这个视频呢先暂停，到时候等它全部执行完好以后我再打开。好，那在我们等待一会儿之后发现呢，这个任务已经完成了啊，那我们去HDFS检查一下我们的数据是否已经导入成功。
08:02
这边多了一个原始数据目录，且呢是root用户对吧？啊，大家点进去G末我们的数据库DB啊，然后呢，这里边有很多的一个表啊，那我们随便点开看一下啊，3月12号，那我们之前导的数据写的就是3月12号对吧，我们山城的这个数据啊呃，那这里边呢，我们采用了这个拉子罗的压缩啊，然后用拉子罗压缩，如果你要想能够跑MR任务切片成功，你必须要给他建一个索引文件才可以，好吧，所以呢，我们刚才在脚本当中呢，把这一系列的事情全部都已经完成了，就这个。在这已经把它做了压拉左罗压缩键的索引，这样的话我们就可以未来在执行八任务的时候就可以进行切片了啊，要不然呢，它是切不了片的，虽然我们知道，呃，那拉自罗这种方式呢，可以切片，但是呢，它需要一个索引文件，OK吧，那这块呢，我们全量数据同步呢，就全部完成了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频

（27/63）

4分4秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/001-腾讯云EMR-离线数仓-课程介绍.mp4

8350

3分58秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/002-腾讯云EMR-离线数仓-采集模块介绍.mp4

3850

1分59秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/003-腾讯云EMR-离线数仓-课程目标.mp4

3660

5分35秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/004-腾讯云EMR-离线数仓-数据仓库概念.mp4

3550

2分52秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/005-腾讯云EMR-离线数仓-项目需求.mp4

3580

2分17秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/006-腾讯云EMR-离线数仓-技术选型.mp4

3610

3分59秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/007-腾讯云EMR-离线数仓-数据流程设计.mp4

3590

2分22秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/008-腾讯云EMR-离线数仓-框架版本选型.mp4

3370

2分11秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/009-腾讯云EMR-离线数仓-服务器选型.mp4

3360

3分45秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/010-腾讯云EMR-离线数仓-集群规模&规划.mp4

3330

4分40秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/011-腾讯云EMR-离线数仓-电商业务简介.mp4

3430

7分4秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/012-腾讯云EMR-离线数仓-选购EMR集群.mp4

3760

2分11秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/013-腾讯云EMR-离线数仓-远程连接.mp4

3650

6分8秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/014-腾讯云EMR-离线数仓-修改主机名.mp4

3620

3分29秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/015-腾讯云EMR-离线数仓-配置主机映射.mp4

3880

4分40秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/016-腾讯云EMR-离线数仓-配置免密登录.mp4

3450

6分16秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/017-腾讯云EMR-离线数仓-电商业务数据分析.mp4

3430

5分10秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/018-腾讯云EMR-离线数仓-上传资料包.mp4

3460

6分7秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/019-腾讯云EMR-离线数仓-MySQL安装与启动.mp4

3640

6分29秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/020-腾讯云EMR-离线数仓-远程连接MySQL&建库建表.mp4

3470

5分6秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/021-腾讯云EMR-离线数仓-业务数据生成.mp4

3550

15分28秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/022-腾讯云EMR-离线数仓-Kafka服务安装.mp4

3480

6分11秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/023-腾讯云EMR-离线数仓-Kafka服务群起&测试.mp4

3670

6分22秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/024-腾讯云EMR-离线数仓-Flume&同步策略和工具概述.mp4

3410

6分8秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/025-腾讯云EMR-离线数仓-开启MySQL Binlog 配置信息.mp4

3490

1分54秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/026-腾讯云EMR-离线数仓-开启MySQL Binlog 测试.mp4

3480

9分5秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/027-腾讯云EMR-离线数仓-使用Sqoop完成全量数据同步.mp4

3390

2分29秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/028-腾讯云EMR-离线数仓-增量数据同步数据通道.mp4

3460

1分9秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/029-腾讯云EMR-离线数仓-Flink部署.mp4

3680

12分57秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/030-腾讯云EMR-离线数仓-FlinkCDC简单代码说明.mp4

3570

3分5秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/031-腾讯云EMR-离线数仓-FlinkCDC简单代码本地测试.mp4

3720

2分42秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/032-腾讯云EMR-离线数仓-FlinkCDC完整代码说明.mp4

3680

10分16秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/033-腾讯云EMR-离线数仓-FlinkCDC完整代码打包测试.mp4

3610

8分21秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/034-腾讯云EMR-离线数仓-Flume配置文件.mp4

3720

2分29秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/035-腾讯云EMR-离线数仓-增量数据同步测试.mp4

3570

1分3秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/036-腾讯云EMR-离线数仓-Flume脚本完成.mp4

3470

3分28秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/037-腾讯云EMR-离线数仓-构建离线数仓文档说明.mp4

3560

1分17秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/038-腾讯云EMR-离线数仓-数据仓库概述.mp4

3470

25分36秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/039-腾讯云EMR-离线数仓-建模准备工作.mp4

3740

16分7秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/040-腾讯云EMR-离线数仓-建模具体工作.mp4

3510

3分40秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/041-腾讯云EMR-离线数仓-Hive环境准备-修改配置.mp4

3920

3分16秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/042-腾讯云EMR-离线数仓-Hive环境准备-测试.mp4

3740

3分42秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/043-腾讯云EMR-离线数仓-Yarn环境准备.mp4

3610

1分11秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/044-腾讯云EMR-离线数仓-开发环境准备说明.mp4

3760

4分52秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/045-腾讯云EMR-离线数仓-ODS层-建表.mp4

3420

2分47秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/046-腾讯云EMR-离线数仓-ODS层-装载数据.mp4

3650

1分55秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/047-腾讯云EMR-离线数仓-DIM层-商品维度表.mp4

3580

30秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/048-腾讯云EMR-离线数仓-DIM层-优惠券维度表.mp4

3460

24秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/049-腾讯云EMR-离线数仓-DIM层-活动维度表.mp4

3380

24秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/050-腾讯云EMR-离线数仓-DIM层-地区维度表.mp4

3620

7分11秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/051-腾讯云EMR-离线数仓-DIM层-用户维度表.mp4

3420

39秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/052-腾讯云EMR-离线数仓-DWD层-加购事实表.mp4

3570

34秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/053-腾讯云EMR-离线数仓-DWD层-下单事实表.mp4

3640

20秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/054-腾讯云EMR-离线数仓-DWD层-取消订单事实表.mp4

3580

4分6秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/055-腾讯云EMR-离线数仓-DWD层-其他事实表&脚本封装.mp4

3480

2分44秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/056-腾讯云EMR-离线数仓-DWD层-数据展示.mp4

3420

2分54秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/057-腾讯云EMR-离线数仓-DWS层-交易域用户商品粒度订单需求-需求分析.mp4

3600

1分54秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/058-腾讯云EMR-离线数仓-DWS层-交易域用户商品粒度订单需求-建表&装载数据.mp4

3690

1分30秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/059-腾讯云EMR-离线数仓-DWS层-交易域用户商品粒度退单需求-建表&装载数据.mp4

3510

1分48秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/060-腾讯云EMR-离线数仓-ADS层-品牌订单统计.mp4

3630

3分1秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/061-腾讯云EMR-离线数仓-ADS层-交易综合统计.mp4

3500

4分17秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/062-腾讯云EMR-离线数仓-数据可视化-建表&导出数据.mp4

3750

2分17秒

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/063-腾讯云EMR-离线数仓-数据可视化-最终总结.mp4

3620

尚硅谷基于腾讯云EMR搭建离线数据仓库（2023版）/视频/027-腾讯云EMR-离线数仓-使用Sqoop完成全量数据同步.mp4原创

我来说两句

作者

相关推荐

暂无相关视频

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐