00:00
好,那接下来呢,我们先做这个全量表的数据同步,也就是采用我们的scoop,将那些数据量比较小的表呢,直接从my circleql业务数据库导出到我们的HDFS当中,好吧,整个流下了,就这样的MYS当中的一些表,然后用scoop采集到HDFS,当然这边的路径呢,你可以自己去写啊,在scoop的脚本里边自己去写就OK了啊好,那接下来我们先测试一下我们的scoop是否能正常连接到我们的数据库,好吧,呃,那么把这个命令拿过来我们看一下啊,这是b scoop,因为在我们。安装腾讯云MR弹性的时候,对吧,它这个我们就已经勾选过了,跟一样啊呃,N这边呢,执行的叫list database,列出数据库的表啊,整个的数据库列表,呃,就跟我们在数据库里边执行收database是一个道理,然后连接的。
01:09
地址啊,然后呢,Usename password啊很简单的一个点对吧。好,直接拿过来,那在我们的user local serviceco底下啊,那在腾讯云给我们安装的这些服务呢,默认都是在这看见没对吧啊阿杜op have,然后呢,Sparkco super set ZK啊,这是我们当时选择的一些内容,对吧,都在这,好那我们就直接执行看一下啊。啊啊,我退出了这个SCO,刚才为了给大家看这个服务对吧,好,那我们进来。我们稍等一下,诶这边呢,打印出来几个。数据库啊,那这个呢,跟这是一样的来看,跟这个地方一样的,因为它刚好就是打印了我们这块的一个数据库的名称嘛,所以完全一样,那这样的话也就说明这个呢执行成功啊,能打印出来说明咱们的库连接数据库没有问题,那接下来呢,我们就把这个数据导出去啊,那这个时候呢,我们就要写一个脚本去做这样的一个事情,好吧,呃,当然这个脚本里边最核心的是这个函数,我们自己定义了一个函数啊,后面呢,这一些都是调用这个函数到不同的表。
02:27
啊呃,那这个地方呢,一定要注意,那等于说这个函数呢,里边内容其实并不复杂,对吧,就是我们执行一个school命令,那school不熟,那我们现在呢,是讲项目,像这些框架的简单的应用呢,我们并不在项目当中去给大家讲,如果大家有需要,哎,那我需要看一下这个SCO到底怎么用的,每一个参数什么意思对吧,那你就去B站。啊,搜索上硅谷大数据之scoop,里边有详细的课程,好吧,这边呢我就不多说了,那这边呢,简单来看一下啊,这块是关于我们的。
03:07
MYL服务对吧?那这儿呢,是关于HDFS路径啊,刚才我们说的没有路径,你可以随便改,那后面呢,就是查询语句,每一张表呢,查询语句可能不太一样,下面一些呢,字段的分割符呀,压缩方式啊,对于浪字段的处理呀,等等一些参数,好吧,啊,那我们就直接在这儿来编辑我们的脚本,呃,脚本呢,我们还是统一放到这个B目录下啊,之前有一个卡不卡的群体群关脚本对吧,那我们。直接YM,然后呢,把这个东西拿过来比较长,因为我们要导的表呢比较多啊。好,直接。拿过来放在这儿保存退出,然后接下来我们也要给他附上这个执行权限。
04:01
好,那这样的话呢,它就有这个执行权限了,好吧,啊,附上这个执行权限之后呢,这边我们脚本使用的时候,我们要提前做一个这个事儿啊,那我们来看一下为什么啊,呃,是这样的,现在呢,咱们用的是这个root用户对不对,而我们腾讯云这个em Mr当中呢,它的哈杜也就IDFS还有。Name node等等这些服务它是通过哈豆op用户启动的,也就是说在我们HDFST上给大家看一下啊。来回到我们的弹性。呃,点击这个服务。进到我们的HDFS好,那这边呢,显示不是。私立链接对吧,那我们直接高级啊,来继续访问这边用户名密码root,然后呢,密码就是你最初在购买腾讯云Emma集群的时候,你输的那个密码。
05:13
好,来,我们直接进到这边。谢到。啊,胳膊落下,呃,看到这边呢,所属者都是哈杜,那如果你直接拿。Root用户去操作。啊呃。他是不允许往里边去写东西的,那有的人说我入的用户呢,他不是权限最高的吗?那凭什么不让我写呢?那不好意思,哈多这个框架呢,是谁启动谁就是超级用户,他就是最高级别的,好吧,那这边呢有两种方式,第一我们呢采用哈杜用户去执行这个脚本啊,第二种方式呢,我们将我们所需要的这个目录,把这DF的目录,把它修改为,诶,所有人都有这个读写执行的权限,那也可以,两种方案都行啊,只不过说如果你采用第一种,那你要注意,因为这个地方你采用哈度用户去执行脚本,那脚本当中呢,会调用我们scoop命令,而scoop这个内容以及其他的服务都是拿root用户安装的,呃,防止有哈权限达不到的这个点,所以呢,我们接下来做这个事情来看啊,首先。
06:33
切到。我们的。哈,用户啊呃,然后接下来采用命令将我们的根目录修改为777,也就是说所有人都可以有这个权限。啊,那我们稍等一下。当然生长环境当中,不建议大家这样去干,把所有的,因为有可能有的目录呢,嗯,那我们就规定哪些目录给哪些人用啊,你就改为谁就好了,Mode,诶加一个用户名对吧?好。
07:12
因为我们这个测试比较简单,接下来呢,退出当前用户啊,然后呢,我们就可以去执行我们的脚本了,比如说我们用3月12号作为我们的例子,好吧。来执行我们的脚本。当然这个时间呢,也会比较久一些啊。因为我们要导的表呢很多啊,所以呢,我还是一样的把这个任务这个视频呢先暂停,到时候等它全部执行完好以后我再打开。好,那在我们等待一会儿之后发现呢,这个任务已经完成了啊,那我们去HDFS检查一下我们的数据是否已经导入成功。
08:02
这边多了一个原始数据目录,且呢是root用户对吧?啊,大家点进去G末我们的数据库DB啊,然后呢,这里边有很多的一个表啊,那我们随便点开看一下啊,3月12号,那我们之前导的数据写的就是3月12号对吧,我们山城的这个数据啊呃,那这里边呢,我们采用了这个拉子罗的压缩啊,然后用拉子罗压缩,如果你要想能够跑MR任务切片成功,你必须要给他建一个索引文件才可以,好吧,所以呢,我们刚才在脚本当中呢,把这一系列的事情全部都已经完成了,就这个。在这已经把它做了压拉左罗压缩键的索引,这样的话我们就可以未来在执行八任务的时候就可以进行切片了啊,要不然呢,它是切不了片的,虽然我们知道,呃,那拉自罗这种方式呢,可以切片,但是呢,它需要一个索引文件,OK吧,那这块呢,我们全量数据同步呢,就全部完成了。
我来说两句