首页
学习
活动
专区
工具
TVP
发布

大数据共享

专栏成员
71
文章
56843
阅读量
18
订阅数
Canal 安装
有两个很重要的文件 第一个就是:canal.properties 第二个就是:example目录下的instance.properties 文件
用户1483438
2022-07-26
5940
Canal 介绍
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。 canal 就是一个同步增量数据的一个工具。
用户1483438
2022-07-26
1.7K0
SparkSql之DataFrame
为了方便测试,单独把sparkSession 提出去,使用它 Junit的方式进行测试运行。
用户1483438
2022-07-26
6300
Spark累加器(Accumulator)
累加器:分布式共享只写变量。(Executor和Executor之间不能读数据) 累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge。
用户1483438
2022-07-26
1.6K0
SparkSql之编程方式
SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。
用户1483438
2022-07-26
8450
Action行动算子
在spark中,有两种算子,Transformation转换算子和 Action行动算子。Transformation转换算子在整个job任务中,都是一个懒加载,只有真正执行了 Action行动算子的时候,整个job任务才会得到正在的运行。 可以把Transformation转换算子理解成工厂中的流水线, Action行动算子相当于总闸,只有拉下总闸,整条流水线便开始了运行。
用户1483438
2022-05-09
9040
数据读取与保存
Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中,可以调用sequenceFile[keyClass, valueClass](path)。
用户1483438
2022-05-09
1K0
键值对RDD数据分区
所以主要了解HashPartitioner分区器,RangePartitioner分区器及自定义分区器。
用户1483438
2022-05-06
2.2K0
RDD序列化
此时运行:会有问题吗? 结果没有:其原因是因为x属于局部变量,可以直接进行序列化。而放到外部,那么就需要与SerializableRDD关联,序列化x变量前肯定要序列化SerializableRDD,否则就会报错。
用户1483438
2022-05-06
4480
RDD持久化
所谓的持久化,就是将数据进行保存,避免数据丢失。RDD持久化并非将数据落盘保存,而是用作缓存。 了解RDD持久化前需要先了解什么是RDD?
用户1483438
2022-04-28
5930
RDD依赖关系
其中有一个就是 - A list of dependencies on other RDDs(依赖关系)
用户1483438
2022-04-28
7670
Transformation转换算子之双Value类型交互
intersection()交集 对源RDD和参数RDD求交集后返回一个新的RDD image.png 交集:只有3 案例演示 @Test def intersection(): Unit ={ // 创建sc val conf =new SparkConf().setMaster("local[4]").setAppName("test") val sc=new SparkContext(conf) // 集合1 val list1=List(1
用户1483438
2022-04-27
2030
Transformation转换算子之Key-Value类型
依样画葫芦娃 我们也许不知道怎么自定义一个分区,那么可以看看spark 自带的是怎么写的;如HashPartitioner
用户1483438
2022-04-27
6420
Transformation转换算子之Value类型
思考一个问题?map算子并没有指定分区,但是却是还是4个分区? 首先 map的数据来源于rdd1;rdd1指定了分区。
用户1483438
2022-04-27
5360
SparkCore之RDD
https://blog.csdn.net/zym1117/article/details/79532458
用户1483438
2022-04-26
6410
spark入门之集群角色
Master和Worker是Spark的守护进程、集群资源管理者,即Spark在特定模式下正常运行所必须的进程。
用户1483438
2022-04-26
5710
scala(二十二) 异常(Exception)
注意在 scala中 == 类似于 java 中的 equals;所以 != 就相当于对 equals 取反 打印
用户1483438
2022-04-22
6050
scala(二十一) 模式匹配(match)
为了获取里面的数据,需要写成这样的形式e._2._2._2._1;开发时也许还知道各个._2 是什么,但是过一段时间,可能就忘了,此种方式出现的问题就是可读性极差。
用户1483438
2022-04-22
7090
scala(十六) Set
Set 特性 不重复、无序 不可变set 创建Set& apply方式创建 val set=Set[Int](1,2,3,4,5) 查看setApi 进入 scala $ scala Welcome to Scala 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_172). Type in expressions for evaluation. Or try :help. scala> val set=Set[Int](1,2,3,4
用户1483438
2022-04-20
3300
scala(十八) Map
Map 集合 Scala中的Map和Java类似,也是一个散列表,它存储的内容也是键值对(key-value)映射,Scala中不可变的Map是有序的,可变的Map是无序的。 不可变Map 创建不可变Map val map=Map("a"->1,"b"->2,"c"->3) 或者 val map=Map(("a",1),("b",2),("c",3)) 更或者混合使用 val map=Map(("a",1),"b"->2,"c"->3) 只有是二元元组就可以。 支持的Api scala> map. +
用户1483438
2022-04-20
2480
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档