第八篇｜Spark SQL百万级数据批量读写入MySQL

文章来源：企鹅号 - 西贝木土

Spark SQL读取MySQL的方式

Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比，应优先使用此功能。这是因为结果作为DataFrame返回，它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python，因为它不需要用户提供ClassTag。

可以使用Data Sources API将远程数据库中的表加载为DataFrame或Spark SQL临时视图。用户可以在数据源选项中指定JDBC连接属性。user和password通常作为用于登录数据源的连接属性。除连接属性外，Spark还支持以下不区分大小写的选项：

源码

SparkSession

DataFrameReader

示例

Spark SQL批量写入MySQL

代码示例如下：

JDBC连接工具类：

总结

Spark写入大量数据到MySQL时，在写入之前尽量对写入的DF进行重分区处理，避免分区内数据过多。在写入时，要注意使用foreachPartition来进行写入，这样可以为每一个分区获取一个连接，在分区内部设定批次提交，提交的批次不易过大，以免将数据库写挂。

发表于: 2020-11-022020-11-02 08:30:25
原文链接：https://kuaibao.qq.com/s/20201102A01MHH00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

第八篇｜Spark SQL百万级数据批量读写入MySQL

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐