使用Spark 1.6.2 JDBC读取Oracle数据的并行性

文章/答案/技术大牛

发布

2回答

、、、

如何在使用Spark 1.6.2从Oracle读取数据时选择lowerBound、upperBound和numPartitions的值。我有分区键。

浏览 1提问于2018-02-02得票数 3

回答已采纳

1回答

没有主键列的Spark jdbc读取性能调优

、、、

我正在运行spark分析应用程序，并使用spark jdbc直接读取MSSQL Server表(整个表)。这些表有超过30M条记录，但没有任何主键列或整数列。因为表没有这样的列，所以我不能使用partitionColumn，因此它在读取表时花费了太多时间。val datasource = spark.read.format("jdbc") .option("

浏览 23提问于2019-09-26得票数 1

1回答

Spark JDBC: DataFrameReader无法读取数据类型为ROWID的Oracle表

、、、、

我正在尝试使用spark.read.format读取一个Oracle表，它对所有表都很有效，除了少数表中有任何数据类型为ROWID的列。下面是我的代码 option("url", url).at oracle.jdbc.driver.GeneratedAccessor.ge

浏览 42提问于2018-09-09得票数 3

1回答

Oracle到Databricks连接

、、、、

我试图在Azure Databricks平台上读取Oracle数据库数据。试图连接databricks笔记本上的

浏览 11提问于2021-09-16得票数 0

1回答

火花(火花放电)速度试验

、、

我通过jdbc连接到一个拥有50万行和14列的DB。下面是使用的代码： properties= {'jdbcurl': 'jdbc:db:XXXXXXXXX','user': 'XXXXXXXXX', 'password': &

浏览 1提问于2018-03-05得票数 0

回答已采纳

1回答

从Databricks连接到Oracle

、

我正在尝试从Databricks连接到Oracle DB。但是，我在任何文档中都找不到确切的语法。dbutils.widgets.text("sql_instance_name", "serveraddress")password

浏览 5提问于2019-08-08得票数 0

1回答

从PySpark 3.1.2连接Oracle* DB -由于Py4JJavaError而失败*

、、

： from pyspark.sql import SparkSession url = 'jdbc:oracle:thin:@hostname:port/dbTEST'user = &

浏览 195提问于2021-08-19得票数 0

1回答

spark.sql()和spark.read.format("jdbc").option("query“、"")之间有什么区别？

、、、

我假设spark.sql(查询)是在使用spark.sql时使用的，而spark.read.format("jdbc").option("query“、"")则是在使用oracle语法时使用的。我这样假设是对的吗？

浏览 3提问于2021-08-16得票数 3

回答已采纳

1回答

火花放电中.csv与PostgreSQL表生成.csv

、、、

我正在使用Apache中的MovieLens数据集。为了把数据放进火花DataFrames，我用了两种方法-dataframeList[table] = spark.read.f

浏览 1提问于2022-11-20得票数 0

回答已采纳

1回答

如何在使用spark从oracle db读取数据时获得更多的并行性

、、

我在azure data-bricks上运行spark。我的要求是，我需要从oracle db中提取数据并将其输出到文件中。因此，为了获得更多的并行性，我在oracle查询中对分区列使用了哈希算法。example - mod(ora_hash(id), 64) as partition_key 问题是，尽管我在Data-bricks集群中有64个核心可用，但只有8个核心在运行以从oracle中提取数据以下是代码-

浏览 53提问于2019-04-17得票数 0

1回答

合并减少JDBC读取并行性

我利用Spark的JDBC功能如下：在DataFrame的整个生命周期中，不对其执行**。它曾经像预期的那样起作用，但最近我遇到了一些问题。由于Spark的懒惰评估，coalesce减少了读取操作的并行性。因此，如果我使用带有DataFrame的DataFrameReader.<

浏览 2提问于2018-04-18得票数 2

回答已采纳

1回答

尝试从Oracle表读取数据和将数据写入HDFS时，Spark仅运行一个执行器

我使用JDBC connection使用Spark连接到oracle database，并尝试读取包含4,000,000行的oracle表。在启动spark-shell/submit时，我为每个执行器使用了30个执行器、5个执行器内核和4g内存。当读取数据帧的计数或尝试写入数据时，它只使用一个执行器从oracl

浏览 0提问于2020-10-30得票数 0

1回答

如何在二进制字段上加入？

、、、

我正在使用以下库：libraryDependencies ++= Seq( "org.apache.spark" %% "spark-hive" % "1.6.2", "org.apache.spark" %% "spark-mlli

浏览 2提问于2017-06-09得票数 4

回答已采纳

1回答

无法使用jdbc将spark数据集写入数据库

、、、

我需要将我的spark数据集写入oracle数据库表。我正在使用带有追加模式的数据集写入方法。但是当使用spark2-submit命令在集群上触发spark作业时，会出现分析异常。我已经读取了json文件，将其扁平化，并将其设置为abcDataset数据集。Spark版本-2 Oracle数据库JDBC

浏览 51提问于2019-05-15得票数 0

1回答

Kudu兼容性的火花数据铸造柱

、、、

我试图通过Kudu将Oracle DB中的表复制到具有相同结构的Impala表中。当代码试图将Oracle NUMBER映射到Kudu数据类型时，我会收到一个错误。这是一份从Oracle到Impala的1到1的数据副本.我提取了源表的Oracle模式，并创建了一个具有相同结构的目标Impala表(相同的列名和合理的数据类型映射)

浏览 3提问于2019-05-15得票数 0

回答已采纳

1回答

使用jdbc触发执行

、、、、

在Spark dataframe中，假设我从oracle获取数据，如下所示。查询会完全在oracle中发生吗？假设查询很大。那么，这对oracle来说是一种开销吗？更好的方法是读取单独的dataframe中的每个过滤表数据，并使用Spark SQL或dataframe连接它，以便在spark中进行完整的连接？你能帮个忙吗？df = sqlCon

浏览 8提问于2020-09-17得票数 0

1回答

天蓝色数据库中的SQL查询时间过长

、、、

我想使用在Azure SQL托管实例中的DB上执行SQL查询。我用火花连接器连接到DB。import com.microsoft.azure.sqldb.spark.config.Config下面是文档:火花主节点连接到SQL数据库或Server中<e

浏览 1提问于2020-07-10得票数 1

1回答

Spark中的惰性评估。Spark如何从DB加载数据

假设我们设置了100的限制，并且Spark应用程序连接到数据库与百万records.Does Spark加载所有百万记录或加载100 x 100？

浏览 0提问于2017-07-05得票数 2

2回答

如何将spark中的数据保存到Google云平台？

、、

我将通过Spark从oracle数据库中提取数据，然后我想将这些数据从spark存储到Google云平台的任何存储中。有可能吗？数据大小约为10TB。

浏览 2提问于2019-11-19得票数 0

2回答

JDBC到Spark如何确保均匀分区？

、、、

我对Spark还不熟悉，我正在使用DataFrame从Postgres数据库表中使用spark.read.jdbc创建一个JDBC。文档似乎表明这些字段是可选的。如果我不提供呢？假设我将有20个执行者，所以我将我的numPartiti

浏览 0提问于2019-06-10得票数 7

点击加载更多