腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么在提供了足够的内存和分区后,
spark
应用程序崩溃并出现异常java.net.SocketException: Connection reset?
、
、
源表没有任何包含唯一值的列,以便
Spark
对传入的数据进行均匀分区。因此,我将row_number()应用于我正在读取的数据,如下所示:>
spark
.executor.instances=4 >
spark
.execuor.memory=2g
spark
.executor.cores=4
spark</em
浏览 104
提问于2021-03-02
得票数 3
2
回答
如何连接Jmeter和Databricks
spark
集群
、
、
、
我想使用与
spark
Cluster关联的JDBC连接将Jmeter与Databricks (
Spark
Cluster)连接需要帮助
浏览 1
提问于2021-04-02
得票数 1
1
回答
Spark
SQL
中的配置是如何共享/隔离的?
、
、
、
、
因此,我有我的
spark
context sc,从中我得到了我的
spark
sql
上下文,sqlContext.
sql
("set
spark
.
sql
.shuffle.partitions=2") 有时我想使用2作为混洗分区,但在其他一些时刻(可能是
并发
的),我希望使用200。
浏览 0
提问于2016-07-06
得票数 0
1
回答
来自
Spark
Mysql的快速更新
、
、
我有一个有400万条记录的表,每天都有新的数据,我需要在处理新数据后更新表。目前我就是为了这个目的而这么做的。我使用的是scala。df.rdd mapPartitions (_ grouped batchSize) foreach { batch => val connection = getConnection(); batch.foreach { row => val query = "UP
浏览 1
提问于2016-09-06
得票数 0
2
回答
将增量湖写入AWS S3 (没有数据库)
、
、
、
at org.apache.
spark
.
sql
.delta.storage.HDFSLogStore.write(HDFSLogStore.scala:64) at org.apache
浏览 5
提问于2020-05-13
得票数 5
回答已采纳
2
回答
如何刷新表并
并发
进行?
、
、
我想定期刷新一些缓存的表(由
spark
提供的DataSource加载,比如parquet、MySQL或用户定义的数据源)。
spark
.read.format("").load().createTempView("my_table")
spark
.
sql
("cache table my_table
spark
.
sql
("refresh table my_table") 还是
浏览 5
提问于2017-08-22
得票数 18
3
回答
读取或写入拼图格式数据时出错
、
、
、
我使用Databricks来执行 org.apache.
spark
.
sql
.AnalysisException: Multiple sources found for parquet (org.apache.
spark
.
sql
.execution.datasources.v2.parquet.ParquetDataSourceV2, org.apache.
spark
.
sql
.execution.datasources.parquet.ParquetFileFormat),
浏览 28
提问于2020-08-25
得票数 2
1
回答
如何实现比
spark
集群内核数更高的并行度?
、
作为最后一步,我有一个通过网络发送数据的
spark
作业。另一端的接收器可以处理比我当前发送的
多
10到50倍的
并发
请求,所以我正在寻找一种方法来进一步并行化,而不是内核的数量。
spark
-submit的--num-executors选项没有帮助。选项也是如此。
spark
.dynamicAllocation.enabled
spark
.dynamicAllocation.maxExecutors
浏览 6
提问于2020-07-31
得票数 0
回答已采纳
1
回答
如何与CSV文件中的数据集一起使用决策树?
、
、
、
、
我想像下面的代码一样使用
Spark
的org.apache.
spark
.mllib.tree.DecisionTree,但是编译失败。import org.apache.
spark
.ml.Pipelineimport org.apache.
spark
.
sql
.
浏览 4
提问于2017-05-22
得票数 0
1
回答
如何内省并预加载MongoDB中的所有集合到
Spark
SQL
目录中?
、
、
、
在学习
Spark
SQL
时,我一直使用以下方法将集合注册到
Spark
SQL
目录中并对其进行查询。Seq(MongoPerson("John", "Doe")) .write .format("com.mongodb.
spark
.
sql
.DefaultSource.option("collection", "peeps")
浏览 25
提问于2021-07-02
得票数 2
回答已采纳
2
回答
将文件读取并附加到
spark
数据文件中
但其中一个文件的列数比前一个文件
多
。如何仅为所有其他文件选择第一个文件中的列?from pyspark.
sql
import SparkSession schema = StructType([])df_
spark
=
spark
.createDataFrame(sc.emptyR
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
1
回答
Spark
Streaming -作业以默认
spark
.streaming.concurrentJobs设置
并发
运行
、
我在
Spark
Streaming Job中遇到了一种奇怪的行为。我们已使用
spark
.streaming.concurrentJobs的默认值1。同一流式作业在批处理间隔设置为10分钟的情况下正常运行了一天
多
。突然,相同的作业开始对所有传入的批处理
并发
运行,而不是将它们放入队列中。 以前有没有人遇到过这种情况?这将是非常有帮助的!
浏览 1
提问于2017-04-18
得票数 3
1
回答
控制在
spark
thrift服务器中运行
sql
时的执行器数量
、
、
我有一个
spark
thrift服务器,用户可以向这个服务器提交
spark
sql
。我希望我可以控制执行器的数量,这将用于运行用户的
sql
.That是,我不希望执行器将尽可能
多
的(稍后提交的
sql
可能要等待) 我会问这是否可能。
浏览 29
提问于2019-12-26
得票数 0
2
回答
Databricks:如何在%
SQL
查询中获取当前用户
、
、
、
、
这将是一个示例(any_object将是检索使用视图或其所属用户组的当前用户的值的命令):CREATE VIEW db.table AS SELECT * FROM WHERE column1
浏览 3
提问于2020-04-01
得票数 3
1
回答
如何将列表拆分成多个分区
并发
送给执行器
、
、
、
当我们使用
spark
从csv for DB读取数据时,如下所示,它会自动将数据拆分到多个分区
并发
送到执行器
spark
.option("delimiter", ",") .load(inputFile) 目前,我有一个id列表: [1,2,3,4,5,6,7,8,9,...1000] 我想要做的是将这个列表分割成多个分区,
并发
送到每个execut
浏览 10
提问于2019-02-05
得票数 0
回答已采纳
1
回答
如何向
spark
thrift服务器提交配置单元查询?
下面是一个简短的故事:非常感谢!
浏览 0
提问于2016-03-24
得票数 1
1
回答
如何使用嵌套的案例类模式来模拟
Spark
?
、
我还尝试过创建模拟的dataframe,这是一种导致错误的不同方式:import org.apache.
spark
.
sql
.Encoders val expected =
spark
.cre
浏览 0
提问于2018-09-18
得票数 0
回答已采纳
2
回答
如何将DataFrame的所有行存储到本地值(例如
并发
队列)?
、
、
我正在尝试迭代我从使用
Spark
执行结构化查询时获得的Row(吡火花)。代码大致如下所示: .builder \ .config(...) \ result_set =
spark</
浏览 0
提问于2018-02-27
得票数 0
回答已采纳
3
回答
无法创建Extract - Tableau和
Spark
SQL
、
、
、
我正在尝试从
Spark
SQL
中提取信息。创建解压缩时显示以下错误消息。
浏览 82
提问于2019-05-30
得票数 2
2
回答
优化--未能解析
SQL
、
、
()我想把它们压紧:
spark
.
sql
("OPTIMIZE my_delta_table注意:from pyspark.
sql
import SparkSession
spark
=
浏览 1
提问于2020-08-28
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL DataFrame与RDD交互
Spark实战(6)_spark-sql-e-f-i命令的整合和spark-sql日常作业开发流程总结
Spark从Kafka 读数并发问题
Spark SQL,DataFrames 以及 Datasets 编程指南
用sql写迭代算法-用spark sql划分连通图
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券