腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4409)
视频
沙龙
1
回答
spark
streaming
+
查询
每个
流
批次
中
的
hive
表
?
、
、
我有一个从flume接收数据
的
Spark
Streaming
应用程序,经过一些转换后,它会写入Hbase。 但是为了进行这些转换,我需要从一个
hive
表
中
查询
一些数据。然后问题就开始了。我不能在转换中使用sqlContext或hiveContext (它们是不可序列化
的
),并且当我在转换之外编写代码时,它只运行一次。 我该怎么做才能让这段代码在
每个
流
处理
中
运行?
浏览 30
提问于2019-03-15
得票数 0
1
回答
如何在
Spark
流媒体app
中
查询
Kafka发送
的
Hive
表
?
、
、
我有一个
Spark
Streaming
应用程序,可以从Kafka
中
读取记录
中
的
配置单元
表
名,例如table1。table2..table3..等。我想在
hive
表
上执行结构化
查询
,并将结果流式传输到另一个Kafka主题。val hqls = rdddf.foreach {
浏览 0
提问于2019-02-25
得票数 1
1
回答
如何将
流
结构
流
直接写入
Hive
?
、
、
我想要达到这样
的
效果:.saveAsTable("dbname.tablename").option("path", "/user/
hive
/warehouse/abc/").outputMode("
浏览 0
提问于2018-03-25
得票数 1
3
回答
如何将火花结构
流
DataFrame插入到
Hive
外部
表
/位置?
、
、
一个关于星火结构
流
与
HIVE
表
集成
的
查询
。 val
spark
=SparkSession.builder().appName("StatsAnalyzer") .config.config("
spark
.sql.
streaming
.checkpointLoc
浏览 0
提问于2018-12-28
得票数 13
2
回答
如何提高SaveAsTable性能?
、
、
我正在运行一个
spark
streaming
应用程序,但当我最终将其保存到
hive
时,它需要更多
的
时间,比如第一个
流
迷你
批次
大约50秒
的
15kb数据,这是注意到SPARKUI SQL选项卡,而且它也增加了每一个迷你
批次
的
spark
streaming
,org.apache.
spa
浏览 2
提问于2017-09-07
得票数 0
1
回答
在
Spark
的
结构化流媒体
中
,是否存在与
Spark
Streaming
相同
的
流媒体上下文?
、
我正在尝试抓取结构化
流
查询
的
批次
信息,以最终记录。一般来说,我对
Spark
是个新手,我对从
Spark
Streaming
访问等同于streamingContext
的
内容感到困惑。streamingContext是
Spark
Streaming
独有的东西吗?我是不是完全偏离了轨道,试图拥有一个具有结构化流媒体功能
的
StreamingContext?In
Spark
Strea
浏览 10
提问于2019-09-04
得票数 1
回答已采纳
2
回答
如何将
流
查询
的
数据写入
Hive
?
、
、
我正在使用
Spark
Structured
Streaming
从HDFS读取数据。我想把那个dataFrame保存到蜂巢。 我已经这样做了,但它给出了错误。
浏览 2
提问于2019-11-18
得票数 3
3
回答
如何获取Kafka offset,用于结构化
查询
,实现手动、可靠
的
offset管理?
、
、
、
、
Spark
2.2引入了Kafka
的
结构化流媒体源代码。据我所知,它依靠HDFS检查点目录来存储偏移量,并保证“只传递一次”消息。但旧
的
docks (如)表示,
Spark
Streaming
检查点不能跨应用程序或
Spark
升级恢复,因此不太可靠。作为一种解决方案,有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务
的
外部存储
中
。 如果要将Kafka源
的
偏移量存储到事务型DB
中
,如何从结构化
浏览 1
提问于2017-09-11
得票数 28
回答已采纳
3
回答
如何从kafka向
hive
发送数据
、
我想从Kafka (做一些MapReduce工作)发送数据到
hive
。或者一些更好
的
方法?
浏览 2
提问于2018-05-15
得票数 2
2
回答
每批大小
的
火花
流
调整记录
的
数量不起作用?
、
、
我
的
星火
流
应用程序是从卡夫卡读取使用DStream方法,我试图获得批量大小,以处理60,000条消息在10秒内。我所做
的
,
spark
.
streaming
.backpressure.enabled我所期望
的
是一批六万份
的
记录。还有其他我没有设置
的
参数吗?根据我
浏览 0
提问于2019-07-08
得票数 2
回答已采纳
1
回答
无法使用
Spark
Structured
Streaming
覆盖默认值"
spark
.sql.shuffle.partitions“
、
、
我想直接在代码
中
覆盖
spark
.sql.shuffle.partitions参数: val sparkSession = SparkSession .appName("
SPARK
") sparkSession.conf.set("
spark
.sql.shuffle.partitions", 2) 但此设置不会生效,因为在日志
中
我收到以下警告消息虽然在
spark
-submit外壳<em
浏览 39
提问于2021-04-30
得票数 2
1
回答
与星火DataSource API V2蜂巢串流水槽发生故障
的
抵消
、
、
、
、
我使用接收器将
Spark
2.3结构化
流
DataFrame保存到带有的
Hive
表
中
。 option("metastore", "....."). option("db", "test").queryName("socket-
hive
-
streaming<
浏览 0
提问于2018-05-23
得票数 1
回答已采纳
0
回答
spark
流
比较两个批处理和筛选数据
、
我想使用火花
流
比较两批和过滤数据第一批:aaa 0bbb 0第二批:aaa1ddd 0key type相邻
的
两个
批次
,最后一个
批次
的
数据(类型为0)必须是前一个
批次
中</em
浏览 3
提问于2017-06-07
得票数 2
1
回答
在卡夫卡星火
流
的
情况下,
spark
.
streaming
.kafka.maxRatePerPartition和
spark
.
streaming
.backpressure.enabled有什么关系?
、
、
、
、
我正在尝试将数据写入一个卡夫卡主题后,阅读了一个蜂巢
表
如下。("
spark
.
streaming
.backpressure.enabled",”true”) 启用或禁用火花
流
的
内部背压机制(自1.5起)。这使得火花
流
能够根据当前批处理调度延迟和处理时间来控制接收速率,以便系统接收到
的
速度仅限于系统所能处理
的
速度。在内部,这动态地设置接收器
的
最大接收速率。此速率是由<
浏览 0
提问于2021-09-13
得票数 4
回答已采纳
2
回答
Spark
连接
Hive
到HDFS vs
Spark
直接连接HDFS,
Hive
在上面吗?
、
、
、
、
问题摘要:当然,我希望使用配置单元上下文将数据馈送到HDFS。我们可以直接将数据写入HDFS,这要归功于
spark
streaming
API。我们也在考虑这一点,因为我们可以在这个用例
浏览 0
提问于2019-06-19
得票数 1
3
回答
单元分区
表
读取所有分区,尽管有火花筛选器
、
、
、
我使用
spark
和scala来读取一个特定
的
Hive
分区。分区是year、month、day、a和b。.show org.apache.hadoop.security.AccessControlException::由于阶段失败而中止作业:阶段0.0
中
的
任务236失败4次,最近一次失败
spark
正在尝试读取一个不同
的
分区,而我在那里没有权限。我用
Hive
尝试了相同
的
查询
,它运行得很完美(没有访问
浏览 2
提问于2019-05-22
得票数 14
回答已采纳
1
回答
火花
流
HiveContext NullPointerException
、
、
、
、
我正在使用
Spark
1.6.0在CDH5.8.3集群上编写一个星火
流
应用程序。这个应用程序非常简单:它从Kafka读取,它进行一些转换(DStream/RDD),然后将它们输出到一个
Hive
表
。我还尝试使用sqlContext编写一些愚蠢
的
示例代码,但错误仍然存在。 at org.apache.
spark
.sql.
hive</e
浏览 2
提问于2017-01-05
得票数 2
回答已采纳
1
回答
Apache
Spark
Structured
Streaming
(DataStreamWriter)写入配置单元
表
、
、
我希望使用火花结构
流
从卡夫卡读取数据,并处理它,并写入蜂窝
表
。val
spark
= SparkSession .appName("Kafka Test") .config("
spark
.
streaming
.backpressure.enabled", "t
浏览 5
提问于2018-02-06
得票数 1
3
回答
星星之火:蜂巢插入覆盖抛出ClassNotFoundException
、
、
、
、
我有这样
的
代码,它将schemaRDD (person)保存到一个存储为parquet (person_parquet)
的
Hive
表
中
。$1.apply(ForEachDStream.scala:40) ... 30 more 我将
hive
-site.xml更改为此
浏览 5
提问于2015-03-07
得票数 2
1
回答
“无法用
Hive
支持实例化SparkSession”错误,当尝试使用
spark
处理蜂窝
表
时
、
、
、
我想使用
spark
来处理
hive
表
,但是当我运行我
的
程序时,我得到了以下错误:object
spark
_on_
hive
_table extends App { val
spark
= SparkSe
浏览 1
提问于2020-06-18
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
干货 | 百万QPS,秒级延迟,携程基于实时流的大数据基础层建设
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
Kylin 在携程的实践(下)
大数据技术分享:关于大数据开发学习的技术点
Spark2.0新特性分析,看看你都是用到哪些了?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券