腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(769)
视频
沙龙
2
回答
可以
使用
Apache
Spark
读取
pdf
/
音频
/
视频文件
(
非
结构化
数据
)
吗
?
、
、
可以
使用
Apache
Spark
读取
pdf
/
音频
/
视频文件
(
非
结构化
数据
)
吗
?例如,我有数千张
pdf
发票,我想从这些发票中
读取
数据
,并对其执行一些分析。要处理
非
结构化
数据
,我必须执行哪些步骤?
浏览 55
提问于2017-07-04
得票数 7
1
回答
Spark
与Hive的区别
、
、
你能帮我理解星火SQl和蜂巢的区别
吗
?
浏览 2
提问于2017-06-04
得票数 1
5
回答
如何从Kafka
读取
XML格式的流
数据
?
、
、
、
我正在尝试
使用
Spark
结构化
流从Kafka主题
读取
XML
数据
。df =
spark
\ .format("k
浏览 19
提问于2017-09-01
得票数 6
回答已采纳
2
回答
拆分
数据
帧
、
如何在scala中拆分
数据
帧? {code}---
浏览 12
提问于2019-11-22
得票数 0
2
回答
排列星河
数据
集列
、
、
、
我正在
使用
Spark
2.3.1的
结构化
流API。是否有可能在火花流
数据
的列中对值进行排序?我尝试
使用
下面的代码,然后在异常消息之后意识到流上下文不可能遍历整个窗口。.withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) org.
apache
.
spark
.sql.AnalysisException:流
数据
框架
浏览 0
提问于2018-07-06
得票数 4
回答已采纳
1
回答
如何将流查询结果保存为
PDF
/ XLSX (用于生成报表)?
、
、
想知道我们是否
可以
生成
PDF
或XLSX文件,以便
使用
火花流/火花
结构化
流来报告。根据正式文档,有文件库,但支持
PDF
和XLSX
吗
?如果是这样的话,我们
可以
利用它作为报告代
吗
?
浏览 5
提问于2019-12-19
得票数 1
回答已采纳
2
回答
数据
源io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。
、
、
、
我试图
读取
卡夫卡的
数据
,并将其上传到格林梅利的
数据
库
使用
火花。我
使用
的是格林梅-火花连接器,但我正在获取
数据
源,io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体
数据
?我
可以
在网站上看到“连续ETL管道(流)”。我曾尝试将
数据
源命名为“绿梅”,并将"io.pivotal.greenplum.
spark</em
浏览 0
提问于2019-04-04
得票数 0
回答已采纳
5
回答
SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么?
、
、
、
、
是否有任何方法
可以
使用
SparkSession? 我是否
可以
使用
单个条目完全替换所有上下文SparkSession?它们在如何
使用
SparkSession? 我如何
使用
a 创建以下内容SparkSession?RDDJavaPairRDD Dataset 有没有一种方法
可以
将JavaPairRDD转换成一个Dataset或者Dataset转换成一个JavaPairRDD?
浏览 216
提问于2017-05-05
得票数 39
回答已采纳
1
回答
为什么av_write_trailer会失败?
、
我正在处理一个
视频文件
。我
使用
ffmpeg来
读取
每个包。 如果是
音频
包,则
使用
av_interleaved_write_frame将该包写入输出
视频文件
中。如果是视频
数据
包,我对
数据
包进行解码,获取视频帧的
数据
,对图像进行处理,然后压缩回
数据
包。然后
使用
av_interleaved_write_frame将处理后的视频帧包写入到输出
视频文件
中。Movie播放器(在Ubuntu中),
浏览 0
提问于2013-05-13
得票数 0
回答已采纳
1
回答
如何解析从json到dio的链接?
、
、
、
、
f0f6155f6efa.m3u8", "
pdf
": "https://github.com/App2Sales/mobile-challenge/
浏览 16
提问于2022-10-18
得票数 0
1
回答
数据
湖如何存储
数据
和格式?
、
、
、
、
我听说
数据
湖
可以
存储任何类型的
数据
:关系型,NoSql,图片/图像,Adobe,Excel。如何以无SQL格式或二叉树存储
数据
?还是把它像普通硬盘一样保存?如果是这样的话,他们为什么不直接称之为存储,而不是
数据
湖呢?我正在试图找到“
数据
湖”的确切存储机制。
浏览 0
提问于2018-09-09
得票数 2
回答已采纳
1
回答
Hadoop和RDBMS
、
Hadoop主要用于处理
非
结构化
或半
结构化
数据
。我想
使用
Hadoop来处理大量的
结构化
数据
。虽然hadoop能够从
数据
库
读取
(通过DBInputFormat),但它不被认为是一种可伸缩的方法,因为
数据
库连接的数量将是有限的。谢谢
浏览 3
提问于2011-12-01
得票数 1
回答已采纳
1
回答
使用
Python的Azure服务总线
、
、
、
、
您能提供一些关于
使用
Python
使用
Azure Service Bus流消息的建议
吗
?因为我发现Azure Service Bus没有
spark
结构化
流源,所以在这种情况下,我
可以
使用
提供的Python客户端
读取
Azure Service Bus消息,然后从Python客户端
读取
每个消息并将其写入Kafka主题,在这个Kafka主题上,我将应用
spark
结构化
流编程。我的用例是
使用
浏览 0
提问于2021-03-09
得票数 0
1
回答
通过
Spark
和Glue将部分关系S3
数据
移植到红移
、
、
、
、
(
使用
频谱)” 首先
浏览 1
提问于2018-05-15
得票数 0
3
回答
如何在星火流应用程序中
使用
Kafka主题?
、
、
、
当我从Kafka主题创建一个流并打印它的内容时 os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.
apache
.
spark
:
spark
-streaming-kafka-0-8_2.11:2.0.2 pyspark-shell' from pyspark.streaming从Kafka主题到
Spark
流应用程序的<e
浏览 2
提问于2019-12-08
得票数 1
回答已采纳
1
回答
Scala:
读取
火花
结构化
流中的Kafka Avro消息时出错
、
、
、
、
我一直在尝试阅读Kafka的avro串行化消息,这些消息来自于Scala2.11的火花
结构化
流(2.4.4)。为此,我
使用
了星星之火-avro(下面的依赖性)。我
使用
合流卡夫卡库从python生成kafka消息。星火流
可以
使用
模式来
使用
消息,但它不能正确
读取
字段的值。再现错误的代码如下: 的问题是,我在python中
使用
confluent_kafka库,我
使用
spark
库
读取
星火结构流中
浏览 0
提问于2020-02-29
得票数 2
回答已采纳
1
回答
使用
阅读Kafka的Avro记录
、
、
、
、
我正在
使用
stream 2.3,并试图
使用
Dstreams (
使用
DStreams来获取特定的应用程序,而我们无法
使用
结构化
流)从卡夫卡流中获取
数据
。 Kafka主题包含avro格式的
数据
。我希望
使用
Spark
DStreams
读取
该
数据
,并将其解释为json字符串。(在错误消息下面),我认为这是因为只有在
Spark
2.4.0之后才能
使用
AvroDeserial
浏览 3
提问于2022-11-23
得票数 0
回答已采纳
4
回答
我们能用Palantir Foundry做图像处理
吗
?
、
、
我正在探索Palantir Foundry平台,它似乎有大量用于矩形
数据
或
结构化
数据
的选项。是否有人有在Foundry平台上处理
非
结构化
大
数据
的经验?我们如何
使用
Foundry进行图像分析?
浏览 46
提问于2020-05-19
得票数 2
4
回答
如何创建自定义流
数据
源?
、
我有一个自定义的火花流
读取
器,它从WebSocket
读取
数据
。我要试一试星火结构的流媒体。 如何在
Spark
结构化
流中创建流
数据
源?
浏览 13
提问于2017-12-02
得票数 14
回答已采纳
2
回答
Spark
结构化
流状态管理
、
、
我了解到,默认情况下,
结构化
流媒体支持HDFSBackedStateStoreProvider。这意味着所有与状态相关的信息都存储在HDFS位置。它是否确保
数据
不会存储在内存中,这可能会导致长时间的GC暂停? 这个问题的原因是,我正在运行的作业在高流量期间停止处理
数据
,并在延迟15-20分钟后赶上。
浏览 2
提问于2018-12-07
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
使用Apache Tika识别文件类型
什么是Spark SQL,它的作用是什么?
使用Spark将本地文件读取并封装为DataFrame的完整指南
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券