可以使用Apache Spark读取pdf/音频/视频文件(非结构化数据)吗？

、、

可以使用Apache Spark读取pdf/音频/视频文件(非结构化数据)吗？例如，我有数千张pdf发票，我想从这些发票中读取数据，并对其执行一些分析。要处理非结构化数据，我必须执行哪些步骤？

浏览 55提问于2017-07-04得票数 7

1回答

Spark与Hive的区别

、、

你能帮我理解星火SQl和蜂巢的区别吗？

浏览 2提问于2017-06-04得票数 1

5回答

如何从Kafka读取XML格式的流数据？

、、、

我正在尝试使用Spark结构化流从Kafka主题读取XML数据。df = spark \ .format("k

浏览 19提问于2017-09-01得票数 6

回答已采纳

2回答

拆分数据帧

、

如何在scala中拆分数据帧？ {code}---

浏览 12提问于2019-11-22得票数 0

2回答

我正在使用Spark2.3.1的结构化流API。是否有可能在火花流数据的列中对值进行排序？我尝试使用下面的代码，然后在异常消息之后意识到流上下文不可能遍历整个窗口。.withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) org.apache.spark.sql.AnalysisException:流数据框架&#x

浏览 0提问于2018-07-06得票数 4

回答已采纳

1回答

如何将流查询结果保存为PDF / XLSX (用于生成报表)？

、、

想知道我们是否可以生成PDF或XLSX文件，以便使用火花流/火花结构化流来报告。根据正式文档，有文件库，但支持PDF和XLSX吗？如果是这样的话，我们可以利用它作为报告代吗？

浏览 5提问于2019-12-19得票数 1

回答已采纳

2回答

数据源io.pivotal.greenplum.spark.GreenplumRelationProvider不支持流写入。

、、、

我试图读取卡夫卡的数据，并将其上传到格林梅利的数据库使用火花。我使用的是格林梅-火花连接器，但我正在获取数据源，io.pivotal.greenplum.spark.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体数据？我可以在网站上看到“连续ETL管道(流)”。我曾尝试将数据源命名为“绿梅”，并将"io.pivotal.greenplum.spark</em

浏览 0提问于2019-04-04得票数 0

回答已采纳

5回答

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

、、、、

是否有任何方法可以使用SparkSession？我是否可以使用单个条目完全替换所有上下文SparkSession？它们在如何使用SparkSession？我如何使用 a 创建以下内容SparkSession？RDDJavaPairRDD Dataset 有没有一种方法可以将JavaPairRDD转换成一个Dataset或者Dataset转换成一个JavaPairRDD？

浏览 216提问于2017-05-05得票数 39

回答已采纳

1回答

为什么av_write_trailer会失败？

、

我正在处理一个视频文件。我使用ffmpeg来读取每个包。如果是音频包，则使用av_interleaved_write_frame将该包写入输出视频文件中。如果是视频数据包，我对数据包进行解码，获取视频帧的数据，对图像进行处理，然后压缩回数据包。然后使用av_interleaved_write_frame将处理后的视频帧包写入到输出视频文件中。Movie播放器(在Ubuntu中)，

浏览 0提问于2013-05-13得票数 0

回答已采纳

1回答

如何解析从json到dio的链接？

、、、、

f0f6155f6efa.m3u8", "pdf": "https://github.com/App2Sales/mobile-challenge/

浏览 16提问于2022-10-18得票数 0

1回答

数据湖如何存储数据和格式？

、、、、

我听说数据湖可以存储任何类型的数据:关系型，NoSql，图片/图像，Adobe，Excel。如何以无SQL格式或二叉树存储数据？还是把它像普通硬盘一样保存？如果是这样的话，他们为什么不直接称之为存储，而不是数据湖呢？我正在试图找到“数据湖”的确切存储机制。

浏览 0提问于2018-09-09得票数 2

回答已采纳

1回答

Hadoop和RDBMS

、

Hadoop主要用于处理非结构化或半结构化数据。我想使用Hadoop来处理大量的结构化数据。虽然hadoop能够从数据库读取(通过DBInputFormat)，但它不被认为是一种可伸缩的方法，因为数据库连接的数量将是有限的。谢谢

浏览 3提问于2011-12-01得票数 1

回答已采纳

1回答

使用Python的Azure服务总线

、、、、

您能提供一些关于使用Python使用Azure Service Bus流消息的建议吗？因为我发现Azure Service Bus没有spark结构化流源，所以在这种情况下，我可以使用提供的Python客户端读取Azure Service Bus消息，然后从Python客户端读取每个消息并将其写入Kafka主题，在这个Kafka主题上，我将应用spark结构化流编程。我的用例是使用

浏览 0提问于2021-03-09得票数 0

1回答

通过Spark和Glue将部分关系S3数据移植到红移

、、、、

(使用频谱)” 首先

浏览 1提问于2018-05-15得票数 0

3回答

如何在星火流应用程序中使用Kafka主题？

、、、

当我从Kafka主题创建一个流并打印它的内容时 os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 pyspark-shell' from pyspark.streaming从Kafka主题到Spark流应用程序的<e

浏览 2提问于2019-12-08得票数 1

回答已采纳

1回答

Scala:读取火花结构化流中的Kafka Avro消息时出错

、、、、

我一直在尝试阅读Kafka的avro串行化消息，这些消息来自于Scala2.11的火花结构化流(2.4.4)。为此，我使用了星星之火-avro(下面的依赖性)。我使用合流卡夫卡库从python生成kafka消息。星火流可以使用模式来使用消息，但它不能正确读取字段的值。再现错误的代码如下：的问题是，我在python中使用confluent_kafka库，我使用spark库读取星火结构流中

浏览 0提问于2020-02-29得票数 2

回答已采纳

1回答

使用阅读Kafka的Avro记录

、、、、

我正在使用 stream 2.3，并试图使用Dstreams (使用DStreams来获取特定的应用程序，而我们无法使用结构化流)从卡夫卡流中获取数据。 Kafka主题包含avro格式的数据。我希望使用Spark DStreams读取该数据，并将其解释为json字符串。(在错误消息下面)，我认为这是因为只有在Spark2.4.0之后才能使用AvroDeserial

浏览 3提问于2022-11-23得票数 0

回答已采纳

4回答

我们能用Palantir Foundry做图像处理吗？

、、

我正在探索Palantir Foundry平台，它似乎有大量用于矩形数据或结构化数据的选项。是否有人有在Foundry平台上处理非结构化大数据的经验？我们如何使用Foundry进行图像分析？

浏览 46提问于2020-05-19得票数 2

4回答

如何创建自定义流数据源？

、

我有一个自定义的火花流读取器，它从WebSocket读取数据。我要试一试星火结构的流媒体。如何在Spark结构化流中创建流数据源？

浏览 13提问于2017-12-02得票数 14

回答已采纳

2回答

Spark结构化流状态管理

、、

我了解到，默认情况下，结构化流媒体支持HDFSBackedStateStoreProvider。这意味着所有与状态相关的信息都存储在HDFS位置。它是否确保数据不会存储在内存中，这可能会导致长时间的GC暂停？这个问题的原因是，我正在运行的作业在高流量期间停止处理数据，并在延迟15-20分钟后赶上。

浏览 2提问于2018-12-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark与Hive的区别

如何从Kafka读取XML格式的流数据？

拆分数据帧

排列星河数据集列

如何将流查询结果保存为PDF / XLSX (用于生成报表)？

数据源io.pivotal.greenplum.spark.GreenplumRelationProvider不支持流写入。

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

为什么av_write_trailer会失败？

如何解析从json到dio的链接？

数据湖如何存储数据和格式？

Hadoop和RDBMS

使用Python的Azure服务总线

通过Spark和Glue将部分关系S3数据移植到红移

如何在星火流应用程序中使用Kafka主题？

Scala:读取火花结构化流中的Kafka Avro消息时出错

使用阅读Kafka的Avro记录

我们能用Palantir Foundry做图像处理吗？

如何创建自定义流数据源？

Spark结构化流状态管理

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐