将json数据从kafka写入s3，格式为parquet

文章/答案/技术大牛

发布

1回答

卡夫卡连接:读取JSON序列化的Kafka消息，转换为Parquet格式并以S3持久化

json、apache-kafka、parquet、apache-kafka-connect、s3-kafka-connector

我需要阅读来自Kafka主题的JSON序列化消息，将它们转换为Parquet并在S3中坚持。背景因此，我正在寻找一种方法从最初用JSON格式编写的Kafka主题中读取消息，以某种方式将它们转换为JSON<

浏览 2提问于2021-05-20得票数 0

1回答

amazon-s3、apache-kafka、apache-flink、flink-streaming

我正在写一个流应用程序(Flink，Kafka，S3)，它把数据放在Kafka上的JSON格式，我需要写数据到S3的Parquet格式。我搜索了很多地方，读了很多关于stackoverflow的问题，但我没有得到一个明确的答案，那就是如果我想把拼图写到s3中，是不是必须在flink中读取AVRO格式的数据？我需要从JSON -> AVRO

浏览 47提问于2020-02-25得票数 0

1回答

卡夫卡连接S3 - JSON到Parquet

apache-kafka、apache-kafka-connect

卡夫卡连接S3支持从JSON到Parquet吗？欣赏使用卡夫卡连接S3的可供选择的建议

浏览 3提问于2020-06-15得票数 1

回答已采纳

1回答

由于文件格式不匹配，PySpark数据不能保存在Hive中

apache-spark、pyspark、apache-spark-sql、spark-streaming

我想把流数据从kafka topic写到hive table。CREATE TABLE

浏览 10提问于2022-03-23得票数 0

回答已采纳

2回答

使用Kafka将拼花文件写入S3 Sink

apache-spark、pyspark、apache-kafka、apache-spark-sql

条件：在这里，我使用Pyspark编写了Kafka，并且我能够成功地将JSON文件写入s3接收器。.config("spark.speculation", "false") \ final_df = spark.read.format("parquet").load("s3

浏览 21提问于2022-04-22得票数 0

2回答

Kafka Connect HDFS Sink for JSON格式使用JsonConverter

apache-kafka、confluent-platform、apache-kafka-connect

在JSON中从Kafka生产/消费。使用以下属性保存到JSON中的HDFS：value.converter=org.apache.kafka.connect.json.JsonConverterkey.converter.schemas.enable=false value.converter.schemas.enable=f

浏览 0提问于2016-11-21得票数 1

1回答

Apache将Parquet文件写入S3

amazon-s3、apache-flink、parquet、flink-streaming

我有一个Flink流管道来读取来自Kafka的消息，消息有到日志文件的s3路径。使用Flink异步IO下载日志文件，解析并从中提取一些关键信息。现在，我需要将提取的数据(Hashmap<String，String>)作为Parquet文件写入S3中的另一个桶中。我该怎么做呢？我已经完成了转换，我使用了1.15 flink版本。Parquet格式的书写不清楚，或者有些方法似乎被废弃了。

浏览 13提问于2022-05-11得票数 0

1回答

S3格式拼图格式的Kafka* S3源连接器*

amazon-s3、apache-kafka、parquet、apache-kafka-connect、confluent-platform

我可以使用Parquet格式的S3接收器连接器将我的主题事件成功地沉入到S3存储桶中。现在，我的S3存储桶中有.parquet和.key.parquet类型的对象。格式)放回一个Kafka主题中。源连接器不支持Parquet格式。我试着用JSON，AVRO和BYTE格式来验证它，它们都没问题。深入研究Parquet源连接器jar文件(1.4.5

浏览 2提问于2021-07-30得票数 0

2回答

摄入Parquet文件会导致UTF-8错误[Druid0.12.0]

parquet、aws-glue、druid

我有一个AWS胶生成的Parquet文件。我安装了Parquet和Avro扩展(都尝试了0.12.0和0.12.1 )，在每种情况下我都得到了以下错误<html><meta http-

浏览 0提问于2018-07-24得票数 0

回答已采纳

1回答

Apache Parquet数据存储引擎？

java、apache-spark、parquet

从链接sql-data-sources-parquet，我看到下面的代码片段存储了数据拼图格式，但根据我的理解，从wiki得到的只是一种格式，而不是一个存储引擎。因此，Parquet将以特定格式将数据存储在HDFS/S3/Cassandra等存储引擎上，不是吗？所以我的问题是，下面的代码片段将在哪里存储这些数据，因为我没有看到任何提到HDFS/

浏览 21提问于2019-03-18得票数 0

回答已采纳

1回答

spark streaming:从kafka读取CSV字符串，写入拼接

python、csv、apache-spark、apache-kafka、spark-structured-streaming

有很多从kafka读取json的在线示例(写到parquet) -但我想不出如何将模式应用于来自Kafka的CSV字符串。流式数据：customer_1459,cusaccid_1102,27999942schema = StructType()interval=df \ .select(from_json

浏览 22提问于2017-12-20得票数 3

2回答

将日期为S3的.parquet文件复制到Redshift

date、copy、amazon-redshift、parquet

我正在尝试从S3中使用COPY命令将.parquet文件加载到我的红移数据库中。该文件包含一个日期格式为2018-10-28的列。Redshift中表中的相关字段定义为date。源spark数据帧将字段显示为datetime64，并将其转换为pandas，因为它是时间戳。使用简单的COPY dates FROM s3://mybucket/file.

浏览 4提问于2019-08-30得票数 0

2回答

Apache光束- Flink runner - FileIO.write - S3写入中的问题

apache-flink、apache-beam、apache-beam-io

我目前正在开发一个光束管道(2.23) (Flink runner - 1.8)，我们从Kafka读取JSON事件，并将拼图格式的输出写入S3。我们每隔10分钟就会给S3写一封信。我们观察到，我们的流水线有时会在进行了微小的不中断代码更改并部署流水线后停止写入S3，如果我们更改kafka偏移量并重新启动流水线，它会再次开始写入S3。虽然FileIO不写入

浏览 2提问于2021-02-22得票数 0

1回答

用于点击流分析的AWS S3数据格式

apache-spark、hadoop、amazon-s3、hive

我们使用Kafka队列从不同的devices.We中收集json格式的点击流数据，需要通过Hive (或者可能是Spark)来分析这些数据。我阅读了有关不同文件格式的信息，但无法确定最佳的文件格式以获得更好的查询性能。我们试图以s3格式保存json数据，但是查询速度很慢。我们可以将json数据作为一种列格式插入到s3<

浏览 0提问于2018-04-21得票数 0

回答已采纳

1回答

从S3中的JSON记录到Parquet文件

json、apache-kafka、parquet、apache-kafka-connect

我想使用S3接收器汇合连接器(特别是因为它正确地使用s3处理一次语义)从我们的s3中读取JSON记录，然后在s3(按事件时间划分)中创建拼图文件。我们的JSON记录没有嵌入模式。由于JSON记录中没有嵌入模式，这意味着连接器任务必须从JSON字段推断数据--它是self？(这是可行的解决方案吗?) 在卡夫卡中，没有像模式注册表这样的东西，但是对于地板来说，是这样吗？AVRO似乎很好地集成了K

浏览 0提问于2019-09-17得票数 4

1回答

Apache Spark Structured Streaming (DataStreamWriter)写入配置单元表

apache-spark、apache-kafka、apache-spark-sql

我希望使用火花结构流从卡夫卡读取数据，并处理它，并写入蜂窝表。val spark = SparkSession .appName("Kafka Test") .option("kafka.bootstrap.servers", "xxxxxxx") .option("starting

浏览 5提问于2018-02-06得票数 1

1回答

写入和读回时火花缺失列

scala、apache-spark、apache-spark-sql

我正在创建一个数据集，并将其以目录结构( s3 )的形式写入${BasePath}/y=2107/m=11/d=16/中，${BasePath}/y=2107/m=11/d=16/格式为parquet格式在创建当前数据并将其写入s3之后，我需要在最后10天内读取这些数据。我能做到这有两种方法，第一种方法:将</

浏览 1提问于2017-11-16得票数 0

1回答

AWS雅典娜和处理json

json、amazon-web-services、amazon-athena

我有数以百万计的JSON格式的文件，格式很差： "3000105002":[ "pool_id": "97808", status:string, acreage:string>>) LOCATION 's3:&#x

浏览 1提问于2020-05-20得票数 0

回答已采纳

2回答

如何在AWS Glue中将JSON与扁平结构相关联

python、amazon-web-services、pyspark、spark-dataframe、aws-glue

尝试扁平化具有两个映射/字典字段(custom_event1和custom_event2)的输入JSON数据，这两个字段可能包含任何键值对数据。为了从数据框创建输出表，必须避免custom_events的扁平化，并将其作为JSON字符串存储在列中。 "id": "sklfsdfskdlfsdfsdfkh

浏览 0提问于2018-01-13得票数 1

1回答

Hadoop文件格式

apache-spark、hadoop、hive、avro、parquet

我需要考虑如何将数据写入Hadoop。我每天有大约200 B的记录。数据字段可能会改变(不是很多，但将来可能会改变)，我该选什么？阿夫罗还是帕奎特？但还是不知道该选什么，有什么建议吗？

浏览 1提问于2018-07-01得票数 1

回答已采纳

点击加载更多

卡夫卡连接:读取JSON序列化的Kafka消息，转换为Parquet格式并以S3持久化