腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
卡夫卡连接:读取
JSON
序列化的
Kafka
消息,转换为
Parquet
格式
并以
S3
持久化
json
、
apache-kafka
、
parquet
、
apache-kafka-connect
、
s3-kafka-connector
我需要阅读来自
Kafka
主题的
JSON
序列化消息,将它们转换为
Parquet
并在
S3
中坚持。背景因此,我正在寻找一种方法
从
最初用
JSON
格式
编写的
Kafka
主题中读取消息,以某种方式将它们转换为
JSON<
浏览 2
提问于2021-05-20
得票数 0
1
回答
将
json
数据
从
kafka
写入
s3
,
格式
为
parquet
amazon-s3
、
apache-kafka
、
apache-flink
、
flink-streaming
我正在写一个流应用程序(Flink,
Kafka
,
S3
),它把
数据
放在
Kafka
上的
JSON
格式
,我需要写
数据
到
S3
的
Parquet
格式
。我搜索了很多地方,读了很多关于stackoverflow的问题,但我没有得到一个明确的答案,那就是如果我想把拼图写到
s3
中,是不是必须在flink中读取AVRO
格式
的
数据
?我需要从
JSON
-> AVRO
浏览 47
提问于2020-02-25
得票数 0
1
回答
卡夫卡连接
S3
-
JSON
到
Parquet
apache-kafka
、
apache-kafka-connect
卡夫卡连接
S3
支持
从
JSON
到
Parquet
吗?欣赏使用卡夫卡连接
S3
的可供选择的建议
浏览 3
提问于2020-06-15
得票数 1
回答已采纳
1
回答
由于文件
格式
不匹配,PySpark
数据
不能保存在Hive中
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-streaming
我想把流
数据
从
kafka
topic写到hive table。CREATE TABLE
浏览 10
提问于2022-03-23
得票数 0
回答已采纳
2
回答
使用
Kafka
将
拼花文件
写入
S3
Sink
apache-spark
、
pyspark
、
apache-kafka
、
apache-spark-sql
条件:在这里,我使用Pyspark编写了
Kafka
,并且我能够成功地
将
JSON
文件
写入
s3
接收器。.config("spark.speculation", "false") \ final_df = spark.read.format("
parquet
").load("
s3
浏览 21
提问于2022-04-22
得票数 0
2
回答
Kafka
Connect HDFS Sink for
JSON
格式
使用JsonConverter
apache-kafka
、
confluent-platform
、
apache-kafka-connect
在
JSON
中
从
Kafka
生产/消费。使用以下属性保存到
JSON
中的HDFS:value.converter=org.apache.
kafka
.connect.
json
.JsonConverterkey.converter.schemas.enable=false value.converter.schemas.enable=f
浏览 0
提问于2016-11-21
得票数 1
1
回答
Apache
将
Parquet
文件
写入
S3
amazon-s3
、
apache-flink
、
parquet
、
flink-streaming
我有一个Flink流管道来读取来自
Kafka
的消息,消息有到日志文件的
s3
路径。使用Flink异步IO下载日志文件,解析并从中提取一些关键信息。现在,我需要将提取的
数据
(Hashmap<String,String>)作为
Parquet
文件
写入
S3
中的另一个桶中。我该怎么做呢?我已经完成了转换,我使用了1.15 flink版本。
Parquet
格式
的书写不清楚,或者有些方法似乎被废弃了。
浏览 13
提问于2022-05-11
得票数 0
1
回答
S3
格式
拼图
格式
的
Kafka
S3
源连接器
amazon-s3
、
apache-kafka
、
parquet
、
apache-kafka-connect
、
confluent-platform
我可以使用
Parquet
格式
的
S3
接收器连接器将我的主题事件成功地沉入到
S3
存储桶中。现在,我的
S3
存储桶中有.
parquet
和.key.
parquet
类型的对象。
格式
)放回一个
Kafka
主题中。源连接器不支持
Parquet
格式
。我试着用
JSON
,AVRO和BYTE
格式
来验证它,它们都没问题。 深入研究
Parquet
源连接器jar文件(1.4.5
浏览 2
提问于2021-07-30
得票数 0
2
回答
摄入
Parquet
文件会导致UTF-8错误[Druid0.12.0]
parquet
、
aws-glue
、
druid
我有一个AWS胶生成的
Parquet
文件。我安装了
Parquet
和Avro扩展(都尝试了0.12.0和0.12.1 ),在每种情况下我都得到了以下错误<html><meta http-
浏览 0
提问于2018-07-24
得票数 0
回答已采纳
1
回答
Apache
Parquet
数据
存储引擎?
java
、
apache-spark
、
parquet
从
链接sql-data-sources-
parquet
,我看到下面的代码片段存储了
数据
拼图
格式
,但根据我的理解,
从
wiki得到的只是一种
格式
,而不是一个存储引擎。因此,
Parquet
将以特定
格式
将
数据
存储在HDFS/
S3
/Cassandra等存储引擎上,不是吗?所以我的问题是,下面的代码片段将在哪里存储这些
数据
,因为我没有看到任何提到HDFS/
浏览 21
提问于2019-03-18
得票数 0
回答已采纳
1
回答
spark streaming:
从
kafka
读取CSV字符串,
写入
拼接
python
、
csv
、
apache-spark
、
apache-kafka
、
spark-structured-streaming
有很多
从
kafka
读取
json
的在线示例(写到
parquet
) -但我想不出如何
将
模式应用于来自
Kafka
的CSV字符串。流式
数据
:customer_1459,cusaccid_1102,27999942schema = StructType()interval=df \ .select(from_
json
浏览 22
提问于2017-12-20
得票数 3
2
回答
将
日期
为
S3
的.
parquet
文件复制到Redshift
date
、
copy
、
amazon-redshift
、
parquet
我正在尝试
从
S3
中使用COPY命令
将
.
parquet
文件加载到我的红移
数据
库中。 该文件包含一个日期
格式
为
2018-10-28的列。Redshift中表中的相关字段定义
为
date。源spark
数据
帧
将
字段显示
为
datetime64,并将其转换为pandas,因为它是时间戳。使用简单的COPY dates FROM
s3
://mybucket/file.
浏览 4
提问于2019-08-30
得票数 0
2
回答
Apache光束- Flink runner - FileIO.write -
S3
写入
中的问题
apache-flink
、
apache-beam
、
apache-beam-io
我目前正在开发一个光束管道(2.23) (Flink runner - 1.8),我们
从
Kafka
读取
JSON
事件,并将拼图
格式
的输出
写入
S3
。 我们每隔10分钟就会给
S3
写一封信。我们观察到,我们的流水线有时会在进行了微小的不中断代码更改并部署流水线后停止
写入
S3
,如果我们更改
kafka
偏移量并重新启动流水线,它会再次开始
写入
S3
。虽然FileIO不
写入
浏览 2
提问于2021-02-22
得票数 0
1
回答
用于点击流分析的AWS
S3
数据
格式
apache-spark
、
hadoop
、
amazon-s3
、
hive
我们使用
Kafka
队列从不同的devices.We中收集
json
格式
的点击流
数据
,需要通过Hive (或者可能是Spark)来分析这些
数据
。我阅读了有关不同文件
格式
的信息,但无法确定最佳的文件
格式
以获得更好的查询性能。我们试图以
s3
格式
保存
json
数据
,但是查询速度很慢。 我们可以
将
json
数据
作为一种列
格式
插入到
s3<
浏览 0
提问于2018-04-21
得票数 0
回答已采纳
1
回答
从
S3
中的
JSON
记录到
Parquet
文件
json
、
apache-kafka
、
parquet
、
apache-kafka-connect
我想使用
S3
接收器汇合连接器(特别是因为它正确地使用
s3
处理一次语义)
从
我们的
s3
中读取
JSON
记录,然后在
s3
(按事件时间划分)中创建拼图文件。我们的
JSON
记录没有嵌入模式。由于
JSON
记录中没有嵌入模式,这意味着连接器任务必须
从
JSON
字段推断
数据
--它是self?(这是可行的解决方案吗?) 在卡夫卡中,没有像模式注册表这样的东西,但是对于地板来说,是这样吗?AVRO似乎很好地集成了
K
浏览 0
提问于2019-09-17
得票数 4
1
回答
Apache Spark Structured Streaming (DataStreamWriter)
写入
配置单元表
apache-spark
、
apache-kafka
、
apache-spark-sql
我希望使用火花结构流
从
卡夫卡读取
数据
,并处理它,并
写入
蜂窝表。val spark = SparkSession .appName("
Kafka
Test") .option("
kafka
.bootstrap.servers", "xxxxxxx") .option("starting
浏览 5
提问于2018-02-06
得票数 1
1
回答
写入
和读回时火花缺失列
scala
、
apache-spark
、
apache-spark-sql
我正在创建一个
数据
集,并将其以目录结构(
s3
)的形式
写入
${BasePath}/y=2107/m=11/d=16/中,${BasePath}/y=2107/m=11/d=16/
格式
为
parquet
格式
在创建当前
数据
并将其
写入
s3
之后,我需要在最后10天内读取这些
数据
。我能做到这有两种方法, 第一种方法:
将</
浏览 1
提问于2017-11-16
得票数 0
1
回答
AWS雅典娜和处理
json
json
、
amazon-web-services
、
amazon-athena
我有数以百万计的
JSON
格式
的文件,
格式
很差: "3000105002":[ "pool_id": "97808", status:string, acreage:string>>) LOCATION '
s3
:
浏览 1
提问于2020-05-20
得票数 0
回答已采纳
2
回答
如何在AWS Glue中将
JSON
与扁平结构相关联
python
、
amazon-web-services
、
pyspark
、
spark-dataframe
、
aws-glue
尝试扁平化具有两个映射/字典字段(custom_event1和custom_event2)的输入
JSON
数据
,这两个字段可能包含任何键值对
数据
。为了
从
数据
框创建输出表,必须避免custom_events的扁平化,并将其作为
JSON
字符串存储在列中。 "id": "sklfsdfskdlfsdfsdfkh
浏览 0
提问于2018-01-13
得票数 1
1
回答
Hadoop文件
格式
apache-spark
、
hadoop
、
hive
、
avro
、
parquet
我需要考虑如何
将
数据
写入
Hadoop。我每天有大约200 B的记录。
数据
字段可能会改变(不是很多,但将来可能会改变),我该选什么?阿夫罗还是帕奎特?但还是不知道该选什么, 有什么建议吗?
浏览 1
提问于2018-07-01
得票数 1
回答已采纳
点击加载更多
相关
资讯
深入理解Kafka Connect:转换器和序列化
ChoETL:支持多数据库读写.Net开源库,包含 CSV、XML、JSON等8个格式
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
如何基于 Apache Doris 构建新一代日志分析平台
Apache Spark 2.4 内置的 Avro 数据源实战
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券