如何在Flink中将avro文件写入S3？_如何在NiFi中将JSON写入Avro Schema_如何在jupyter notebook中将spark数据帧写入avro文件格式？ - 腾讯云开发者社区

我想从卡夫卡主题读取流数据，并写入S3的avro，或拼图，格式。数据流看起来像json字符串，但我不能转换和写入avro或拼图，格式的S3。

浏览 46提问于2019-07-11得票数 1

1回答

Kafka Avro控制台消费者/制作人从文件到文件

、、

如果我有一个模式字符串可以提供给控制台使用者和生产者，那么是否可以使用Avro控制台使用者将Avro编码的消息保存到文件中，并从该文件中读取来写入使用Avro控制台生成器的另一个主题？

浏览 2提问于2021-11-02得票数 1

回答已采纳

4回答

Apache S3 Sink是否需要Hadoop进行本地测试？

、、、

我对Apache比较陌生，我正在尝试创建一个简单的项目，该项目生成一个AWS S3桶文件。根据文档，似乎需要安装Hadoop才能做到这一点。 2016-12-29 16:03:49,861 INFO org.apache.flink.util.NetUtils$.r

浏览 0提问于2016-12-29得票数 4

回答已采纳

1回答

aws动态数据分析应用程序(flink)更改原来位于flink-flink. data的属性

、、

作为我的flink应用程序的运行时，我通过AWS ()使用托管flink "Serialization trace:",

浏览 2提问于2020-06-03得票数 1

回答已采纳

1回答

flink错误在类路径中找不到适合'org.apache.flink.table.factories.BatchTableSourceFactory‘的表工厂

、、

我是Apache Flink的新手，我正在尝试读取一个Avro文件，如下所示： .field("tconst", "string")org.apache.flink.table.sources.CsvAppendTableSourceFactoryorg.apache.f

浏览 61提问于2020-02-24得票数 0

1回答

将协议缓冲区数据搜索到avro - Apache Flink

、

是否可以使用Apache Flink接收器将协议缓冲区数据序列化到Avro并写入文件？

浏览 16提问于2020-05-02得票数 1

2回答

关于flink流接收器到hdfs

、、

我正在编写一个flink代码，在该代码中，我从本地系统读取一个文件并使用"writeUsingOutputFormat“将其写入数据库。你能帮我一下吗?

浏览 1提问于2019-01-07得票数 1

回答已采纳

2回答

从Flink* 1.3.2升级到1.4.0 hadoop FileSystem和路径问题*

、、、

这一问题发生在两个地方：import org.apache.avro.Schemaimport org.apache.flink.streaming.connectors.fs.Writer import org.apache.parquet.avro.AvroParquetWriter我甚至需要使用Hadoop依赖项，还是现在有不同的方式将Parquet文

浏览 9提问于2017-12-27得票数 2

回答已采纳

2回答

如何使用Flink* FileSink创建“二层”存储桶目录？*

、

我使用Flink FileSink将我的数据存入s3文件存储。我需要将我的数据结构化为子目录，如"s3://mybucket/dt=20210926/hour=13/“。现在，我成功地使用DateTimeBucketAssigner将我的数据写入定制的存储桶，如下所示： FileSink<RowData> orcSink = FileSink .forBulkFormat(new Path(

浏览 178提问于2021-09-27得票数 0

回答已采纳

1回答

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

、、、

目前，我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold，将写入HDFS上avro/json文件的数据大小限制在128 on。在检查点操作延迟一定时间后也关闭文件。由于我们在新项目中没有使用高级Flink特性，所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息写入hdfs (而不是旋转Flink)。但是，我无法找到限制卡夫卡连接器中hdfs<

浏览 0提问于2018-08-08得票数 1

回答已采纳

2回答

使用火花红移插入红移

、、

我正在尝试从S3 (拼花文件)中插入红移数据。通过SQLWorkbench完成它，600万行需要46秒。但通过连接器的火花红移，它需要大约7分钟。STORED AS PARQUET LOCATION 's3://parquet/items/Year=2017

浏览 0提问于2018-02-07得票数 3

回答已采纳

2回答

Flink-orc:无法在类路径中找到标识符“orc”的任何格式工厂

、

我需要将表结果保存到S3上的orc中，我就是这样做的： <groupId>org.apache.flink</groupId>

浏览 15提问于2022-10-17得票数 0

回答已采纳

1回答

如何使用Kafka connect S3接收器连接器标记s3存储桶对象

、、、

我们有没有办法通过Kafka Connect S3接收器连接器来标记写在S3存储桶中的对象。我正在从Kafka读取消息，并使用S3接收器连接器在S3存储桶中写入avro文件。当文件被写入S3存储桶时，我需要标记这些文件。

浏览 1提问于2019-07-24得票数 1

1回答

如何处理连接的Avro文件？

、、、、

这些数据被编码并发送到，它每300秒钟左右缓冲并写入亚马逊的S3。由于我有多个web服务器，这会导致多个Avro文件被发送到Kinesis，并将它们连接起来并定期写入S3。当我从S3获取文件时，我不能使用普通的Avro工具来解码它，因为它实际上是一个文件中的多个文件。我可以添加一个分隔符，但如果记录的数据也有相同的分隔符，这似乎是有风险的。处理这件事最好的方法是什么？我在标准中找不到支持连接到同一

浏览 4提问于2015-11-25得票数 5

回答已采纳

1回答

读取多种Kafka主题的数据(泛型列表类设计)

、、、、

我试图更改Flink运行程序代码，让它读取来自几个Kafka主题的数据，并相应地将其写入不同的HDFS文件夹，而无需加入。每个Kafka主题只处理一个用Java编写的Avro模式类。唯一一个Flink作业(用Scala编写)读取唯一的主题，使用一个Avro模式进行转换，并将数据写入HDFS中的一个文件夹。第三作业流程TO 一个Flink作业可以读取多个卡夫卡主题，使用不同的模式将其转换成不同的文件夹，而不需要加

浏览 2提问于2020-02-04得票数 0

1回答

Apache将Parquet文件写入S3

、、、

我有一个Flink流管道来读取来自Kafka的消息，消息有到日志文件的s3路径。使用Flink异步IO下载日志文件，解析并从中提取一些关键信息。现在，我需要将提取的数据(Hashmap<String，String>)作为Parquet文件写入S3中的另一个桶中。我该怎么做呢？我已经完成了转换，我使用了1.15 flink版本。

浏览 13提问于2022-05-11得票数 0

1回答

Flink Hadoop用多个并行桶执行斗槽的性能

、、

我正在调查一个Flink作业的性能，它将数据从Kafka传输到一个S3水槽。我们正在使用BucketingSink来编写拼花文件。(约为300倍)通过对用于向S3写入的hadoop库的研究，我发现了一些可能的改进设置： <name我还试

浏览 9提问于2020-02-07得票数 1

回答已采纳

1回答

如何使用Avro处理无法查找的流？

、、、

我使用Avro 1.4.0通过Python avro绑定和boto S3库从S3中读取一些数据。当我在文件上打开一个avro.datafile.DataFileReader (如boto返回的对象)时，它在尝试seek()时立即失败。现在，我通过将S3对象读入临时文件来解决这个问题。

浏览 2提问于2010-09-24得票数 3

回答已采纳

1回答

Spark中的-r-xxxxx文件

、

如果我使用Spark将数据写入S3 (或HDFS)，我会得到一堆部件文件我知道xxxxx是一个映射/减少任务号，通常从零开始并向上计数是否有任何有效的、无错误的场景，其中将有一个部件r-00001输出文件，但没有部件r-00000输出文件？或部分-r-00002输出文件，但没有部分-r-00001文件？我有一个Spark工作，它执行多个附加写入到S3

浏览 0提问于2016-11-03得票数 2

回答已采纳

3回答

阿夫罗记录->卡夫卡连接水槽->亚马逊S3存储。无能？

、、

我们希望将所有消息存档到亚马逊S3。理想情况下，它们将存储在S3类目录中，并使用类似于以下内容的路径结构：对于如何做到这一点，是否有参考或最佳实践我的一个问题是幂等性：如何提供写入幂等性，其中一条记录可能被多次发送给我的接收器作者，但只存储在S3上一次。我说得对吗?我需要偶像吗？

浏览 2提问于2016-06-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云