腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3288)
视频
沙龙
2
回答
如
何在
Flink
中将
avro
文件
写入
S3
?
我想从卡夫卡主题读取流数据,并
写入
S3
的
avro
,或拼图,格式。数据流看起来像json字符串,但我不能转换和
写入
avro
或拼图,格式的
S3
。
浏览 46
提问于2019-07-11
得票数 1
1
回答
Kafka
Avro
控制台消费者/制作人从
文件
到
文件
、
、
如果我有一个模式字符串可以提供给控制台使用者和生产者,那么是否可以使用
Avro
控制台使用者将
Avro
编码的消息保存到
文件
中,并从该
文件
中读取来
写入
使用
Avro
控制台生成器的另一个主题?
浏览 2
提问于2021-11-02
得票数 1
回答已采纳
4
回答
Apache
S3
Sink是否需要Hadoop进行本地测试?
、
、
、
我对Apache比较陌生,我正在尝试创建一个简单的项目,该项目生成一个AWS
S3
桶
文件
。根据文档,似乎需要安装Hadoop才能做到这一点。 2016-12-29 16:03:49,861 INFO org.apache.
flink
.util.NetUtils$.r
浏览 0
提问于2016-12-29
得票数 4
回答已采纳
1
回答
aws动态数据分析应用程序(
flink
)更改原来位于
flink
-
flink
. data的属性
、
、
作为我的
flink
应用程序的运行时,我通过AWS ()使用托管
flink
"Serialization trace:",
浏览 2
提问于2020-06-03
得票数 1
回答已采纳
1
回答
flink
错误在类路径中找不到适合'org.apache.
flink
.table.factories.BatchTableSourceFactory‘的表工厂
、
、
我是Apache
Flink
的新手,我正在尝试读取一个
Avro
文件
,如下所示: .field("tconst", "string")org.apache.
flink
.table.sources.CsvAppendTableSourceFactoryorg.apache.
f
浏览 61
提问于2020-02-24
得票数 0
1
回答
将协议缓冲区数据搜索到
avro
- Apache
Flink
、
是否可以使用Apache
Flink
接收器将协议缓冲区数据序列化到
Avro
并
写入
文件
?
浏览 16
提问于2020-05-02
得票数 1
2
回答
关于
flink
流接收器到hdfs
、
、
我正在编写一个
flink
代码,在该代码中,我从本地系统读取一个
文件
并使用"writeUsingOutputFormat“将其
写入
数据库。你能帮我一下吗?
浏览 1
提问于2019-01-07
得票数 1
回答已采纳
2
回答
从
Flink
1.3.2升级到1.4.0 hadoop FileSystem和路径问题
、
、
、
这一问题发生在两个地方:import org.apache.
avro
.Schemaimport org.apache.
flink
.streaming.connectors.fs.Writer import org.apache.parquet.
avro
.AvroParquetWriter我甚至需要使用Hadoop依赖项,还是现在有不同的方式将Parquet
文
浏览 9
提问于2017-12-27
得票数 2
回答已采纳
2
回答
如何使用
Flink
FileSink创建“二层”存储桶目录?
、
我使用
Flink
FileSink将我的数据存入
s3
文件
存储。 我需要将我的数据结构化为子目录,
如
"
s3
://mybucket/dt=20210926/hour=13/“。现在,我成功地使用DateTimeBucketAssigner将我的数据
写入
定制的存储桶,如下所示: FileSink<RowData> orcSink = FileSink .forBulkFormat(new Path(
浏览 178
提问于2021-09-27
得票数 0
回答已采纳
1
回答
在通过hdfs连接器从kafka
写入
时,是否有一种限制
avro
文件
大小的方法?
、
、
、
目前,我们使用
Flink
FsStateBackend检查点并设置fileStateSizeThreshold,将
写入
HDFS上
avro
/json
文件
的数据大小限制在128 on。在检查点操作延迟一定时间后也关闭
文件
。由于我们在新项目中没有使用高级
Flink
特性,所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息
写入
hdfs (而不是旋转
Flink
)。但是,我无法找到限制卡夫卡连接器中hdfs<
浏览 0
提问于2018-08-08
得票数 1
回答已采纳
2
回答
使用火花红移插入红移
、
、
我正在尝试从
S3
(拼花
文件
)中插入红移数据。通过SQLWorkbench完成它,600万行需要46秒。但通过连接器的火花红移,它需要大约7分钟。STORED AS PARQUET LOCATION '
s3
://parquet/items/Year=2017
浏览 0
提问于2018-02-07
得票数 3
回答已采纳
2
回答
Flink
-orc:无法在类路径中找到标识符“orc”的任何格式工厂
、
我需要将表结果保存到
S3
上的orc中,我就是这样做的: <groupId>org.apache.
flink
</groupId>
浏览 15
提问于2022-10-17
得票数 0
回答已采纳
1
回答
如何使用Kafka connect
S3
接收器连接器标记
s3
存储桶对象
、
、
、
我们有没有办法通过Kafka Connect
S3
接收器连接器来标记写在
S3
存储桶中的对象。我正在从Kafka读取消息,并使用
S3
接收器连接器在
S3
存储桶中
写入
avro
文件
。当
文件
被
写入
S3
存储桶时,我需要标记这些
文件
。
浏览 1
提问于2019-07-24
得票数 1
1
回答
如何处理连接的
Avro
文件
?
、
、
、
、
这些数据被编码并发送到,它每300秒钟左右缓冲并
写入
亚马逊的
S3
。由于我有多个web服务器,这会导致多个
Avro
文件
被发送到Kinesis,并将它们连接起来并定期
写入
S3
。当我从
S3
获取
文件
时,我不能使用普通的
Avro
工具来解码它,因为它实际上是一个
文件
中的多个
文件
。我可以添加一个分隔符,但如果记录的数据也有相同的分隔符,这似乎是有风险的。 处理这件事最好的方法是什么?我在标准中找不到支持连接到同一
浏览 4
提问于2015-11-25
得票数 5
回答已采纳
1
回答
读取多种Kafka主题的数据(泛型列表类设计)
、
、
、
、
我试图更改
Flink
运行程序代码,让它读取来自几个Kafka主题的数据,并相应地将其
写入
不同的HDFS
文件
夹,而无需加入。每个Kafka主题只处理一个用Java编写的
Avro
模式类。唯一一个
Flink
作业(用Scala编写)读取唯一的主题,使用一个
Avro
模式进行转换,并将数据
写入
HDFS中的一个
文件
夹。第三作业流程TO 一个
Flink
作业可以读取多个卡夫卡主题,使用不同的模式将其转换成不同的
文件
夹,而不需要加
浏览 2
提问于2020-02-04
得票数 0
1
回答
Apache将Parquet
文件
写入
S3
、
、
、
我有一个
Flink
流管道来读取来自Kafka的消息,消息有到日志
文件
的
s3
路径。使用
Flink
异步IO下载日志
文件
,解析并从中提取一些关键信息。现在,我需要将提取的数据(Hashmap<String,String>)作为Parquet
文件
写入
S3
中的另一个桶中。我该怎么做呢?我已经完成了转换,我使用了1.15
flink
版本。
浏览 13
提问于2022-05-11
得票数 0
1
回答
Flink
Hadoop用多个并行桶执行斗槽的性能
、
、
我正在调查一个
Flink
作业的性能,它将数据从Kafka传输到一个
S3
水槽。我们正在使用BucketingSink来编写拼花
文件
。(约为300倍)通过对用于向
S3
写入
的hadoop库的研究,我发现了一些可能的改进设置: <name我还试
浏览 9
提问于2020-02-07
得票数 1
回答已采纳
1
回答
如何使用
Avro
处理无法查找的流?
、
、
、
我使用
Avro
1.4.0通过Python
avro
绑定和boto
S3
库从
S3
中读取一些数据。当我在
文件
上打开一个
avro
.datafile.DataFileReader (
如
boto返回的对象)时,它在尝试seek()时立即失败。现在,我通过将
S3
对象读入临时
文件
来解决这个问题。
浏览 2
提问于2010-09-24
得票数 3
回答已采纳
1
回答
Spark中的-r-xxxxx
文件
、
如果我使用Spark将数据
写入
S3
(或HDFS),我会得到一堆部件
文件
我知道xxxxx是一个映射/减少任务号,通常从零开始并向上计数是否有任何有效的、无错误的场景,其
中将
有一个部件r-00001输出
文件
,但没有部件r-00000输出
文件
?或部分-r-00002输出
文件
,但没有部分-r-00001
文件
?我有一个Spark工作,它执行多个附加
写入
到
S3
浏览 0
提问于2016-11-03
得票数 2
回答已采纳
3
回答
阿夫罗记录->卡夫卡连接水槽->亚马逊
S3
存储。无能?
、
、
我们希望将所有消息存档到亚马逊
S3
。理想情况下,它们将存储在
S3
类目录中,并使用类似于以下内容的路径结构:对于如何做到这一点,是否有参考或最佳实践我的一个问题是幂等性:如何提供
写入
幂等性,其中一条记录可能被多次发送给我的接收器作者,但只存储在
S3
上一次。 我说得对吗?我需要偶像吗?
浏览 2
提问于2016-06-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Spark 2.4 内置的 Avro 数据源实战
Lyft基于Flink的大规模准实时数据分析平台实践
深入理解Kafka Connect:转换器和序列化
趣头条基于Flink+ClickHouse的实时数据分析平台
利用 JuiceFS 给 Flink 容器启动加速
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
腾讯会议
活动推荐
运营活动
广告
关闭
领券