文章/答案/技术大牛

发布

社区首页 >问答首页 >AWS DMS无法写入MSK目标

问AWS DMS无法写入MSK目标
EN

Stack Overflow用户

提问于 2021-11-18 06:54:28

回答 1查看 262关注 0票数 0

注:自我回答的问题，因为谷歌没有说明任何问题。

我已经为AWS数据迁移服务的Kafka目标配置了一个托管流，但是迁移任务失败了。看看这些日志，我看到了这个：

2021-11-17T18:45:21 kafka_send_record  (kafka_records.c:88)
2021-11-17T18:50:21 Message delivery failed with Error:[Local: Message timed out] [1026800]  (kafka_records.c:16)

我已经核实了以下情况：

DMS复制实例和MSK群集都使用相同的安全组，具有允许所有通信量的“自入”规则和允许所有通信量的出口规则。
端点连接测试成功。
我可以使用同一个VPC中的EC2实例使用Kafka控制台生成器向MSK主题发送一条消息(并与控制台使用者一起接收此消息)。
如果我将端点更改为使用在同一个VPC中的EC2实例上运行的自管理Kafka集群，DMS作业就会成功。

amazon-web-services

aws-dms

aws-msk

回答 1

Stack Overflow用户

发布于 2021-11-18 06:55:25

结果，问题是我预先创建了主题，复制因子为1，但默认的MSK配置指定min.insync.replicas为2，这适用于所有创建的主题。

当DMS发送消息时，它需要从所有同步副本(我是推断的，因为它不是开源的)。如果同步副本的最小数量超过实际副本的数量，这将永远不会成功。

卡夫卡游戏机生产商，然而，默认为单个ack。这意味着它不是MSK集群可用性的一个很好的验证。

半相关: MSK的默认default.replication.factor值为3，这意味着您对一个2节点的MSK集群过度复制。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70021981

复制

基于Apache Hudi的多库多表实时入湖最佳实践

数据湖 spark api 数据库 sql

CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更数据。例如：通过解析MySQL数据库的Binlog日志捕获变更数据，而不是通过SQL Query源表捕获变更数据。Hudi 作为最热的数据湖技术框架之一, 用于构建具有增量数据处理管道的流式数据湖。其核心的能力包括对象存储上数据行级别的快速更新和删除，增量查询(Incremental queries,Time Travel)，小文件管理和查询优化(Clustering,Compactions,Built-in metadata)，ACID和并发写支持。Hudi不是一个Server，它本身不存储数据，也不是计算引擎，不提供计算能力。其数据存储在S3(也支持其它对象存储和HDFS)，Hudi来决定数据以什么格式存储在S3(Parquet,Avro,…), 什么方式组织数据能让实时摄入的同时支持更新，删除，ACID等特性。Hudi通过Spark，Flink计算引擎提供数据写入, 计算能力，同时也提供与OLAP引擎集成的能力，使OLAP引擎能够查询Hudi表。从使用上看Hudi就是一个JAR包，启动Spark, Flink作业的时候带上这个JAR包即可。Amazon EMR 上的Spark，Flink，Presto ，Trino原生集成Hudi, 且EMR的Runtime在Spark，Presto引擎上相比开源有2倍以上的性能提升。在多库多表的场景下(比如：百级别库表)，当我们需要将数据库(mysql,postgres,sqlserver,oracle,mongodb等)中的数据通过CDC的方式以分钟级别(1minute+)延迟写入Hudi，并以增量查询的方式构建数仓层次，对数据进行实时高效的查询分析时。我们要解决三个问题，第一，如何使用统一的代码完成百级别库表CDC数据并行写入Hudi，降低开发维护成本。第二，源端Schema变更如何同步到Hudi表。第三，使用Hudi增量查询构建数仓层次比如ODS->DWD->DWS(各层均是Hudi表)，DWS层的增量聚合如何实现。本篇文章推荐的方案是: 使用Flink CDC DataStream API(非SQL)先将CDC数据写入Kafka，而不是直接通过Flink SQL写入到Hudi表，主要原因如下，第一，在多库表且Schema不同的场景下，使用SQL的方式会在源端建立多个CDC同步线程，对源端造成压力，影响同步性能。第二，没有MSK做CDC数据上下游的解耦和数据缓冲层，下游的多端消费和数据回溯比较困难。CDC数据写入到MSK后，推荐使用Spark Structured Streaming DataFrame API或者Flink StatementSet 封装多库表的写入逻辑，但如果需要源端Schema变更自动同步到Hudi表，使用Spark Structured Streaming DataFrame API实现更为简单，使用Flink则需要基于HoodieFlinkStreamer做额外的开发。Hudi增量ETL在DWS层需要数据聚合的场景的下，可以通过Flink Streaming Read将Hudi作为一个无界流，通过Flink计算引擎完成数据实时聚合计算写入到Hudi表。

ApacheHudi

2022/12/09

2.7K0

aws生产实践-9：使用msk托管服务创建kafka集群

kafka https 网络安全 bash bash 指令

目录： (1).创建kafka生产集群 (2).msk简单使用 (1).创建kafka生产集群 MSK 是采用的滚动升级的方式版本升级过程中是可以继续使用的。 https://ap-northeas

千里行走

2021/11/11

1.2K0

通过Python脚本将DMP文件写入AWS RDS Oracle中

oracle 云推荐引擎 linux python

由于RDS(Oracle)不直接支持SSH，FTP(基于安全因素吧).所以原有系统expdp或exp出来的dmp文件，不能直接导入到RDS中。官方文档里建议通过networklink或者dblink的方式从原有数据库迁移到RDS，考虑到网络和安全因素，此方法暂被忽略掉。

星哥玩云

2022/08/16

1.6K0

笔记-系统突然无法写入某个文件异常

tomcat 日志服务

今天一早来公司使用系统，突然报异常，提示某个文件不能写入了，这是....什么情况？原先就已经分配过文件写入权限了。

louiezhou001

2021/12/10

1.1K0

#PY小贴士# 我的文件为何无法写入

ide

1. 搞错了当前目录，自以为是在某个目录下，其实不是。此情况易发于使用 IDE 的时候，因为 IDE 的执行目录并不一定是当前 py 文件所在目录。可以通过 print(os.getcwd()) 来查看当前路径。

Crossin先生

2019/12/18

1.7K0

mac电脑无法读取移动硬盘(mac无法写入移动硬盘)

windows windows server https 网络安全对象存储

苹果电脑一般都是容量不大，大点的又贼贵，于是很多机智的小伙伴选择用移动硬盘或 U盘来解决。然鹅，很多小伙伴可能会碰到这样的问题：移动硬盘只读且没法写入！这是因为你买的移动硬盘是 NTFS格式的，而 macOS 无法识别 NTFS 格式。

全栈程序员站长

2022/07/28

5.4K0

2500亿美元！谷歌欲收购Salesforce，目标直指亚马逊AWS

云计算云市场

有消息透露，谷歌欲出2500亿美元的“天价”收购Salesforce，希望通过该并购实现弯道超车，完成云计算市场常年“老三”的逆袭。

镁客网

2020/01/16

4940

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

数据库数据迁移 sql 数据湖

在 Halodoc，我们始终致力于为最终用户简化医疗保健服务，随着公司的发展，我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量，以解决我们决定改进数据平台架构的问题。在我们之前的博客中，我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。在这篇博客中，我们将讨论我们的新架构、涉及的组件和不同的策略，以拥有一个可扩展的数据平台。

ApacheHudi

2022/05/18

1.9K0

Hudi Transformers（转换器）

sql https 网络安全 css

Apache Hudi提供了一个HoodieTransformer Utility，允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器，您也可以构建自己的自定义转换器类。

从大数据到人工智能

2022/06/01

1.7K0

如何构建智能湖仓架构？亚马逊工程师的代码实践来了 | Q推荐

emr kafka 数据湖大数据 flink

数据仓库的数据体系严格、治理容易，业务规模越大，ROI 越高；数据湖的数据种类丰富，治理困难，业务规模越大，ROI 越低，但胜在灵活。

深度学习与Python

2021/12/02

1K0

印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0

数据湖数据库数据可视化数据结构 sql

数据是每项技术业务的支柱，作为一个健康医疗技术平台，Halodoc 更是如此，用户可以通过以下方式与 Halodoc 交互：

ApacheHudi

2022/05/18

2.3K0

Modern Data Stack 下 Data Integration 生态（下）

css 编程算法 kafka apache

上一篇介绍了什么是 modern data stack,这一篇继续来梳理下，在modern data stack 下面常见的产品都有哪些。

大数据和云计算技术

2021/12/30

1K0

Modern Data Stack 下 Data Integration 生态（下）

剖析-clickhouse的复制表引擎重复数据无法写入问题

github git 开源 sql https

关于复制表重复数据无法写入，最近发现不少人在网上有问到，我这里进行一下讲解和演示。

公众号-利志分享

2022/04/25

2.2K0

config rewrite一直报没有权限，无法写入数据

云数据库 Redis®容器镜像服务容器

使用docker挂载宿主机的redis.conf配置文件的方式启动redis容器，但是在启动之后，想给redis设置个密码，config rewrite命令一直提示没有权限容器启动命令：docker run --privileged=true -p 6379:6379 -d -v /root/redisconf:/usr/local/etc/redis --name myredis redis:6.2.3 redis-server /usr/local/etc/redis/redis.conf

别团等shy哥发育

2023/02/25

9150

解决hudi hms catalog中flink建表，spark无法写入问题

spark flink 大数据 hive sql

在hudi 0.12.0版本，flink和spark都可以基于hive metastore进行元数据管理，更多信息可参考：hudi HMS Catalog指南。也就是说基于hudi hms catalog，flink建表之后，flink或者spark都可以写，或者spark建表之后，spark或者flink都可以写。但是目前 hudi 0.12.0版本中存在一个问题，当使用flink hms catalog建hudi表之后，spark sql结合spark hms catalog将hive数据进行批量导入时存在无法导入的情况，具体复现方式与版本如下：

从大数据到人工智能

2022/10/31

1.5K0

SVN 由于目标计算机积极拒绝，无法连接

svn grep

为什么会出现这种错误呢，因为我们犯了一个很小的错误，因为以前服务器上的SVN是开机启动的，但是不知道为什么这次服务器重启之后SVN没有起来，所以就需要我们手动启动了。

kirin

2020/08/31

2.6K0

win10无法写入删改c盘文件的解决方法

windows

最近使用了win10系统，结果发现无法对c盘的文件进行写入删改，在网上到处搜集资料，终于找到了解决方法，这里总结一下。

雨临Lewis

2022/01/11

3.3K0

从 Apache Kudu 迁移到 Apache Hudi

spark sql 大数据数据库数据迁移

在构建本地数据中心的时候，出于Apache Kudu良好的性能和兼备OLTP和OLAP的特性，以及对Impala SQL和Spark的支持，很多用户会选择Impala / Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖，导致无法支持的数据高可用和弹性扩缩容，以及社区的逐渐不活跃，越来越多的用户，开始迁移到云上的Trino / Spark + Hudi 技术栈，本文通过一个实际的例子，来看一下迁移过程中发生的代码的重构和数据的迁移。

ApacheHudi

2022/12/09

2.3K0

KLOOK客路旅行基于Apache Hudi的数据湖实践

flink 大数据 hive 数据库 sql

客路旅行（KLOOK）是一家专注于境外目的地旅游资源整合的在线旅行平台，提供景点门票、一日游、特色体验、当地交通与美食预订服务。覆盖全球100个国家及地区，支持12种语言和41种货币的支付系统,与超过10000家商户合作伙伴紧密合作，为全球旅行者提供10万多种旅行体验预订服务。KLOOK数仓RDS数据同步是一个很典型的互联网电商公司数仓接入层的需求。对于公司数仓，约60%以上的数据直接来源与业务数据库，数据库有很大一部分为托管的AWS RDS-MYSQL 数据库，有超100+数据库/实例。RDS直接通过来的数据通过标准化清洗即作为数仓的ODS层，公司之前使用第三方商业工具进行同步，限制为每隔8小时的数据同步，无法满足公司业务对数据时效性的要求，数据团队在进行调研及一系列poc验证后，最后我们选择Debezium+Kafka+Flink+Hudi的ods层pipeline方案，数据秒级入湖，后续数仓可基于近实时的ODS层做更多的业务场景需求。

ApacheHudi

2022/05/18

1.5K0

点击加载更多

相似问题

带有AWS MSK(Kafka) CDC事务更改的AWS DMS

119

使用lambda函数将数据从AWS DMS流式传输到AWS MSK

113

AWS DMS红移作为目标

111

无法将AWS MSK connect群集连接到MSK群集

147

AWS Elastic Beanstalk无法访问AWS MSK

111

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问AWS DMS无法写入MSK目标
EN