我正在尝试设置一个flink-yarn会话来运行~100+批处理作业。在连接到大约40个任务管理器和大约10个正在运行的作业(每个任务管理器有2个插槽和1 1GB内存)后,看起来会话变得不稳定。有足够的可用资源。flink UI突然变得不可用,我猜作业管理器可能已经死了。最终,yarn应用程序也被终止了。
作业管理器在4核16 gb节点上运行,12 gb可用
是否有任何指南可以计算作业管理器资源与它可以处理的任务管理器数量之间的关系?
发布于 2020-08-20 00:39:08
我把这个修好了。flink-session中断的原因是集群中工作机器的低带宽。运行任务管理器容器的worker机器至少需要750 runs或更高。由于每个任务管理器有2个插槽和1 1GB的内存,中等带宽~450 task不会减少它。如果作业是IO密集型的,则参与者之间的通信(作业管理器和工作进程之间或工作进程与工作进程之间的通信)可能会超时(默认任务超时为100ms)。
我决定不增加ask超时,这样作业就不会因为这个瓶颈而花费很长时间。
https://stackoverflow.com/questions/63433025
复制相似问题