5个作业正在读取该主题(具有不同的消费者组),每个作业的并行度=5。 每个任务管理器使用10 2Gb的ram运行,并且任务管理器堆大小被限制为2 2Gb。org.apache.flink.streaming.connectors.kafka.internal.KafkaConsumerThread.run(KafkaConsumerThread.java:257) flink重新启动该作业,但它在该异常中总是失败我们也尝试了增加kafka堆的大小,就像这里建议的:Flink + Kafka, java.lang.OutOfMemoryError when p
我有如下所示的Dataframe,包含两个排序的字符串列表,用于每个可能的key1和key2组合。for x in df.select('value2').filter(df['key1']==c).filter(df['key2']==s).collect()])
但是,由于我想使用sparks能力并行执行背景是,我有一个按key1和key2组合排序的列表(Key1)和key2组合,我想将其与每键1 (value2)的基准列表进行比较,并计算列表之间的jacca