我正在使用BigQueryIO write using loads。我的负载触发器设置为18小时。我正在通过固定的每日窗口从Kafka获取数据。基于,当一个窗格中至少有500k记录时,预期的行为似乎是将行卸载到文件系统
我设法生成了大约600K条记录,并等待了大约2个小时,以查看行是否已上载到gcs,但是,那里什么都没有。当我使用一个较小的负载触发器时,一切似乎都
TL;DR: asyncio vs multi-processing vs threading vs some other solution,将读取GCS文件的for循环并行化,然后将这些数据附加到熊猫数据中我想做一个并行的python函数,它从GCS目录中读取数十万个小.json文件,然后将这些.jsons转换成熊猫数据格式,然后将熊猫数据写入BigQuery表。= json.loads(f.read())
data = [gcs_data]