TL;DR: asyncio vs multi-processing vs threading vs some other solution,将读取GCS文件的for循环并行化,然后将这些数据附加到熊猫数据中,然后写入BigQuery.我想做一个并行的python函数,它从GCS目录中读取数十万个小.json文件,然后将这些.jsons转换成熊猫数据格式,然后将熊猫数据写入BigQuery表。由于读取/写入这么多小文件的瓶颈,这个过程需要一个目录的24小时.如果我能使它更加并行
我正在尝试使用BALANCED ShardingStrategy来获取超过1个流,并使用python多处理库来并行读取流。 但是,当并行读取流时,将返回相同的行数和数据。因为,如果我理解正确的话,在开始读取和完成之前,没有数据被分配给任何流,所以两个并行的流试图读取相同的数据,并且部分数据永远不会被读取。根据文档,可以并行读取多个流和平衡的一个流。但是,我不知道如何并行读取,以及如何将不同的数据分配给每个流 我有以下玩具代码: import pandas as pd
from google.cloud i