我正在为我的ML项目使用google cloud datalab。我的一个数据在bigquery表中,该表有数百万条记录(文本数据),其中有许多列。我从bigquery表创建了一个pandas数据帧,将其转换为dask数据帧(具有5个分区),并执行了数据辩论。
现在,我有了这个dask数据帧,我想将其存储在bigquery中,或者将其转换为拼接文件并将其存储在我的gcp存储中。如果能听到来自社区的选择,那就太好了。谢谢。
发布于 2019-02-15 00:20:28
正如评论中提到的,这是一个太多的“我该怎么做...”有个问题。
然而,简单的答案是
df.to_parquet('gcs://mybucket/mypath/output.parquet')您将需要安装其中一个拼图后端(快速拼图或pyarrow)和gcsfs。使用关键字storage_options={...},可能需要gcsfs的其他参数才能获得正确的权限,请参阅gcsfs文档。
一般信息:http://docs.dask.org/en/latest/remote-data-services.html
https://stackoverflow.com/questions/54687784
复制相似问题