我是谷歌BigQuery的新手,所以我正在努力理解如何最好地完成我的用例。
我有每天的客户访问数据存储在BigQuery中,我希望用我用python编写的一些算法来分析这些数据。由于有多个脚本使用日常数据的子集,我想知道获取和临时存储数据的最佳方法是什么。此外,脚本以顺序的方式运行。每个脚本修改数据的某些列,随后的脚本使用这些修改过的数据。在所有脚本运行之后,我希望将修改后的数据存储回BigQuery。
我想到的一些办法是:
有人能知道哪一种方法能更好地实现这一目标(就效率/成本而言)或提出替代方案吗?
谢谢!
发布于 2018-01-30 10:59:09
您的问题的答案主要取决于您的用例和您将要处理的数据的大小,因此没有一个绝对和正确的答案。
但是,对于BigQuery的使用,以及在您描述的场景中,它的一些特性对您来说是如何有趣的,您可能需要考虑一些要点。
让我快速地介绍一下你应该看的主要主题:
因此,一般来说,我要说的是,您不需要将任何其他具有部分结果的数据库保留为BigQuery存储的一部分。在资源和成本效率方面,BigQuery提供了足够的特性,可以在本地处理数据,而不必处理数据检索中的巨大开销或延迟。但是,这最终将取决于您的用例以及您正在存储和需要同时处理的数据量;但总的来说,我将只使用BigQuery本身。
https://stackoverflow.com/questions/48514422
复制相似问题