我们有100 TeraBytes的数据。我们需要对这些数据运行预定义的报告(不是很多Adhoc报告)。对于预定义的报告,预期的周转时间是10秒,不应该在几分钟内。
到目前为止,我们都是AWS服务器。原始数据源是DynamoDB。我们应该使用什么工具集?红移服务器对此来说是不是太过分了?我听说数据应该至少达到PB的比例才能使用。
预计这100兆字节的数据将在今后5年内积累。
我一直倾向于将数据流到S3,并使用雅典娜进行查询,但查询性能的不可预测性使我们感到焦虑。
对于这个用例来说,红移/红移无服务器/频谱是过度消耗吗?
有什么更好的工具集我应该去探索吗?
发布于 2022-08-12 19:23:40
考虑到这种轻的查询负载,但是数据的大数据和S3存储,我将使用Redshift服务器,使用位于S3中并通过频谱访问的大数据。这将为您提供Redshift的全部功能,但不会为集群支付全职费用。
发布于 2022-08-12 23:28:36
如果您可以在特定的时间窗口(如小时/日/周)将数据流到S3和预定义的报表聚合,我建议使用一个数据库来创建汇总或物化视图,以便您的查询能够快速运行(这是您的要求之一)。有了滚动视图或物化视图,您将看到一个要查询的小得多的表,在查询期间节省了存储和计算资源的费用。同时,您可能需要注意创建结束符或物化视图的易用性和成本。
当然,我不知道您的数据是什么样子的,但是能够处理嵌套的JSON (这在DynamoDB中很常见)可能是另一个重要的要求。有些系统可以直接处理嵌套的JSON,而有些系统则需要ETL工具来“平整”数据。
下面是我所知道的几个可以进行滚动和/或物化视图的方法:
祝好运!
https://stackoverflow.com/questions/73336667
复制相似问题