文章/答案/技术大牛

发布

社区首页 >问答首页 >在AWS中使用什么工具来报告兆字节的数据

问在AWS中使用什么工具来报告兆字节的数据
EN

Stack Overflow用户

提问于 2022-08-12 15:42:32

回答 2查看 104关注 0票数 1

我们有100 TeraBytes的数据。我们需要对这些数据运行预定义的报告(不是很多Adhoc报告)。对于预定义的报告，预期的周转时间是10秒，不应该在几分钟内。

到目前为止，我们都是AWS服务器。原始数据源是DynamoDB。我们应该使用什么工具集？红移服务器对此来说是不是太过分了？我听说数据应该至少达到PB的比例才能使用。

预计这100兆字节的数据将在今后5年内积累。

我一直倾向于将数据流到S3，并使用雅典娜进行查询，但查询性能的不可预测性使我们感到焦虑。

对于这个用例来说，红移/红移无服务器/频谱是过度消耗吗？

有什么更好的工具集我应该去探索吗？

amazon-athena

amazon-s3

amazon-dynamodb

amazon-redshift

amazon-rds

回答 2

Stack Overflow用户

发布于 2022-08-12 19:23:40

考虑到这种轻的查询负载，但是数据的大数据和S3存储，我将使用Redshift服务器，使用位于S3中并通过频谱访问的大数据。这将为您提供Redshift的全部功能，但不会为集群支付全职费用。

票数 1

Stack Overflow用户

发布于 2022-08-12 23:28:36

如果您可以在特定的时间窗口(如小时/日/周)将数据流到S3和预定义的报表聚合，我建议使用一个数据库来创建汇总或物化视图，以便您的查询能够快速运行(这是您的要求之一)。有了滚动视图或物化视图，您将看到一个要查询的小得多的表，在查询期间节省了存储和计算资源的费用。同时，您可能需要注意创建结束符或物化视图的易用性和成本。

当然，我不知道您的数据是什么样子的，但是能够处理嵌套的JSON (这在DynamoDB中很常见)可能是另一个重要的要求。有些系统可以直接处理嵌套的JSON，而有些系统则需要ETL工具来“平整”数据。

下面是我所知道的几个可以进行滚动和/或物化视图的方法：

Rockset
Druid
Elasticsearch
Clickhouse

祝好运!

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73336667

复制

相似问题

问在AWS中使用什么工具来报告兆字节的数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在AWS中使用什么工具来报告兆字节的数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在AWS中使用什么工具来报告兆字节的数据
EN