首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在AWS中使用什么工具来报告兆字节的数据

在AWS中使用什么工具来报告兆字节的数据
EN

Stack Overflow用户
提问于 2022-08-12 15:42:32
回答 2查看 104关注 0票数 1

我们有100 TeraBytes的数据。我们需要对这些数据运行预定义的报告(不是很多Adhoc报告)。对于预定义的报告,预期的周转时间是10秒,不应该在几分钟内。

到目前为止,我们都是AWS服务器。原始数据源是DynamoDB。我们应该使用什么工具集?红移服务器对此来说是不是太过分了?我听说数据应该至少达到PB的比例才能使用。

预计这100兆字节的数据将在今后5年内积累。

我一直倾向于将数据流到S3,并使用雅典娜进行查询,但查询性能的不可预测性使我们感到焦虑。

对于这个用例来说,红移/红移无服务器/频谱是过度消耗吗?

有什么更好的工具集我应该去探索吗?

EN

回答 2

Stack Overflow用户

发布于 2022-08-12 19:23:40

考虑到这种轻的查询负载,但是数据的大数据和S3存储,我将使用Redshift服务器,使用位于S3中并通过频谱访问的大数据。这将为您提供Redshift的全部功能,但不会为集群支付全职费用。

票数 1
EN

Stack Overflow用户

发布于 2022-08-12 23:28:36

如果您可以在特定的时间窗口(如小时/日/周)将数据流到S3和预定义的报表聚合,我建议使用一个数据库来创建汇总或物化视图,以便您的查询能够快速运行(这是您的要求之一)。有了滚动视图或物化视图,您将看到一个要查询的小得多的表,在查询期间节省了存储和计算资源的费用。同时,您可能需要注意创建结束符或物化视图的易用性和成本。

当然,我不知道您的数据是什么样子的,但是能够处理嵌套的JSON (这在DynamoDB中很常见)可能是另一个重要的要求。有些系统可以直接处理嵌套的JSON,而有些系统则需要ETL工具来“平整”数据。

下面是我所知道的几个可以进行滚动和/或物化视图的方法:

  • Rockset
  • Druid
  • Elasticsearch
  • Clickhouse

祝好运!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73336667

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档