首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >选择大数据仓库

选择大数据仓库
EN

Stack Overflow用户
提问于 2016-05-24 03:57:14
回答 2查看 300关注 0票数 5

现在,我面临的挑战是创建数据仓库来存储和处理大量的数据。估计每天发生的事件超过70亿次。数据应保存7天。平均事件大小为0.5~1KB.我们需要处理这些数据,以便:

  • 生成报告;
  • 火车模型。

目前我正在评估:

  • Google Bigquery
  • 红移
  • 斯特雷肖+卡桑德拉+ AWS + EMR + EBS
  • Cloudera + AWS

所以我感兴趣的是

  • 公司内部使用的解决方案(框架、设置、数据库、节点数量等)
  • 任何实际成本示例/比较(如果可能的话)
  • 管理复杂性( devops )
EN

回答 2

Stack Overflow用户

发布于 2016-05-24 20:44:51

我最近根据Mark的系列文章编写了这个摘要,比较了BigQuery、Spark、Hive、Presto、ElasticSearch、AWS、AWS和Google:

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

摘要摘要:

  • 相同的数据集(10亿行)、相同的查询、许多技术和配置。
  • BigQuery是运行查询最快的:2秒。
  • 默认情况下,BigQuery是唯一快速的:不需要优化,也不需要数据预处理。在25分钟内加载了10亿行,并准备好查询数据。
  • 其他解决方案花了几个小时来加载数据(代价很高),而且比BigQuery慢了很多倍。

但是你能得到的最好的基准是你自己的:尝试BigQuery应该是快速和容易的。然后尝试找到另一个平台,它可以以同样快的速度加载数据,以同样快的速度查询数据,或者在价格上接近它。马克试过了,这些都是他的发现。

票数 4
EN

Stack Overflow用户

发布于 2016-05-24 04:46:03

我们使用BigQuery,优点:

  • SQL,基于列的
  • 支持列中的JSON数据-> advantage,非结构化
  • 非常便宜,每月约21,000美元。
  • 由谷歌管理的服务,没有开发人员
  • 100 000行/秒吞食能力
  • 参见链接演示文稿中的幻灯片#24

找到更多用例和体系结构:http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37412877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文