Hadoop
开源框架,支持在集群分布式环境中存储和处理大数据,可从单机扩展至上万台机器,每台节点提供本地计算与存储。
Druid
实时分析数据存储系统,也是Java中优秀的数据库连接池,具备强大的监控和扩展能力。作为面向列分布的实时数据仓库,擅长对PB级数据进行快速聚合查询,支持灵活过滤、精确与近似计算,可同时加载流式和批处理数据,并与Samza、Kafka、Storm、Spark及Hadoop集成。
Ambari
大数据平台部署与监控工具(类似CDH)。提供向导式安装Hadoop服务,集中管理集群的启动、停止与配置;通过仪表板监控健康状态,利用度量系统收集指标,并通过警报框架在异常(如节点宕机、磁盘不足)时及时通知。
Spark
通用快速的集群计算系统,提供Java、Scala、Python和R的高级API,具备优化执行引擎。支持批量处理、交互式查询和实时数据流三大场景。
Storm
免费、开源的分布式实时计算系统,高容错,擅长持续流计算,弥补Hadoop批处理的实时短板,应用于实时分析、在线机器学习、ETL等领域,部署简单且性能出众。