Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >今天开始采用的十大大数据技术

今天开始采用的十大大数据技术

原创
作者头像
一起学习大数据
修改于 2019-06-14 12:25:39
修改于 2019-06-14 12:25:39
6370
举报

大数据正在爆炸式增长,每天都有来自世界各地的公司涌现出新的项目。

好消息是,所有技术都是开源的,可供您今天开始采用。

Hadoop

稳固,企业实力和其他一切的基础。您需要YARN和HDFS以及Hadoop的基础架构作为主要数据存储并运行关键的大数据服务器和应用程序

Spark

易于使用,支持所有重要的大数据语言(Scala,PythonJava,R),一个庞大的生态系统,快速增长,易于微缩/批处理/ SQL支持。这是另一个明智的选择。

在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

NiFi

- NSA的工具,允许从这么多来源轻松地进行数据摄取,存储和处理,只需极少的编码和灵活的用户界面。来自社交媒体,JMS,NoSQL,SQL,Rest / JSON Feeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBaseHive,HDFS,Azure Event Hub,Kafka等的数十种来源。大数据学习交流群,群门牌号是:251—956---502,欢迎一起学习大数据的伙伴,加群互相学习交流。如果没有您需要的源或接收器,那么为您编写自己的处理器是直接的Java代码。您工具箱中的另一个伟大的Apache项目。这是瑞士军刀大数据工具。

Apache Hive 2.1

Apache Hive一直是Hadoop上的SQL解决方案。通过最新版本,性能和功能增强,Hive成为大数据SQL的解决方案。

Kafka

- 大数据系统之间异步分布式消息传递的选择。它融入了大多数堆栈。从Spark到NiFi再到第三方工具,从Java到Scala,它是系统之间的一个很好的粘合剂。这需要在你的堆栈中。

Phoenix

HBase -开源的BigTable,大量公司致力于HBase并使其规模庞大。NoSQL由HDFS支持,并与所有工具完美集成。在HBase上添加凤凰城的建设正在使其成为NoSQL的首选。这为HBase添加了SQL,JDBC,OLTP和操作分析。

Zeppelin

- 易于集成的笔记本工具,用于处理Hive,Spark,SQL,Shell,Scala,Python以及大量其他数据探索和机器学习工具。它非常容易使用,也是探索和查询数据的好方法。该工具正在获得支持和功能。他们只需要提升他们的图表和绘图。

H2O

H2O填补了Spark的机器学习的空白,并且正常工作。它可以完成您所需的所有机器学习。

Apache Beam

Java中数据处理管道开发的统一框架。这允许您也支持Spark和Flink。其他框架将上线,您不必学习太多框架。

Stanford CoreNLP

自然语言处理是巨大的,只是增长更多。斯坦福大学正在继续改进他们的框架。

显然,有大量的大数据项目,因此您最好的选择是从基础分发开始,该分布包含并测试项目的各个版本,并确保它们与安全性和管理平稳地协同工作。我建议使用Hortonworks Connected Data Platforms作为您的基础。如果我们进入前20名,我会添加更多项目,特别是Storm, SOLR,Apache Oozie和Apache HAWQ。下面有很多很棒的技术,在大多数情况下,你没有看到或知道像Apache Tez(虽然你需要在运行Hive时配置它),Apache Calcite,Apache Slider,Apache Zookeeper和 Livy。这些项目对于运行大数据基础架构至关重要。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
干货|盘点最受欢迎的十个开源大数据技术
大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。 1 Hadoop 高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。 2 Spark 使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持
灯塔大数据
2018/04/09
8760
大数据技术体系梳理
来一起认识下大数据的技术框架有哪些,它们分别用于解决哪些问题?它们的内在逻辑和适用场景有哪些?OK,一起去探索下。
十里桃花舞丶
2021/01/05
1.7K0
大数据技术体系梳理
大数据技术栈详解
相信很多学Java的同学都有想转大数据或者学大数据的想法,但是一看到网上那些大数据的技术栈,就一脸懵逼,什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。
林老师带你学编程
2020/04/13
3.9K0
经典收藏丨数据科学家&大数据技术人员工具包
本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科学教育和知识分享,提高数据科学人员素质。
IT阅读排行榜
2018/08/14
9210
2019精炼的大数据技术学习路线
近年来大数据BigData、人工智能AI、物联网Iot等行业发展迅猛,很多人都想要从事大数据技术开发工作,但是,请问要怎么做,路线是什么?从哪里开始学?学哪些?这是一个大问题。对于我自己来说,最近也在学一些大数据开发相关的技术,所以之前整理了一份《大数据技术学习路线》,希望对你有所帮助。
用户2292346
2019/04/02
1.5K0
2019精炼的大数据技术学习路线
【盘点】十大最受欢迎的开源大数据技术
导读:大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术 十大开
钱塘数据
2018/03/01
1.8K0
【盘点】十大最受欢迎的开源大数据技术
大数据组件图谱
      HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
爱撸猫的杰
2020/03/25
3.8K0
大数据组件图谱
大数据初学 或Java工程师怎么转大数据?大数据基础技术学习路线图
1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。
用户2292346
2018/06/05
9500
大数据初学 或Java工程师怎么转大数据?大数据基础技术学习路线图
2015 Bossie评选:最佳开源大数据工具
InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快。 与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的发现,使数据访问比原始RDD接口更简单。 Spark
CSDN技术头条
2018/02/11
1.7K0
2015 Bossie评选:最佳开源大数据工具
大数据技术扫盲,你必须会的这些点
虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身的不足,查漏补缺非常重要。**今天小编给大家带来的是绝对的干货!以下是我自己这些年爬过的那些坑。在大数据开发这一块来说还算是比较全面的吧!废话不多说,直接上干货!
一起学习大数据
2019/05/27
7700
全球100款大数据工具汇总
企鹅号小编
2017/12/29
1.5K0
全球100款大数据工具汇总
大数据技术介绍
为了方便大家梳理清楚大数据学习路线,本文从以下四个方面来介绍大数据技术: 大数据技术栈 大数据发展史 大数据应用 大数据开发岗位
我是李超人
2022/03/13
5610
大数据技术介绍
2015 Bossie评选:最佳的10款开源大数据工具
Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具,像S
我是攻城师
2018/05/14
1.4K0
4位专家解读2015大数据技术进展
2015年,整个IT技术领域发生了许多深刻而又复杂的变化。本文是大数据解读篇,在这篇文章里我们将回顾2015展望2016,看看过去的一年里广受关注的技术有哪些进展,了解下数据科学家这个职业的火热。 在
灯塔大数据
2018/04/10
7880
4位专家解读2015大数据技术进展
大数据常用技术栈
提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展,尤以Hadoop和Spark最为突出,已构建起庞大的技术生态体系圈。 首先通过一张图来了解一下目前大数据领域常用的一些技术,当然大数据发展至今所涉及技术远不止这些。
大数据学习与分享
2020/07/24
1.7K0
大数据常用技术栈
大数据方面核心技术有哪些?新人必读
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
一起学习大数据
2019/05/01
1.8K0
在新的一年里,选个关注热度上升的大数据工具学习下吧
本文列举了大数据相关的部分热门项目,盘点了该生态圈目前流行的一些开源产品和工具,并用google热度趋势图体现了它们的受关注程度。从不同的热度趋势,可以了解到每一个产品在近5年来全球受关注的走势,是越来越受重视还是渐渐淡出。
用户5265382
2019/05/10
6490
大数据学习路线图 让你精准掌握大数据技术学习
大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法。互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业。
一起学习大数据
2019/07/08
1K0
大数据技术人员必备工具包,为工作提质增效
本文作者:秦陇纪 本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科
钱塘数据
2018/03/06
1.4K0
大数据技术人员必备工具包,为工作提质增效
大数据简介,技术体系分类整理
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量数据的存储和分析。
知了一笑
2020/09/19
1K0
推荐阅读
相关推荐
干货|盘点最受欢迎的十个开源大数据技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档