Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >java转大数据的学习路线

java转大数据的学习路线

原创
作者头像
一起学习大数据
修改于 2019-04-29 09:56:21
修改于 2019-04-29 09:56:21
7532
举报

一、大数据相关的工作介绍

二、大数据工程师的技能要求

三、大数据学习规划

大数据介绍

大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。

针对以上主要的4个特征我们需要考虑以下问题:

数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具。

数据采集之后,该如何存储?,对应出现了GFS,HDFS,TFS等分布式文件存储系统。

由于数据增长速度快,数据存储就必须可以水平扩展。

数据存储之后,该如何通过运算快速转化成一致的格式,该如何快速运算出自己想要的结果?

对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很大,所以出现了Hive,Pig等将SQL转化成MapReduce的解析引擎;

普通的MapReduce处理数据只能一批一批地处理,时间延迟太长,为了实现每输入一条数据就能得到结果,于是出现了Storm/JStorm这样的低时延的流式计算框架;

但是如果同时需要批处理和流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出现了Spark这样的一站式的计算框架,既可以进行批处理,又可以进行流处理(实质上是微批处理)。

而后Lambda架构,Kappa架构的出现,又提供了一种业务处理的通用架构。

为了提高工作效率,加快运速度,出现了一些辅助工具:

Ozzie,azkaban:定时任务调度的工具。

Hue,Zepplin:图形化任务执行管理,结果查看工具。

Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。

Python语言:编写一些脚本时会用到。

Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。

以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍,知道了他们为什么而出现或者说出现是为了解决什么问题,进行学习的时候就有的放矢了。

正文

一、大数据相关工作介绍

大数据方向的工作目前主要分为三个主要方向:

大数据工程师

数据分析师

大数据科学家

其他(数据挖掘等)

二、大数据工程师的技能要求

附上大数据工程师技能图:

必须掌握的技能11条

Java高级(虚拟机、并发)

Linux 基本操作

Hadoop(HDFS+MapReduce+Yarn )

HBase(JavaAPI操作+Phoenix )

Hive(Hql基本操作和原理理解)

Kafka

Storm/JStorm

Scala

Python

Spark (Core+sparksql+Spark streaming )

辅助小工具(Sqoop/Flume/Oozie/Hue等)

高阶技能6条

机器学习算法以及mahout库加MLlib

R语言

Lambda 架构

Kappa架构

Kylin

Alluxio

三、学习路径

假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;

3个月会有(213+4210)3=423小时的学习时间。

第一阶段(基础阶段)

1)Linux学习(跟鸟哥学就ok了)—–20小时

Linux操作系统介绍与安装。

Linux常用命令。

Linux常用软件安装。

Linux网络。

防火墙

Shell编程等。

2)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时

掌握多线程。

掌握并发包下的队列。

了解JMS。

掌握JVM技术。

掌握反射和动态代理。

3)Zookeeper学习

Zookeeper分布式协调服务介绍。

Zookeeper集群的安装部署。

Zookeeper数据结构、命令。

Zookeeper的原理以及选举机制。

第二阶段(攻坚阶段)

4)Hadoop (《Hadoop 权威指南》)—80小时

HDFS

HDFS的概念和特性。

HDFS的shell操作。

HDFS的工作机制。

HDFS的Java应用开发。

MapReduce

运行WordCount示例程序。

了解MapReduce内部的运行机制。

MapReduce程序运行流程解析。

MapTask并发数的决定机制。

MapReduce中的combiner组件应用。

MapReduce中的序列化框架及应用。

MapReduce中的排序。

MapReduce中的自定义分区实现。

MapReduce的shuffle机制。

MapReduce利用数据压缩进行优化。

MapReduce程序与YARN之间的关系。

MapReduce参数优化。

MapReduce的Java应用开发

5)Hive(《Hive开发指南》)–20小时

Hive 基本概念

Hive 应用场景。

Hive 与hadoop的关系。

Hive 与传统数据库对比。

Hive 的数据存储机制。

Hive 基本操作

Hive 中的DDL操作。

在Hive 中如何实现高效的JOIN查询。

Hive 的内置函数应用。

Hive shell的高级使用方式。

Hive 常用参数配置。

Hive 自定义函数和Transform的使用技巧。

Hive UDF/UDAF开发实例。

Hive 执行过程分析及优化策略

6)HBase(《HBase权威指南》)—20小时

hbase简介。

habse安装。

hbase数据模型。

hbase命令。

hbase开发。

hbase原理。

7)Scala(《快学Scala》)–20小时

Scala概述。

Scala编译器安装。

Scala基础。

数组、映射、元组、集合。

类、对象、继承、特质。

模式匹配和样例类。

了解Scala Actor并发编程。

理解Akka。

理解Scala高阶函数。

理解Scala隐式转换。

8)Spark (《Spark 权威指南》)—60小时

enter image description here

Spark core

Spark概述。

Spark集群安装。

执行第一个Spark案例程序(求PI)。

RDD

enter image description here

RDD概述。

创建RDD。

RDD编程API(Transformation 和 Action Operations)。

RDD的依赖关系

RDD的缓存

DAG(有向无环图)

Spark SQL and DataFrame/DataSet

enter image description here

Spark SQL概述。

DataFrames。

DataFrame常用操作。

编写Spark SQL查询程序。

Spark Streaming

enter image description here

enter image description here

park Streaming概述。

理解DStream。

DStream相关操作(Transformations 和 Output Operations)。

Structured Streaming

其他(MLlib and GraphX )

这个部分一般工作中如果不是数据挖掘,机器学习一般用不到,可以等到需要用到的时候再深入学习。

9)Python

10)自己用虚拟机搭建一个集群,把所有工具都装上,自己开发一个小demo —30小时

可以自己用VMware搭建4台虚拟机,然后安装以上软件,搭建一个小集群(本人亲测,I7,64位,16G内存,完全可以运行起来)

---------------------

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
2 条评论
热度
最新
你们自己有没有发现要复制正文里的代码,会连行号一起复制,这明显应该是一个表格,行号和代码分在两列,这点细节都不做好?
你们自己有没有发现要复制正文里的代码,会连行号一起复制,这明显应该是一个表格,行号和代码分在两列,这点细节都不做好?
11点赞举报
我也很无奈啊、、
我也很无奈啊、、
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
大数据学习方法,学习大数据需要的基础和路线
如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群251956502 这样大家学习的话就比较方便,还能够共同交流和分享资料
一起学习大数据
2019/07/11
5310
成为大数据工程师必备的技能有哪些?(上)
http://www.aboutyun.com/thread-11873-1-1.html
加米谷大数据
2020/05/09
7880
成为大数据工程师必备的技能有哪些?(上)
2019精炼的大数据技术学习路线
近年来大数据BigData、人工智能AI、物联网Iot等行业发展迅猛,很多人都想要从事大数据技术开发工作,但是,请问要怎么做,路线是什么?从哪里开始学?学哪些?这是一个大问题。对于我自己来说,最近也在学一些大数据开发相关的技术,所以之前整理了一份《大数据技术学习路线》,希望对你有所帮助。
用户2292346
2019/04/02
1.5K0
2019精炼的大数据技术学习路线
【大数据】最新大数据学习路线(完整详细版,含整套教程)
大家好,又见面了,我是你们的朋友全栈君。 大数据学习路线 java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark core,spark sql,spark streaming,spark
全栈程序员站长
2022/06/28
5820
java程序员5个月业余时间学习大数据路径
我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。
用户2292346
2019/03/26
8050
java程序员5个月业余时间学习大数据路径
学习大数据要有这样的学习思路才行?
我们在系统学习大数据的之前,要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识,这部分显得格外的重要。
用户2292346
2018/12/28
4290
学习大数据要有这样的学习思路才行?
大数据入门学习框架
​大数据入门学习框架 前言 利用框架的力量,看懂游戏规则,才是入行的前提 大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾 选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累
Lansonli
2022/07/10
1.7K0
大数据入门学习框架
大数据入门之Hadoop基础学习
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。
加米谷大数据
2019/01/09
4340
大数据技术学习路线
一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux本地yum源配置及yum软件安装 linux防火墙配置 linux高级文本处理命令cut、sed、awk linux定时任务crontab 2、shell编程 shell编程–基本语法 shell编程–流程控制 shell编程–函数 shell编程–综合案例–自
加米谷大数据
2018/07/25
1.1K0
大数据技术栈详解
相信很多学Java的同学都有想转大数据或者学大数据的想法,但是一看到网上那些大数据的技术栈,就一脸懵逼,什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。
林老师带你学编程
2020/04/13
3.8K0
Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)
说在前面的话   此笔,对于仅对于Hadoop和Spark初中学者。高手请忽略! 1 Java基础: 视频方面:           推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。     书籍方面:           推荐李兴华的《java开发实战经典》 2 Linux基础:     视频方面:            (1)马哥的高薪Linux视频课程-Linux入门、
庞小明
2018/03/26
2.7K0
Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)
【云+社区年度征文】大数据常用技术梳理
从上图我们可以看到, 从事大数据方向可以有很多具体方向的职位. 相较于Java开发, 选择面更加广泛
时间静止不是简史
2020/12/21
1.2K3
【云+社区年度征文】大数据常用技术梳理
大数据初学 或Java工程师怎么转大数据?大数据基础技术学习路线图
1.数据在体量方面很大,比如说文字,有各种各样的来源,有电子书|实体书|杂志|报刊等,它们的数据大吧。
用户2292346
2018/06/05
9400
大数据初学 或Java工程师怎么转大数据?大数据基础技术学习路线图
进阶指南|三个月大数据工程师学习计划
本文来自作者在GitChat(ID:GitChat_Club)上的精彩分享,CSDN独家合作发布。 申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。 前言 一、背景介绍 本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。 二、大数据介绍 大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非
CSDN技术头条
2018/02/08
1.7K0
进阶指南|三个月大数据工程师学习计划
大数据学习路线指南(最全知识点总结)
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。
用户2292346
2019/03/13
9660
大数据学习路线指南(最全知识点总结)
大数据学习路线
上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解:
小歪
2019/12/15
9200
大数据学习路线是什么,小白学大数据学习路线
大数据这个话题热度一直高居不下,不仅是国家政策的扶持,也是科技顺应时代的发展。想要学习大数据,我们该怎么做呢?大数据学习路线是什么?先带大家了解一下大数据的特征以及发展方向。
用户4151968
2018/12/18
6010
大数据学习路线是什么,小白学大数据学习路线
全球100款大数据工具汇总
企鹅号小编
2017/12/29
1.5K0
全球100款大数据工具汇总
史上最新最全面的java大数据学习路线(新手小白必看版本)
2.1.1 VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
全栈程序员站长
2022/09/01
3K1
如何进入现在较火热的大数据领域,学习路线是什么?
大数据不是某个专业或一门编程语言,实际上它是一系列技术的组合运用。有人通过下方的等式给出了大数据的定义。大数据 = 编程技巧 + 数据结构和算法 + 分析能力 + 数据库技能 + 数学 + 机器学习 + NLP + OS + 密码学 + 并行编程虽然这个等式看起来很长,需要学习的东西很多,但付出和汇报是成正比的,至少和薪资是成正比的。既然要学的知识很多,那么一个正确的学习顺序就非常关键了。
全栈程序员站长
2022/06/30
3070
相关推荐
大数据学习方法,学习大数据需要的基础和路线
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档