前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >优秀大数据GitHub项目一览

优秀大数据GitHub项目一览

作者头像
CSDN技术头条
发布于 2018-02-11 07:21:16
发布于 2018-02-11 07:21:16
1.2K011
代码可运行
举报
文章被收录于专栏:CSDN技术头条CSDN技术头条
运行总次数:11
代码可运行

VMware CEO Pat Gelsinger曾说:

数据科学是未来,大数据分析则是打开未来之门的钥匙

企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。

跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。

下面我们尽量列出了一些流行的开源大数据项目。根据它们各自的授权协议,你或许可以在个人或者商业项目中使用这些项目的源代码。写作本文的目的也就是为大家介绍一些解决大数据相关问题可能会用到的工具。

1.Apache Mahout

我们可以使用Apache Mahout来快速创建高效扩展性又好的机器学习应用。Mahout结合了诸如H2O算法、Scala、SparkHadoop MapReduce等模块,为开发人员提供了一个构建可扩展算法的环境。现在最新的版本是去年11月6日发布的0.11.1版本。

Apache Mahout支持一个叫做Samsara的数学环境,用户可以在Samsara中使用它提供的常见算法来开发自己的数学解决方案。Samsara对于线性代数、数据结构和统计操作都有着很好的支持,而且可以通过Scala的Mahout扩展或Mahout库来进行定制。Samara对很多常见算法都进行了重写因此速度上有一定的提升。这里我们能列出的一些算法包括:朴素贝叶斯分类器、矩阵分解、协同过滤以及神经网络。新加入的相似性分析还可以通过分析用户的点击来实现共现推荐算法。

Apache Mahout GitHub地址:https://github.com/apache/mahout

2.Apache Spark

Apache Spark是一个为实时大数据分析所设计的开源数据处理引擎。目前Spark的大用户有雅虎、腾讯和百度,使用Spark处理的数据在PB级别,集群节点数目也超过8000。Apache Spark是GitHub上最大的数据处理项目之一,有超过750名开发人员都曾对项目做出过贡献。

与Hadoop MapReduce相比Apache Spark在内存中的运行速度快100倍,在硬盘中运行速度的差距也在10倍以上。Spark能够达到这样的速度靠的是DAG引擎和内存内计算性能的提升。开发语言可以使用Java、Python、Scala和R,此外Spark还提供了差不多100种集合操作符以便开发人员构建并行应用。

图:Spark生态系统

Apache Spark为机器学习、Spark Streaming和GraphX提供了众多强大的库,其中也包括为DataFrame和SQL所设计的库。开发人员可以用这些标准库来提升应用的性能和开发效率。Spark可以运行于很多环境中,如独立的集群、Hadoop YARN、EC2和Apache Mesos。Apache Spark也能从HiveHBase、Tachyon、CassandraHDFS等数据源读取数据。

Apache Spark GitHub地址:https://github.com/apache/spark

3.Apache Storm

Apache Storm的设计针对的是流式数据,不过对于大数据的实时分析它也是很可靠的计算系统。它同样是一个开源项目而且开发人员可以使用所有的主流高级语言。Apache Storm主要用于以下应用:在线机器学习、连续计算、实时分析、ETL、分布式RPC。Apache Storm有配置方便、可用性高、容错性好及扩展性好等诸多优点,处理速度也极快,每个节点每秒可以处理数百万个tuple。

目前最新的Apache Storm是去年11月5日发布的0.9.6版。

Storm集群中有三种节点:Nimbus、Zookeeper和Supervisor。Nimbus与Hadoop的JobTracker类似,主要用于运算的上传、代码的分发和计算的监测。Zookeeper节点的作用是Storm集群的协调,Supervisor节点则是实现对worker的控制。

Apache Storm GitHub地址https://github.com/apache/storm/

4.NTLK(自然语言处理工具箱)

NTLK是用于开发Python自然语言相关应用的一个工具包。它自带用于断句、分类、标记、词干提取、语义推理和语法分析的库,此外还有一个较为活跃的社区。对于语言学的实证研究、人工智能、认知科学、机器学习和信息提取来说都是强大的工具,当然你得用Python。

自动补全是NTLK可能的用处之一。输入部分文字,借助NTLK可以推测可能的完整句子,现在很多搜索引擎都有这个功能。其他可能的应用还包括文本归类、地址分析和智能语音命令等。

NTLK GitHub地址:https://github.com/nltk/nltk

5.mLoss

mLoss是机器学习开源软件的英文缩写,它将很多开源软件集合到了同一个平台。mLoss所收集的开源项目都经过审阅并附有对项目的简短介绍。mLoss本身并不是一个软件而是一个支持机器学习应用开源的网站。

mLoss网站上列出的开源软件有各自项目不同的48种授权协议,作者数量高达1100人。mLoss是到目前为止最大的机器学习软件库,共支持107种数据类型,所涉及的操作系统有26个,使用的编程语言也有51种。

mLoss网站上列出的软件中较为流行的有:

  • dlib ml:机器学习算法的C++库
  • R-Cran-Caret:分类和回归训练库
  • Shogun:为SVM所设计的机器学习工具箱,适用于Python、Matlab、Octave和R
  • Armadillo:一个线性代数C++库
  • MLPY:以NumPy和SciPY为基础构建的Python机器学习库
  • MyMediaLite:一个推荐器算法库

mLoss网站:http://mloss.org/

6.Julia

Julia是为技术计算所设计的一门动态高级语言。虽然它的语法和其他技术计算环境的语法差不多,但Julia现在的使用范围还比较窄。Julia支持分布式并行计算还有着完备的高精度数学函数库。

JuliaStats是一个机器学习和统计工具的合集,目的是帮助Julia用户创建可扩展且高效的应用。下面列出了JuliaStats中包括的一些程序:

  • StatsBase:从名字我们就能看出StatsBase提供的是统计学相关的基本功能,比如描述统计、统计动差、样本函数、计数、排序、互相关、自相关以及加权统计等。
  • DataArrays: 一个允许数据为空的数组类型,对重复数据的计算进行了优化。
  • DataFrames: 表数据类型,提供包括索引、合并以及公式等操作。
  • Distribution:用于计算分布的库,功能包括一元分布、多元分布、概率密度函数、累积分布函数以及最大似然估计。
  • Multivariate Stats:为多元统计分析所设计,功能包括降维、线性回归、线性判别分析以及多维标度。
  • MLBase:包括数据预处理、模型选择以及交叉验证等机器学习算法。
  • Clustering:包括聚类分析所用到的算法如k-means、k-medoids以及多种评估方法。

这里我们只列出了一部分数据分析和机器学习相关的库,其他库包括假设检验、核密度估计、非负矩阵分解NMF、广义线性模型GLM、马尔科夫链蒙特卡洛方法MCMC以及时序分析等。所有库的源码都可以在GitHub上找到。

Julia GitHub地址:https://github.com/JuliaStats

7.Scikit-Learn

Scikit-Learn是为机器学习所设计的开源Python库。它基于SciPy、NumPy和Matplotlib开发,称得上是一款数据分析和数据挖掘的利器。Scikit-Learn的授权协议允许个人和商业用户使用。

Scikit-Learn主要用于:

  • 聚类:识别数据中的不同类别。算法包括最邻近搜索、支持向量机和随机森林,可以用于图像识别和垃圾邮件识别等应用。
  • 回归:用于连续变量的预测。算法包括岭回归、支持向量回归、套索回归等。应用包括股票价格、天气以及电力负载的预测。
  • 降维:用于减少随机变量的个数。算法包括主成分分析、特征选择、乔里斯基分解和矩阵分解。
  • 数据处理:特征提取与数据预处理功能可以将原始数据转换成有利于机器学习应用处理的格式。

Scikit-Learn GitHub地址:https://github.com/scikit-learn/scikit-learn

本文中我们列出的这些GitHub项目应用颇为流行,而且这些工具和软件已经被用于解决实际中的大数据问题,希望本文能够对大家的大数据分析之路有所启发。

原文地址:Top Data Science Based Github Projects(译者/刘旭坤 审校/朱正贵 责编/仲浩)

CSDN原创翻译文章,禁止转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CSDN技术头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
4 条评论
热度
最新
些得真好
些得真好
回复回复3举报
有几个好像写错字了 1.3 本节最后~非阻塞,末尾处应该是“这个过程叫做非阻塞式读写。” 1.4.2 开头,应该是“在 Java NIO 中,Channel 是一个顶层接口” 2.2.2 开头,应该是“单 Reactor 多线程模式的基本形态如下“ 2.9 Promise 的描述,应该是”Promise 继承了 Future“
有几个好像写错字了 1.3 本节最后~非阻塞,末尾处应该是“这个过程叫做非阻塞式读写。” 1.4.2 开头,应该是“在 Java NIO 中,Channel 是一个顶层接口” 2.2.2 开头,应该是“单 Reactor 多线程模式的基本形态如下“ 2.9 Promise 的描述,应该是”Promise 继承了 Future“
回复回复2举报
还有后面的两篇文章呢
还有后面的两篇文章呢
回复回复点赞举报
受益匪浅
受益匪浅
回复回复点赞举报
推荐阅读
史诗级最强教科书式“NIO与Netty编程”
java.nio全称java non-blocking IO,是指JDK1.4开始提供的新API。从JDK1.4开始,Java提供了一系列改进的输入/输出的新特性,也被称为NIO(既New IO),新增了许多用于处理输入输出的类,这些类都被放在java.nio包及子包下,并且对原java.io包中的很多类进行改写,新增类满足NIO的功能。 NIO和BIO有着相同的目的和作用,但是它们的实现方式完全不同,BIO以流的方式处理数据,而NIO以块的方式处理数据,块I/O的效率比流I/O高很多。另外,NIO是非阻塞式的,这一点跟BIO也很不相同,使用它可以提供非阻塞式的高伸缩性网络。 NIO主要有三大核心部分 :Channel(通道),Buffer(缓冲区),Selector(选择器)。传统的BIO基于字节流和字符流进行操作,而NIO基于Channel和Buffer(缓冲区)进行操作,数据总是从通道读取到缓冲区中,或者从缓冲区写入到通道中。Selector(选择区)用于监听多个通道的事件(比如 :连接打开,数据到达)。因此使用单个线程就可以监听多个数据管道。
海仔
2019/08/26
9400
史诗级最强教科书式“NIO与Netty编程”
详细图解Netty Reactor启动全流程 | 万字长文 | 多图预警
大家先不要惊慌,问题不大,本文笔者的目的就是要让大家清晰的理解这幅流程图,从而深刻的理解Netty Reactor的启动全流程,包括其中涉及到的各种代码设计实现细节。
bin的技术小屋
2022/07/22
1.3K0
详细图解Netty Reactor启动全流程 | 万字长文 | 多图预警
Netty Review - 核心组件扫盲
如果Handler处理器有一些长时间的业务处理,可以交给taskQueue异步处理。
小小工匠
2023/11/15
5120
Netty Review - 核心组件扫盲
Netty之旅二:口口相传的高性能Netty到底是什么?
高清思维导图原件(xmind/pdf/jpg)可以关注公众号:一枝花算不算浪漫 回复netty01即可。
一枝花算不算浪漫
2020/08/25
8030
Netty之旅二:口口相传的高性能Netty到底是什么?
超详细Netty入门,看这篇就够了!
本文主要讲述Netty框架的一些特性以及重要组件,希望看完之后能对Netty框架有一个比较直观的感受,希望能帮助读者快速入门Netty,减少一些弯路。
java技术爱好者
2020/09/22
1.6K0
超详细Netty入门,看这篇就够了!
【Netty】Netty 入门案例分析 ( Netty 模型解析 | Netty 服务器端代码 | Netty 客户端代码 )
① NioEventLoopGroup 线程池使用场景 : Netty 模型中的 BossGroup 和 WorkerGroup 都是 NioEventLoopGroup 类型的线程池 ;
韩曙亮
2023/03/27
2.2K0
【Netty】Netty 入门案例分析 ( Netty 模型解析 | Netty 服务器端代码 | Netty 客户端代码 )
Netty框架
Netty 是由 JBOSS 提供的一个 Java 开源框架。Netty 提供异步的、基于事件驱动的网络应用程序框架,用以快速开发高性能、高可靠性的网络 IO 程序。
全栈程序员站长
2022/07/22
3700
Netty框架
Netty - 回顾Netty高性能原理和框架架构解析
Netty 是一个广受欢迎的异步事件驱动的Java开源网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。
小小工匠
2023/11/12
2.2K0
Netty - 回顾Netty高性能原理和框架架构解析
Netty 应用与原理
在 I/O 操作中有这么两组概念,其中同步/异步 要和线程中的同步线程/异步线程要区分开,这里指的是同步IO / 异步IO
浪漫主义狗
2024/04/27
2600
Netty 应用与原理
netty源码解析
同步并阻塞,服务器实现模式为一个连接一个线程,即客户端有连接请求时服务器端就需要启动一个线程进行处理,如果这个连接不做任何事情会造成不必要的线程开销,当然可以通过线程池机制改善。
张伦聪zhangluncong
2022/10/26
5910
netty源码解析
Java网络编程--Netty入门
Netty是一个高性能,高可扩展性的异步事件驱动的网络应用程序框架,它极大的简化了TCP和UDP客户端和服务器端网络开发。它是一个NIO框架,对Java NIO进行了良好的封装。作为一个异步NIO框架,Netty的所有IO操作都是异步非阻塞的,通过Future-Listener机制,用户可以方便的主动获取或者通过通知机制获得IO操作结果。
CodingDiray
2019/09/25
5660
Java网络编程--Netty入门
Netty 线程模型与基本使用
Netty 是一个异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能和高伸缩性的服务器和客户端。Netty 拥有高性能,吞吐量更高,延迟更低,减少资源消耗,最小化不必要的内存复制等优点。
Se7en258
2021/05/18
1.1K0
Netty 线程模型与基本使用
2025春招,Netty面试题汇总
>大家好,我是 V 哥。2025年春招Java 面试,肯定绕不开 Netty 的相关问题,V哥替大家跟几位大厂技术主管交流后,整理的一些 2025 年可能会遇到的 Netty 面试题,涵盖基础概念、核心组件、性能优化、故障排查等方面,分享给大家,收藏起来备用。
威哥爱编程
2025/02/05
1600
java架构之路-(netty专题)netty的基本使用和netty聊天室
  上次博客,我们主要说了我们的IO模型,BIO同步阻塞,NIO同步非阻塞,AIO基于NIO二次封装的异步非阻塞,最重要的就是我们的NIO,脑海中应该有NIO的模型图。
小菜的不能再菜
2020/02/23
1.3K0
高性能通讯框架——Netty
编程复杂,缓冲区Buffer要考虑读写指针切换。而Netty把它封装之后,进行优化并提供了一个易于操作的使用模式和接口,因此Netty就被广泛使用于通信框架。
IT大咖说
2021/04/08
7370
Netty入门篇
2、Netty简介: netty是一个异步的,基于事件驱动的网络应用框架。可以快速地开发高性能的服务器端和客户端,像dubbo和elasticsearch底层都用了netty。它具有以下优点:
贪挽懒月
2020/07/28
8690
Netty入门篇
netty源码分析之三Bootstrap初始化
可以看到childGroup也就是group方法传入的workerGroup是赋值给ServerBootstrap的childGroup属性的。我们进入 super.group(parentGroup)也就是io.netty.bootstrap.AbstractBootstrap#group(io.netty.channel.EventLoopGroup):
山行AI
2019/10/24
1.3K0
Netty 入门,这一篇文章就够了
netty旨在为可维护的高性能、高可扩展性协议服务器和客户端的快速开发提供异步事件驱动的网络应用程序框架和工具。换句话说,Netty是一个NIO客户端服务器框架,可以快速轻松地开发协议服务器和客户端等网络应用程序。它极大地简化并简化了TCP和UDP套接字服务器开发等网络编程。
luoxn28
2019/11/07
5140
Netty 入门,这一篇文章就够了
Java IO,NIO以及Netty网络编程
同步阻塞I/O模式:当一条线程执行 read() 或者 write() 方法时,这条线程会一直阻塞直到读取一些数据或者写出去的数据已经全部写出,在这期间这条线程不能做任何其他的事情。在活动连接数不是特别高(小于单机1000)的情况下,这种模型是比较不错的,可以让每一个连接专注于自己的 I/O 并且编程模型简单,也不用过多考虑系统的过载、限流等问题。
AnieaLanie
2021/12/11
7770
Netty一文深入
通过2个位置指针来协助缓冲区的读写,读使用 readerIndex,写使用 writerIndex。
趣学程序-shaofeer
2020/07/17
7900
Netty一文深入
相关推荐
史诗级最强教科书式“NIO与Netty编程”
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验