前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据开发:基于Hadoop的机器学习框架

大数据开发:基于Hadoop的机器学习框架

作者头像
成都加米谷大数据
修改2021-07-15 18:04:27
7810
修改2021-07-15 18:04:27
举报
文章被收录于专栏:大数据开发

大数据成为热门关注的同时,机器学习、人工智能等话题热度也在不断攀升,尤其是在现阶段来说,大数据发展到一定阶段,与机器学习、人工智能等方面都存在斩不断的联系,因此很多人也在关注机器学习Hadoop框架。今天,我们就基于Hadoop来聊聊机器学习框架的相关话题。

在很多人的理解当中,Hadoop相关性最高的是大数据,但实际上在机器学习上,Hadoop同样有着很不错的应用价值,因为机器学习当中也涉及到大批量的数据处理,而这是Hadoop框架的强项,通过分布式架构,可以实现大批量数据的高效处理。

机器学习Hadoop框架,其实主要起到技术支持的,还是分布式架构。分布式架构,通过在廉价的服务器上搭建起集群环境,实现对大批量数据的分析处理,而针对更深入的机器学习,还可以结合Apache Singa平台来开发。

Apache Singa主要就是针对大型数据集上训练深度学习的通用分布式深度学习平台,我们可以发现其核心技术还是分布式架构,但是在分布式架构上,还支持当前主流的一些深度学习模型,包括前馈模型(卷积神经网络,CNN)、能量模型(受限玻尔兹曼机,RBM和循环神经网络,RNN)等。

另外,基于Hadoop环境,还可以引入H2O来实现机器学习任务处理,易于使用的WebUI和熟悉的界面,支持常见的数据库和不同文件类型,可以与Hadoop无缝衔接。

而基于Hadoop的Spark,还有MLlib,这也可以为机器学习提供机器学习库,目的是让机器学习实现可伸缩性和易操作性,它由常见的学习算法和实用程序组成,包括分类、回归、聚类,协同过滤、降维,同时包括底层优化原生语言和高层管道API。

目前来说,机器学习Hadoop框架还有待进一步的挖掘,因为机器学习的进一步发展同样需要依靠分布式技术来支撑,Hadoop的核心架构就是分布式架构,不管是大数据还是机器学习,Hadoop都有很大的施展空间。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、Presto、Iceberg、Elasticsearch、StarRocks 等,以快速构建企业级数据湖仓。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档