👆关注“博文视点Broadview”,获取更多书讯
以下内容节选自《Flink实战派》一书!
--正文--
大数据技术和人工智能(机器学习)的结合,使利用数据价值的技术有了新的突破。
在通常情况下,大数据技术与机器学习是互相促进、相依相存的关系。
01
大数据和机器学习之间的关系
机器学习不仅需要合理、适用和先进的算法,还需要依赖足够好和足够多的数据。
大数据可以提高机器学习模型的精确性。
数据的数据量越多,质量越高,机器学习的效率和准确性就越高。机器学习是大数据分析的一个重要方向(方式)。
大数据技术深度结合人工智能将是未来发展的一个重要方向。
大数据实时计算框架Flink结合基于Flink的机器学习库Alink,是目前非常优秀的“大数据+人工智能”解决方案。
Flink还可以和目前主流的人工智能框架(如PyTorch、TensorFlow、Kubeflow)结合。
02
Flink是什么?
业界认为,Flink是最好的数据流计算引擎。
为了便于理解Flink是什么,下面以迭代的方法进行定义。
Flink可以进行的数据处理包括实时数据处理、特征工程、历史数据(有界数据)处理、连续数据管道应用、机器学习、图表分析、图计算、容错的数据流处理。
Flink在大数据架构中的位置如下图所示。
由上图可以看出,在大数据架构中,Flink用于提供数据计算服务。
Flink先获取数据源的数据,然后进行转换和计算等,最后输出计算结果。
03
Flink的应用场景
Flink的应用场景如下。
04
认识Alink
Alink是阿里巴巴计算平台事业部PAI团队研发的基于Flink的机器学习框架。
Alink于2019年11月正式开源。
Alink提供了丰富的算法组件,是业界首个同时支持批/流算法的机器学习框架。
开发者利用Alink可以一键搭建覆盖数据处理、特征工程、模型训练、模型预测的算法模型开发的全流程。Alink的名称取自相关名称(Alibaba、Algorithm、AI、Flink、Blink)的结合。
05
Flink的整体架构
Flink包含部署层、执行引擎层、核心API层和领域库层。下图是Flink 1.11版本架构所包含的组件。
(1)部署层
Flink支持本地(Local)模式、集群(Cluster)模式等。
(2)执行引擎层
执行引擎层是核心API的底层实现,位于最低层。执行引擎层提供了支持Flink计算的全部核心实现。
执行引擎层的主要功能如下。
执行引擎层的特点包括以下几点:灵活性高,但开发比较复杂;表达性强,可以操作状态、Time等。
(3)核心API层
核心API层主要对无界数据流和有界数据流进行处理,包括DataStream API和DataSet API,以及实现了更加抽象但是表现力稍差的Table API、SQL。
(4) 领域库层
Flink还提供了用于特定领域的库,这些库通常被嵌入在API中,但不完全独立于API。这些库也因此可以继承API的所有特性,并与其他库集成。
在API层之上构建的满足特定应用的实现计算框架(库),分别对应面向流处理和面向批处理这两类。
▼
更多实战派,给你一样的精彩!
▊《Flink实战派》
龙中华 著
(京东限时活动,快快扫码抢购吧!)
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
热文推荐
破解AI黑盒,揭示万物奥秘的钥匙!
书单 | 5月畅销新书情报,你最Pick哪一本?
云网络开山之作,云上高速公路的十年技术成果!
为什么说混合云是新基建的流行架构?
▼点击阅读原文,查看本书详情~
本文分享自 博文视点Broadview 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!