编者按
截至2018年2月,华为FusionInsight大数据解决方案已经赢得全球55个国家、1000多个客户的信赖,拥有300多家商业合作伙伴,并在全球多个地区设有OpenLab来支撑与客户合作伙伴的云和大数据方面的联合创新,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业。
华为大数据&AI平台FusionInsight是企业级大数据集成、存储、查询、分析以及人工智能统一基础平台,为企业快速构建海量数据信息处理系统。通过实时和非实时的分析和挖掘,帮助企业从海量数据信息中获取到真正的价值,及时洞察机会、预防风险。提供文字识别、图像识别、语音识别等基础AI平台,提供智能物流、OCR等能力,使企业更智能。
华为是大数据&AI平台的提供者,也是数据湖建设的实践者。数据湖架构面向多数据源的信息存储,包括结构化、半/非结构化、流式、物联网数据在内。后续数据湖系列文章将向您展示:企业级数据湖构建原则、华为生产场景的数据湖建设实践、基于华为生产场景的近实时数据应用、实现大数据秒级服务方案、数据湖Data Mart建设实践等内容。
曾经有几个P的数据放在我面前,
我无法存储,如今想要用了只能叹息。
所以我们做了一个不算艰难的决定,
建设企业级——数据湖。
如果非要给这个湖加个限定,
我希望是一站式。
随着公司数字化转型战役打响,企业数据势必会迎来井喷发展,而且各个系统交叉分析,数据使用成本会变得越来越高,我们急需一站式数据解决方案,包括如下几点:
P级别存储规模:数据的集中式管理,包括原有的结构化数据存储(200T),以及数字化转型后越来越多的非结构化如用户行为日志、图片、视频、文档接入,大数据应用将嵌入越来越多的业务场景;
T级别计算能力:大规模加工预、测计算,如基于订单、合同、用户画像等将定义越来越多的超级大宽表(可能上千维度)汇总加工计算,以及T级别条码信息扫描;
同源异构数据访问:数据的存储将会多样化,比如原始区OGG过来表的在Oracle,而支持key-V快速查询的条码信息存储在Hbase,这些跨库的数据在做交叉分析时,我们只需要通过查询引擎Spark、Hive、ELK(华为自研)等,直接读取本地化元数据信息即可实现交叉分析,但实际数据存储可能在活动房是HDFS、Hbase或者Oracle等多个环境;
大吞吐数据管道:支持将海量业务数据快速汇聚到数据湖,供下游大数据分析计算,模型预测,如果时效跟不上预测在准也失去价值了。
基于以上,我们规划如下数据湖建设思路:
三大功能模块:接入、计算、存储
能力模型映射架构:对应组件以开源生态为主
当前数据接入我们将集中采用EIP平台打包服务,进行数据落地,目前已有物流GPS实时信息落地,后续将接入Item图片信息及GTS站点勘探信息,这些都是海量数据;
计算存储我们目前主要采用公司FusionInsight组件,同时我们也会拥抱开源生态,积极采用更合适平台扩充我们的IT装备,提升大数据开发人员作战能力;
当前开发者平台主要还是采用开源的Hue+Ooize,随着生态的建设,我们会逐渐完善我们一站式大数据开发平台,改善用户体验。
规划一站式大数据开发平台:
声明:本文观点仅代表作者个人,不代表任何公司。
随手点赞好习惯,点个赞鼓励鼓励小编吧(-᷅_-᷄)
(本文内容来源于网络,版权归原作者所有)
领取专属 10元无门槛券
私享最新 技术干货