7月7日,为期两天的2018 ArchSummit全球架构师峰结束了它深圳之旅。秉承“实践第一、案例为主”的原则,与2000多名技术管理者、CTO、架构师等技术人一起就业界最新技术成果进行了深度探讨,UCloud与旗下子公司优云数智一并受邀参加。
优云数智(上海优铭云计算有限公司)(UCloud全资子公司)是一家专注于提供企业级私有云产品与解决方案的云计算厂商,提供PAAS+IAAS的一站式解决方案。团队核心成员来自Google、华为、Mirantis、盛大云等一流云计算公司,公司总部位于上海,在北京、深圳设有分公司。
有趣的是,本次大会现场摆出了一个101式的金字塔,意表合作伙伴们“站在塔中,争当C位”的奇妙关系。这种奇妙关系其实也正映射了当下我们都处在一个逐日生长的技术生态圈里——所有人因为需求被无限连接在一起,而技术则随之也无限地进化 、诞生与消失。UCloud用一场生动的演讲和一次热烈的晚场与参会者共同诠释了一把。
图1: ArchSummit2018深圳站现场
一场生动的演讲
这次轮回,我们到了“数字时代”
7月6日,10:00一开场,优云数智的解决方案高级总监方勇就按照数据膨胀的规模,将过去划分了三个阶段:第一阶段——信息化时代,第二阶段——互联网时代(Web1.0),第三阶段社交时代(Web2.0)。信息化时代始于金融和电信行业,随着改革开放,信息化技术向全行业进行扩展,SAN、NAS这种网络化存储开始出现,直连式存储也在向网络化存储转化。
进入互联网时代,非结构化数据膨胀剧烈,统一存储诞生。而非结构化数据的膨胀在社交时代迎来更加骇人的状况,数据量级呈10位数以上膨胀,数据的膨胀通常以PB为单位来计算。由此再整合之后我们就迎来了数据、人工智能、云计算、物联网、虚拟现实等新型数字技术加入的“数字时代”。
实现“大数据上云”,“势”在必行?
如今,服务于传统B端业务需要的商业存储已经相当成熟。但如何支撑数字技术所产生的数据量,到底存储系统需要多少性能才合适?PB级别的数据到底需要使用几个存储控制器才能提供业务系统需要的性能?这些问题都正在被逐一暴露。
在私有云的场景下,存储主要是用来存放云平台里虚拟机的镜像文件或者RDS关系型数据库数据,或者是一些非结构化的数据。一次机会,让优云数智开启了新的探索:是否可以在提供必要性能的前提下,充分发挥云计算的弹性特点,实现“大数据上云”?
首先,确定存储模型。经过对HDFS、S3存储系统等进行比较,得出一个结论即是必须开辟出一种方法:既能有计算存储分离模型的好处,又能保证大数据环境的存储访问性能。解决灵感来源于红帽主导的开源软件——NFS-Ganesha,它能支持很多后台存储系统,其中就包括Ceph的对象存储服务。
NFS-Ganesha使用了librgw函数库来实现对Ceph对象存储的访问,通过librgw可以让用户端通过函数调用来直接访问Ceph的对象存储服务,所以数据传输效能提高很多。围绕librgw这个内核,优云数智扩展思路打造了一款基于自有存储系统的Hadoop插件 – Hadapter,部署在Hadoop的客户端上,当Hadoop的客户端发送以uds://为前缀的请求时,Hadoop集群就会将请求下发给Hadapter。然后通过的函数库直接调用Librados函数库来请求OSD从而完成一个请求的处理操作,以这样的方式,实现计算与存储模型分离,可独立扩张。
其次,性能对比分析。如下图,HDFS性能依旧最佳,而在使用S3对象存储的情况下,时长是最长的。Hadapter表现虽略比HDFS差一些,但远超过直接使用S3对象存储的模式。
图2: 预研环境:存储模型的性能比对
最后,UMStor +Hadapter落地。经过严谨的预研,优云数智将Hadapter插件做了产品化研发,并在云计算环境中,抽出100台以上的节点规模,作为Hadoop的客户端。并在生产化部署时采用了物理+虚拟的混合节点部署模式。
Hadapter+UMStor的方式实现了计算存储分离的模型,解决了大数据环境所需资源“放”与“收”问题。同时,由于Hadapter是一个jar包,所以在安装部署和后期维护上相当简便。下图是在实际生产环境下的性能对比,数据是与某用户之前使用的HDFS环境做的对比。
图3: 生产环境:存储模型的性能比对
除此之外,在大数据上云的过程中,优云数智还演化出了“数据湖存储模型”。“数据湖”的概念提出是希望用HDFS的概念来实现非结构化数据的统一存储,在传统的数据湖模型里面,数据的采集、数据处理以及数据最终的使用和删除是可见的,从而实现完整的数据生命周期管理。
因为UMStor是多协议分布式存储系统,它底层是对象存储,除了Hadapter,还提供了NFS网关、iSCSI等接口形态,所以在大数据场景下,UMStor可以作为数据交换平台存在,实现一次写入、多次访问的使用效果,这种使用方式构建了数据湖的存储模型,大幅提升大数据环境下的处理效率。
数字时代究竟需要的什么样的存储技术?
回到伊始,方勇提出我们正处在一个 “数字时代”,我们反复在谈及的数据价值将不再只停留在“明数据”之上。留存的数据和再生成的数据并存是新价值产生的基点,所以未来存储技术的创新必围绕多协议分布式存储技术来展开,并与更多新型数字技术整合、从而挖掘出更深层次的新价值。“UMStor与Hadoop的结合,Hadapter的实现正是优云数智在这个时代的存储实践,是一小步,也是一大步。”
一次热烈的晚场
图4: ArchSummit 2018深圳站 UCan技术夜
7月6日19:00“新生代特别之夜”正式开始,每年的UCan技术夜都像是一个支点,赋予一个话题平台便能扩展参会者的思维边界。新生代冲击下,不同领域的技术都开启了变革之路,游戏架构搭上了公有云、计算能力开始边缘化、服务粒度继续细化、存储要求不断爆炸,这些看似波澜不惊的变化无一不在说“新纪元开启了”。
随着物理世界和数字世界完全拥抱,现实世界的人类又该将如何自处与应对?这些问题都被抛向了参会者。两小时的讨论只是一个开端,我们身处在更迭速度惊人的技术生态圈,唯有不断思进,才能进化生存。
感谢每一位与UCloud在ArchSummit 2018深圳站相遇、互动的伙伴。更多的技术干货、大牛交流机会将在我们的“UCan俱乐部”分享。不论是否C位,都该迎接更努力的自己!
— END —
领取专属 10元无门槛券
私享最新 技术干货