00:00
各位网友大家好,欢迎观看原动力云原生正发生降本增效大讲堂系列技助直播。本次大讲堂是由中国信通院、腾讯云并产业标准工作组联合策划,目的是与开发者一同交流提升资源利用率、降本增长的方法与优秀实践。那今年大讲堂呢?分为三期共十讲,第一期聚焦在优秀实践方法论、资源与弹性架构设计,第二期聚焦全场景,在离项分布、Co GPU资源效率提升、资源拓扑感知调度主题。第三期将邀请四家业界知名企业分享各企业云原生降本增效的技术实践啊,从而给开发者带来更多样化的场景业务下的技术干货。我们时隔一周呢,我们又到了我们的周四的分享的时间,今天是该大讲堂的第八讲。直播主题是游戏平台上云是花钱还是省钱?那在9月22日,9月29日的晚上八点呢,我们将进行第九讲与第十讲的直播,欢迎大家预约观看。今天我们请到了三七互娱S2负责人何琪来我们分享游戏平台上云是花钱还是省钱,我们有请何琪老师。
01:19
大家好,欢迎来到原动力云原生正发生降本增效大讲堂。我是来自山西互娱技术中心技术平台部的何琪,接下来将由我和大家来分享游戏平台上云是花钱还是省钱这个话题。关于游戏平台上云是花钱还是省钱?我将从以下三个方面和大家分享。首先是IDC运维的困境。接下来是上云之路,花钱买到的,稳定、安全还有效率。最后,我们探讨一下降本增效,拥抱云原生。
02:05
首先。我简单介绍一下我们。IDC运维的困境。我们大致的业务是分了两个机房来部署的,机房A和机房B。机房A和B之间,我们通过网络专线的方式打通了网络。形成了一张内网。每个机房里面部署了不少的物理机。每台物理机做了虚拟化。业务是采用虚拟机部署的方式来进行架构的。在IDC运维的阶段。由于单台物理机容易产生故障。所以业务的每一台虚拟机。都分布在不同的物理机上面。
03:00
按照这样的原则,就有类似我们图上面红色线和绿色线所表达的业务那样。有的业务是用了一个物理机上面的一台或者两台机器。有的业务只用了一台物理机上面的一台机器,但是在整个业务的集群,他们是双机房、多机部署的高可用稳定架构。那在这样的架构环境下,我们需要扩容是要怎么处理呢?比如,红色业务需要扩容一台虚拟机。这个时候,由于其他业务都已经。占完了机房上所有服务器的。虚拟机资源了,我们需要在机房新增一台物理设备。并且对这台设备做虚拟化的处理。
04:01
进而再划分一台虚拟机给红色业务用,从而完成了红色业务的扩容。但是问题来了。当红色业务扩容了之后,那这一台新增的物理机,剩下的虚拟机设备就必然产生浪费。这就是我们在IDC。环境下,没有弹性伸缩资源管理的这种环境下。遇到的。资源浪费的情况。当我们业务回收的时候也是同样的。比如红色业务要。完成了他的生命周期,要撤离了。那我这里画了一把叉,代表它要业务下线了,可以发起回收了。但是其他蓝色、绿色、黄色等等的业务。同时也。
05:04
占据着这个物理设备的资源。那即便是红色业务,测里其他颜色的业务仍然需要保留物理设备。那从成本的角度看,我们的成本是没办法节省的。只能在分摊方式上。红色业务不再分摊业成本了。但是蓝色、绿色业务。仍然要承担更多的成本。公司的总体成本没有得到优化,仍然是存在浪费的。那在IDC这样的环境下。既想做资源的隔离,又希望提升资源的利用率,还希望稳定性能够得到不断的提高。大公司可以做。因为他们可以做高投入。
06:02
买更好的设备。用更稳定的资源。来攻击给业务。并且他们有强大的人员团队。对一些需要灵活调度的。对,一些需要。互相。但是又存在一定。共有。公共服务的进行开发。来提升他们的。资源利用率。以及做一些很强的流量的调度的。一些。措施。同时,由于他们是大公司。A业务不用的资源,B业务C业务D业务可以用,所以他们资源腾挪的空间非常大。但大公司的这一种运维方式。
07:02
能否直接?用在中小规模的公司。中小规模的公司,它的业务量比较少。它的业务周期可能也比较短。他人员投入的。经历。人员的。素质、团队的能力都不如大公司。那这个时候希望解决。IDC运维的困境。我们想到的只有上云这一个办法。既然要上云。我们必须提前做好规划。在这里分享一下。我司对上云的规划。我们首先把。我们要上云的业务。想象成一个。
08:01
一个围墙,围墙里面都是我们自己内部的,去自己内部的业务。这个围墙有三个大门。其中是VPN一个大门,负载均衡一个大门。Nat,一个大门。那在这个围墙里面,我们还进一步。做了分区的管理。我们划分了运维的区域和生产的区域。黄色就是我们运维的区域放置一些。管理性质的机器,比如说堡垒机,比如说中控机。还有各种各样的运维平台。生产区,用于部署我们的业务。什么A业务、B业务等等。那。用户访问业务必须走红色的。负载均衡这这扇大门。
09:02
通过负载均衡的方式访问到。在。生产区域部署的业务的服务器。以及访问到对应的数据库。我们运维同学从VPN这扇大门进来。通过。堡垒机内网控制生产区域的所有的机器。生产区域的机器要主动访问外,访问外网,我们通过nat网关的方式。进行向外的访问。那这样的架构下,能够满足我们公司日常的。99%的场景。并且在栅栏的区域。里面。
10:01
从外网到我们内网必须经过三个大门,要么是VPN,要么是负载均衡,要么是nat。这样我们就内外网有一个清晰的边界。而这三类设备都是我们管辖范围内的。能够做到。事前有审批。事中。有监控,事后能审计。进一步的,我们在生产区域。做了网站的隔离。每一个网段划分给一类的业务。那业务和业务之间通过网段。借用。云产品的安全组。进行。业务之间的隔离。
11:00
那这样子我们就能做到。好像我们的业务就是在一个院子里面。每个院子里面有。一个一个的小房间,每一个的小房间。运行着一类的业务。一般的用户访问这些业务就通过负载均衡。有进有出的来访问。基本上。就形成了我们上云的统一的规范。按照这个规范,我们业务。就可以按部就班的上云了。对比IDC。按照刚才的架构的方案进行上云。我们具有以下几个很明显的红利。服务器可以按需分配。
12:03
云上的机器可以精确到0.5。内存可以一句两句。都能够按照不同业务的它所需资源的大小进行按需的划分。同时,我们由于有了先前的规划。在资源层面。在区域层面都做了相应的隔离。有了隔离就会安全。就会减少很多。后续运维带来的麻烦。同时,也由于我们的规划是清晰的。我们对于。已经有的规划。已经有的。隔离的标准能够做很多。事前的。控制,还有事后的审计。
13:03
还有一个。就是云上资源和IDC的资源相比,我们的交付速度快了很多很多。以前要买一台服务器,买了服务器之后要通往虚拟化再做划分。在做交付。现在我们云上的资源即开即用。需要的时候。打开收钱,不需要的时候回收省钱。这是几个冰山上能看得见的?显著的红利。同时。我们。通过上云。控制成本,提升效率。也让各种角色前端的开发、后端的开发运维S网络形成了安全的意识的意识。
14:03
提升了报的协同。那在上云之后。我们。的血统是怎么样的呢?我是这样看我们整个产品生命周期里面各个角色的。其中。绿色板块是我们对的业务同学,当然了,我把开发同学也放到业务同学里面去。为了区分。There和。那产品。会设计各种各样的功能。运营会看各种各样的报表,同时提很多需求,告诉我们的开发同学要开发这个功能,开发那个功能。那s re,同学在开发完善功能之后,就要做各种各样的部署,发现各种各样的问题去处理,保持它的稳定。
15:03
同时还要联动运维测的DBA的同学,网络的同学,安全的同学。在降成本方面还要请求商务同学的帮助。去规模化的。买一些产品来达到降低成本的效果。还要推动运维开发去开发一些。我们。运维习惯。提升运维效率的一些系统。同时还要做快速的运维交付。总体来说就涉及这么几个框的角色。那绿色框的同学。他们对效率是。最看重的。他们希望一个产品能够快速的上线。那黄色的同学代表的是运维的。
16:00
试下。他们希望。整个。业务是稳定的。那在效率和稳定之间就必然存在了一些矛盾。开发同学说,我要快速的上线,你就要做变更,做变更就会引入风险,引入风险就会带来不稳定。我们要稳定,就尽可能的少变更,少变更就影响了开发效率,影响了他们上线的速度。那这当中的。同时。都是在这两个箭头。这两个使命箭头的push下进行一些协同和工作的。那从运维的视角,从底层往上层看。我们追求的其实就是四个方面。稳定、安全、成本和效率。
17:03
作为深度参与游戏平台。上云的。这样的一个角色,我非常希望通过我们的努力,能让开发加上s re加上各种各样的运维的角色。将技术看来一个整体,为我们的业务,为我们的老板,整体的去呈现整个业务的稳定、安全、成本和效率,让他们有一个切身的体会。所以我做了一些定期性的工作。我们会把。成本运营。的一些数据组织起来,每周进行一次例会。每个例会我们都会先讲我们的可用性数据是怎么样子的,我们的容量数据是怎么样子的,安全数据是怎么样子的,成本的数据是怎么样子。
18:07
来,让我们的老板放心,让我们的产品和运营同学放心。举一些小的例子吧。我们在阐述可能性数据的时候,我们会拿过去一周的PV的趋势图。我们可以看得到第一张图。的PV是非常的平稳的,而且周期周期性非常的明显,没有一些突增突降。这就代表了我们整个业务是整体的平稳运行的。甚至我们还有一些其他的图,有一些日志里面的状态嘛。里面。99.99%几都是两百三零二这些正常的错误嘛,那正常的。
19:00
返回。只有极少量的一些非法的访问产生的一些。错误嘛,这也能说明我们整体的运维是稳定的。紧接着,那我们稳定是什么?带来的呢?是我们做了哪些努力呢哦。最重要的是,我们的容量是充足的。所以我也把容量的数据也呈现给大家看。第二张图就是我们的容量数据。蓝色代表的是我们的极限的容量。黄色代表的是我们实际监控到的业务峰值的数字。我们可以看到。蓝色的比例基本在黄色的比例的大概。五到七倍左右。就代表了。我们现在即使是正常的访问业务高峰再翻五到七倍,仍然在我们的容量范围里面。
20:08
而这个容量值你们也可以看到是变化的。代表了我们是。定期的去更新我们的极限容量。好容量。控制住了,那我们资源投放就能控制住。资源投放控制住,就代表了我们的成本是可控的,所以通过容量的数据来告诉我们的老板。成本是可控的。如果想进一步。降低成本。我们可以通过削减极限容量的方式。来降低成本。但同时也会带来一些有可能。业务流量。大于我们极限流量这样的风险啊。
21:02
老板就可以通过这样的数字做出权衡。要降本。还是保持现状,还是增加我们的容量,就有一个决策的依据。紧接着。我们还会说一些安全的数据。这里面。只是举了一个和安全。业务比较看得懂的安全的数据是W的拦截数据。我们其实提供的服务有很多黑产、灰产在刷我们的业务。我们的业务就是。会。对我们后端的资源造成一定的困扰。要么是。资源利用率降低。要么是。也有可能是把我们后端的资源把它耗完,让正常的请求进不来,那我们在上层接入了瓦当请求。
22:13
经过触发我们的规则的时候就会产生拦截。基本上我们每周都会。的一些的有效拦截。拦截之后我们后端的资源。得到了极大的释放。同时也占用了一定的成本。但这时候我们会把。袜产生的成本。以及释放资源。换算成的资源的成本做出对比来告诉老板我们投入袜这个产品既达到了安全的要求。也提升了资源的利用率。进而。
23:04
可以换算出我们减少的几。所以通过这些数据的呈现,把开发的同学,把测试的同学,包括DBA网络安全务些工作数方式呈现。我们技术形成一个整体,我们的产品运营呈现出我们增效。一些成效给他们看。他们就能理解。我们做出的效果。进一步就加强了所有参与了这一个项目、这一个产品的同学的成本意识。安全意识。也增强了。运维和开发之间的相互理解、相互配合。
24:05
那上云到底为什么他就能省钱呢?这里面我说两个我比较印象深刻的例子。我们原本部署在IDC的业务。HTTP卸载。占了我们极大的CPU资源。我们都是有各种各样的域名配置在engines里面,Engines。的这台机器承担了各种各样域名。需要。证书卸载。的这些工作量。那到我们。上云之后,根据刚才的规划,所有的业务请求都经过负载均衡。而负载均衡,它的收费模式是按流量来计费的。
25:03
同时,它又具备了HTTPS。证书卸载的功能,也就是说我花了流量的钱,既让流量进来了,也能做一些本来后端资源CPU要做的证书卸载的事情。是一举两得,买了一个产品,达到了两个目的。这时候,后端服务器成本的钱省下。第二个例子也是印象比较深刻的,刚才也有提到。去拦截黑产。原来我们的请求。正常的请求,黑产的请求是混在一起的。我们在IDC部署的阶段,各种各样的请求都通过机器外网的IP进来。然后。
26:01
耗了我们CPU的资源、内存的资源,网络的资源。当我们上了W之后,定了一些规则。清晰的看得见。当不是我们正常的请求,当同一个IP1分钟几十次、几百次来请求我们的时候,这些请求就根本不需要。放通到后端,在前端就形成了拦截。那积累的这些数据。我们都以图表画的形式产生体现出来。同时,CPU的利用率也体现出了那两条不一样的曲线。一个是拦截的曲线,一个是CPU降低的曲线,就能充分的印证。上了挖府之后。我们的。容量。
27:00
得到了节省。并且这个成本我这里不方便投具体的成本的值,但这个成本确实要比我们对资源做扩容。的成本要低。所以。通过来拦截黑产的这个经验我们也积累下来。那最后我们来探讨一下降本增效为什么要拥抱云原生?我们现在的位置是在IDC和云原生中间的中心点。我们不可能。一步到位。从IDC的虚拟机的部署。一下子就完成了代码的重构项,项目的重构就微服化了,变成了云原生的,这个架构不可能一步到位。所以我们是分两步走的策略。
28:01
第一步是。虚拟机。换成。云的虚拟机的部署的架构。第二个是。我们在。在云上部署的架构的基础上,再往云原生来进行改造。那站在现在,我们回过头来去看IDC。部署的阶段。你说游戏平台上瘾了,是花钱还是省钱?我的观点是,我们主要是花钱。原因是在IDC的阶段,我们中小型的公司基础设施比较薄弱。基础设施的配套环境比较缺乏,没有安全的东西,没有一些隔离的手段。
29:02
我们通过购买云上的一些产品。并且对云产品做的一些组合,定的一些规则。多花了一些钱。来提升它的稳定性和安全性。但性价比来说是比IDC性价比要高很多很多。那站在现在去看未来。云原生的场景下。我们认为。当我们的业务和云上的产品充分结合的时候。当我们的业务在进行架构改造的时候,就考虑了云产品的。这些。收费模式。这些产品性能。
30:01
并且我们构造出能多云融合的这么一个架构,哪家便宜用哪家。的这种模式。我们是能够通过。架构改造和云原生这个结合,提升效率。进一步的节约资源。和提升效率的。以上就是我对。游戏平台上云是花钱还是省钱的一些分享,谢谢大家。感谢何琪老师的精彩分享啊,何老师分享了三期互娱从IDC向云服务迁移的经验,以实践的案例讲述了上云后安全稳定、效率的提升以及成本的降低。从综合的性价比以及长远的发展考虑,游戏平台上云是无疑是省钱的。
31:00
那我们后续还在9月22日晚上八点将进行第九讲与第十讲,欢迎大家预约观看。那有的小伙伴问我们错过了详情直播呢,怎么办呢?不用担心啊,我们每一期直播结束呢,都会有回放的,回放地址呢,就是我们当前的直播地址啊,截止到目前呢,我们进行了七讲直播了,那我们在6月23号,6月30号还有7月7号呢,进行了第一期的三讲直播,那我们的主题分别是云原生降本增效优秀时间案例分享。Co云上资源的分析与优化,Co集群利用率提升实践,那在7月28日,8月4日,还有8月11号晚上呢,我们进行了第二期的直播,那分别主题是KS全场景在离线混布,通过原生管理Co GPU资源。Goods资源突破感是调度啊,在9月1号呢,我们进行了第三期的第一场直播啊,我们的直播主题是作业帮云原生降本增效实践之路,那欢迎大家观看回放,那点击我们直播间下方的往期直播或者进入我们的活动专题页面就可以进行观看我们的回放了,那我们的今天的直播呢,就到此结束了,我们下期再见。
我来说两句