温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
终于到我们刚才项目需求分析当中最后一个问题了,集群的规模,我们把这一切都搞定了,对吧?我们要选择腾讯云服务也搞定了,版本搞定了,他们各个服务之间如何协同工作的搞定了,接下来最后一个问题选择多少台服务器?当然这个大家肯定也清楚,肯定是根据咱们的数据量来的,对不对啊,所以呢,我们来看一下啊,怎么来根据数据量来做一个计算,当然这边呢,我们只是做一个简单计算啊,他可能又到这些服务器就够了,至于你多个一站台,或者说少个一两台,或者多个很多台,那这个都是可以的,对吧,只是说我们做一个参考啊,这个仅供参考。呃,确认集群规模,假设每台呢是8T的400128G内存,按照这个目标来呢,我们评估一下我们的数据量好吧。假如说我们的用户呢,有百万。啊呃,每人呢,每天是100条数据,那这样就1亿条,按照每条日志呢1K,那我们就是每天100G的数据啊,原数据半年内不扩容服务器,那我们就是。
01:13
18T啊呃,保存三个副本,因为一般我们要副本为了安全性可靠性,对吧,54T。预留你不能说半年之后不扩容的话,你就刚好全部都用完了,这也不太现实对吧,预留20%~30%,假如说预留30%除以0.7,那就是77T啊呃,算到这个地方呢,我们所需要的磁盘那就是。十台服务器对吧?呃,那如果考虑到数仓里边的分层呢。这还是原始数据,那同时呢,不光分层,分层会增多我们的数据量,但同时我们可以去用压缩呀,对吧,这个时候呢,你都需要重新再做计算啊,所以呢,这边只是给大家做一个参考值啊,那最终呢,其实我们所选择的就是吧台服务器,因为这样的话,腾讯云呢,安装起来也比较方便一点啊,构建的时候它默认给我们就是。
02:06
八台服务器啊,这是集聚规模,调研完集聚规模之后呢,我们顺便说一下这个整个资源的规划啊呃,那我们刚才提到了有八台这个服务器对吧,那其中。Master主节点,像这个node高可用,Resource manager的高可用,对吧?呃,Data node node配置高可用的时候要用到的服务,还有这个note manager啊,也就是说核心的三个节点做运算分析的啊,Master主节点啊可以跟外部进行通信,Common呢,一般公共节点啊,存这种notde呀,像ZK这种服务型的。啊,所以最重要的是他。资源要丰富,因为它是最核心做计算的,当然有同学说,那你这三台机器呢,不是浪费了吗?我用这个也利用起来做,可不可以可以啊,这些东西呢,都是可以,到时候可以灵活配置的,My circle我们装一台就够了,好吧,呃,ZK刚我们提到了have,那所有的服务节点当中呢,因为have这个内容呢,它只是相当于哈的一个客户端,所以呢,每个计算节点上面呢,我们都有一个,这样未来的可能会更方便一点,Spark那对应的have都会有,因为我们用的是have on Spark啊he呢,这边是一个可视化的平台,那既然这边不涉及,我们就给它。
03:22
干掉好吧,斯库搞数据的屋Z啊,Flink,因为我们要写flink CDC,我们放在master比较方便啊,呃,还有这个卡夫卡。对吧,搞不搞我们要自己安装的一个服务,这是我们整个的一个规划啊,以及我们集群规模到底用几台服务器啊,用吧台服务器确定之后呢,我们做一个简单的规划。
我来说两句