第二十五期西山居技术沙龙
2018/07/26 19:00-21:00
主题:一句话告诉你运维在做什么
讲师:尹会生
一句话告诉你
运维在做什么
现场剪影
分享原因
想用简短的时间让大家了解一下运维的日常工作,以及西山居的生产环境的基础设施。
同时,也给大家推荐两本书:
《机器学习》 周志华
《Machine Learning Yearning》吴恩达
运维(Operation and maintenance)一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(IT运维)。所谓IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 运行环境(如软硬件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。随着信息化进程的推进,运维管理将覆盖对整个组织运行,进行支持的管理信息系统涵盖的所有内容,除了传统的IT运维,还拓展了业务运维和日常管理运维。其参与的对象也从IT部门和人员,拓展到组织的管理层和各部门,及其相关的业务骨干。运维的最终结果是对软件运行中各种性能的维护。
作者:地球的外星人君
01
运维工程师的日常工作包括
从备份到高可用
从日志到脚本
监控
防火墙
以下略……
把这些事情总结一下,
其实运维工程师们都是在做资源管理
优秀的运维一定是:最佳资源管理者
02
运维工程师需要管理哪些资源
网络
服务器
操作系统
应用程序
安全
网络
大家最想了解的“黑盒子”:IDC机房
机房需要达到以下要:
1 温度、湿度变化小
环境温度为:A级22±2℃
环境湿度为:A级45%~65%
当温度过高时,服务器会降频甚至死机这会影响全部玩家
环境过于干燥容易产生静电,静电会击穿芯片
2 机房内要做很多电源冗余、网络冗余、空调冗余……
3 还要巡检
IDC机房
对服务器的多重保障
机柜放置的时候要考虑承重问题,地震多发的地方也不会放置机房。
机柜和供电设备分离
1分工问题:负责供电的是电气化工程师,负责服务器的是用户。
2服务器与用户息息相关,而用户的数据是最宝贵的。为了保护用户数据,我们在机房中做了很多隔离。机柜与供电设备的分离是为了减少和服务器无关的人员进入机房。
3事故规避:如果出现火灾或者其他事故,可以在机房外进行灭火,没有必要进入机房内进行操作。
冗余体现在哪里:
1使用双路电源,服务器由两个不同的变电站支撑。
2使用双路网线。
遇到停电时:
1当服务器遇到停电时,UPS能支撑两小时,足够工作人员启动柴油发电机对服务器进行供电。
布置机房位置时,还需要考虑机房附近有没有加油站,能不能在停电的时候及时补充柴油;也要注意附近有没有其他大型机房,遇到停电的时候可能会出现抢油的现象。
机房部署情况
曾经部署多个机房的原因
1保证鸡蛋不在同一个篮子里。
2一旦某个机房出现问题,我们可以立即启用另一个机房。
3放置这么多机房,减少链路被挖断造成的影响。
减少机房数量的原因
1由于我们的机房主要用于存放端游,当用户访问其他机房的时候,他们能明显感知到的。所以放置这么多的机房其实是没有意义的,于是我们将数量精简到4个。
2减少机房数量后,并没有增加故障产生的几率。因为所有从北方到南方的链路都要走到中央电视塔,再从中央电视塔转到南方的机房。所以无论北方的机房再多,只要链路中间有挖掘机,那么这些多余的机房都是没用的。
3我们大部分用户分布在华东、华南所以新的机房主要布置在上海和广州,而位于北京的机房足以覆盖华北地区的用户了。
4为了解决南北数据不互通的问题,我们在北京和广州的机房之间引入了一条新的专线,这样北京和广州之间就形成了新旧两条链路。然后又链接北京和上海、上海和广州的机房,将链路形成一个闭合的环状。当我们的南北链路失效的时候,我们就可以通过其他链路绕行。
机房里的机柜
在机房里要放置服务器,这时就需要机柜。机柜的标准规格是42Unit, 1U高度44.45mm
,而我们主要使用2U高度的服务器。
硬件
资源
服务器要选择什么样的?
除了性能要满足要求之外,传输带宽要达到1:1:1。
CPU带宽、内存带宽、主板北桥之间的带宽最好能一致。
例子:进行深度学习,我们采用两块CPU、四块GPU。【CPU用于做计算,GPU里的显存用于存储深度学习的模型】
这里出现两种方案:方案一,每个CPU下挂两个GPU,CPU之间实现通信;方案二,一个CPU下挂四个GPU。
最终采用方案一,因为我们除了要看数据的特征,还要看应用的特性。计算模型只能拆解成两部分,所以1个CPU下挂4个GPU的作用不大。
例子
在已有服务器上组建的虚拟化资源池
简化使用:虚拟化
没有特殊需求、只需要将网络、电源、软件稳定地服务运行的情况下,我们提供虚拟化服务。
当用户的底层需求一致的时候,平台可以提供更高的一致化支持。
软件
资源
监控
因为有了监控,所以排查问题的效率更高、速度更快。
服务器生命周期
确认硬件配置
服务器机房上架
硬件故障维修
服务器下架
监控异常产生的原因
开发环境和生产环境信息不对等
突发流量
非预期的数据请求
排查故障(如何发现故障)
监控系统
日志
服务器负载
网络链路异常
跟踪软件上线的生命周期
能有效减少故障
以上,就是本期沙龙的主要内容啦~
想要知道本期沙龙的全部内容可以观看本期沙龙的视频哟~
如果你有一肚子干货,还有满满的表达欲望
请火速联系小编,小编将水陆空全力支持你!
最后,记得关注我们的公众号,获取更多资讯~
领取专属 10元无门槛券
私享最新 技术干货