随着 Uber 的业务持续增长,我们用了 5 年时间扩展 Apache Hadoop(本文中称为“Hadoop”),部署到了 21000 多台主机上,以支持多种分析和机器学习用例。我们组建了一支拥有多样化专业知识的团队来应对在裸金属服务器上运行 Hadoop 所面临的各种挑战,这些挑战包括:主机生命周期管理、部署和自动化,Hadoop 核心开发以及面向客户的门户。
伴随着这乍暖还寒的天气, 携程技术中心最新一波岗位火热出炉, 包含开发/运维/测试/安全/产品/UED多个领域, 以下岗位工作地点均在上海哦 简历投递邮箱:tech@ctrip.com 直达用人部门 邮件标题:【应聘职位】+【姓名】 开发类 1、云平台架构师 岗位职责: 1. 负责混合云的架构设计和构建,解决多厂商,多region,多网络间的资源调度问题。 2. 负责团队内部的Code Review,提升团队的技术实力。 3. 参与项目的技术选型和技术攻关。 任职要求: 1. 本科及以上学历,5年相关工作经
又到了春暖花开的季节, 等你来, 一起用技术改变旅行者的生活~ 简历投递邮箱:tech@ctrip.com 直达用人部门 邮件标题:【应聘职位】+【姓名】 1、云平台架构师,上海 岗位职责: 1. 负
运维中关键技术点解剖:1 大量高并发网站的设计方案 ;2 高可靠、高可伸缩性网络架构设计;3 网站安全问题,如何避免被黑?4 南北互联问题,动态CDN解决方案;5 海量数据存储架构 一、什么是大型网站运维? 首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度、服务器 量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10
知乎上有这样一个问题:一个新手面试 Linux 运维工作至少需要知道哪些知识?其中有一个答案对这一话题的解读非常深入,今天特别分享给大家。
作者:defcon来源:马哥教育链接:https://mp.weixin.qq.com/s/ZocozTkCNViMAtZIr7C7ww前言我们已经发过不少 Linux 面试题,但是单独的面试题总感觉会过于零碎,没有体系化内容给人的帮助大。知乎上有这样一个问题:一个新手面试 Linux 运维工作至少需要知道哪些知识?其中有一个答案对这一话题的解读非常深入,今天特别分享给大家。一、什么是大型网站运维?首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度、服务器 量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10),如sina、baidu、 QQ,http://51.com等等;其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统 、开发工作于一身的“复合性人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。所以,非常重要一定需要明白:运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等;我在这里所讲的运维工程师就是指专职运维工程师。我们再来说说一般产品的“出生”流程:1、首先公司管理层给出指导思想,PM定位市场需求(或copy成熟应用)进行调研、分析、最终给出详细设计。2、架构师根据产品设计的需求,如pv大小预估、服务器规模、应用架构等因素完成网络规划,架构设计等(基本上对网络变动不大,除非大项目)3、开发工程师将设计code实现出来、测试工程师对应用进行测试。4、好,到运维工程师出马了。首先明确一点不是说前三步就与运维工作无关了,恰恰相反,前三步与运维关系很大:应用的前期架构设计、软/硬件资源评估申请采购、应用设计性能隐患及评估、IDC、服务性能\安全调优、服务器系统级优化(与特定应用有关)等都需运维全程参与,并主导整个应用上线项目;运维工程师负责产品服务器上架准备工作,服务器系统安装、网络、IP、通用工具集安装。运维工程师还需要对上线的应用系统架构是否合理、是否具备可扩展性、及安全隐患等因素负责,并负责最后将产品(程序)、网络、系统三者进行拼接并最优化的组合在一起,最终完成产品上线提供用户使用,并周而复使:需求->开发(升级)->测试->上线(性能、安全问题等之前预估外的问题随之慢慢就全出来了)在这里提一点:网站开发模式与传统软件开发完全不一样,网站一天开发上线1~5个升级版本是家常便饭,用户体验为王嘛,如果某个线上问题像M$ 需要1年解决,用户早跑光了;应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV增减进行应用架构的伸缩、安全、运维开发工作:a 、尽量将日常机械性手工工作通过工具实现(如服务监控、应用状态统计、服务上线等等),提高效率。b、解决现实中服务存在的问题,如高可靠性、可扩展性问题等。c、大规模集群管理工具的开发,如1万台机器如何在1分钟内完成密码修改、或运行指定任务?2000台服务器如何快速安装操作系统?各分布式IDC、存储集群中数PT级的数据如何快速的存储、共享、分析?等一系列挑战都需运维工程师的努力。在此说明一下其它配合工种情况,在整个项目中,前端应用对于网络/系统工程师来说是黑匣子,同时开发工程师职责只是负责完成应用的功能性开发,并对应用本身性能、安全性等应用本身负责,它不负责或关心网络/系统架构方面事宜,当然软/硬件采购人员等事业部其它同事也不会关心这些问题,各司其职,但项目的核心是运维工程师~!所有其它部门的桥梁。上面说了很多,我想大家应该对运维有一些概念了,在此打个比方吧,如果我们是一辆高速行驶在高速公路上的汽车,那运维工程师就是司机兼维修工,这个司机不简单,有时需要在高速行驶过程中换轮胎、并根据道路情况换档位、当汽车速度越来越快,汽车本身不能满足高速度时对汽车性能调优或零件升级、高速行进中解决汽车故障及性能问题、时刻关注前方安全问题,并先知先觉的采取规避手段。这就是运维工作~!最后说一下运维工程师的职责:”确保线上稳定“,看似简单,但实属不容易,运维工程师必须在诸多不利因素中进行权衡:新产品模式对现有架构及技术的冲击、产品高频度的升级带来的线上BUG隐患、运维自动化管理承度不高导致的人为失误、IT行业追求的高效率导致流程执行上的缺失、用户增涨带来的性能及架构上的压力、IT行业宽松的技术管理文化、创新风险、互联网安全性问题等因素,都会是网站稳定的大敌,运维工程师必须把控好这最后一关,需具体高度的责任感、原则性及协调能力,如果能做到各因素的最佳平衡,那就是一
运维的发展日新月异,曾几何时,运维仅仅是被认知为跑机房,装系统,设计网络,给开发擦屁股。但是现在运维变得极度重要,运维职责也更加细化,譬如稍大点的公司就将运维划分为基础运维,网络运维,DBA, 应用运维,架构师。其实我个人认为系统架构师应该都安排在运维里,开发团队应该率属于运维团队才好。
作为一名渣硕,找工作陆陆续续从今年的三月份开始断断续续的刷一些题,看基础到八月份的猛攻阶段,到此,算是得到了一个不错的收获,也拿到了几个offer,算是对自己的一个交代了。 首先,找工作的方向,运维
最近阅读了一本架构方面的入门图书叫《从零开始学架构:照着做,你也能成为架构师》,部分内容比较不错,先做书摘总结,以便加深印象与未来回顾学习。
我们发现网页内容是通过post请求得到的,返回数据是json格式,那我们直接拿到json数据即可。
知乎上的如何看待 2019 年 JAVA 开发就业「爆炸」现象引发了热议,结合最近自己的招聘面试,谈谈感想
近年来,行业数据量不断增大。不论是深耕互联网行业的零售企业,还是为智能应用提供技术支撑、营销服务的数字运营商,亦或是具备雄厚技术实力并致力于数字化转型的传统行业,都纷纷组建了数据团队。
各行各业数字化转型进步飞速的时代,由于企业所处行业和主营业务的不同,运维团队也呈现出不同的划分形式,但随着转型的进程推进,基本上都趋近统一,大同小异。目前互联网行业比较常见的运维部门架构一般包含应用运维、系统运维、网络运维、数据库运维、安全(比较特殊,一般独立小组/部门,或者有一个高级别的领导小组)等部门组成。
一个好的测试,不仅需要对产品有足够的了解,还需要对运维深入的认知。下面我们来听听,本期职来职往分享的运维方面的知识。
首先祝贺你选择学习Linux,你可能即将踏上Linux的工作之旅,出发之前,让我带你来看一看关于Linux和Linux运维的一切。
世界格局在进入 21 世纪之后风云变幻,软件领域同样风起云涌。从硬件到软件,从单机到分布式,从孤岛到互联,程序员的创造力无比强大。但究其本质,软件工程和土木工程其实没有太大的区别,只不过一个是在码字母,一个是在码砖头。至于建筑的主体,设计缺陷,或者地基没打好,一样会垮塌,不管是楼塌了还是软件崩了,都可能成为整个世界都能感知到的大事件。 本文作者刘星先后经历安全行业和大数据领域,2011 年加入淘宝,参与了当时全球最大的 Hadoop 集群的开发和运维,在阿里先后担任数据开发平台研发负责人、研发效能 Aone 研发负责人。本文中,他将从 2003 年淘宝网成立那年开始,回顾总结这些年来软件工程体系的主线技术,探讨变化和趋势,并从自己的视角给出一些观点和思考。
如果前后端职责划分很清楚的话,后端更多开发工作在于业务接口设计、业务逻辑处理以及数据的持久化存储,并提供详细的接口设计文档给前端开发人员使用。
本文以Python爬虫、数据分析、后端、数据挖掘、全栈开发、运维开发、高级开发工程师、大数据、机器学习、架构师这10个岗位,从拉勾网上爬取了相应的职位信息和任职要求,并通过数据分析可视化,直观地展示了这10个职位的平均薪资和学历、工作经验要求。
Ranger的中文释义是“园林管理员”。正如其名,Apache Ranger很好的承担了Hadoop这个大园林的管理员职责。Ranger提供了一个集中式的安全管理框架,用户可以通过操作Ranger控制台来配置各种策略,从而实现对Hadoop生态组件如HDFS、Hive、HBase、Yarn等进行细粒度的数据访问控制。
【编者按】本文作者Raymie Stata是Hadoop即服务公司Altiscale的创始人兼CEO,也是雅虎前任CTO,协助雅虎完成开源策略,并参与Apache Hadoop项目的发起。Hadoop的扩展和运维是非常复杂的过程,在其具体的实施过程中隐藏着潜在的危机,Raymie根据经验罗列了7项危机信号和相应的解决方案,帮助使用者提前避免灾难的发生。 以下为译文: Hadoop扩展是一个非常复杂的过程,这里罗列了7种常见问题和解决方案。 所有Hadoop实施都存在着潜在的危机,包括一些非常棘手的
林元庆离开百度三个多月后(戳这里看大数据文摘此前报道),他的新公司Aibee拿到了1.65亿元的天使轮融资。 作为曾经的百度研究院院长、深度学习实验室(IDL)主任,林元庆这番创业选择了传统行业,与他的前同事、百度前首席科学家吴恩达(Andrew Ng)的选择不约而同(戳这里了解吴恩达新公司landing.ai)。 Aibee(爱笔)寓意AI2B,意即用AI技术对传统行业赋能升级。 对于一家AI创业公司来说,最重要的工作可能是“抢人”——精干的AI团队将成为公司最大的资产。目前,Aibee有近20名员工,其
统一提供资源分配,数据备份,迁移,容灾,读写分离,分库分表,满足资源的利用率问题,运维效率问题
本文是春节经典文章回顾专题第一弹。转载自简说Python,作者XksA,详情可以扫描下方二维码关注该公众号
互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够7×24小时为用户提供高质量的服务。 运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力,通过监控、日志分析等技术手段,及时发现和响应服务故障,减少服务中断的时间,使公司的互联网业务符合预期的可用性要求,持续稳定地为用户提供务。 在安全方面,运维人员需要关注业务运行所涉及的各个层面,确保用
联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。
互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。
分享大咖是陈飞老师。陈飞老师直接列了一张运维成长路线图,也可以用作性能测试必备技能列表。所以如果你想成为一个出色的TestOps,快来看看今天的分享吧。
其实并没有什么神秘的力量和魔力融合在技术里面,而是业务的不断发展推动了技术的发展,这样一步一个脚印,持续几年甚至十几年的发展,才能达到当前技术复杂度和先进性。站在技术的角度来看,其实各个大型互联网公司的技术架构基本是一样的。再将视角放大,你会发现整个互联网行业的技术发展,最后都是殊途同归。
上篇介绍了关于SRE、PE和应用运维的一些理解和业界部分公司的玩法,这一篇写一下应用运维在具体做的一些事情和组织方式,看看为什么这个岗位越来越受到重要,越来越受到重视,他的价值到底体现在哪里。然后分析下应用运维这个职业方向的发展趋势,希望对于当前正置身于这个行当的同学能有一些帮助和启发。
记得刚接触到hadoop的时候跟大部分人一样都会抱怨hadoop的安装部署问题,对于一个新手来说这这的是个头疼的问题,可能需要花费一整天的时间才能把分布式环境安装配置好。在刚接触hadoop的一段时间里,可以说对于hadoop的理解一直都是停留在相对较肤浅的层面。后来随着自己的不断摸索以及向圈内的前辈大神请教交流(主要是向大神请教学来的),自己对于hadoop的认识以及应用也就更加娴熟。
不过大公司会专门做某一部分,例如应用运维不需要关注测试和安全等方面,但建议都学学,触类旁通有好处。 有这些基础,进到公司就可以去完成基础的建设工作了。比如会安排你搭建服务,整理资产报表,清理一些日志,这些基本工作可以帮助你了解公司当前有哪些服务,各种服务之间是如何运作的,之后再慢慢参与到业务中,薪资一线城市可以达到6-10k左右。
准备学习编程前,你一定会打开电脑搜索一下“先学Python还是先学Java?”扑面而来的是海量回答。如果你问一名Java程序员,肯定会建议你先学Java,因为他们认为Python像个乳臭未干的黄毛小子。但如果你问Python程序员,可能会得到一个完全相反的答案,他们认为Java是刻板啰嗦的老大爷,而人生苦短,我用Python。
一、缘起 软件工程有的时候与养孩子有点相似:虽然生育的过程是痛苦和困难的,但是养孩子的过程才是真正需要花费大部分精力的地方。在现实中,我们却发现人们往往将绝大多数的精力与资源花费在了讨论如何构建软件方面,而其后续的可维护性方面的工作却考虑的极少。我们在大学软件工程课程中也学过,从软件生命周期的角度看,软件开发阶段只占整个生命周期的20%~30%,软件运行维护阶段才是最长尾的,这个规律放在现在仍然适用。从以上的视角来看,在软件工程行业,至少应该有两类职业:第一类职业专注于设计和构建软件系统,另外一类职业就是专注于整个软件系统生命周期的管理。从其设计开始一直到部署、运行,历经不断改进,优化,最后退役为止。就是这样一类职业,它和其他的职业的专注点不同且必须具备非常广泛的技能,我们将它称之为IT Operations。 二、运维是什么 运维,英文原文是IT Operations翻译过来就是IT运维,根据中文,对“运维”这个词进行拆解就是“运行+维护”。这个拆解隐含了对运维工程师工作职责的最基本要求。那么到底什么是运维呢?在我的理解,运维即服务,好的服务体系是系统稳定运行的坚实基础和有力保障。我们的工作职责就是保障生产系统的安全、稳定、可靠的运行,确保服务7*24小时不间断。 三、运维的价值 运维的价值主要体现在如下几个方面:提高业务运营质量、用户满意度,保障系统安全、稳定、可靠的运行及服务的可用性,降低业务运营成本,在提高IT服务质量的同时为企业与客户创造更多的商业价值等。 四、谈谈我们的工作 (一)岗位要求 运维是一个融合多学科(网络、操作系统、数据库、中间件、开发、测试、安全、协议、算法、数据结构、架构、存储、强弱电等)的综合性技术工种。一名优秀的运维工程师,需要在多个技术领域中,精通某几项技能,才能够胜任该工作,同时还要对业内前沿技术发展趋势实时跟进、掌控。 (二)人员素质要求 良好的沟通表达能力、工作认真仔细,注意细节、能够扛得住较大压力、知识面广、有较强的责任心,工作态度端正,积极主动,执行力强、学习,创新能力强、极强的安全意识和对问题刨根问底的精神。 (三)岗位职责 以系统稳定性为目标,负责系统的可用性、性能、效率、服务请求、变更管理、监控、应急响应和容量管理等工作。 (四)工作内容 日常主要工作内容如下:服务级别管理、能力管理、业务连续性管理、事件管理、问题管理、变更管理、配置管理、发布管理、备份管理、容量管理、可用性管理、安全管理、知识管理、系统监控、例行巡检、性能优化、应急响应、问题处置、生产问题复盘、服务请求、IT架构规划设计、系统部署、双活建设、容灾建设、切换演练、系统软件升级及补丁修复等工作。 (五)运维服务体系建设 运维作为一个细分的IT专业领域,在运维服务体系建设方面是有技巧和章法的。一个好的运维服务体系的建立是需要一个懂运维的管理者花费很多心思和精力,经过反复的打磨,不断改进构建起来的,绝非凭空起高楼。一般业界会参考借鉴ITIL与业务连续性管理BCM,ISO 22301等体系标准来构建适合于企业自身的运维体系。 一般情况下一个好的运维服务体系建设应遵循如下原则: (1)以完善的运维服务制度、流程为基础; (2)以先进、成熟的运维管理工具为手段; (3)以高素质的运维服务团队为保障; (4)以科学合理的考核指标为导向。 具体落地措施如下: (1)制定运维服务标准与规范; (2)搭建运维服务台,全方位接受服务请求; (3)规范事件管理,建立完善的突然事件应对机制; (4)规范问题管理,建立故障分析的长效机制; (5)规范变更管理,建立谨慎的变更管理机制; (6)收集基础资料,建立完备的CMDB管理系统; (7)制定绩效考核办法,加强监督检查,严格考核运维人员。 (六)运行无间最佳实践之运行保障示例 (1)问题预防 对即将投产的系统进行评审,从系统的健壮性、可扩展性、可维护性及部署规范等方面进行评审是否满足上线的标准和要求。 对每天的变更与应用发布进行集中评审,严格按照变更与发布的标准与变更红线进行审核是否满足投产条件。 按照运维计划,定期组织实战切换演练,模拟生产故障,验证系统的健壮性以及提高运维人员的应急处置能力。 (2)运行监控 监控是运维人员的眼睛,能够帮助运维人员快速发现定位问题,减少业务中断时间,提高故障处理效率。目前业内均已实现全维度监控,也就是说运维人员要从各个维度监控系统的健康状况,比如IDC机房、网络、存储、操作系统、数据库、中间件、应用、系统和业务层面。运行监控人员会7*24小时进行值守,一旦系统抛出告警,值守人员确保5分钟内电话通知到一线运维人员及时介入处置。 (3)故障响应 一线运维人员在接到告警后,会进行初步的判断,对业务的影响,是否需要进行升级,是否需要协同其他条线或者二线专家的介入。 (4)故障
作者 | Scott Carey 编译 | 核子可乐 褚杏娟 “谁构建、谁运行”的口号让开发者们倍感压力,但另一方面,运维团队的日子也不好过。那么,这场席卷全球的开发与运维融合浪潮会不会黯然退场? 根据外媒记者 Scott Carey 的观察,众多开发者纷纷表示“苦 DevOps 久矣”。我们将 Carey 记录的文章在不改变愿意的基础上进行了编译,以飨读者。本文谨代表作者个人观点,不代表 InfoQ 立场。面对争议问题,希望大家理智讨论。 “在大多数情况下,开发人员并不想处理运维问题。”亚马逊
一、背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。 Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。 第三方发行版Ha
又是一年乍暖还寒,春天的风迎面而来,凉意中夹杂着些许温暖。哦,你知道,是春天来了。就像那年的实习期,在挥手告别的毕业季,定格在了那年的七月。
转行做linux运维工程师,首先要了解linux运维要做多少事情,需要什么基础,然后根据自己的情况进行有的放矢的追踪学习。先了解下做linux运维工程师需要做的事情
上周运维圈里有一张“杭州灵隐寺智慧寺院”数据大屏的图火了,下午借此写一篇关于ECC中的可视化大屏。
http://mirrors.hust.edu.cn/apache/hadoop/common/
SRE这个概念我个人印象中应该14年下半年左右听到的,当时只知道是Google对运维岗位定义,巨牛逼的一个岗位,在网上查到SRE是叫网站稳定工程师,只要是保障稳定为主,其他就没有更深的意识了。15年开始逐渐有更多在Google工作或接触过这个岗位的专家在介绍这个概念,大家有了更进一步的认识,但是很多的细节,大家仍然是不了解的。今年年初,Google SRE这本书的英文电子版引入到了国内,再后来9月份有了中文版译本,SRE在今年彻底火爆。
腾讯安全云鼎实验室专注于云领域前沿安全技术研究与创新、安全漏洞研究和处置、云架构和解决方案规划设计、云标准化和合规体系建设等工作,拥有国内先进的研究环境和技术储备。
********本文是BLUES【公众号ID:bluemidou】向老王约稿,特授权blues独家首发,现转载如此,哈哈********
从这篇文章开始,准备从架构设计层面谈谈Dev和Ops的关系,而不是单纯从组织架构和协作模式上的Dev和Ops关系。
前天在51CTO群里面,大家问我运维知识地图的问题,我想到了一篇文章。这篇文章是在去年公司运维通道面试,自己作为评委参与了整个过程,然后写了一个总结发表在运维知识库,虽然是建议未来的运维职级晋升者如何应对(类似攻略),但其实看到的是对运维人的要求,供大家参考~
本文是一篇比较有价值的、介绍SRE的文章。国内的所谓SRE职责其实并不明确,大部分其实还是干普通运维的事。但文中介绍的谷歌的运作方式起点还是相对比较高的,无论对SRE、对开发,甚至对公司都有很高的要求。正如本文所述,谷歌的方式并不一定适合其他公司,但其SRE的建设经验仍然能够带来一定的启发。在阅读本文的时候,我是比较好奇谷歌是如何解决SRE和开发相互推诿的问题的。
很好的一本书,读完大受启发。没有讲具体的技术,就像武功秘籍,提升的是认识和见识。1-4章讲运维的基础,5-7章讲效率和稳定性方面的实践,8-9章讲云计算方面的思考和实践,10章讲个人成长与趋势热点分析。最后拓展讲了一下个人成长和趋势热点的关系。
在这次的DevOpsdays大会上了,我的演讲主题是《DevOps,驱动应用从运维走向管理》,我为什么分享这样的主题?
领取专属 10元无门槛券
手把手带您无忧上云