最近小嘉在逛论坛时看到一位朋友提出了这样的一个问题,这与之前沟通的一位客户疑惑一致,为他解答的过程自己也整理除了一些思考,故和大家一起聊聊。
10月20日,腾讯织云 Metis 智能运维学件平台在 OSCAR 开源先锋日上宣布,正式对外开源。Metis 是AIOps(Algorithmic IT Operations),即智能运维领域的首个开源产品。智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误。
交流蛟分承影,雁落忘归——袋鼠云一站式全自动化运维管家ChengYing(承影)正式开源
10月20日,腾讯织云 Metis 智能运维学件平台正式对外开源。Metis 是 AIOps(Algorithmic IT Operations),即智能运维领域的首个开源产品,它是聚焦在智能运维的应用实践集合,基于腾讯已有的运维数据,将机器学习领域的分类、聚类、回归、降维等算法和运维场景相结合,旨在通过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。
企业构建一站式运维平台的目的是为了提升运维效率。那么一个成熟的运维系统应该要解决哪些问题呢?笔者认为首先是运维对象要被管理起来,然后是监控这些对象,接着是这些对象的自动化运维,最后是所有的运维操作都要有所规范。概括起来对应的系统就是CMDB、统一监控、自动化平台、ITSM,如下图所示。
别焦虑,为了让广大运维同仁能够尽快步入 AIOps 的技术殿堂,降低实施 AIOps 的技术门槛,腾讯织云团队即将开源运维学件!( ps: 学件由南京大学周志华教授提出,运维学件由腾讯 SNG 赵建春先生提出并率先开源,云计算开源产业联盟和高效运维社区荣誉共同推广。)
1 项目描述 “Metis”取名自希腊神话中的智慧女神墨提斯,全称为:腾讯织云 Metis 智能运维学件平台。“织云”指的是腾讯智能一体化运维平台,“学件”的概念由南京大学周志华教授提出。 学件 = 模型 + 规约,具有可重用、可演进、可了解的特性。在此基础上,腾讯云副总裁赵建春先生进一步提出“运维学件”的概念,亦称 AI 运维组建,强调其具备对运维场景智能化解决方案的记忆能力。 随着互联网业务的急剧膨胀和服务类型的多样化发展,人为指定规则的不足之处逐渐凸显,促使近两年来智能运维领域的高速发展。智能
“Metis”取名自希腊神话中的智慧女神墨提斯,全称为:腾讯织云 Metis 智能运维学件平台。“织云”指的是腾讯智能一体化运维平台,“学件”的概念由南京大学周志华教授提出。 学件 = 模型 + 规约,具有可重用、可演进、可了解的特性。在此基础上,腾讯云副总裁赵建春先生进一步提出“运维学件”的概念,亦称 AI 运维组建,强调其具备对运维场景智能化解决方案的记忆能力。 随着互联网业务的急剧膨胀和服务类型的多样化发展,人为指定规则的不足之处逐渐凸显,促使近两年来智能运维领域的高速发展。智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误。 织云 Metis 是聚焦在智能运维的应用实践集合,它基于腾讯已有的运维数据,将机器学习领域的分类、聚类、回归、降维等算法和运维场景相结合,旨在通过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。
ps: 学件由南京大学周志华教授提出,运维学件由腾讯 CSIG 赵建春先生提出并率先开源,云计算开源产业联盟和高效运维社区荣誉共同推广。 Metis 这个名字取自希腊神话中的智慧女神墨提斯(Metis),它是一系列智能运维的应用实践集合。腾讯织云 Metis 团队通过开源项目 Metis 打造智能运维的学件平台。 Metis 智能运维平台是在腾讯内部海量业务数据的基础上建设起来的,织云 Metis 团队基于腾讯已有的运维数据,在运维质量、效率、成本三个方面落地了众多智能运维实践。逐步构建智能化运维场景。
一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。
大名鼎鼎的中国运维社区的狼首赵瞬东相信大家都略有耳闻,江湖人称赵班长,曾在武警某部负责指挥自动化的架构和运维工作,2008年退役后一直从事互联网运维工作。曾带团队负责国内某食品电商的运维工作,同时带领团队创建了自己的运维社区,讲自己多年经验传递给众多学者、运维人员,《saltstack入门与实践》作者之一。
2021年12月3-4日 第六届Zabbix中国峰会 上海 看点聚焦: Zabbix原厂代表:上海宏时数据系统有限公司 金融唯一代表:交通银行股份有限公司 传媒唯一代表:咪咕视讯科技有限公司 电商唯一代表:京东商城 AIOps厂商唯一代表:上海鼎茂信息技术有限公司 可观测平台唯一代表:北京云杉世纪网络科技有限公司 还有更多,部分议程一览。 演讲主题(12月3日 ) Alexei Vladishev Zabbix创始人兼CEO Zabbix6.0LTS- 监控领域又一大飞跃 与Zabbix创始人兼CEO A
感谢平安银行选择宏时数据!宏时数据作为Zabbix大中华区总代理为客户提供强有力的技术支持。下文转载自期刊,作者供职于平安银行广州分行,分享平安银行自动化监控平台的实践分享。
有想进滴滴LogI开源用户群的加我个人微信: jjdlmn_ 进群(备注:进群) 群里面主要交流 kakfa、es、agent、LogI-kafka-manager、等等相关技术; 群内有专人解答你的问题 对~ 相关技术领域的解答人员都有; 你问的问题都会得到回应
近期在ChinaUnix论坛有一场讨论,标题是——云计算时代:运维人员会踩到哪些坑? 整个讨论过程非常活跃,大概有50个答复,运维派这就给大家整理了一些讨论的优质内容分享给大家。 背景: 在云计算领
随着企业信息化的不断发展,运维人员需要面对越来越复杂的业务和越来越多样化的用户需求,不断扩展的应用需要越来越合理的模式来保障运维服务能灵活便捷、安全稳定地持续。
大数据实时处理之美:参与问答活动获得实时计算书籍(活动时间:10月18日-24日)(点击“阅读原文”即可参与)
近10年IT运维经验,6年Zabbix使用经验。之前长期从事在ITOM、ITOA领域,熟悉IBM Tivoli、BMC Patrol、Zabbix、Nagios等监控软件产品,参与过国内多个大中型保险、金融公司IT运维项目的咨询、架构和管理。近些年来,为中国国内多家银行、保险客户实施和交付基于Zabbix的监控解决方案,拥有非常丰富的IT运维管理实战经验。
小米:XiaoMi https://github.com/XiaoMi 1.分布式的发布和监控系统 Minos Minos 是小米公司开发的一个分布式的发布和监控系统。最初是小米开发的用来在 Hadoop 和 ZooKeeper 集群上发布和管理的工具。Minos 可轻松扩展来支持其他的系统,目前已经支持包括 HDFS、YARN 和 Impala 。 https://github.com/XiaoMi/minos 2.互联网企业级监控系统 OpenFalcon Open-Falcon 是小米运维部开源的
说简单,倒也简单:运维工作就是支持生产运行,是成本中心,一般不直接产生利润。目的就是运行保生产设备软硬件正常运行,让内外部用户满意度。
黎明带领团队自主研发了全栈 DevOps 运维管理平台—EasyOps,是目前行业领先的智能化运维管理平台。作为前腾讯运维研发负责人,黎明主导了多个运维系统研发舆情监控、大数据监控平台、CMDB、实时日志分析平台、织云、客户端体验监控等。 本文内容有三点: 1、微服务架构特点及其传统巨石架构的差异,以及传统运维工具面临的挑战; 2、面向微服务的运维平台架构; 3、运维平台微服务进化。 一、微服务架构与巨石架构的差异 “微服务” 与 “巨石架构” 两者并非对立,而是分别针对不同场景的解决方案。 巨石架构指
3月12日,优维科技与又拍云联合举办的Open Talk No.29《云上运维与研发最佳实践》在上海顺利举行,优维科技CTO黎明带来了《微服务架构下的运维平台构建》的精彩分享,结合微服务架构特点,解读如何构建一个高效运维管理平台。
下图是我们熟知的软件研发环节,在迭代频率高的研发组织里,一天可能要经历多次如下循环。对于用户群体庞大或者正在经历大幅业务扩张的企业研发组织,除了重点关注应用的快速上线之外,如何保障应用的高可靠、高可用也成为焦点,即服务上线要快,运行要好。
在当今数字化转型的时代,高效的软件监控和数据分析对于保障应用的性能和稳定性至关重要。OpenTelemetry作为一个开源项目,为开发者和运维人员提供了一个强大的工具,用于实现应用程序的链路追踪、错误检测和日志收集。在本文中,我们将深入探讨OpenTelemetry的核心特性、架构以及它对软件开发和运维的重要价值。
5月16日,蓝鲸行业说直播专栏又迎来新一期的更新,第八期带来金融基金行业的研运一体化落地实践分享。
作为一名运维工程师,大家都知道。早在几年前,偏传统运维,以 cacti、nagios 为主流,到后来的 zabbix、Prometheus、Open-Falcon 等,也是现在大多数企业用的偏多的运维监控平台。甚至有些企业,都是自主研发。
7 月 28 日,在袋鼠云 2022 产品发布会上,袋鼠云技术负责人思枢正式宣布旗下产品「大数据基础平台 EasyMR」发布。
企业运维系统建设经过多年演变,从以商业软件为主,到开源软件的百花齐放,极大的降低了成本,但是在建设过程中,却非常容易落入到烟囱式建设的陷阱,因此如何跨越它,成为了众多企业面临的难题。
中通快递每天有数千万的运单在各个环节运转,每个环节都有对应的多套业务系统来支撑,业务系统之间上下游关系较为密切,从上游的客户订单到下游转运、结算、分析等每个环节都离不开消息中间件,它主要解决了系统之间的耦合、业务的削峰填谷、异步通信、数据同步和冗余存储等等功能需求,是现有系统架构中不可或缺的重要一环。
人们形容运维人的工作日常:不是在解决问题就是在解决问题的路上。以至于运维人自己也感叹干的工作是操着卖白fen的心、赚着卖白菜的钱……
回到最初的Ceph运维工程师的问题,本系列讲述的是传统运维向新一代云运维转型之软件定义存储部分的转型,运维是企业业务系统从规划、设计、实施、交付到运维的最后一个步骤,也是重要的步骤。运维小哥最初的梦想搭建一个Ceph存储集群,对接云服务,底层存储实现高可用的数据访问架构。其中运维小哥经历了硬件选型、部署、调优、测试、高可用架构设计等的一系列转型的关卡学习,终于就要到最后的应用上线了。但是往往在生产环境中除了无单点、高可用的架构设计之外还需要平时做一些预案演练,比如:服务器断电、拔磁盘等问题,避免出现灾难故障影响业务正常运行。
对于刚刚步入职场的运维小白而言,面对工作中的突发情况时常会感到手忙脚乱,为了帮助他们更好地应对这些挑战,本文将介绍三款特别适合运维新手使用的网络监测工具:
首先我们来看一个企业中比较普遍的现象,当系统发生故障时,运维人员通常关注指标类数据,而研发人员更“钟情“于日志数据,为什么会有这种区别呢?
今天准备谈下AIOps的内容,在我前面已经写过多篇文章谈DevOps研发运维一体化方面的内容,原来也一直看到AIOps的概念,潜意识里面理解是DevOps里面的一个子内容分解。而实际我们看到AIOps和DevOps没有必然的联系。
原文链接:三分钟走进袋鼠云一站式全自动化全生命周期运维管家 ChengYing(承影)
桔妹导读: LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验,是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管控、监控告警、资源治理等核心场景,经历过大规模集群、海量大数据的考验。内部满意度高达90%的同时,还与多家知名企业达成商业化合作。
从信息化时代到互联网时代,再到如今大幕初启的数字化时代,IT、互联网和移动化已经渗透到工作和生活的方方面面。今年早些时候一群歪果仁评选出中国的新“四大发明”——高铁、网购、支付宝和共享单车,后三样都是来自于IT变革。而运维作为IT运行的有力保障,在不同时期和不同类型的企业中正在发挥着越来越大的支撑和引领作用,今天就让我们聊聊信息化时代的传统运维、互联网时代的互联网运维和数字化时代的业务运维有什么不同!
所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要。
3月底有幸参加了全球云计算开源大会,并作了一个关于《运维一体之平台一体化》的分享,现将PPT的内容整理成文。
作者:何金胜&张加浪,腾讯云云监控高级工程师 前言 知名游戏公司云资源使用了腾讯云、AWS 和自研 IDC,业务覆盖了国内和海外。云上资源包括了计算资源服务器、存储类的包括 MySQL、Redis、S3 等、大数据处理(EMR)以及网络资源等。业务服务主要通过 Golang与 PHP 语言开发,服务使用微服务框架,由多个游戏工作室共同开发完成。如此大的业务,如何实现高可用的一体化监控并降低云原生 Prometheus 的监控成本呢? 客户现状和痛点 经内部规划后,该游戏公司决定基于自建的 Prometh
监控系统,是通过持续信息采集、收敛、分析来发现问题,并对解决问题提供数据依赖的一种科学技术。通过监控技术可以实现对故障进行 “事前预警,事后追踪”。
在正式阅读本文之前,我们先思考一个问题-几乎每个IT公司都有一套自己的运维监控系统,每家公司的运维都在做监控系统,而似乎每家都在面临一个问题,监控系统不好用,不能解决实际的监控问题,有没有更好的监控系统呢?答案是有的,本文将为您揭晓谜底。
运维监控系统的作用不言而喻,贯穿运维的5项职能:发布、变更、故障处理、体验优化、日常需求,保障上述职能的服务可用性。
LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验,是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管控、监控告警、资源治理等核心场景,经历过大规模集群、海量大数据的考验。内部满意度高达90%的同时,还与多家知名企业达成商业化合作。
忽如一夜春风来,千树万树梨花开,恍惚之间,ELK亦是遍地开花,甚至提供类似ELK解决方案的专业公司数量已然可观。
黄小龙 腾讯云高级工程师/腾讯云监控方案架构师,多年监控开发和应用经验,对业务监控、智能监控有深刻的理解,主导腾讯云 DevOps 可观测方案落地。 案例背景 由广州趣丸科技有限公司推出的 TT 语音是一款在国内领跑游戏社交赛道的语音社交产品。通过 TT 语音,用户可以在游戏中实时语音组队开黑,在社区语音交友以及直播聊天,广受年轻群体以及游戏玩家的喜爱。 自2014年上线以来,TT语音已累计超1亿注册用户,秉承“让天下没有孤单的玩家”的理念,为玩家提供组队开黑、趣味游戏、电子竞技等等互动服务。 TT语
领取专属 10元无门槛券
手把手带您无忧上云