腾讯云容器团队对IDC、上云非容器化、容器化的计算资源利用情况进行了调研,结果显示容器化改造后资源利用率提升最高可达60%~70%,并提出容器化资源利用率成熟度模型。
孟凡杰,腾讯云容器技术专家,FinOps产品研发负责人。 为了共同应对气候变化挑战,减缓全球变暖趋势,2015 年 12 月,近 200 个缔约方共同通过了《巴黎协定》(The Paris Agreement),对 2020 年后全球如何应对气候变化做出了行动安排。为实现这一目标,全球多个国家宣布要实现碳中和。 全球气候行动峰会发布的《指数气候行动路线图》显示,数字科技在能源、制造业、农业、建筑、交通等领域的解决方案,可以帮助全球减少 15% 的碳排放,是实现碳减排的关键技术因素。云计算平台是数据中心基础设
王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 晏子怡,腾讯云容器产品经理,在Kubernetes 弹性伸缩、资源高效利用领域有丰富的实战经验。 背景 公有云的发展为业务的稳定性、可拓展性、便利性带来了极大帮助。这种用租代替买、并且提供完善的技术支持和保障的服务,理应为业务带来降本增效的效果。但实际上业务上云并不意味着成本一定减少,还需适配云上业务的应用开发、架构设计、管理运维、合理使用等多方面解决方案,才能真正助力业务的降本增效。在《Ku
王孝威,FinOps 认证从业者,腾讯云容器服务产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 余宇飞,FinOps 认证从业者,腾讯云专家工程师,从事云原生可观测性、资源管理、降本增效产品的开发。 资源利用率为何都如此之低? 虽然 Kubernetes 可以有效的提升业务编排能力和资源利用率,但如果没有额外的能力支撑,提升的能力十分有限,根据 TKE 团队之前统计的数据:Kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析,如下图所示:TKE
田奇,腾讯云高级工程师,专注大规模离在线混部,弹性伸缩,云原生成本优化,熟悉Kubernetes,关注云原生大数据、AI。 王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 前言 随着 Kubernetes 的普及,企业已经普遍接受了容器,正在向云原生演进。但是当前的 Kubernetes 只解决云原生的第一步(Day 1),就是利用容器编排调度和声明式API等,来解决资源获取、应用部署、高可用容灾、基础运维等难题。但是目前采纳 Kubernet
在11月4日举办的2021腾讯数字生态大会云原生专场上,腾讯云联合中国信通院率先在国内重磅发布了《降本之源-云原生成本管理白皮书》(简称白皮书),基于腾讯云在业内最大规模的 Kubernetes 实践经验,系统性呈现云原生成本优化方法论和最佳实践路径。 腾讯云容器产品总经理邹辉表示:“Kubernetes 是云原生技术栈的核心,腾讯云原生经过多年的技术积累以及众多腾讯内外部复杂业务考验已经步入非常成熟的阶段。TKE 目前拥有国内最大规模的 Kubernetes 集群以及业界最好的 Kubernetes
吕朋钊,腾讯业务运维高级工程师,曾负责 QQ 相册、小世界业务的存储接入层运维,现负责 AI 业务的运维。 背景 QQ 相册是 QQ 产品中为用户提供图片存储,分享等功能的成熟产品,自上线以来,一直为用户提供稳定快速的图片上传和下载服务。作为社交业务组内第一个上 TKE 的平台,相册在过去一年多时间里总结出了一套适合自身的 TKE 上云实践方案。 服务场景 自相册全面改造上云之后,新的架构如下: 问题 随着相册各模块已基本实现容器化,也暴露出了不少使用上的问题。 资源利用率提升与 CICD 优化 1.
内存量,缓存大小,读取和写入磁盘的速度以及处理能力的速度和可用性都是影响基础架构性能的关键因素。在本教程中,我们将重点介绍CPU监控概念以及警报策略。我们将介绍如何使用两个常见的Linux实用程序,uptime命令和top命令了解CPU负载和利用率,以及如何设置腾讯云警报策略以通知您有关CVM CPU的高负载情况。
在11月4日举办的2021腾讯数字生态大会云原生专场上,腾讯云联合中国信通院、作业帮等率先在国内重磅发布了《降本之源-云原生成本管理白皮书》(简称白皮书),基于腾讯云在业内最大规模的 Kubernetes 实践经验,系统性呈现云原生成本优化方法论和最佳实践路径。 腾讯云容器产品总经理邹辉表示:“Kubernetes 是云原生技术栈的核心,腾讯云原生经过多年的技术积累以及众多腾讯内外部复杂业务考验已经步入非常成熟的阶段。TKE 目前拥有国内最大规模的 Kubernetes 集群以及业界最好的 Kuber
李盖,容器产品中心后台开发,负责腾讯云 TKE 的对内自研上云业务,主要负责集群调度、资源效率提升、集群稳定性等方向。 引言 在 K8s 集群运营过程中,常常会被节点 CPU 和内存的高使用率所困扰,既影响了节点上 Pod 的稳定运行,也会增加节点故障的几率。为了应对集群节点高负载的问题,平衡各个节点之间的资源使用率,应该基于节点的实际资源利用率监控信息,从以下两个策略入手: 在 Pod 调度阶段,应当优先将 Pod 调度到资源利用率低的节点上运行,不调度到资源利用率已经很高的节点上 在监控到节点资源率较
韩沛,腾讯云高级工程师、专家产品经理,从事云计算行业 8 年,拥有丰富的研发和云产品策划经验。目前主要负责建设腾讯云云原生产品体系,主导 TKE、EKS 等产品及容器化监控、大数据、AI等解决方案的设计工作,并协助推动腾讯各BG 业务架构的云原生化。 本文整理自腾讯云云原生产品团队的专家产品经理韩沛在 Techo 开发者大会云原生专题的分享内容——Kubernetes 混部与弹性容器。本次分享主要分为三部分:基于 K8s 的应用混部、提升应用混部效果的关键、弹性容器对混部集群的价值。 讨论 K8s 的
前言 上篇《减少碳排放上万吨是什么样的高科技?》结合腾讯TencentOS团队在混部方面的落地实战经验,重点介绍混部概念以及TencentOS Server大规模容器集群混部服务器QoS产品“如意”。 “如意”最大实现了动态的资源调度和抢占,空闲时高优先级容器借资源借给低优先级容器使用,需要时再快速抢回来,整个过程在服务器内部完成,容器集群调度层面无需感知和干预,真正做到了提升资源利用率和业务隔离的统一,CPU利用率也从混部前的15%提升到现在45%左右,可使上万台服务器节省电能近2亿度,相当于减少碳排放
7月中旬,腾讯云7*24h售后支持群收到来自X-Girl(化名)客户的消息,客户直呼咱家数据库帮大忙了,想要亲自感谢腾讯云MySQL团队。
良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。
赵轩,高级运维工程师, 腾讯云监控业务运维负责人。 腾讯云监控的 Barad 产品,为云产品提供高效、低成本的海量指标监控服务。 Barad 业务经过云原生能力建设以及容灾能力建设,业务已经实现了自研上云全量级容器化部署及多可用区容灾能力。 Barad 业务上云面临的难点和挑战 在降本增效的大背景下,腾讯云 云监控团队继续提升云原生成熟度,提升系统承载能力和降低单位成本,包括对 Barad 业务在容器化占比提升,跨 az 容灾能力建设,资源利用率优化这些方面,因 Barad 业务量级庞大,如何保障大量级数
2021年5月29-31日Qcon软件大会在北京国家会议中心举行。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。 云计算平台带来 IT 基础设施巨大变革,每一次 IT 基础设施的变革都会激发开发人员去思考能够充分发挥新平台优势的软件设计和开发方法。“云原生”就是一种充分利用云计算模式的优点来构建和运行应用的方法。 无论是构建
Yahoo是Hadoop的最大支持者,Yahoo的Hadoop机器总节点数目已经超过42000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点(每个节点双路4核心CPUboxesw,4×1TB磁盘,16GBRAM)。总的集群存储容量大于350PB,每月提交的作业数目超过1000万个。
王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 弹性伸缩在云计算领域的简述 弹性伸缩又称自动伸缩,是云计算场景下一种常见的方法,弹性伸缩可以根据服务器上的负载,按一定的规则进行弹性的扩缩容服务器。 弹性伸缩在不同场景下的含义: 对于服务运行在自建机房的公司,弹性伸缩通常意味着允许一些服务器在低负载时进入睡眠状态,从而节省电费(以及用于冷却机器的水费和电费)。 对于使用在托管于云上的机房的公司而言,自动扩展可能意味着更低的费用,因为大多数云提供
进入大数据时代,数据量呈爆炸式增长,传统批处理计算模式难以满足日益增长的实时性需求。数据实时化已经成为数字经济时代的必然趋势。实时计算作为一种能够持续处理数据流的技术,能够以毫秒级延迟提供计算结果,为实时分析、风控、推荐等应用场景提供强有力的支持。
刘兆瑞,腾讯云高级研发工程师,负责腾讯明眸极速高清,画质重生等产品。专注于codec优化,画质增强等技术。 背景和问题 随着流量资费的降低和带宽的增加,视频成为人们获取信息越来越重要的方式,随之而来的是云点播、视频处理等视频相关业务的飞速发展,而视频转码平台作为云点播、视频处理的基础产品,面临着高并发、高 SLA、高压缩率等等多样的需求,面临着极大的挑战。 对于一般流程来说,我们面临着下面几个挑战和诉求: 不同的转码产品对核心数的需求不同,比如:极速高清、延时敏感的业务,需要大核心来保证复杂运算的稳定性,
李汇波,腾讯业务运维高级工程师,目前就职于TEG 云架构平台部 技术运营与质量中心,现负责微信、QQ社交类业务的视频转码运维。 摘要 随着短视频兴起和快速发展,对于视频转码处理的需求也越来越多。低码率高清晰,4K、超清、高清、标清适配不同终端和不同网络环境来提升用户体验,以及水印、logo、裁剪、截图等多样化的用户需求。 对于资源的多样化需求和弹性扩缩容也需要快速响应,而随着公司自研上云项目的推进,设备的稳定性和多样性可提供更多选择,来满足像朋友圈、视频号、广告、公众号等转码业务快速、稳定、抗突发的资源需
1月9日,腾讯云宣布将开源其服务器操作系统TencentOS内核。相比业内其它版本Linux 内核,腾讯云 TencentOS 内核在资源调度弹性、容器支持、系统性能及安全等层面极具竞争力,特别适合云环境。该系统的开源及应用可帮助客户大幅提升云上资源的利用效率,降低运营成本,同时获得更加安全可靠的业务运行环境。
更省了(支持快速扩缩容)、更快了(敏捷迭代新功能)、也更稳了(即使发生故障也能单点重启,不至于整体停机)。
近期在ChinaUnix论坛有一场讨论,标题是——云计算时代:运维人员会踩到哪些坑? 整个讨论过程非常活跃,大概有50个答复,运维派这就给大家整理了一些讨论的优质内容分享给大家。 背景: 在云计算领
1月9日,腾讯云宣布将开源其服务器操作系统TencentOS内核。相比业内其它版本Linux 内核,腾讯云 TencentOS 内核在资源调度弹性、容器支持、系统性能及安全等层面极具竞争力,特别适合云环境。该系统的开源及应用可帮助客户大幅提升云上资源的利用效率,降低运营成本,同时获得更加安全可靠的业务运行环境。 TencentOS是腾讯云操作系统系列产品,由腾讯云架构平台部主力研发,覆盖数据中心、桌面系统、边缘设备和物联网终端等应用场景,提供可靠的云平台构建、接入和应用能力,帮助客户转化云的价值。Te
腾讯云服务器是很多人在使用的国内云服务器,占据了国内云服务器市场相当的份额。其稳定性和快速访问速度都有目共睹。经过一段时间的使用之后,我们的业务已经有了一定的访问量,这时候经过调整、优化服务器性能的阶段,可能偶尔会有服务器变慢、卡顿的情况发生,反复调试后排出了程序错误和服务器错误的可能,那么时间久了我们会考虑是否是服务器配置已经满足不了业务需求了,这时候如何判断腾讯云服务器是否要升级配置呢?下面魏艾斯博客根据个人的使用经验来解释一下这个问题。
刚刚过去的 2021 年,在全球经济增长放缓、疫情时起时伏、中美关系摩擦不断、国家平台监管趋严等宏观趋势叠加影响下,很多互联网厂商都遭遇了明显的市值下滑以及亏损加大,裁员消息时有耳闻,所以在 2022 年,降本增效无疑将进一步成为业界大势所趋。
本文介绍了腾讯云容器服务中的监控能力,包括指标、视图、统计方式和计算方式等方面的介绍。
胡启明,腾讯云专家工程师,开源项目Crane的Founder和负责人。 背景 随着越来越多的企业将应用程序迁移到 Kubernetes 平台,它逐渐成为了资源编排和调度的重要入口。众所周知,Kubernetes 会按照应用程序申请的资源配额进行调度,因此如何合理的配置应用资源规格就成为提升集群利用率的关键。这篇文章将会分享如何基于 FinOps 开源项目 Crane 正确的配置应用资源,以及如何在企业内推进资源优化的实践。 Kubernetes 如何管理资源 Pod 资源模型 在 Kubernetes 中可
作者 | 王涛 仅用三年时间,基于腾讯云 TKE 底座,腾讯自研业务容器化规模已达到千万核级别的 CPU 资源规模。面对如此海量的异构资源和复杂多样的业务场景,腾讯是如何做到资源利用率 65% 的?在调度编排、弹性伸缩、应用管理、稳定性保障等方面,腾讯又有哪些秘籍?在 ArchSummit 2022 全球架构师峰会(深圳站)上,腾讯云自研上云容器平台负责人王涛发表了题为《如何管理超千万核资源的容器规模》的演讲,为大家逐一揭秘。 腾讯自研业务容器化上云历程 腾讯自研业务容器化上云的技术路线经历了多个阶段
王玉君,腾讯云后台工程师,拥有多年大规模Kubernetes集群的开发运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。 谭春强,腾讯云后台工程师,拥有两年大数据EMR集群管控运维经验,目前负责腾讯云大数据EMR组件的容器化方向。 1.引言 随着云原生概念的兴起,越来越多的企业投身于云原生转型的浪潮,以解决传统应用面临的弹性能力不足、资源利用率较低、迭代周期较长等问题。通过云原生技术(如容器,不可变基础设施和声明式API等),使得企业在公有云、私有云和混合云等云环境构建和运
timxbxu,腾讯云专家工程师,深耕云计算、Kubernetes、离在线混部、GPU 容器化领域,Kubernetes 社区积极贡献者。 jikesong,腾讯云异构计算研发负责人,KVM上第一个 GPU 全虚拟化项目 KVMGT 作者,对 GPU 虚拟化有深入的研究。 zoeyzyyan,腾讯云容器产品经理,专注资源管理、降本增效、云原生AI领域。 背景 qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU卡,并提供容器间显存、算力强隔离的能力,从而在更小粒度的使用 GPU 卡
陈凯悦,腾讯云高级开发工程师,Crane和SuperEdge项目核心开发。专注于大规模离在线混部和资源调度,目前负责Crane离在线混部和调度相关工作。 颜卫,腾讯高级开发工程师,Crane项目核心开发。专注于Kubernetes大规模集群管理和成本优化,丰富的超大规模集群管理和混部经验。目前负责Crane离在线混部和资源优化相关工作。 作为云平台用户,我们都希望购买的服务器物尽其用,能够达到最大利用率。然而要达到理论上的节点负载目标是很难的,计算节点总是存在一些装箱碎片和低负载导致的闲置资源。下图展示了
林顺利,腾讯云原生产品经理,负责分布式云产品迭代和注册节点客户扩展,专注于云原生混合云新形态的推广实践。 背景 企业在业务的持续运维过程中,感受到腾讯云 TKE 带来的便捷性和极致的使用体验,将新业务的发布以及老业务的维护都迁移到云上 TKE 来实现。但很多企业数据中心建设较为早期,选型上采取了自建 IDC 机房的方案,长久以来的 IDC 运营维护和企业上云的诉求产生了冲突和矛盾: 1、资源难利旧/利用率低 业务大部分在云上运行,存量的 IDC 主机难以利旧; 云下资源业务利用率低(主要是 CPU 资源),
前言 腾讯云CloudVPN服务从采购商用设备转为全栈自研以后,发展进入快车道,除先后推出路由型通道、主备通道、SHA2和DPD等VPN高级功能外,近期更是推出 了单通道单流支持3Gbps的高性能网关,以及方便客户进行员工账号统一管理的SSO和便于访问控制的用户组策略。其中,高性能特性一经推出就在短期内服务于多个行业头部客户,为客户排除拉专线难的困局。本文将围绕高性能及SSO这两大特性,详细介绍其应用场景、如何实现以及腾讯云VPN服务在自研过程中的一些方案和经验。 先行先试,基于VPN极速搭建客户混
近年来,公有云、混合云等技术在全球迅速发展,云的普及度越来越高,Docker、Kubernetes、DevOps、Service Mesh 等云原生技术蓬勃发展。但在“上云”之后,企业却往往发现“用云”并没有那么容易。
陈凯悦,腾讯云高级开发工程师,Crane和SuperEdge项目核心开发。专注于大规模离在线混部和资源调度,目前负责Crane离在线混部和调度相关工作。 孟凡杰,腾讯云容器专家工程师,Crane项目发起人,致力于云原生成本优化,腾讯云降本产品研发负责人。 背景 用户使用云时,为不同特征的业务完成精确的资源配置不是一件容易的事情。FinOps 时代如何玩转应用资源配置 提供了诸多最佳实践。我们再来借助下图的单节点资源使用情况探讨一下资源合理利用的挑战,为简化问题,我们只关注核心资源 CPU。 假设该节点总计
在论坛上,国外某企业的真实案例引发了热议。一开始该企业只顾技术创新,积极上云,不顾成本。
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 前言 4月14日,2016 ODCC技术分享和成果宣贯会在深圳召开。开放数据中心委员会的技术专家分享了各自研究领域的最新进展及部分已公开成果。ODCC服务器工作组项目经理、腾讯服务器平台中心架构师王伟,介绍了天蝎3.0在整机设计优化方面的思考,并向行业征求意见。 和小编一起
从整体的资源角度看,有赞数据中台机器数量在 1500 台左右,其中大部分是物理机,也有一部分是虚拟机,同时有 100 个左右的应用、4 万个核,数据规模在 15 PB 左右。
汤英康,腾讯高级工程师、Kubernetes 开源协同 PMC,负责TEG信息安全部的容器化上云相关工作。 引言 截止到2021年5月,TEG 信安运维团队历时一年,完成了 TKE 容器从0到1的平台能力建设,集群总规模超过60万核,在资源成本、服务质量和运营效率上都取得了明显的收益。本文将介绍信安 TKE 容器的建设思路和历程,分享各阶段遇到的问题和方案,希望能给其他上云团队提供一些参考。 背景 信安致力于提供专业的内容安全解决方案,承接了公司内外大量的业务安全需求,随着业务量的迅速增长,信安内部的资源
庚子新春,一场突其而来的疫情打乱了中国经济秩序。但经济终要复苏,此时,线上会议服务成为企业远程工作的重要协同工具。
董晓聪,作业帮基础架构负责人,主要负责架构研发、运维、DBA、安全等工作。基于开源的力量,和云厂商一起完成作业帮技术体系的云原生重塑。 项目背景 作业帮教育科技(北京)有限公司成立于2015年,一直致力于用科技手段助力教育普惠,运用人工智能、大数据等前沿技术,为学生提供更高效的学习解决方案。随着业务需求的发展,作业帮的 IT 系统面临巨大挑战,现有基础平台架构已经无法满足快速增长的业务需求。业务对快速迭代、急速弹性、调用链追踪、统一的监控日志平台、提升计算资源利用率等需求迫在眉睫。 2019年下半年,作业
云行业进入了生成式 AI 时代,除模型算法外,头部企业纷纷将大量精力投入到解决算力和互联问题上。然而,如果没有网络支持,计算的篇章就无法开启。
C站这么多大佬都讲了如何去实践Docker或者K8s简单实战,笔者也没有真实做过一些云原生实战项目,都是跟着B站大学学过一些简单概念与基本入门的命令。也就不多写这些知识了!
11月24日,腾讯云正式宣布加入FinOps基金会,作为国内首家FinOps基金会顶级会员,腾讯云将联合FinOps基金会,全面推进对FinOps标准和最佳实践的贡献,为企业提供云财务管理的最佳解决方案。
11月24日,腾讯云正式宣布加入FinOps基金会,作为国内首家FinOps基金会顶级会员,腾讯云将联合FinOps基金会,全面推进对FinOps标准和最佳实践的贡献,为企业提供云财务管理的最佳解决方案。 “作为中国云原生技术和应用的领导者,腾讯云拥有中国最大的Kubernetes集群。我们非常期待能够与腾讯云进行合作,帮助企业和组织有效管理云使用成本,实现云的商业价值最大化。同时,借助腾讯云在FinOps社区的专业能力,我们将进一步推动云和FinOps在中国的持续发展。”FinOps基金会的M
“缺芯少魂”一直是我国信息产业发展的一大难题,而“少魂”就是指操作系统等基础软件薄弱。“拿来主义”这种传统解决方式在给我们带来便利的同时,也桎梏了我们的创新。腾讯的操作系统研发也走过了从拿来主义到创新研发的道路。云计算时代,操作系统向下适配多元化硬件,向上支撑多样化产品,其重要性不言而喻。让我们一起了解下腾讯操作系统的创新之路。
腾讯TLinux团队提出了一套全新的混部方案,在不影响在线业务的前提下,对整机CPU利用率提升效果非常明显,在有的业务场景下,整机CPU利用率甚至能提升至90%。 一、前言 腾讯运营着海量的服务器,且近年的增长有加速的趋势,成本问题日益严峻。其中,CPU利用率不高一直是影响整机效率的短板。 试想一下,如果能让整机的CPU利用率翻一翻,是什么概念? 这相当于把一台机器当两台使用,能为公司节省巨额的成本开销。因此,各BG各业务都在想办法提升整机CPU利用率。大家尝试让各种业务混部,试图达到提高整机CPU利用
11月24日,腾讯云正式宣布加入FinOps基金会,作为国内首家FinOps基金会顶级会员,腾讯云将联合FinOps基金会,全面推进对FinOps标准和最佳实践的贡献,为企业提供云财务管理的最佳解决方案。 “作为中国云原生技术和应用的领导者,腾讯云拥有中国最大的Kubernetes集群。我们非常期待能够与腾讯云进行合作,帮助企业和组织有效管理云使用成本,实现云的商业价值最大化。同时,借助腾讯云在FinOps社区的专业能力,我们将进一步推动云和FinOps在中国的持续发展。”FinOps基金会的
领取专属 10元无门槛券
手把手带您无忧上云