Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >降本超30%,智聆口语通过 TKE 注册节点实现 IDC GPU 节点降本增效实践

降本超30%,智聆口语通过 TKE 注册节点实现 IDC GPU 节点降本增效实践

作者头像
腾讯云原生
发布于 2023-01-09 04:10:14
发布于 2023-01-09 04:10:14
3.2K00
代码可运行
举报
运行总次数:0
代码可运行

杨豪,腾讯云研发工程师,腾讯云智聆口语评测研发骨干。目前负责腾讯云智聆口语评测整体架构优化与系统迭代,专注于降本增效与服务可靠性提升。

邓琨,腾讯云高级研发工程师,专注于微服务云原生架构探索。负责智聆口语评测自动化运维上云建设,助力业务降本增效。

背景介绍

腾讯云智聆口语评测(Smart Oral Evaluation,SOE)是腾讯云推出的中英文语音评测产品,支持从儿童到成人全年龄覆盖的语音评测,提供单词、句子、段落、自由说等多种评测模式,从发音精准度、流利度、完整度等全方位打分机制,与专家打分相似度达 95% 以上,可广泛应用于中英文口语教学场景中。

在降本增效的大环境下,业务积极寻求成本更优的解决方案,且由于已经积累了 IDC 物理机、云上虚拟机和云上 Serverless 容器服务等多套部署环境,业务架构十分臃肿,运维难度非常高,业务急需一套更加统一的方案降低系统复杂度。

问题与挑战

产品侧的降本诉求

问题

在当前降本增效大环境下,如何控制产品成本成为一个越来越重要的命题,经历了两个发展时期后,我们不得不试着上手抽丝剥茧,尝试解决这个问题。

挑战

因为业务发展历史及业务架构原因,当前资源 buffer 较多,资源利用率较低,系统成本居高不下,主要有以下两个问题:

扩容成本非常高:由于本身是 AI 评测类业务,依赖大量 GPU 资源,而 GPU 机器从资源申请到交付,再到服务部署调试与流量接入,周期通常是天级的,无法应对早晚高峰的尖峰流量,所以需要为高峰期预留大量 buffer。

资源流转效率低:同时业务侧存在中英文评测服务,AI 引擎是两套模型,而模型间的部署切换成本也比较高,这也导致我们需要预留双份的 buffer。

客户侧日渐丰富的流量模型

问题

日渐丰富的业务场景:在工作日非工作日、早晚高峰和中英文评测的多种条件组合下产生了非常多场景,通过提前备量去 cover 所有场景成本是不可行的。

无法预估的业务增量:部分客户的量受疫情影响非常大,且经常是不可预期的,客户自己也无法预估评测用量会达到什么量级,这也导致我们无法精准地提前备量。

削不掉的尖峰流量:部分客户存在非常明显的尖峰流量,用户会集中在晚高峰的某几个时间点进行评测,尖峰流量通常是平峰期的10倍以上,且客户依赖实时结果返回,无法通过异步评测的方式削峰。

挑战

运维难度高:当前架构下无法支持业务侧高效地进行资源流转、更无法快速完成弹性扩容。

服务质量难保障:引擎服务故障节点剔除依赖人工操作,无法快速完成故障自愈;引擎服务部署方式多样,物理机/虚拟机/容器方案并存,无法搭建统一的可观测体系。

新架构

需求

资源利旧:业务侧绝大部分机器还在 IDC 物理机房,且物理机性价比高于虚拟机,上云过程中期望能把这部分机器利用起来,降低整体成本。

网络连通:云上云下服务网络需打通,且业务侧跨地域调度流量容灾的需求,引擎层需要能够被多集群接入层访问。同时,由于不同机型不同规格的引擎层消费能力不同,至少需要支持自定义权重的静态负载均衡策略。

拥抱云原生:升级系统架构,落地混合云方案,全面拥抱云原生。云原生生态下已经有非常多最佳实践与解决方案,业务面临的许多问题在云原生场景下都能找到很好的解法,把业务搬迁上云不是目的,上云是更高效、优雅的解决业务面临的服务扩缩容、服务故障自愈、服务可观测等问题的手段。

选型 - TKE 注册节点集群

能力介绍

TKE 注册节点原第三方节点)是腾讯云原生团队针对混合云部署场景,全新升级的节点产品形态,允许用户将非腾讯云的主机,托管到容器服务 TKE 集群,由用户提供计算资源,容器服务 TKE 负责集群生命周期管理。业务侧可以通过注册节点的特性,将 IDC 主机资源添加到 TKE 公有云集群,确保在上云过程中存量服务器资源得到有效利用,同时支持在单集群内同时调度注册节点、云上 CVM 节点及云上超级节点,便于将云下业务拓展至云上,无需引入多集群管理。

添加了注册节点的集群,可能包含众多不同网络环境的计算节点,如 IDC 网络环境和公有云 VPC 网络环境的计算节点。为了屏蔽底层不同网络环境的差异,腾讯云原生团队推出了基于 Cilium Overlay 的混合云容器网络方案。实现在容器层面看到的是统一的网络平面,使得 Pod 无需感知其是运行在 IDC 的计算节点还是公有云的计算节点,加上云梯环境与内网环境本就是互通的,这也就奠定了智聆业务上云选型的基础。

TKE 注册节点架构

(图自[注册节点-网络模式]官网文档:https://cloud.tencent.com/document/product/457/79748)

业务架构方案

在新架构各层部署方式较平台期时期都有了较大改变:

1、接入层部署在超级节点上,充分利用资源弹性能力;

2、引擎层服务通过不同的 Deployment 部署在 IDC 节点、CVM 节点和超级节点上,均以 Pod 的形式对外服务,屏蔽掉部署环境的区别;

3、基于第二点移除了Serverless容器服务 Pod 的流量接入层,减少一次转发,优化流量调度;

流量路径

客户流量就近接入云 API 网关后,云 API 网关通过北极星名字服务进行服务发现,实现流量就近接入业务侧 CLB。业务侧 CLB 直连接入层 Pod,流量到达业务侧后,接入层服务再次根据名字服务通过北极星进行服务发现,获取 RS IP 后请求引擎层消费。新方案在接入层屏蔽了引擎部署环境和各资源池的区别,接入层仅通过配置去北极星获取对应 RS IP 后请求即可,降低了流量调度的复杂度。

服务部署

接入层

接入层通过节点亲和性调度至超级节点部署,通过 HPA 配置利用云上弹性扩缩容能力进行削峰填谷,对比部署在 CVM 节点上的方案有以下几个优势:

1、扩缩容更方便、更灵敏:若部署在 CVM 节点上需要配置 Cluster Autoscaler 使用,需要先扩容出 CVM 节点,再扩容 Pod,耗时会达到分钟级,而超级节点可以实现秒级扩容;

2、成本更优:CVM 节点加入集群后需要扣除集群管理预留的部分,且集群组件本身有超10个 DaemonSet,也会额外再占用一部分资源,实际资源使用率明显低于超级节点;

3、管理复杂度更低:不需要维护节点资源,超级节点可按需添加,根据业务情况灵活调整;

引擎层

引擎层则需要充分利用 TKE 集群注册节点能力,通过节点亲和性配置分别部署在 IDC 节点、CVM 节点和超级节点上,其中 IDC 节点为利旧资源,CVM 节点为后续常备的基础资源,超级节点为弹性伸缩资源。

既然前面接入层部署时讲了那么多超级节点的优点,那引擎层部署时为什么又需要 CVM 节点呢?

成本更优

引擎服务不仅依赖于 GPU 资源,对 CPU/MEM 也有高的需求,而超级节点支持的 GPU 节点规格有限,推理型 GI3X 机型相对于Serverless容器服务弹性出来的 T4 卡规格具有更强的 CPU 和更多的 CPU/MEM 配比,对于业务侧的性价比更高。

服务发现

北极星

接入层与引擎层整体均借助北极星进行服务发现,但根据接入层与引擎层需求选取了多种暴露服务的方式。

接入层

接入层通过内网 LoadBalancer 型 Service 暴露服务,北极星绑定 LB IP。业务还采用了 LB 直连 Pod 的模式减少 NodePort 转发,这里其实最开始没有采用直连的形式,也是踩了个坑,后文中会提到。

引擎层

IDC 节点与 CVM 节点上的引擎容器通过 Docker Host Network 网络模式与节点共享网络堆栈,使得容器暴露端口可直接映射到节点上,故北极星直接绑定 Pod IP(也是节点 IP)即可,而超级节点上的 Pod IP 为真实的内网 IP,也能直接在北极星上绑定 Pod IP,通过这样选型可以屏蔽掉 Pod 调度到不同节点上的差异,统一上报为容器 IP。

事实上如果要实现以上效果方案是比较多的,这里也大致对比了下,可以根据实际情况进行选择。业务侧刚好单个 IDC/CVM 节点仅运行一个引擎 Pod,且节点上也不会再运行其他服务,故不存在端口争用的问题,对比下来业务侧选择了性能更优,实施也更为简洁的 hostNetwork 方案。

实现方案

hostNetwork

hostPort

NodePort Service

备注

-

-

需配置添加以下配置防止流量调度至其他 Node上 .spec.externalTrafficPolicy: True

优点

性能最优

-

应用广泛,也是 K8s 官方更推荐的方案不存在端口争用的问题,支持一个 Node 上运行多个 Pod 的情况

缺点

可能存在端口争用的问题

可能存在端口争用的问题;需要业务侧自行维护 Node 与 Pod 的映射关系;多一次转发,会有一定的性能损耗

需要业务侧自行维护 Node 与 Pod 的映射关系;多一次转发,会有一定的性能损耗

服务运维
灰度发布

接入层

前文中提到使用 Service 来暴露接入层服务,而 Service 通过 Label Selector 来选取 Pod,我们可以通过两个 Deployments 来管理这组 Pod,然后通过调整 Pods 数量来调整流量比例,从而实现灰度发布的功能。

需要关注的是我们采用 LB 直连 Pod 的方案,这种方案下默认仅在 Pod 被删除后才会从 LB RS 中移除,为实现服务优雅停机需新增两条配置,这样在 Pod 处于 terminating 状态时就会把 CLB RS 的权重调0,防止流量持续接入。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kind: Service
apiVersion: v1
metadata: 
  annotations: 
    service.cloud.tencent.com/direct-access: "true" ## 开启直连 Pod 模式
    service.cloud.tencent.com/enable-grace-shutdown: "true"  # 表示使用优雅停机
  name: my-service
spec: 
  selector: 
    app: MyApp

引擎层

引擎层的实现更为简单,前文中也提到引擎服务的注册与反注册是由服务自身完成的,我们只需要与接入层一样调整两组 Deployment 的数量就能实现灰度比例控制。

服务可观测

日志

日志方案统一使用 CLS 采集,并且通过 CLS 跨地域采集的功能采集至同一个日志 topic 中进行检索分析,简化现网日志检索复杂度。

监控

监控方案统一为云监控方案,通过云 Prometheus 采集基础指标及业务指标进行展示分析,减少多套监控体系学习与维护成本。

基础监控 - 云 Prometheus 接入集群监控后自带多个面板,基本符合需求,业务侧只需要完成 GPU 数据的采集上报即可。

业务监控 - 业务侧引入 Prometheus SDK 暴露并配置 job 进行采集即可。

告警

告警方案也统一为云监控告警,借助云监控的能力覆盖邮件、企微微信、电话等多种渠道,减少告警渠道维护成本与多套告警规则配置学习成本。

异常节点剔除

当 Pod 异常时应该及时切断流量,保证流量不会持续进到异常pod内导致现网服务受损,提供两种方案,经调研业务侧选择方案二:

方案一:Liveness Probe

配置存活探针,业务健康检查异常时直接杀死 Pod,而后进入上文提到的 Pod 优雅退出流程,阻断流量进入异常 Pod。

方案二(推荐):Readiness Probe + Readiness Gate

配置就绪探针,业务健康检查异常时将 Pod 状态置为 Not Ready,配合 ReadinessGate 机制,当检测到 Pod 状态为 Not Ready 时将相应 LB RS 权重调0,阻断流量进入异常 Pod。

该方案的好处是能够保留事故现场用于 debug,便于快速定位问题,配合云监控告警即可实现快速感知。

调度方案
服务调度-动态扩缩容能力

业务侧之所以选择自研 scheduler 服务是因为业务侧有灵活的扩缩容诉求,除了常规的 HPA&HPC 的能力,scheduler 服务还有以下功能:

1、HPA&HPC 规则均作用于资源池级别,原生 HPA&HPC 仅支持 Deployment/StatefulSet 级别;

2、业务侧有资源流转的需求,如北京地域早高峰中文评测的量很高,而英文早高峰相对较低,需要支持通过调整中英文引擎 Pod 数量的方式提高资源整体利用率;

3、业务侧有保障扩容成功率的需求,由于业务侧需要的 GPU 资源数量较多,故需要通过切换规格和切换地域等方式提高扩容成功率;

流量调度-资源隔离

引擎层资源隔离借助北极星动态路由的能力实现,服务(大池子)、别名(公共池/各大客户专有池)和别名路由(池子划分规则)需要提前创建好。自研 scheduler 服务根据配置为引擎 Pod 打标并注入别名列表,接入层在拿到对应别名后向北极星获取 RS IP 请求即可,不需要感知流量路由到哪个池子。

前置工作

1、创建统一的北极星服务;

2、创建各资源池北极星别名;

3、在北极星服务下创建各别名路由规则,选取对应 label 的 RS。

引擎启动注册流程

1、引擎服务启动后自行注册至统一的北极星名字服务下;

2、scheduler 服务监听到存在未打 label 的 RS 则根据规则及各资源池当前负载情况进行打标,用于标记是哪个资源池;

3、scheduler 服务根据规则判断当前资源池是否生效,若生效则注入接入层访问引擎层的别名列表。

用户请求流程

1、接入层获取别名;

2、接入层通过别名向北极星获取 RS IP;

3、接入层请求 RS IP;

取得效果

降本增效

服务扩容到流量接入耗时优化至分钟级,自研 scheduler 服务结合 Serverless 容器服务弹性扩容能力进行削峰填谷,降低超30%系统成本,节约2个运维人力。

自研 scheduler 服务进行资源流转,早高峰期将闲置的英文节点资源转换为中文节点资源,减少北京地域近90%早高峰扩容需求。

资源流转-优化前

资源流转-优化后

(上图是优化前效果,早高峰需要扩容大量中文节点,下图是优化后效果,早高峰仅扩容少量资源。)

服务质量提升

接入层异常节点剔除

接入层通过业务侧配置的 Readiness Probe 探测服务存活,当心跳失败时配合 ReadinessGate 机制将 CLB 中对应 RS 的流量路由权重置0,以此实现异常节点自动剔除,保障现网服务质量。

引擎层异常流量剔除

引擎层通过北极星心跳上报的形式探测服务存活,当心跳失败时北极星自动将对应 RS 状态置为异常,以此实现异常节点自动剔除,保障现网服务质量。

过程遇到的问题

大集群方案未能实现

期望

最初设想是由一个 TKE 集群纳管所有节点(IDC 节点、云上 CVM 节点、云上超级节点),以此来简化整体服务部署,提高集群间资源流转效率,进一步降低整体方案复杂度

问题

当前集群暂不支持绑定多地域 CLB,也暂不支持加入多地域超级节点,导致无法实现服务就近接入和弹性多地资源

妥协方案

当前单地域大集群的方案,各地域均部署一个集群。

CVM转发性能瓶颈

问题表现

高峰期出现 connection reset by peer 的报错,报错比例低于0.01%,经排查均来自某个 CLB IP。

问题成因

查看 CLB、Pod 的监控均正常,在 Pod 内部署抓包也没发现异常的握手请求,而且业务侧 LB 是内网四层 LB,当前流量应该远没有达到 LB 的性能瓶颈。

正在一筹莫展之际开始重头排查整条链路,发现业务虽然选择的是 LB 型 Service,且 Pod 部署在超级节点上,但是 LB RS 却是 CVM 节点,流量还是通过 NodePort 的形式进入集群,再由 K8s 内部网络转发至对应服务 Pod,接入层 Pod 能够借助超级节点的能力弹性扩缩容,但是 CVM 节点数量却是固定的,就成为了系统的性能瓶颈。

知道有这么条链路之后再登录 CVM 节点验证,发现确实是 CVM 节点的连接数被打满了,导致部分连接被拒绝。

(图自容器服务官网文档)

解决方案

到这儿解决方案也非常清晰了,借助 TKE 提供的 CLB 直连 Serverless 容器服务 Pod 的能力去掉 NodePort 转发,流量均匀的打到 Serverless容器服务 Pod 上,Serverless 容器服务 Pod 又可以弹性扩缩容,以此就解决了性能瓶颈的问题。

(图自容器服务官网文档:https://cloud.tencent.com/document/product/457/48793)

总结

在不同的业务发展阶段需要选择合适的架构,没有完美的方案,需要随着技术迭代不断调整,固步自封只会让研发成为业务的短板。业务上云最终导向都应该是业务成功,服务于降本增效、提高服务质量等目标,上云后业务能够背靠腾讯云,借助各云产品强大的能力快速实现业务需求,降低技术使用门槛

互动问答

本期问题:

接入层服务是通过 K8s Service 的形式暴露的,为什么引擎层服务要直接暴露 POD IP+端口,不能通过 K8s Service 的形式暴露?

参与方式:

点击下方留言回答问题,即有机会获得腾讯视频月卡(1月9日上午11点,由作者选出回答最佳的3位读者,送腾讯视频月卡一张。)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云原生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
公有云降本增效最佳实践
最近看到了几个事情,一个是某保险系统,为了快速上线,全量上云,结果生产正式运行后每月账单高达几十万。相关业务总扛不住这个支出,又劳师动众,让下面的项目经理、开发、运维、架构师花了3个月把业务全量从公有云迁移下来。相关人员被折磨的半死不活,而且大大拖慢了系统的迭代速度。
东风微鸣
2022/04/22
2.6K0
宙斯盾 DDoS 防护系统“降本增效”的云原生实践
tomdu,腾讯云高级工程师,主要负责宙斯盾安全防护系统管控中心架构设计和后台开发工作。 导语 宙斯盾 DDoS 防护系统作为公司级网络安全产品,为各类业务提供专业可靠的 DDoS/CC 攻击防护。在黑客攻防对抗日益激烈的环境下, DDoS 对抗不仅需要“降本”还需要“增效”。 随着云原生的普及,宙斯盾团队持续投入云原生架构改造和优化,以提升系统的处理能力及效率。本文主要介绍宙斯盾防护调度平台上云过程实践与思考。 为什么上云? 云原生作为近年来相当热门的概念,无论在公司内各部门,还是公司外各大同行友商,都
腾讯云原生
2021/10/19
2.2K0
案例 | 信安运维基于 TKE 平台的容器技术实践
汤英康,腾讯高级工程师、Kubernetes 开源协同 PMC,负责TEG信息安全部的容器化上云相关工作。 引言 截止到2021年5月,TEG 信安运维团队历时一年,完成了 TKE 容器从0到1的平台能力建设,集群总规模超过60万核,在资源成本、服务质量和运营效率上都取得了明显的收益。本文将介绍信安 TKE 容器的建设思路和历程,分享各阶段遇到的问题和方案,希望能给其他上云团队提供一些参考。 背景 信安致力于提供专业的内容安全解决方案,承接了公司内外大量的业务安全需求,随着业务量的迅速增长,信安内部的资源
腾讯云原生
2021/06/30
7570
好未来基于北极星的注册中心最佳实践
业务背景 好未来是一家以智慧教育和开放平台为主体,在全球范围内服务公办教育,助力民办教育,探索未来教育新模式的科技教育公司,旗下拥有学而思素养、学而思网校等品牌。作为国家新一代人工智能开放创新平台在教育行业的代表,好未来深耕教育场景,目前已积累15大类共计170余种AI能力,覆盖视觉、语音、自然语言处理等多个方向,引领教育+AI发展的同时,助力中小行业伙伴的成长,推动教育新生态建设。 2021年好未来 AI 中台业务规模激增,日调用量超6亿,总调用量上千亿。相比2020年增长约9倍,并持续呈现增长趋势。业务
腾讯云中间件团队
2022/11/03
1.1K0
好未来基于北极星的注册中心最佳实践
小红书的降本增效之路
作者 | 孙晓飞 整理 | 马可薇 策划 | 孙瑞瑞、丁晓昀 本文由 InfoQ 整理自小红书基础技术部后端开发 孙晓飞 在 QCon 全球软件开发大会(北京站)2022 上的演讲《小红书的降本增效之路》。 大家好,我是孙晓飞,目前就职于小红书容器架构组,负责团队内调度系统整体工作,拥有 6 年云原生相关开发设计经验,是 Kubernetes 和 Volcano member。本文将分享过去一年中,容器架构团队为小红书和整体容器服务在降本增效方面所采用的方案措施。 小红书与云原生 小红书早
深度学习与Python
2023/04/21
8770
小红书的降本增效之路
日均服务调用超65万亿!腾讯是怎么做云原生微服务治理的?
云原生时代,越来越多的企业借助于微服务与容器化,来提升业务弹性与研发效率。在服务治理的道路上,我们也吸取各家之所长打磨了相关的产品。本次分享以腾讯微服务架构建设为主,介绍了 TCS/TSF、北极星(PolarisMesh)和微服务治理方面的实践经验,以及在企业的相关落地案例。
腾讯云开发者
2024/12/03
9030
日均服务调用超65万亿!腾讯是怎么做云原生微服务治理的?
不止是上云,更是上岸
常耀国,腾讯SRE专家,现就职于PCG-大数据平台部,负责千万级QPS业务的上云、监控和自动化工作。 背景 BeaconLogServer 是灯塔 SDK 上报数据的入口,接收众多业务的数据上报,包括微视、 QQ 、腾讯视频、 QQ 浏览器、应用宝等多个业务,呈现并发大、请求大、流量突增等问题,目前 BeaconLogServer 的 QPS 达到千万级别以上,为了应对这些问题,平时需要耗费大量的人力去维护服务的容量水位,如何利用上云实现 0 人力运维是本文着重分析的。 混合云弹性伸缩 弹性伸缩整体效果
腾讯云原生
2021/12/01
1.2K0
视频案例 | AMS 新闻视频广告的云原生容器化之路
卓晓光,腾讯广告高级开发工程师,负责新闻视频广告整体后台架构设计,有十余年高性能高可用海量后台服务开发和实践经验。目前正带领团队完成云原生技术栈的全面转型。 吴文祺,腾讯广告开发工程师,负责新闻视频广告流量变现相关后台开发工作,熟悉云原生架构在生产实践中的应用,拥有多年高性能高可用后台服务开发经验。目前正推动团队积极拥抱云原生。 陈宏钊,腾讯广告高级开发工程师,负责新闻视频广告流量变现相关后台开发工作,擅长架构优化升级,有丰富的海量后台服务实践经验。目前专注于流量场景化方向的广告系统探索。 一、引言 新闻视
腾讯云原生
2022/05/25
1.2K0
视频案例 | AMS 新闻视频广告的云原生容器化之路
微服务架构下路由、多活、灰度、限流的探索与挑战
导语 2022腾讯全球数字生态大会已圆满落幕,大会以“数实创新、产业共进”为主题,聚焦数实融合,探索以全真互联的数字技术助力实体经济高质量发展。大会设有29个产品技术主题专场、18个行业主题专场和6个生态主题专场,各业务负责人与客户、合作伙伴共同总结经验、凝结共识,推动数实融合新发展。 今年6月,腾讯宣布内部海量自研业务实现全面上云,成为国内最大规模的云原生实践,累计节省IT成本超过30亿元,充分显示腾讯云的产品、技术和综合服务能力。 云原生技术在云计算 PaaS 的应用已经迈入深水区,腾讯云微服务和中间件
腾讯云中间件团队
2022/12/14
1.4K0
微服务架构下路由、多活、灰度、限流的探索与挑战
容器服务 TKE 上服务暴露的几种方式
作者刘飞鸿,腾讯游戏高级工程师,热衷于开源、云计算相关技术。目前主要负责腾讯游戏后台架构设计和运维工作。 预备知识 1. K8S 上 Service 类型 ClusterIP 通过集群的内部 IP 暴露服务,选择该值,服务只能够在集群内部可以访问,这也是默认的 ServiceType。 NodePort 通过每个 Node 上的 IP 和静态端口(NodePort)暴露服务。NodePort 服务会路由到 ClusterIP 服务,这个 ClusterIP 服务会自动创建。通过请求:,可以从集群的外部访问
腾讯云原生
2020/09/14
2.1K0
腾讯服务注册中心演进及性能优化实践
注册中心作为微服务架构的核心,承担服务调用过程中的服务注册与寻址的职责。注册中心的演进是随着业务架构和需求的发展而进行演进的。腾讯当前内部服务数超百万级,日调用量超过万亿次,使用着统一的注册中心——北极星。腾讯注册中心也经历3个阶段演进历程,下文主要分享腾讯内部注册中心的演进历程,以及根据运营过程中的优化实践。
腾讯云中间件团队
2022/09/28
1.1K0
腾讯服务注册中心演进及性能优化实践
kubernetes 降本增效标准指南| 资源利用率提升工具大全
王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 晏子怡,腾讯云容器产品经理,在Kubernetes 弹性伸缩、资源高效利用领域有丰富的实战经验。 背景 公有云的发展为业务的稳定性、可拓展性、便利性带来了极大帮助。这种用租代替买、并且提供完善的技术支持和保障的服务,理应为业务带来降本增效的效果。但实际上业务上云并不意味着成本一定减少,还需适配云上业务的应用开发、架构设计、管理运维、合理使用等多方面解决方案,才能真正助力业务的降本增效。在《Ku
腾讯云原生
2021/04/09
3K1
资源利用率提高67%,腾讯实时风控平台云原生容器化之路
随着部门在业务安全领域的不断拓展,围绕着验证码、金融广告等服务场景,腾讯水滴作为支撑业务安全对抗的实时风控系统,上线的任务实时性要求越来越高,需要支撑的业务请求量也随之增加。对于业务快速上线和资源快速扩缩容的需求,且公司自研上云项目往全面容器化上云方向推进,水滴风控平台开始进行自研上云的改造。本文主要针对腾讯水滴平台上云过程中的实践总结,希望对其他业务迁移上云有一定参考价值。
冬夜先生
2021/09/07
8820
如何削减 50% 机器预算?“人机对抗”探索云端之路
覃竞才,高级工程师,现任职于TEG安全平台部-业务安全中心,目前主要负责中心人机对抗数据平台建设。在后台开发方面具备丰富的设计开发经验。 前言 人机对抗旨在联合各个安全团队,共同治理黑灰产。由于历史原因,业务端对各个安全能力的访问方式入口多,对接系统/协议有十几个,呈现碎片化的状态,对外不利于业务对安全能力的便捷接入,对内不利于安全团队间的协同共建。为了提升各方面的效率,人机对抗服务在建设过程中大范围使用云服务,取得了很好的效果。回顾安全能力上云的过往,是一个从模糊到清晰,从迟疑到坚定的过程,在此给大家做
腾讯云原生
2021/07/20
3410
超时错误码减少99.85%,QQ聊天图片自研上云的技术详解
自研业务存储平台-是 QQ 的富媒体(图片、视频、语音、文件等)数据传输、存储、处理等全链路解决方案的平台。致力于为用户提供稳定快速的群聊 、单聊图片上传和下载服务。为了面对突发热点也能快速响应,作者团队决定对其进行上云处理。本文着重以 QQ 聊天图片(简称:QQ 图片)为例讲述整个上云的过程及调优。
腾讯云开发者
2023/08/18
4760
超时错误码减少99.85%,QQ聊天图片自研上云的技术详解
TKE 注册节点,IDC 轻量云原生上云的最佳路径
林顺利,腾讯云原生产品经理,负责分布式云产品迭代和注册节点客户扩展,专注于云原生混合云新形态的推广实践。 背景 企业在业务的持续运维过程中,感受到腾讯云 TKE 带来的便捷性和极致的使用体验,将新业务的发布以及老业务的维护都迁移到云上 TKE 来实现。但很多企业数据中心建设较为早期,选型上采取了自建 IDC 机房的方案,长久以来的 IDC 运营维护和企业上云的诉求产生了冲突和矛盾: 1、资源难利旧/利用率低 业务大部分在云上运行,存量的 IDC 主机难以利旧; 云下资源业务利用率低(主要是 CPU 资源),
腾讯云原生
2022/12/27
1.7K0
TKE 注册节点,IDC 轻量云原生上云的最佳路径
【TKE】 平台常见问题 QA
本文章将以 QA 方式记录在使用 TKE 产品过程中的可能会遇到的常见问题解答,将不定期更新。
Jokey
2022/10/09
2.8K0
TKE上服务暴露的几种方式
预备知识 1. K8S 上 Service 类型 平台相关基础知识 2. TKE 上四层网络流量暴露方式 3. TKE 上七层网络流量暴露方式 4. TKE 上的 VPC-CNI 5. TKE 上 CLB 直通 Pod 6. TKE 使用已有负载均衡器 7. TKE 使用内网负载均衡器 8. TKE 部署 Nginx Ingress 实际业务场景中最佳实践 1. 对集群内暴露流量 1.1 四层协议 1.2 七层协议 2. 对集群外暴露流量 2.1 七层协议 2.2 四层协议 2.3 端口段规则 2.4 使用Istio
sherlock99
2020/09/07
2K0
TKE上服务暴露的几种方式
用户案例 | 腾讯小视频&转码平台云原生容器化之路
李汇波,腾讯业务运维高级工程师,目前就职于TEG 云架构平台部 技术运营与质量中心,现负责微信、QQ社交类业务的视频转码运维。 摘要 随着短视频兴起和快速发展,对于视频转码处理的需求也越来越多。低码率高清晰,4K、超清、高清、标清适配不同终端和不同网络环境来提升用户体验,以及水印、logo、裁剪、截图等多样化的用户需求。 对于资源的多样化需求和弹性扩缩容也需要快速响应,而随着公司自研上云项目的推进,设备的稳定性和多样性可提供更多选择,来满足像朋友圈、视频号、广告、公众号等转码业务快速、稳定、抗突发的资源需
腾讯云原生
2021/11/17
1.4K0
虚拟节点轻松应对 LOL S11 百万并发流量——腾竞体育的弹性容器实践
刘如梦,腾竞体育研发工程师,擅长高并发、微服务治理、DevOps,主要负责电竞服务平台架构设计和基础设施建设。 詹雪娇,腾讯云弹性容器服务EKS产品经理,主要负责 EKS 虚拟节点、容器实例相关的产品策划。 业务介绍 自 2019 年,腾竞整个电竞赛事数据服务完全由腾讯云 TKE 容器服务承载。腾竞赛事数据开放平台目前主要提供职业赛事数据的授权与查询,随着斗鱼、虎牙、企鹅、掌盟、微信直播、微博等平台的相继接入,平台整体流量有了爆发式的增长。 此前 2021英雄联盟全球总决赛(以下简称 S11) 期间更是创
腾讯云原生
2021/12/07
1.1K0
推荐阅读
相关推荐
公有云降本增效最佳实践
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验