前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >故障定位提速 10 倍!新能源汽车全球化背后的可观测革命

故障定位提速 10 倍!新能源汽车全球化背后的可观测革命

作者头像
腾讯云可观测平台
发布于 2025-04-16 07:48:41
发布于 2025-04-16 07:48:41
1080
举报

引言

随着全球汽车市场的日益竞争激烈,新能源汽车积极拓展海外市场。在这一过程中,确保系统的稳定性和业务的连续性成为至关重要的任务。本文将探讨如何通过应用性能监控(APM)和 Prometheus 监控工具的结合,实现全链路精准监控与业务缺口定位,为新能源汽车出海提供有力保障。

一、自建监控的三大视线盲区

新能源汽车某领军品牌早前在使用自建 Skywalking 与 Prometheus 的时候,因监控系统与资源的关联性不强且埋点不灵活,导致用户无法快速识别应用的性能瓶颈,存在以下三大视线盲区。

1.1、链路-资源解耦困境

无论是自建 Skywalking 还是 Prometheus,它们都像是一座“数据孤岛”,无法与 K8s 集群的原生数据(如 Pod、Namespace、Deployment)联动。在这种情况下,当某个微服务出现性能瓶颈的时候,传统的 Skywalking 只能定义到服务名称以及 IP 地址,却无法直接关联到 K8s 的 Pod 资源使用情况(CPU 使用情况、内存饱和度等)。

这会导致即便观察到订单服务的响应延迟,也无法准确判断是节点资源异常还是接口超时所致。运维人员需要在 Skywalking 和 Prometheus 之间来回切换,才能确认这个平均响应时间过长的问题究竟是由代码问题导致的还是资源问题导致的。

1.2、埋点成本激增

自建 Skywalking 版本更新与维护需要客户负责,且在服务扩缩容或升级版本时,手动改代码和探针注入的操作都太过繁琐复杂,会导致新功能上线进度缓慢。

1.png
1.png

1.3、指标孤岛效应

用户的业务接入自建 Skywalking 后生成的类似响应时间、吞吐量、错误率等自定义指标,无法与用户自己上报到 Prometheus 的业务自定义指标同时展示在 Grafana 面板上,如果要做统一监控大盘,只能在通过自定义上报的方式,上报一份指标到 Prometheus,再通过 Grafana 面板去展示。

2.png
2.png

二、上云后的全景地图

2.1、全息监控矩阵

3.png
3.png

自监控上云后,该企业的每个链路调用都能被精准标识和追踪。通过容器环境一键 Operator 的方式,构建了“链路-指标-日志”三位一体的智能监控系统。

举个例子:当用户投诉“预约驾驶界面加载慢“的同时:

  • 异常响应时间>500ms 触发智能告警。
  • 调用链路自动关联 TKE 集群元数据(Namespace/Deployment/Pod)。
  • 10s 内定位“集群 A->Deployment->Pod 内存超限”。
  • 再结合 Prometheus & Grafana 查看相关指标变化。

以下图示仅为表明链路追踪详情与 TKE 集群资源的联动,可协助业务同学精准定位问题:

4.png
4.png
5.png
5.png

2.2、无嵌入式架构

借助无代码埋点技术,客户的研发团队再也无需在版本迭代的时候手动注入探针。平台的动态部署自动注入机制,支持微服务动态扩缩容与版本升级,实现:

  • 0 代码改造支持主流框架自动接入(Spring Cloud/Dubbo等200+)。
  • 分钟级部署能力使得新功能上线效率提升 67% 。
  • Prometheus 预设面板自动生成专家级预设面板,节省 80% 以上监控配置时间。
  • APM 生成的指标数据写入 Prometheus 。
6.png
6.png
7.png
7.png
8.png
8.png

2.3、AR 式故障诊断

客户的运维 & 研发团队使用可观测平台,建立“告警->诊断->修复”闭环:

  • 收到可观测平台->告警管理系统告警:等待连接数>10个的告警
9.png
9.png
  • 自动跳转 APM 链路追踪,分析查看数据库异常分析(例如 java.io.EOFException)
10.png
10.png
  • 线程池/连接池/方法执行/GC日志多维分析,30分钟完成故障恢复。

最终,得益于以上这些功能的协同作用,客户在上云后实现了业务性能识别与监控的高效化与精准化。

三、可观测体系的价值转化

3.1

故障定位效率提升

客户自监控上云以来,结合可观测平台各个子产品:告警+APM+Prometheus,从“小时级人工摸排”转变为“5分钟定位10分钟解决"

  • 通过 Prometheus 查询指标数据,当场发现服务器 CPU使用率从 40% -> 90% 的精确时间点,与此同时关注其余指标数据变化:
11.png
11.png
  • APM 收到告警信息后,根据告警信息来看业务的错慢, 并调出完整的请求链路:

在发起请求后,是在哪条链路响应延迟的?

数据库慢查询突然增加,是由哪个 SQL 语句导致的?

12.png
12.png

依据报错的链路数据来查询日志信息

13.png
13.png

最终战绩:

  • 5 分钟锁定肇事根因(APM+Prometheus 双重定位)
  • 30 分钟修复(通过指标告警,APM 链路信息,日志详情分析问题根因,最终修复)

3.2、资源利用率高

此外,可观测平台也助力新能源汽车团队通过监控大屏实时追踪资源使用情况,实现降本增效。

比如之前会出现部分容器高负载运行、部分资源浪费的现象,在使用Prometheus+Grafana,及时通过 PromQL 查询发现资源使用情况:20% 的容器在非高峰时段资源利用率<20% ,从而结合可观测平台的云压测、Grafana 和Prometheus,实现业务资源的弹性扩缩容。

14.png
14.png

四、全栈可观测体系的技术创新

通过云上可观测平台各个模块的相互结合,该新能源汽车品牌实现了全链路精准监控与业务缺口定位,显著提升了系统的稳定性和业务的连续性。这一最佳实践不仅为该企业出海提供了有力保障,也为其他企业在全球化扩展过程中提供了宝贵的参考。

4.1、APM 深度诊断三大引擎:

  • 智能采样技术:基于上报量的动态采样策略,全量保存错慢链路。
  • 性能透视镜:支持线程分析/连接池分析/GC 日志分析,提升问题定位效率。
  • 熔断决策机制:建立 CPU/内存熔断机制,最大程度避免业务性能损耗。

4.2、Prometheus 架构演进

  • 多元数据聚合:支持云监控与业务指标全采,完成指标一体化管理。
  • 弹性伸缩仓库:利用Prometheus助力容器集群进行弹性扩缩容,不惧流量暴击。
  • 指标路由矩阵:APM 自定义指标与 Prometheus 实现 10ms 级数据同步

随着技术的不断发展,腾讯云可观测平台的“观测能力”也将进一步增强,我们将会继续探索更多先进的监控技术和方法,比如 AI 驱动的异常检测、区块链技术数据安全中的应用等,不断提升系统的智能化水平和业务的竞争力。通过不断创新与完善,助力新能源汽车能够在全球市场中始终保持领先地位,为用户提供更加优质的产品和服务。

结语

该新能源汽车的实践表明,可观测体系不仅仅是技术工具的升级,更是运维的范式革命。通过 APM 与 Prometheus 的深度协同,企业可构建“感知-分析-决策”的智能闭环,为全球化业务提供坚实的数字底座。未来,随着边缘计算与 AI技术的融合,可观测性将向 AIops 演进,持续赋能企业竞争力提升。

联系我们

如有任何疑问,欢迎加入官方技术交流群

关于腾讯云可观测平台

腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)基于指标、链路、日志、事件的全类型监控数据,结合强大的可视化和告警能力,为您提供一体化监控解决方案。满足您全链路、端到端的统一监控诉求,提高运维排障效率,为业务的健康和稳定保驾护航。功能模块有:

  • Prometheus 监控:开箱即用的 Prometheus 托管服务;
  • 应用性能监控 APM:支持无侵入式探针,零配置获得开箱即用的应用观测能力;
  • 云拨测 CAT:利用分布于全球的监测网络,提供模拟终端用户体验的拨测服务;
  • 前端/终端性能监控 RUM:Web、小程序、iOS、Android 端等大前端质量、性能监控;
  • Grafana 可视化服务:提供免运维、免搭建的 Grafana 托管服务;
  • 云压测 PTS:模拟海量用户的真实业务场景,全方位验证系统可用性和稳定性;
  • ......等等
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云可观测 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
构建前后端一体化可观测场景,原来只需5步!
背景 当用户 APP 或小程序购买商品,遇到突然闪退,请求超时或者下单失败,前端页面响应慢等终端问题,可能会直接导致用户流失。 这种看似简单的终端问题,既可能是前端程序问题导致,也可能是因为中间件或数据库故障或者后端服务的错误。有时候在前端排查出异常,也很难直接定位到后端哪个应用或服务导致的,无法明确给出确定性的根因。 前后端一般通过请求进行交互,当服务出现异常时,开发人员需要回溯当时所有操作,进行异常分析与定位。单点监控导致前后端数据无法串联,无法完整回溯所有行为,且定位问题成本较高。 用户终端发起请求
腾讯云可观测平台
2022/09/27
1.1K0
构建前后端一体化可观测场景,原来只需5步!
可观测迁移实战:从自建困境到高效运维的华丽转身
在教育行业数字化转型进程中,某教育头部客户的运维团队面临自建 SkyWalking 监控系统的严峻挑战。随着业务规模扩张,系统运维复杂度呈指数级增长,运维团队每月 20% 以上工作时间都消耗在监控系统自身故障处理且微服务架构下的故障排查效率极低 ,针对这一现状,该团队通过技术架构升级与优化,与腾讯云可观测平台产研团队共创,实现了从传统自建监控体系向腾讯云可观测平台的迁移,同时也为教育行业监控系统转型提供实践范例。
腾讯云可观测平台
2025/06/11
750
可观测迁移实战:从自建困境到高效运维的华丽转身
贝壳『全新可观测平台』提效20倍,释放百亿日志生产力
贝壳作为国内最大的房产服务公司,数据量级与系统个数可想而知。在系统如此复杂与庞大的状况下,却丝滑的完成了运维平台由自建到云上的迁移,这背后到底做对了什么?
日志服务CLS小助手
2024/11/05
1740
贝壳『全新可观测平台』提效20倍,释放百亿日志生产力
可观测调用链追踪(APM)核心技术:云原生架构下的故障定位利器
分布式、微服务、云原生架构在提升敏捷性的同时,将单体应用拆分为多个独立部署的组合应用,导致应用数量指数级增长,模块间依赖关系错综复杂。容器频繁启停进一步加剧监控对象动态变化,故障现场难以留存,传统运维手段无法有效定位问题根源。
运维老谭
2025/06/04
720
可观测调用链追踪(APM)核心技术:云原生架构下的故障定位利器
客户案例|某车企建设统一监控平台实践
导语:文章主要介绍腾讯云 Prometheus 在监控出行行业的突出优势与解决方案,为客户运维团队降低了很多成本。
腾讯云可观测平台
2025/02/11
3480
客户案例|某车企建设统一监控平台实践
【腾讯云应用性能观测x日志服务】:链路日志关联,加速故障定位
顾自然 腾讯云监控产品经理,硕士毕业于墨尔本大学。目前主要负责腾讯云业务层监控相关产品策划工作,对应用监控和运维领域有深刻理解。 前言 随着微服务架构的逐渐流行,在熵增且庞杂的系统中准确的定位一个请求的完整生命周期,逐渐成为了研发同学面对的最大的痛点之一,以研发同学自测过程为例,开发同学往往希望在发起测试的 Http/RPC 请求后,能够通过一个简单的方式获取整个测试请求的上下文信息。这其中通常包括相关的上下游链路、各个服务内部请求的方法堆栈,以及链路上打印的日志等数据,对于指标-链路-日志的一体化监控的需
腾讯云可观测平台
2022/03/24
1.4K0
【近期更新】 前后端链路打通,实现端到端全链路故障定位
前端性能监控(RUM) 1. 前后端链路打通,实现端到端全链路故障定位。 在前端 Skywalking 方式接入前端性能监控,后端 Skywalking 方式接入应用性能观测。在前端性能监控页面绑定 APM 相关业务系统,即可实现前后端链路打通,实现端到端全链路故障定位。联动排查前后端异常原因。 详细操作文档:https://cloud.tencent.com/document/product/1464/80520。 2. 增加地域筛选器,方便您分地域查看监控数据,更精准、快速排查异常。 3. 告警新
腾讯云可观测平台
2022/09/19
2.1K0
【近期更新】 前后端链路打通,实现端到端全链路故障定位
全链路追踪在腾讯云的落地思考与实践
随着微服务以及容器技术的发展,系统软件的构建方式也随之发生了改变,微服务调用关系错综复杂,传统的监控方案很难满足当下应用场景的需求,指标、链路追踪以及日志目前已经成为了云原生应用的“必备品”,当把它们集成在一起时,需要拥有一个更加成熟的现代化可观测体系来支撑,以便了解应用系统内发生的事情。通过可观测性体系的建立,我们可以更好的去洞察监控数据,从而能够更快速的做问题定界以及根因定位,降低 MTTR。
腾讯云可观测平台
2024/01/03
9041
全链路追踪在腾讯云的落地思考与实践
RUM、APM 强强联手实现全链路监控
导语:文章主要讲解如何让前端性能监控(RUM)和应用性能监控(APM)串联起来,在腾讯云可观测平台实现全链路高效监控。
腾讯云可观测平台
2025/02/11
1730
RUM、APM 强强联手实现全链路监控
「可观测」如何为「新能源车企」缓解运维焦虑?
导语:本文将探讨某新能源车企如何借助腾讯云可观测平台,实施可观测性方案,从而缓解运维焦虑,实现更高效的系统管理。
腾讯云可观测平台
2025/02/11
1720
「可观测」如何为「新能源车企」缓解运维焦虑?
APM 应用诊断系列(二):定位资源池问题
在 Java 生态系统中,Tomcat 线程池、Dubbo 线程池和 Druid 连接池等资源池被广泛使用。若缺乏有效的监控机制,资源池可能会面临一系列挑战,包括难以察觉的性能瓶颈、资源的不必要浪费、系统稳定性的潜在威胁,以及问题定位的复杂性等。
腾讯云可观测平台
2024/04/17
2580
APM 应用诊断系列(二):定位资源池问题
【近期更新】轻松运维数据库和 K8s~
应用性能观测 1. 腾讯云应用性能观测(APM)与数据库智能管家(DBbrain)深度融合。 腾讯云应用性能观测(APM)联合数据库智能管家(DBbrain),对数据库和链路监控进行深度碰撞和融合,在国内云厂商中,首个提供了数据库自治云服务与应用性能服务关联分析能力。实现了从应用到数据库内部的全面洞察,应用运行情况与数据库运行情况的关联,帮助用户更高效地进行故障排查。 2. 应用详情页-JVM 监控,支持了更丰富的线程数量展示。 使用 Skywalking 及 Opentelementry 探针上报的用户
腾讯云可观测平台
2022/08/26
1.1K0
【近期更新】轻松运维数据库和 K8s~
一文详解腾讯云可观测平台 APM 采样方案
前言:本文直击传统采样方案的痛点,着重介绍腾讯云 APM 新推出的采样策略优势:既能降低 APM 使用成本,又不会对用户的使用体验带来明显影响。
腾讯云可观测平台
2025/02/11
2180
一文详解腾讯云可观测平台 APM 采样方案
从Spring Cloud到Kubernetes的微服务迁移实践
要出发周边游(以下简称要出发)是国内知名的主打「周边游」的在线旅行网站,为了降低公司内部各个业务模块的耦合度,提高开发、交付及运维效率,我们在 2017 年就基于 Spring Cloud 完成了公司内部业务微服务化的改造,并在 2019 年实现了 Spring Cloud 至 UK8S 平台的迁移。
CNCF
2020/04/14
2.8K0
从Spring Cloud到Kubernetes的微服务迁移实践
传统企业可观测建设之路
在数字化转型的浪潮中,我们面临着将“线下业务线上化”及实现“业务快速创新迭代”的迫切需求,这也进而要求支撑业务的应用系统更加敏捷、可扩展性更高。
嘉为蓝鲸
2024/06/28
2470
Serverless可观测性的价值
作者简介 杨琪 9 年专注于操作系统、网络、云原生、Serverless 相关技术研发工作。从传统网络到容器网络技术都有所了解,具有丰富的后端研发实践经验。 大家都有对线上系统排障的经验,我一直认为查找bug是计算机行业中最神秘、最有创造性的一项活动,众多老手能够凭借自己丰富的经验以神乎其技的方式迅速找到问题根源,事后无论是本人还是旁观者似乎都很难系统性的描述查找bug的思路,仿佛是灵感一现,模模糊糊觉得是哪里的问题,于是便动手去查。这给计算机行业添加了一些艺术成分,但也暗示着这种方式很难复制。
腾讯云中间件团队
2021/12/10
7970
监控产品常见问题(第1期)
Prometheus 监控服务(TMP) 1. TMP 和自建有什么区别吗 TMP 完全兼容开源生态,并与腾讯云监控数据打通,帮助用户快速搭建监控体系(自定义监控,组件监控,基础监控等),支持 Grafana 并预设了常用的监控 Dashboard,支持丰富的 Exporter 并预设了常见的告警模板;很好解决了开源社区 Prometheus 高可用搭建困难, Prometheus 性能可扩展性差,运维消耗人力等痛点。 2. TMP 的监控数据是怎么采集的? 通过 Prometheus agent 拉取
腾讯云可观测平台
2021/11/09
6840
Kubernetes 实战:用 Prometheus 提高 K8s 集群弹性伸缩能力的准确性
导语:本文主要通过 Prometheus 在观测 Kubernetes 方面的独特优势,来阐述如何利用 Prometheus 提高 kubernetes 自动弹性伸缩能力的准确性。
腾讯云可观测平台
2025/04/30
1390
Kubernetes 实战:用 Prometheus 提高 K8s 集群弹性伸缩能力的准确性
腾讯云可观测平台「预设告警策略」上线!运维新手也能一键搞定告警配置!
在数字化时代,系统故障和异常随时可能引发连锁反应,因此告警的重要性不言而喻。腾讯云监控告警平台作为腾讯云可观测平台的重要组成部分,是承载着云产品监控、APM 监控、RUM 监控、云拨测监控等 6 种类型的统一告警平台,后续也将进行更多类型的监控覆盖。在云监控统一告警平台内,支持用户进行完整的告警运维流程,包括:告警配置、告警接收、告警历史查看、告警大盘分析等。
腾讯云可观测平台
2025/05/14
840
腾讯云可观测平台「预设告警策略」上线!运维新手也能一键搞定告警配置!
揭秘可观测利器:腾讯云 APM 深度融合 OpenTelemetry 和 Prometheus,助力高效指标采集与处理
导语:文章主要介绍腾讯云应用性能监控(APM)服务端通过对数据的处理将 OpenTelemetry 指标转换成 Prometheus 指标,输出到腾讯云 Prometheus 监控服务中,做到让用户只需要进行简单的关联后,应用直接通过 OpenTelemetry API 上报指标,并提供多种可自定义的图表展示方式。
腾讯云可观测平台
2025/02/11
3460
揭秘可观测利器:腾讯云 APM 深度融合 OpenTelemetry 和 Prometheus,助力高效指标采集与处理
推荐阅读
相关推荐
构建前后端一体化可观测场景,原来只需5步!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档