通用概念说明
术语 | 描述 |
APM | APM 代表应用性能管理(Application Performance Management),在腾讯云可观测平台中,特指应用性能监控。 |
分布式链路追踪 | 分布式链路追踪(Distributed Tracing)是一种用于监控和分析分布式系统中请求流转路径的技术,主要用于追踪一个请求从发起端到最终处理完成的全过程,记录其在各个服务、组件间的调用关系、执行时间及状态,从而帮助定位性能瓶颈、排查故障并优化系统可靠性。 |
Span | Span 是分布式追踪系统中的最小工作单元,记录某个单一操作的执行过程(如调用一个服务、执行一次数据库查询、发送一个消息等)。 |
Span ID | Span ID 是每个 Span 的唯一标识符,通过 Parent ID 与父 Span 关联,形成层级结构。 |
链路(Trace) | 链路(Trace) 表示一个用户请求在整个系统中的完整执行轨迹,是一组关联 Span 构成的有向无环图(DAG)。 |
Trace ID | Trace 通过全局唯一的 Trace ID 将所有相关的 Span 串联起来,用于分析跨服务的端到端性能。 |
探针 | 探针(Agent)是核心数据采集组件,负责从应用运行环境中收集性能数据并发送至监控后端,一般使用自动埋点方案,对业务代码无侵入。 |
埋点 | 在应用程序中插入监控逻辑,用于收集性能数据的过程。一般情况下,探针提供自动埋点能力,对业务代码无侵入;SDK 提供手动埋点能力,需要用户修改业务代码。 |
OpenTelemetry | OpenTelemetry 是一套开源的可观测性框架,核心作用是统一分布式系统中可观测数据的采集、传输和导出标准,构建统一的可观测体系。APM 全面支持 OpenTelemetry 标准,用户可以使用任何兼容 OpenTelemetry 标准的采集方案进行数据上报。 |
指标 | 指标(Metrics)是对应用在特定时间点或时间段内性能的定量测量,通常以时间序列数据形式存储,支持聚合计算(如平均值、最大值、分位数)和趋势分析。 |
实体说明
术语 | 描述 |
业务系统 | 业务系统用于分类管理应用,每个业务系统有唯一的 Token,应用接入的时候需要指定 Token。可以在业务系统级别设置存储时长、计费方式等参数,也可以基于业务系统实现权限管理和分账。不同业务系统之间的可观测数据完全隔离。 |
应用 | 多个使用相同应用名接入的进程,会表现为相同应用下的多个实例。所以应用是一个逻辑组合,在微服务架构中,可以等同为一个服务,包含多个对等的实例。 |
服务 | 特指微服务架构中的独立服务单元,通常与 “应用” 同义。 |
实例 | 实例是应用在物理或虚拟环境中的一个实际部署单元,通常对应一个进程。 |
实例属性 |
数据说明
术语 | 描述 |
Span 状态 | Span 状态用来标识单个 Span 的执行结果。OpenTelemetry 标准包含 Ok、Error、Unset 三种状态;在 APM 系统中,Span 状态被简化为正常和错误两种。 |
错误 | 错误是一个标准化的事件标识,当一个 Span 执行失败时,其 Span 状态会被标识为错误。在 APM 系统中,错误相关指标(例如错误数、错误率)是衡量系统健康度、定位问题的核心指标之一。 |
调用角色 | 调用角色是对 Span 的标准化分类标签,用于明确该 Span 在分布式系统中的身份,相当于 OpenTelemetry 标准中的 Span Kind。APM 支持 Client(客户端)、Server(服务端)、Producer(生产者)、Consumer(消费者)、Internal(内部调用) 这5种标准的调用角色。 |
接口 | 在 APM 系统中,接口相当于 Span 名称,是对单个 Span 对应操作的简洁、标准化标识。不同类型的操作,接口的命名规范不同,以下是 OpenTelemetry 推荐的标准命名方式: HTTP:方法 + 简化路径,例如 GET /api/user/{id}RPC:服务名,例如 com.order.service.createOrder数据库调用:操作 + 表名,例如 Selector OrderMQ 调用:操作 + 队列名,例如 PRODUCE order_topic内部调用:方法名,例如 OrderService.createOrder |
实例属性 | |
Span 属性 | Span 属性(Span Attribute) 是以键值对形式附加在 Span 上的补充元数据,核心作用是为 Span 提供精细化的上下文信息。探针或 SDK 会根据具体的埋点场景自动填充标准 Span 属性,开发者可以通过 SDK 手动添加标准属性或自定义属性。 |
埋点组件 | 埋点组件用来标识应用代码或系统组件中植入可观测数据的数据采集点。腾讯云增强版 Java 探针和部分开源 OpenTelemetry 探针会自动附带该信息,其他接入方案请在 Span 中填入 component属性。 |
响应时间 | 响应时间是操作处理快慢的核心性能指标,本质是一个 Span 从开始到结束的总耗时。 |
P99 / P95 / P50 | P99、P95、P50都属于百分位响应时间指标,其计算方式为:将一段时间内的所有请求响应时间,按从小到大的顺序排序后,取对应百分位的数值。以P99为例,这个数值表示至少有99%的请求,其响应时间小于等于该值。在实际使用中,相比平均响应时间,分位数响应时间不容易被极端值干扰,更能反映真实的用户体验和系统稳定性。 |