iOS OOM 崩溃在生产环境中的归因一直是困扰业界已久的疑难问题,字节跳动旗下的头条、抖音等产品也面临同样的问题。 在字节跳动性能与稳定性保障团队的研发实践中,我们自研了一款基于内存快照技术并且可应用于生产环境中的 OOM 归因方案——线上 Memory Graph。基于此方案,3 个月内头条抖音 OOM 崩溃率下降 50%+。 本文主要分享下该解决方案的技术背景,技术原理以及使用方式,旨在为这个疑难问题提供一种新的解决思路。
OOM 其实是Out Of Memory
的简称,指的是在 iOS 设备上当前应用因为内存占用过高而被操作系统强制终止,在用户侧的感知就是 App 一瞬间的闪退,与普通的 Crash 没有明显差异。但是当我们在调试阶段遇到这种崩溃的时候,从设备设置->隐私->分析与改进
中是找不到普通类型的崩溃日志,只能够找到Jetsam
开头的日志,这种形式的日志其实就是 OOM 崩溃之后系统生成的一种专门反映内存异常问题的日志。那么下一个问题就来了,什么是Jetsam
?
Jetsam
是 iOS 操作系统为了控制内存资源过度使用而采用的一种资源管控机制。不同于MacOS
,Linux
,Windows
等桌面操作系统,出于性能方面的考虑,iOS 系统并没有设计内存交换空间的机制,所以在 iOS 中,如果设备整体内存紧张的话,系统只能将一些优先级不高或占用内存过大的进程直接终止掉。
Jetsam 日志解读
上图是截取一份Jetsam
日志中最关键的一部分。关键信息解读:
iPhoneXs Max
,大小是 16KB,苹果 A7 芯片之前的设备物理内存页大小则是 4KB。Heimdallr-Example
这个应用而言是正在前台运行的状态,这类崩溃我们称之为FOOM
(Foreground Out Of Memory);与此相对应的也有应用程序在后台发生的 OOM 崩溃,这类崩溃我们称之为BOOM
(Background Out Of Memory)。resident pages
的缩写,表明进程当前占用的内存页数量,Heimdallr-Example 这个应用占用的内存页数量是 92800,基于 pageSize 和 rpages 可以计算出应用崩溃时占用的内存大小:16384 * 92800 / 1024 /1024 = 1.4GB。Heimdallr-Example
这个应用被终止的原因是超过了操作系统允许的单个进程物理内存占用的上限。Jetsam
机制清理策略可以总结为下面两点:
Jetsam
的代码在开源的XNU
代码中可以找到,这里篇幅原因就不具体展开了,具体的源码解析可以参考本文最后第 2 和第 3 篇参考文献。
前面我们已经了解到,OOM 分为FOOM
和BOOM
两种类型,显然前者因为用户的感知更明显,所以对用户的体验的伤害更大,下文中提到的 OOM 崩溃仅指的是FOOM
。那么针对 OOM 崩溃问题有必要建立线上的监控手段吗?
答案是有而且非常有必要的!原因如下:
FOOM
,对这部分用户体验的伤害导致用户流失的话对业务损失更大。FOOM
量级比普通崩溃还要多,因为过去缺乏有效的监控和治理手段导致问题被长期忽视。FOOM
也可能会导致其他应用BOOM
的概率变大,一旦用户发现从微信切换到我们 App 使用,再切回微信没有停留在之前微信的聊天页面而是重新启动的话,对用户来说,体验是非常糟糕的。Jetsam 强杀代码截图
翻阅XNU
源码的时候我们可以看到在Jetsam
机制终止进程的时候最终是通过发送SIGKILL
异常信号来完成的。[563513413](https://jq.qq.com/?_wv=1027&k=lzJejkSl),不管你是大牛还是小白都欢迎入驻
#define SIGKILL 9 kill (cannot be caught or ignored)
从系统库 signal.h 文件中我们可以找到SIGKILL
这个异常信号的解释,它不可以在当前进程被忽略或者被捕获,我们之前监听异常信号的常规 Crash 捕获方案肯定也就不适用了。那我们应该如何监控 OOM 崩溃呢?
正面监控这条路行不通,2015 年的时候Facebook
提出了另外一种思路,简而言之就是排除法。具体流程可以参考下面这张流程图:
排除法判定OOM崩溃的流程
我们在每次 App 启动的时候判断上一次启动进程终止的原因,那么已知的原因有:
如果上一次启动进程终止的原因不是上述任何一个已知原因的话,就判定上次启动发生了一次FOOM
崩溃。
曾经Facebook
旗下的Fabric
也是这样实现的。但是通过我们的测试和验证,上述这种方式至少将以下几种场景误判:
在字节跳动 OOM 崩溃监控上线之前,我们已经排除了上面已知的所有误判场景。需要说明的是,因为排除法毕竟没有直接的监控来的那么精准,或多或少总有一些 bad case,但是我们会保证尽量的准确。
目前在 iOS 端排查内存问题的工具主要包括 Xcode 提供的 Memory Graph 和 Instruments 相关的工具集,它们能够提供相对完备的内存信息,但是应用场景仅限于开发环境,无法在生产环境使用。由于内存问题往往发生在一些极端的使用场景,线下开发测试一般无法覆盖对应的问题,Xcode 提供的工具无法分析处理大多数偶现的疑难问题。
对此,各大公司都提出了自己的线上解决方案,并开源了例如MLeaksFinder
、OOMDetector
、FBRetainCycleDetector
等优秀的解决方案。
在字节跳动内部的使用过程中,我们发现现有工具各有侧重,无法完全满足我们的需求。主要的问题集中在以下两点:
为了解决头条,抖音等各产品日益严峻的内存问题,我们自行研发了一款基于内存快照技术的线上方案,我们称之为——线上 Memory Graph。上线后接入了集团内几乎所有的产品,帮助各产品修复了多年的历史问题,OOM 率降低一个数量级,3 个月之内抖音最新版本 OOM 率下降了 50%,头条下降了 60%。线上突发 OOM 问题定位效率大大提升,彻底告别了线上 OOM 问题归因“两眼一抹黑”的时代。
线上 Memory Graph 核心的原理是扫描进程中所有 Dirty 内存,通过内存节点中保存的其他内存节点的地址值建立起内存节点之间的引用关系的有向图,用于内存问题的分析定位,整个过程不使用任何私有 API。这套方案具备的能力如下:
线上 Memory Graph 采集及上报流程示意图
线上 Memory Graph 采集内存快照主要是为了获取当前运行状态下所有内存对象以及对象之间的引用关系,用于后续的问题分析。主要需要获取的信息如下:
OC/Swift/C++
实例类名,或者是某种有特殊用途的 VM 节点的 tag 等)。OC/Swift
成员变量还需要记录引用类型。由于采集的过程发生在程序正常运行的过程中,为了保证不会因为采集内存快照导致程序运行异常,整个采集过程需要在一个相对静止的运行环境下完成。因此,整个快照采集的过程大致分为以下几个步骤:
下面会分别介绍整个采集过程中一些实现细节上的考量以及收集信息的取舍。
程序的内存都是由虚拟内存组成的,每一块单独的虚拟内存被称之为VM Region
,通过 mach 内核的vm_region_recurse/vm_region_recurse64
函数我们可以遍历进程内所有VM Region
,并通过vm_region_submap_info_64
结构体获取以下信息:
VM Region
的真实物理内存使用。VM Region
的用途的更准确信息。大多数 VM Region 作为一个单独的内存节点,仅记录起始地址和 Dirty、Swapped 内存作为大小,以及与其他节点之间的引用关系;而 libmalloc 维护的堆内存所在的 VM Region 则由于往往包含大多数业务逻辑中的 Objective-C 对象、C/C++对象、buffer 等,可以获取更详细的引用信息,因此需要单独处理其内部节点、引用关系。
在 iOS 系统中为了避免所有的内存分配都使用系统调用产生性能问题,相关的库负责一次申请大块内存,再在其之上进行二次分配并进行管理,提供给小块需要动态分配的内存对象使用,称之为堆内存。程序中使用到绝大多数的动态内存都通过堆进行管理,在 iOS 操作系统上,主要的业务逻辑分配的内存都通过libmalloc
进行管理,部分系统库为了性能也会使用自己的单独的堆管理,例如WebKit
内核使用bmalloc
,CFNetwork
也使用自己独立的堆,在这里我们只关注libmalloc
内部的内存管理状态,而不关心其它可能的堆(即这部分特殊内存会以VM Region
的粒度存在,不分析其内部的节点引用关系)。
我们可以通过malloc_get_all_zones
获取libmalloc
内部所有的zone
,并遍历每个zone
中管理的内存节点,获取 libmalloc 管理的存活的所有内存节点的指针和大小。
获取所有内存节点之后,我们需要为每个节点找到更加详细的类型名称,用于后续的分析。其中,对于 VM Region 内存节点,我们可以通过 user_tag 赋予它有意义的符号信息;而堆内存对象包含 raw buffer,Objective-C/Swift、C++等对象。对于 Objective-C/Swift、C++这部分,我们通过内存中的一些运行时信息,尝试符号化获取更加详细的信息。
Objective/Swift 对象的符号化相对比较简单,很多三方库都有类似实现,Swift
在内存布局上兼容了Objective-C
,也有isa
指针,objc
相关方法可以作用于两种语言的对象上。只要保证 isa 指针合法,对象实例大小满足条件即可认为正确。
C++对象根据是否包含虚表可以分成两类。对于不包含虚表的对象,因为缺乏运行时数据,无法进行处理。
对于对于包含虚表的对象,在调研 mach-o 和 C++的 ABI 文档后,可以通过 std::type_info 和以下几个 section 的信息获取对应的类型信息。
type_name string
- 类名对应的常量字符串,存储在__TEXT/__RODATA
段的__const section
中。type_info
- 存放在__DATA/__DATA_CONST
段的__const section
中。vtable
- 存放在__DATA/__DATA_CONST
段的__const section
中。C++实例以及 vtable 的引用关系示意图
在 iOS 系统内,还有一类特殊的对象,即CoreFoundation
。除了我们熟知的CFString
、CFDictionary
外等,很多很多系统库也使用 CF 对象,比如CGImage
、CVObject
等。从它们的 isa 指针获取的Objective-C
类型被统一成__NSCFType
。由于 CoreFoundation 类型支持实时的注册、注销类型,为了细化这部分的类型,我们通过逆向拿到 CoreFoundation 维护的类型 slot 数组的位置并读取其数据,保证能够安全的获取准确的类型。
CoreFoundation 类型获取
整个内存快照的核心在于重新构建内存节点之间的引用关系。在虚拟内存中,如果一个内存节点引用了其它内存节点,则对应的内存地址中会存储指向对方的指针值。基于这个事实我们设计了以下方案:
对于一些特定的内存区域,为了获取更详细的信息用于排查问题,我们对栈内存以及 Objective-C/Swift 的堆内存进行了一些额外的处理。
其中,栈内存也以VM Region
的形式存在,栈上保存了临时变量和 TLS 等数据,获取相应的引用信息可以帮助排查诸如 autoreleasepool 造成的内存问题。由于栈并不会使用整个栈内存,为了获取 Stack 的引用关系,我们根据寄存器以及栈内存获取当前的栈可用范围,排除未使用的栈内存造成的无效引用。
栈使用范围
而对于Objective-C/Swift
对象,由于运行时包含额外的信息,我们可以获得Ivar
的强弱引用关系以及Ivar
的名字,带上这些信息有助于我们分析问题。 通过获得Ivar
的偏移,如果找到的引用关系的偏移和Ivar
的偏移一致,则认为这个引用关系就是这个Ivar
,可以将Ivar
相关的信息附加上去。
我们在 App 内存到达设定值后采集 App 当时的内存节点和引用关系,然后上传至远端进行分析,可以精准的反映 App 当时的内存状态,从而定位问题,总的流程如下:
线上 Memory Graph 整体工作流程
整个线上 Memory Graph 模块工作的完整流程如上图所示,主要包括:
这是字节监控平台 Memory Graph 单点详情页的一个 case:
线上 Memory Graph 详情页概览
我们可以看到这个用户的内存占用已经将近 900MB,我们分析时候的思路一般是:
Add Tag
来判断当前选中的引用路径在同类对象中出现过多少次。当前引用路径在同类型对象中出现频率统计
通过上图中引用路径的分析我们发现,所有的图片最终都被TTImagePickController
这个类持有,最终排查到是图片选择器模块一次性把用户相册中的所有图片都加载到内存里,极端情况下会发生这个问题。
由于整个内存空间一般包含的内存节点从几十万到几千万不等,同时程序的运行状态瞬息万变,采集过程有着很大的性能和稳定性的压力。
我们在前面的基础上还进行了一些性能优化:
mmap
映射,并自定义二进制格式保证顺序读写。对于稳定性部分,我们着重考虑了下面几点:
由于无法保证 Objective-C 运行时锁的状态,我们将需要通过运行时 api 获取的信息在挂起线程前提前缓存。同时,为了保证libmalloc
锁的状态安全,在挂起线程后我们对 libmalloc 的锁状态进行了判断,如果已经锁住则恢复线程重新尝试挂起,避免堆死锁。
在挂起所有其他线程后,为了减少采集本身分配的内存对采集的影响,我们使用了一个单独的malloc_zone
管理采集模块的内存使用。
因为在数据采集的时候需要挂起所有线程,会导致用户感知到卡顿,所以字节模块还是有一定性能损耗的,经过我们测试,在iPhone8 Plus
设备上,App 占用 1G 内存时,采集用时 1.5-2 秒,采集时额外内存消耗 10-20MB,生成的文件 zip 后大小在 5-20MB。
为了严格控制性能损耗,线上 Memory Graph 模块会应用以下策略,避免太频繁的触发打扰用户正常使用,避免自身内存和磁盘等资源过多的占用:
性能损耗控制策略
该方案已经在字节全系产品线上稳定运行了 6 个月以上,稳定性和成功率得到了验证,目前单次采集成功率可以达到 99.5%,剩下的失败基本都是由于内存紧张提前 OOM,考虑到大多数应用只有不到千分之一的用户会触发采集,这种情况属于极低概率事件。
目前,线上 Memory Graph 已搭载在字节跳动火山引擎旗下应用性能管理平台(APMInsight)上赋能给外部开发者使用。
APMInsight 的相关技术经过今日头条、抖音、西瓜视频等众多应用的打磨,已沉淀出一套完整的解决方案,能够定位移动端、浏览器、小程序等多端问题,除了支持崩溃、错误、卡顿、网络等基础问题的分析,还提供关联到应用启动、页面浏览、内存优化的众多功能。目前 Demo 已开放大部分能力,欢迎各位注册账号试用:www.volcengine.cn/product/apm…
作者:字节跳动技术团队 链接:https://juejin.im/post/6885144933997494280
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。