前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >编译优化在微信视频号的落地实践

编译优化在微信视频号的落地实践

原创
作者头像
用户3167314
修改于 2024-04-10 08:40:08
修改于 2024-04-10 08:40:08
4970
举报

导语:编译优化是通过编译技术获得性能提升的一类性能优化方法,它具有通用性和可持续性强的优势,一次投入后可长期保持稳定的优化效果,可以有效降低性能优化的成本。本文将回顾视频号推荐模块落地编译优化的历程和成果,也会介绍具体实践中遇到的问题和对应的解决方案,为后续同类应用提供参考。期待后续更多的业务模块能通过编译优化取得性能提升和成本收益。

落地成果

我们把编译优化落地路径分为以下几类:

  • 升级编译器
  • 应用反馈编译优化(PGO/LTO)
  • 应用LTO优化

在微信视频号推荐模块我们首先完成了编译器版本升级,从GCC 7.5升级到TGCC(基于GCC 10),随后陆续将PGO/LTO等优化特性应用用到推荐模块的编译过程中,最后取得的性能提升为20%。

通过对比,多个模块上都可看出相同负载(调用数)下,cpu使用率明显下降。

编译优化是一项发展很成熟的技术,但在实际落地实践中仍面临一系列问题和挑战。我们遇到的问题包括以下几类:

  • 编译错误:升级编译和开启PGO/LTO优化后发现了新增的编译错误,有的是业务代码不符合规范被编译器查出来,这部分需要修改代码;有的确认是误报或者暂时无法整改代码,这部分选择了屏蔽告警选项。
  • 编译通过但是发现运行问题
  • 反馈优化和LTO优化使用中发现的编译器bug
  • 编译速度的挑战

我们协同业务团队解决了上述问题,以下将我们的实践经验分享出来。

编译速度优化

★ 文件编译时间过长 

微信某些文件(比如mmconfig_finder.ii)编译时间过长,freport-time-details显示pta阶段的占用超过150秒(gcc -c mmconfig_finder.ii -O2 -ftime-report-details)。详见:

经排查发现,该优化pass(PTA)在gcc10得到显著优化改进(Compile-time and memory-hog hog[1])。解决方案:建议业务团队把编译器升级到gcc10以上版本。

★ LTO链接耗时变长 

当前的编译并没有加入LTO优化,但是LTO优化带来的效果还是比较明显,测试下来可以看到有5%左右的运行性能提升,但是引入的副作用是链接时间也会明显的变长,影响开发效率。GCC的LTO分为WPA和LTRAN两个阶段,WPA为全局符号分析阶段,目前GCC只支持串行执行;LTRAN为分析后的优化执行阶段,这个阶段可以通过并行来缩短链接时间,打开参数-flto=auto可以让编译器自动根据机器性能设置LTRANS阶段的并行数量,尽量的减小链接耗时带来的负面影响。

编译器升级后出现的编译错误

★ MMERR打印宏引起编译器ICE(internel compiler error)

经过分析后确定是已知bug,[9 Regression] ICE in subspan, at input.h:69[2]。该bug属于前端(frontend),由于get_substring_ranges_for_loc 获得的位置信息中列号为0,导致subspan拿到的偏移量为-1。该问题修复patch包含在gcc10.3.0的更新中,tgcc升级基线后问题解决。

★ AutoFDO方式编译 jemalloc/src/prof.c时栈溢出错误

GCC的AutoFDO会将间接调用函数都内联到caller函数中,auto-profile.cc中对于递归函数并没有作特别处理,因此在遇到递归函数时会出现无限内联导致栈溢出Segment fault, GCC12中已经对这个问题作了修复,对于递归函数在AutoFDO的时候跳过内联即可。我们将这段代码移植到对应的GCC10分支后同样解决了这个问题。

gcc: ICE in ipa_profile_write_edge_summary

lto+autoFDO 统一编译的时候报ipa_profile_write_edge_summary 的ICE,但是单独编译无法复现。

调试后发现GCC在分配indirect_call采样灰度值变量的内存空间不足,autofdo的indirect call只填了四个counter, 但是ipa_profile_genereate_summary会按照TOPN的格式去访问数据,导致访问到第5至第9个未分配内存的区域,越界产生了随机行为,调整变量内存空间后修复了此问题。

xgcc: fatal error: cannot execute '/data/mm64/mmdev/gcc10_debug/./gcc/cc1': execv: Argument list too long

微信的bazel build需要传入非常多的-isystem 参数到gcc中作为预编译头文件。gcc driver在fork后invoke cc1plus的时候参数超过256K的时候就开始报参数过长的错误:“execv: Argument list too long” 但是系统的限制约为2M,单独的测试案例直接invoke cc1plus也只会在2M之后报参数过长,需要分析看GCC在什么地方做了额外的设置导致提前报错。

内核对环境变量参数字符串长度有限制。execv在fork新的进程之前会调用copy_strings把argv和envp都拷贝到内核空间,argv的长度通过修改linux内核已经提高到2M了,但是envp的长度是由MAX_ARG_STRLEN来控制的,这个宏在devcloud机器上面是PAGESIZE*32, 也就是128K,但是在微信的编译机器上面变成了256K(微信编译机采用了修改过的Kernel,并没有用默认的MAX_ARG_STRLEN)

Image
Image

gcc在调用execv fork cc1前会调用libc的系统函数“putenv”设置一个很长的环境变量COLLECT_GCC_OPTIONS(相当于输入参数的长度),这个环境变量是GCC必须的,当COLLECT_GCC_OPTIONS的长度超过内核的限制时就会报参数过长的错误。

建议的解决方案为:修改linux kernel拷贝环境变量的字符串长度限制。

★ profile-use+LTO ICE in lto-partion.c

这个ICE发生在LTO的WPA阶段,牵涉到了很多链接文件,非常的难查,社区里面也经常遇到,但是并没有特别好的解决办法[3]。视频号的推荐模块用到了2000多个静态库,包括了大量的重名函数分布在不同的库文件中,导致很难reduce成小的测试案例,不过通过隔离文件的方法找到了一种成功链接的结果用于对比,比较后发现在ipa-profile pass时两边同样的节点信息还是完全一致,但是ipa-visibility这个pass运行结束成功链接和失败链接对应函数节点的comdat group信息出现了差异,进一步跟踪后发现相同的函数节点和属性但是不同的访问顺序会导致comdat的消除出现不同的结果,原因是externally_visable变量在使用时还没有更新到预期的值,因此调整update_visibility_by_resolution_info中的检查函数来消除节点访问顺序造成的影响[4]。

编译器升级后出现的运行问题

★ coredump

视频号推荐模块升级到tgcc后,发现运行错误“illegal instruction",导致coredump

经过反复排查,发现是某个函数没有提供返回值导致。

返回值未声明未void函数,实际却没有提供返回值,这在c++标准中属于未定义行为。在该函数加上返回值后,经测试确认coredump不再发生。对于此类问题,建议打开编译选项 -Werror=return-type检查此类错误,使问题可以在编译期暴露。

出处:Flowing off the end of a value-returning function (except main) without a return statement is undefined behavior. return statement - cppreference.com[5]

★ 运行时火焰图函数缺失问题

微信后台开启LTO优化后符号丢失,火焰图上显示调用栈不完整或明显错误。通过分析二进制反汇编发现函数没有使用FP指针保存上下文环境,进一步发现链接选项里没有加上-fno-omit-frame-pointer,导致调用栈不能正确获取。加上编译选项后,该问题已解决。

★ ParseFromArray fail

这个问题困扰了我们较长的时间,表现现象为下游返回的protobuf包数据格式不对导致解析失败,最开始出现在试用O3优化选项的时候,后面不得不回退到相对保守的O2的优化选项。然后在灰度profile-use的时候在某些模块上面再一次出现,由于在新的模块上编译和测试时间相对短了很多,因此方便了对选项进行隔离排查。profile-use会打开20个[6]优化子选项,对这些选项进行二分隔离后定位到-ftree-loop-vectorize, 结合微信部门同事提供的问题可能在用到的第三方snappy库中,进一步确定了1.0.4版本代码的源文件中的IncrementalCopyFastPath函数由于写法有问题,强制使用了aligned的访问方式,导致源地址和目标地址重叠的时候生成了不安全的向量化指令操作。禁掉vectorize或版本升级(1.1.4+)都可以解决此问题,但从代码安全角度考虑,采取了snappy版本升级到1.1.8的策略。

二进制文件大小的优化

编译得到的mmfinderrecommend_1117_O2_PUSE二进制文件大小为2.6G,尽管相对于最初的GCC10 O2+LTO的3.6G减小了1G,还是显得有点大,分析二进制文件的具体内容可以发现debug信息占了将近90%的内容,binutils中的objcopy提供了一个压缩功能选项: objcopy --compress-debug-sections [xxx] [xxx.gz] 对二进制文件中的DWARF块进行zlib压缩,可以再次大幅减小二进制文件到1.2G。

各debug段具体压缩明细:

有两种方式可以实现dwarf信息压缩:

  1. 上文提到的“objcopy --compress-debug-sections”
  2. --compress-debug-section这个功能已经集成在gcc编译选项中,在链接的linker_flags中加入-gz选项可以实现同样的效果。

Image
Image

进一步打开gc-sections优化可以将二进制文件优化到1G以内,大幅改进文件传输时间和镜像部署效率。

783M Nov 30 13:13 bazel-bin/.../mmfinderrecommend

结论:微信后台二进制占比最大的部分是调试信息,通过压缩调试信息和链接优化,二进制尺寸从3.6GB缩小为800MB,减少将近80%。

总结

视频号推荐模块的PGO优化方案包含了编译器升级(GCC7 -> GCC10)和选项优化(PGO)两部分内容,在实施过程中面临了比较多的问题。版本的升级一般来说都会带来各方面性能的提升,包括编译速度,运行速度,更高级的优化选项以及生成更高效的指令代码。但同时也可能高版本的编译器的检查选项更严格,有些以前没有暴露的错误被暴露出来,导致编译报错,有时是源代码本身的问题,也有些可能是编译器内部的问题,需要按照特定情况去解决。

在视频号模块上我们成功的实现了版本升级适配以及20%的综合性能提升,优化后的二进制文件大小减少了80%,显著的改进了部署效率。

参考

  1. [patch] lto: Don't run ipa-comdats pass during LTO
  2. Optimize Options (Using the GNU Compiler Collection (GCC))
  3. [RFC PATCH] ipa-visibility: Fix ICE in lto-partition caused by incorrect comdat group solving in ipa-visibility
  4. https://gcc.gnu.org/bugzilla/show_bug.cgi?id=91257
  5. https://gcc.gnu.org/bugzilla/show_bug.cgi?id=96935
  6. https://gcc.gnu.org/pipermail/gcc-patches/2021-December/586302.html
  7. https://gcc.gnu.org/pipermail/gcc-patches/2023-March/614666.html
  8. https://en.cppreference.com/w/cpp/language/return
  9. https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
如何实现一个new方法
• 创建一个空对象,将它的引用赋给 this,继承函数的原型。 • 通过 this 将属性和方法添加至这个对象 • 最后返回 this 指向的新对象,也就是实例(如果没有手动返回其他的对象)
刘嘿哈
2022/10/25
2470
JavaScript —— New
热身 New 这个关键字 是创建对象的? JS中万物皆是对象。 new 关键字是用来继承的。 => 面向对象的基础 new function DN(name, age) { this.name = name; this.age = age; this.salary = '30k'; } DN.prototype.ability = 100; DN.prototype.sayYourName = function(){ console.log('I am' + this.name); }
FinGet
2019/06/28
5630
前端面试(2)javascript
当使用构造函数创建一个对象后,在这个对象内部包含一个指针,这个指针指向构造函数的 prototype 属性所对应的值,这个指针被称为对象的为原型。
leader755
2022/03/08
1.3K0
前端面试(2)javascript
【THE LAST TIME】一文吃透所有JS原型相关知识点
首先我想说,【THE LAST TIME】系列的的内容,向来都是包括但不限于标题的范围。
Nealyang
2019/11/04
1.1K0
[我的理解]Javascript的原型与原型链
一、原型与原型链的定义 原型:为其他对象提供共享属性的对象     注:当构造器创建一个对象,为了解决对象的属性引用,该对象会隐式引用构造器的"prototype"属性。程序通过constructor.prototype可以直接引用到构造器的"prototype"属性。并且添加到对象原型里的属性,会通过继承与所有共享此原型的对象共享。 原型链:每个由构造器创建的对象,都有一个隐式引用(叫做对象的原型)链接到构造器的"prototype"属性。再者,原型可能有一个非空隐式引用链接到它自己的原型,以此类推,这叫
sam dragon
2018/01/17
9160
[我的理解]Javascript的原型与原型链
深入理解javascript中的继承机制 之 12种继承模式总结原型链法仅从原型继承临时构造器原型属性拷贝所有属性拷贝(浅拷贝)深拷贝原型继承法扩展与增强模式多重继承法寄生式继承借用构造函数:构造器于
之前我们介绍了多种javascript中的继承方式,最后我们开始总结概括这些继承方式,先将javascript中的继承分类,根据不同的条件,可以分成不同的类别。 最常用的我们可以分为这两类:
desperate633
2018/08/22
5090
JavaScript 面向对象
创建函数 Foo 的时候,就会有一个内置的 Foo.prototype 属性,并且这个属性是对象。
零式的天空
2022/03/02
2870
JavaScript继承的实现方式:原型语言对象继承对象原理剖析
对象的继承:A 对象通过继承 B 对象,就能直接拥有 B 对象的所有属性和方法。这对于代码的复用是非常有用的。
周陆军
2021/08/14
8400
深入理解JavaScript(一)
2.支持函数式编程(高阶函数、内置的map和reduce)和面向对象编程(对象、继承)的混合编程风格
硬核项目经理
2019/08/06
1.5K0
JavaScript 常用功能总结
小编吐血整理加上翻译,太辛苦了~求赞! 本文主要总结了JavaScript 常用功能总结,如一些常用的JS 对象,基本数据结构,功能函数等,还有一些常用的设计模式。 目录: 众所周知,JavaScript是动态的面向对象的编程语言,能够实现以下效果: 1. 丰富Web 网页功能 2. 丰富Web界面 3. 实现本地或远程存储。 4. 实现分布式网络应用的前端组件,并在后台进行数据存储管理。 5. 使用JavaScript可以实现完整的分布式Web 应用。 JavaScript 中的数据类型 JavaScri
葡萄城控件
2018/01/10
2.7K0
JavaScript 常用功能总结
JavaScript两种继承方式详解
由于js不像java那样是真正面向对象的语言,js是基于对象的,它没有类的概念。所以,要想实现继承,可以用js的原型prototype机制或者用apply和call方法去实现
疯狂的技术宅
2019/03/27
7100
由浅入深,66条JavaScript面试知识点
来源:https://juejin.im/post/5ef8377f6fb9a07e693a6061
zz_jesse
2020/07/07
1.1K0
由浅入深,66条JavaScript面试知识点
JavaScript学习总结(四)——this、原型链、javascript面向对象
根据题目要求,对给定的文章进行摘要总结。
张果
2018/01/04
1.5K0
JavaScript学习总结(四)——this、原型链、javascript面向对象
涨薪必备Javascript,快点放进小口袋!
摘要: 嗨,新一年的招聘季,你找到更好的工作了吗?小姐姐最近刚换的工作,来总结下面试必备小技能,从this来看看javascript,让我们更深入的了解它。 前言 在JavaScript中,被吐槽最多的this,原型,继承,闭包等这些概念。接下来这篇文章会把我自己对于JavaScript中这些点通过this指向做个总结并分享给大家,希望可以帮助大家更好的了解这些所谓的难点。 一、this this是什么?this的常见使用场景呢? 普通调用,this指向为调用者 call/apply调用,this指向为当前
用户2145235
2018/05/18
7000
由浅入深,66条JavaScript面试知识点
作者:Jake Zhang https://juejin.cn/post/6844904200917221389
用户4456933
2021/06/01
7450
由浅入深,66条JavaScript面试知识点
JS中的面向对象、原型、原型链、继承总结大全
补充: js中说一切都是对象,是不完全的,在js中6种数据类型(Undefined,Null,Number,Boolean,String,Object)中,前五种是基本数据类型,是原始值类型,这些值是在底层实现的,他们不是object,所以没有原型,没有构造函数,所以并不是像创建对象那样通过构造函数创建的实例。关于对象属性类型的介绍就不介绍了。
疯狂的技术宅
2019/03/27
1.5K0
JS中的面向对象、原型、原型链、继承总结大全
【面试】386- JavaScript 面试 20 个核心考点
Javascript是前端面试的重点,本文重点梳理下 Javascript 中的常考基础知识点,然后就一些容易出现的题目进行解析。限于文章的篇幅,无法将知识点讲解的面面俱到,本文只罗列了一些重难点,如果想要了解更多内容欢迎点击https://github.com/ljianshu/Blog。
pingan8787
2019/10/23
4940
【面试】386- JavaScript 面试 20 个核心考点
JS与ES6高级编程学习笔记(三)——JavaScript面向对象编程
面向对象程序编程(Object-oriented programming,缩写:OOP)是用抽象方式构建基于现实世界模型的一种编程模式,JavaScript是一种基于对象(object-based)的语言,支持面向对象编程与函数式编程,但JavaScript的面向对象与其它的面向对象语言有较大差异,ECMAScript中没有类的概念,所以对象也有所不一样。
张果
2022/06/06
7980
JS与ES6高级编程学习笔记(三)——JavaScript面向对象编程
《JavaScript 模式》读书笔记(6)— 代码复用模式3
我们之前聊了聊基本的继承的概念,也聊了很多在JavaScript中模拟类的方法。这篇文章,我们主要来学习一下现代继承的一些方法。
zaking
2020/05/01
5560
ECMA-262-3深入解析第七章:2、OOP ECMAScript 实现
从来没有深入了解ECMA,网上找了一下,发现早在2010年就有大佬 Dmitry Soshnikov 总结了ECMA中的核心内容,我这里只是翻译记录,加深自己的印象。文章原文来自 ECMA-262-3 in detail. Chapter 7.2. OOP: ECMAScript implementation.
踏浪
2021/06/09
6290
推荐阅读
相关推荐
如何实现一个new方法
更多 >
LV.1
环数科技有限公司数据库开发工程师
目录
  • 落地成果
  • 编译速度优化
    • ★ 文件编译时间过长 
    • ★ LTO链接耗时变长 
  • 编译器升级后出现的编译错误
    • ★ MMERR打印宏引起编译器ICE(internel compiler error)
    • ★ AutoFDO方式编译 jemalloc/src/prof.c时栈溢出错误
    • ★ gcc: ICE in ipa_profile_write_edge_summary
    • ★ xgcc: fatal error: cannot execute '/data/mm64/mmdev/gcc10_debug/./gcc/cc1': execv: Argument list too long
    • ★ profile-use+LTO ICE in lto-partion.c
  • 编译器升级后出现的运行问题
    • ★ coredump
    • ★ 运行时火焰图函数缺失问题
    • ★ ParseFromArray fail
  • 二进制文件大小的优化
  • 总结
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档