前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >宋宝华:Linux内核中用GFP_ATOMIC申请内存究竟意味着什么?

宋宝华:Linux内核中用GFP_ATOMIC申请内存究竟意味着什么?

作者头像
Linux阅码场
发布于 2021-01-12 07:33:29
发布于 2021-01-12 07:33:29
5.3K00
代码可运行
举报
文章被收录于专栏:LINUX阅码场LINUX阅码场
运行总次数:0
代码可运行

本文目的

本文补充校正一些Linux内核开发者关于GFP_ATOMIC的认知不完整的地方,阐述GFP_ATOMIC与free内存watermark的关系,并明确什么时候应该用GFP_ATOMIC申请内存。目录:

1. GFP_ATOMIC vs. GFP_KERNEL

2. 内存水位,PF_MEMALLOC和GFP_ATOMIC

3. 何时使用GFP_ATOMIC(一个patch分析)

GFP_ATOMIC vs. GFP_KERNEL

我们都知道,在中断、软中断、spinlock等原子上下文里面,申请内存,应该使用GFP_ATOMIC标记,譬如内核中有大量的kmalloc/GFP_ATOMIC的例子:

对于不可睡眠的上下文,如果我们用常规的GFP_KERNEL这样的标记去申请内存,可能引发直接的内存reclaim,从而引起睡眠,所以GFP_KERNEL这种标记只适合进程上下文调用:

GFP_KERNEL的标记可以引发直接的内存回收,从而导致进程阻塞睡眠,这在原子上下文显然是不允许的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#define GFP_KERNEL     \
 (__GFP_RECLAIM | __GFP_IO | __GFP_FS)
 
 #define __GFP_RECLAIM \
 ((__force gfp_t)(___GFP_DIRECT_RECLAIM|___GFP_KSWAPD_RECLAIM)

内存水位,PF_MEMALLOC和GFP_ATOMIC

那么GFP_ATOMIC是否仅仅意味着不能睡眠呢?档案是否定的,GFP_ATOMIC还与内存reclaim的水位相关。下面这个图是讲述水位watermark的一个著名的图,笔者懒得画了,直接从网下copy过来:

在Linux中,内存有3个水位:

  • HIGH: 系统的free内存大于HIGH水位的时候,是一个相对保险的值,不需要急着做内存回收(reclaim);
  • LOW: 系统的free内存达到LOW水位的时候,启动后台kswapd进行内存回收,回收的目标是让空闲内存达到HIGH水位;
  • MIN:系统应该保有的最小free内存,当空闲内存达到这个值的时候,kswapd的后台回收可能来不及了,一般用户在申请内存的时候,进行DIRECT RECLAIM。

min水位一般是系统自动换算的,其具体值可以从/proc看出:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# cat /proc/sys/vm/min_free_kbytes 
45056

而LOW水位一般是min*125%,HIGH 一般是min*150%。

MIN水位以下的内存,只能被紧急情况下的用户申请到,最著名的紧急用户莫过于PF_MEMALLOC用户,task_struct设置了这个标记表示忽略MIN水位。比如回收内存的代码本身也可能需要申请内存,这个时候我们应该给它无限制的申请能力。典型地,比如kswapd就设置了这个标记,这个代码里面的注释也非常精彩:

如果我们不允许回收内存的代码申请min以下的内存,则回收内存的代码可以触发回收内存,这样“子子孙孙,无穷匮也”。

当然,PF_MEMALLOC不是唯一的紧急用户,GFP_ATOMIC实际也是一个“半紧急”任务:

  • 说它“紧急”,是因为如果原子上下文申请内存失败,往往意味着相应的中断、软中断、spinlock内部的代码就会执行失败,而我们又不会因为这种失败,而去尝试内存回收,这显然比较惨,我们应该尽可能让GFP_ATOMIC申请成功;
  • 说它“半”,是因为它不至于紧急到PF_MEMALLOC这个程度,如果我们给它无限地申请到free内存为0的权力,则会导致PF_MEMALLOC没有内存了。想想,如果征粮队的人都饿死了,还怎么去征粮呢?

所以,内存的设计选择是,当有人用GFP_ATOMIC申请内存的时候,允许它从MIN水位以下,申请一定数量的内存。什么叫“一定数量”呢?就是不能让GFP_ATOMIC导致free 内存触底,GFP_ATOMIC还包含了高优先级的含义:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#define GFP_ATOMIC    \  
(__GFP_HIGH|__GFP_ATOMIC|__GFP_KSWAPD_RECLAIM)

注意这个里面的__GFP_HIGH不是HIGHMEM高端内存的意思,而是高优先级。

当我们用GFP_ATOMIC申请内存的时候,内核的水位检查代码,会允许我们触及到MIN水位以下的1/2:

那么,“魔鬼”就是在画红圈的2行代码。但是,如果我们进一步深究,会发现,GFP_ATOMIC不只是触及1/2*min,它甚至可以触及1/4*min,因为GFP_ATOMIC中的__GFP_HIGH让ALLOC_HIGH成立,而__GFP_ATOMIC让ALLOC_HARDER成立

所以,“魔鬼”又隐藏在了gfp_to_alloc_flags()的细节里。

一个patch的例子

在具体的工程实战中,我们建议:

  • 原子上下文使用GFP_ATOMIC

比如在网络设备驱动drivers/net/ethernet中,就有大量的案例

  • 在内存紧急的路径上(比如不想睡眠,要求低延迟;或者要求内存吃紧的情况下,仍然可以从min水位以下申请内存),哪怕是进程上下文,我们也建议可以考虑使用GFP_ATOMIC

比如田涛童鞋最近在mm/zswap.c发的RFC patch:

https://lore.kernel.org/linux-mm/1608894171-54174-2-git-send-email-tiantao6@hisilicon.com/

上面2个地方,其实都是可以睡眠的进程上下文,但是我们认为在frontendswap的路径上,我们对延迟敏感,对swap内存过程中进一步引发内存回收也担忧,因此,这里哪怕是非原子上下文,我们也没有使用GFP_KERNEL。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Linux阅码场 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深入理解 Linux 物理内存分配全链路实现
在上篇文章 《深入理解 Linux 物理内存管理》中,笔者详细的为大家介绍了 Linux 内核如何对物理内存进行管理以及相关的一些内核数据结构。
bin的技术小屋
2023/10/30
9570
深入理解 Linux 物理内存分配全链路实现
kmalloc分配物理内存与高端内存映射--Linux内存管理(十八)
尽管vmalloc函数族可用于从高端内存域向内核映射页帧(这些在内核空间中通常是无法直接看到的), 但这并不是这些函数的实际用途.
233333
2019/01/02
6.7K0
Linux内核参数min_free_kbytes与lowmem_reserve_ratio
解释已经很清楚了,主要有以下几个关键点: 1. 1 代表系统所保留空闲内存的最低限
Linux阅码场
2020/03/20
2.5K0
伙伴系统之伙伴系统概述--Linux内存管理(十五)
在内核初始化完成之后, 内存管理的责任就由伙伴系统来承担. 伙伴系统基于一种相对简单然而令人吃惊的强大算法.
233333
2018/12/27
3.1K0
Kmalloc申请内存源码分析
再上一节了解了SLUB是如何申请一个object的,其中涉及了从当前的freelist申请,以及kmem_cache_cpu->partital链表申请,以及到最后的kmem_cache_cpu→node中申请,如果上述三个步骤都没有申请到的话,就会重新创建一个新的slab,然后设置好freelist的指针,返回object使用。
DragonKingZhu
2020/04/30
2.2K0
zone watermark水位控制
本节我们来分析下zone的水位控制,在zone那一节中,我们将重点放在了free_area中,故意没有分析zone中的水位控制,本节在重点分析zone中的水位控制。
DragonKingZhu
2020/04/24
1.8K0
zone watermark水位控制
Buddy 内存管理机制(下)
这里体现了 Buddy 的核心思想:在内存释放时判断其 buddy 兄弟 page 是不是 order 大小相等的 free page,如果是则合并成更高一阶 order。这样的目的是最大可能的减少内存碎片化。
刘盼
2023/01/05
1.9K0
Buddy 内存管理机制(下)
一文搞定伙伴分配器
当系统内核初始化完毕后,使用页分配器管理物理页,当使用的页分配器是伙伴分配器,伙伴分配器的特点是算法简单且高效,支持内存节点和区域,为了预防内存碎片,把物理内存根据可移动性分组,针对分配单页做了性能优化,为了减少处理器的锁竞争,在内存区域增加1个每处理器页集合。
刘盼
2023/01/05
1.2K0
一文搞定伙伴分配器
伙伴系统分配内存
内核中常用的分配物理内存页面的接口函数是alloc_pages(),用于分配一个或者多个连续的物理页面,分配页面个数只能是2个整数次幂。相比于多次分配离散的物理页面,分配连续的物理页面有利于提高系统内存的碎片化,内存碎片化是一个很让人头疼的问题。alloc_pages()函数有两个,一个是分配gfp_mask,另一个是分配阶数order。
233333
2020/05/25
1.8K0
内存调试的相关分析
我们知道外设访问内存需要通过DMA进行数据搬移,关于cpu, cache, device, dma, memory的关系可以通过下图说明:
刘盼
2018/07/26
1.9K0
内存调试的相关分析
【Linux 内核 内存管理】物理分配页 ⑦ ( __alloc_pages_slowpath 慢速路径调用函数源码分析 | 判断页阶数 | 读取 mems_allowed | 分配标志位转换 )
在 【Linux 内核 内存管理】物理分配页 ② ( __alloc_pages_nodemask 函数参数分析 | __alloc_pages_nodemask 函数分配物理页流程 ) 博客中 , 分析了 __alloc_pages_nodemask 函数分配物理页流程如下 :
韩曙亮
2023/03/30
1.4K0
【Linux 内核 内存管理】物理分配页 ⑦ ( __alloc_pages_slowpath 慢速路径调用函数源码分析 | 判断页阶数 | 读取 mems_allowed | 分配标志位转换 )
【Linux 内核 内存管理】物理分配页 ⑨ ( __alloc_pages_slowpath 慢速路径调用函数源码分析 | retry 标号代码分析 )
在 【Linux 内核 内存管理】物理分配页 ② ( __alloc_pages_nodemask 函数参数分析 | __alloc_pages_nodemask 函数分配物理页流程 ) 博客中 , 分析了 __alloc_pages_nodemask 函数分配物理页流程如下 :
韩曙亮
2023/03/30
8030
Linux分区页框分配器之水位
我们讲页框分配器的时候讲到了快速分配和慢速分配,其中伙伴算法是在快速分配里做的,忘记的小伙伴我们再看下:
刘盼
2020/07/22
1.4K0
直接内存回收中的等待队列
在直接内存回收过程中,有可能会造成当前需要分配内存的进程被加入一个等待队列,当整个node的空闲页数量满足要求时,由kswapd唤醒它重新获取内存。这个等待队列头就是node结点描述符pgdat中的pfmemalloc_wait。如果当前进程加入到了pgdat->pfmemalloc_wait这个等待队列中,那么进程就不会进行直接内存回收,而是由kswapd唤醒后直接进行内存分配。
233333
2020/04/13
1.7K0
RocketMQ关于Broker闪断故障排查【实战笔记】
在2020-03-16 18:00左右收到告警,业务出现发送RocketMQ失败,在约1分钟左右后自动恢复。RocketMQ运行向来稳定,为何也抖动了?
瓜农老梁
2020/03/25
3.3K0
RocketMQ关于Broker闪断故障排查【实战笔记】
kmalloc、vmalloc、__get_free_pages()的区别
一、分布位置上的区别: kmalloc()和__get_free_pages()函数申请的内存位于物理内存的映射区域,而且在物理上也是连续的,它们与真实的物理地址只有一个固定的偏移,因此存在简单的线性关系;(3G+896M)(低端内存); vmalloc函数申请的虚拟内存与物理内存之间也没有简单的换算关系;(高端内存)(3G+896M以上的内存); 二、特性上的区别: <!--[if !supportLists]-->1、<!--[endif]-->kmalloc() void *kmalloc(size_
233333
2018/03/07
3.8K0
Linux的内存回收和交换
Linux的swap相关部分代码从2.6早期版本到现在的4.6版本在细节之处已经有不少变化。本文讨论的swap基于Linux 4.4内核代码。Linux内存管理是一套非常复杂的系统,而swap只是其中一个很小的处理逻辑。希望本文能让读者了解Linux对swap的使用大概是什么样子。阅读完本文,应该可以帮你解决以下问题:
刘盼
2019/05/17
4.8K0
五万字 | 深入理解Linux内存管理
作者简介: 程磊,一线码农,在某手机公司担任系统开发工程师,日常喜欢研究内核基本原理。 1.1 内存管理的意义 1.2 原始内存管理 1.3 分段内存管理 1.4 分页内存管理 1.5 内存管理的目标 1.6 Linux内存管理体系 2.1 物理内存节点 2.2 物理内存区域 2.3 物理内存页面 2.4 物理内存模型 2.5 三级区划关系 3.1 Buddy System 3.1.1 伙伴系统的内存来源 3.1.2 伙伴系统的管理数据结构 3.1.3 伙伴系统的算法逻辑 3.1.4 伙伴系统的接口 3.1
刘盼
2022/08/26
4.1K0
五万字 | 深入理解Linux内存管理
Linux 内存管理的水位控制
在讲分区页框分配器分配内存的时候,进入伙伴算法前用函数zone_watermark_fast(),来根据水位来判断当前内存情况。内存够的话采用伙伴算法分配,不够的话通过 node_reclaim 回收内存。
刘盼
2021/07/05
1.8K0
Linux 内存管理的水位控制
Linux 内存分配流程及 kmalloc 解析
上一次咱们分析了 Linux 的启动流程和初始化流程,今天主要分析一下内存方面的初始化和常见的内存分配方式。
Jasonangel
2021/10/25
2.8K0
Linux 内存分配流程及 kmalloc 解析
推荐阅读
相关推荐
深入理解 Linux 物理内存分配全链路实现
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验