Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温。

深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温。

作者头像
用户1332428
发布于 2018-03-08 08:11:20
发布于 2018-03-08 08:11:20
5K0
举报
文章被收录于专栏:人工智能LeadAI人工智能LeadAI

新买回来的不带水冷公版GPU,在满负载运行的时候,温度从室温马上飙升到85度,而且模型训练不是几分钟完事,很有可能要长期保持在高温状态下运行,让如此昂贵的GPU一直发烧真是让人太心疼!

首先得到知乎上一位朋友的文章启发,文章点击这里:从零开始组装深度学习平台(GPU散热)(https://zhuanlan.zhihu.com/p/27682206utm_medium=social&utm_source=wechat_session)。

这篇文章写的是在ubuntu X server环境下,通过修改nvidia-settings来修改GPU风扇速度,因为默认的nvidia-settings设置是,即使GPU在计算的时候温度已经达到85度,风扇速度最高不会超过70%,这样就无法很好地为GPU进行散热,因此需要手动修改GPU风扇速度。

注,以下设置都是针对linux系统的GPU设置,windows的朋友请搜索相关文章。

一.如果你有显示器(X server)

可以完全按照上面提到的这篇文章来设置:从零开始组装深度学习平台(GPU散热)(https://zhuanlan.zhihu.com/p/27682206?utm_medium=social&utm_source=wechat_session),这里贴出关键步骤为:

1.修改/etc/X11/xorg.cong文件

sudo nano /etc/X11/xorg.conf

2.在Section "Device"里面加入 Option "Coolbits" "4"

Section "Device" Identifier "Device0" Driver "nvidia" VendorName "NVIDIA" Option "Coolbits" "4" EndSection

3.重启电脑

sudo reboot

4.输入:

nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"

这里GPUTargetFanSpeed=100就是风扇的速度, 100就是风扇运行在100%的速度, 也可以改成其它速度. 注意在新的NVIDIA驱动, GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 另外GPUFanControlState=1表示让用户可以手动调节GPU风扇速度。

感谢原文知乎作者:张三

二、如果你没有显示器

一般在ubuntu上搭建完深度学习环境后,许多朋友习惯把ubuntu的X桌面服务禁用掉,然后通过另一台windows系统的电脑通过ssh来连接GPU机器使用。这个时候X server已经被禁用掉,开机也自动启动命令行模式,上面第一种做法就不适用于这种情况了。原因是,nvidia-settings只能在X桌面环境下运行,若你想强行使用这个设置就会报错:

因此正常情况下,是不可能通过修改这个设置来改变风扇速度的。

但有没有其它方法修改呢?有!你需要骗过系统,让它你有显示器,这就是常说的headless模式。

主要的解决方法是参考了这篇文章:fan speed without X (headless) : powermizer drops card to p8(https://devtalk.nvidia.com/default/topic/831440/linux/fan-speed-without-x-headless-powermizer-drops-card-to-p8/),这篇文章提供了修改风扇速度的脚本,在ubuntu下运行脚本即可实时调节风扇速度,从而为GPU降温。

这里提供详细步骤:

  1. 克隆这个github仓库到本地目录/opt:https://github.com/boris-dimitrov/set_gpu_fans_public

cd /opt git clone https://github.com/boris-dimitrov/set_gpu_fans_public

在这个仓库包括上图几个文件,主要起作用的是cool_gpu这个文件,我们把文件夹克隆下来之后,运行cool_gpu就可以调节风扇速度了。

2.修改文件夹名字为set-gpu-fans,因为作者疏忽,在cool_gpu代码中此文件夹被命名为“set-gpu-fans”,然而git clone下来的文件夹名字是“set_gpu_fans_public”。

sudo mv set_gpu_fans_public set-gpu-fans

3.创建一个符号链接,让系统知道这个代码在哪里:

ln -sf ~/set-gpu-fans /opt/set-gpu-fans

4.定位到set-gpu-fans文件夹,输入以下命令:

cd /opt/set-gpu-fans

sudo tcsh

./cool_gpu >& controller.log &

tail -f controller.log

这个命令是运行cool_gpu降温代码,启动后会看到这些实时变化的提示:

在开始计算测试前,我们看看目前GPU的温度:

这里用的是2卡进行计算测试,我们可以看到,2卡的Perf(性能)一项已经被调整为“P2”(其它卡仍为P8),2卡的温度为35度,而且三个风扇的速度均为55%。“P2”指的是nvidia的显卡power state,从P0到P12,最高性能状态为P0,运行计算是为P2,最低功耗(最低性能)为P12。

启动模型训练,我们可以看到程序正在不断地自动调节温度:

当运行训练模型一段时间后,最终的温度状态如下图:

风扇被全部调节到80%的速度,温度稳定在65度!对比文章开头的数据,显卡温度从84度降到65度,整整下降了20度!

三.一点要注意的

在上面第二部分的文章出来之前,网上还流传着另一篇文章,那篇可以说是最原始的版本,上面第二部分的代码正是基于该篇原始版本文章改进的,链接地址在这里:Set fan speed without an X server(https://devtalk.nvidia.com/default/topic/789888/set-fan-speed-without-an-x-server-solved-/?offset=).

但这篇文章的原始代码存在一个严重问题:虽然能够强制改变风扇速度,但GPU会被降频工作,power state会被强制降为P8,导致运算性能严重下降!

可能是那篇文章发表时间比较早,不大适用现在最新的显卡和驱动,因此才有了上面第二部分的改进版本,所以大家不要使用原始版本的代码,否则GPU会被限制性能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能LeadAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
开发 | 深度学习训练时 GPU 温度过高?输入这几行命令就能迅速降温
AI科技评论按:本文作者胡智豪,原载于作者个人博客,AI科技评论经授权发布。 新买回来的不带水冷公版GPU,在满负载运行的时候,温度从室温马上飙升到85度,而且模型训练不是几分钟完事,很有可能要长期保持在高温状态下运行,让如此昂贵的GPU一直发烧真是让人太心疼! 首先得到知乎上一位朋友的文章启发:从零开始组装深度学习平台(GPU散热)。具体地址: http://t.cn/RK9wyBK 这篇文章写的是在ubuntu X server环境下,通过修改nvidia-settings来修改GPU风扇速度,
AI科技评论
2018/03/13
1.8K0
开发 | 深度学习训练时 GPU 温度过高?输入这几行命令就能迅速降温
深度总结,带你玩转 NVIDIA GPU
大家好,我是三十一[0],最近北京也出现疫情了,昨晚公司大楼临时管控,测核酸折腾到小一点才到家。前两天的抢菜、囤菜,加上这次的管控经历,这次真有些慌了。。。
程序员荒生
2022/05/19
1.4K0
GPU功耗管理方式介绍(Linux)
Management PCI-Express Runtime D3 (RTD3) Power Management是一种用于管理PCI-Express设备的低功耗模式的技术RTD3是一种睡眠状态,当PCI-Express设备处于空闲状态时,可以将其置于低功耗模式,以减少能源消耗和热量产生。英伟达™(NVIDIA®)图形处理器有许多省电机制。其中一些机制会降低芯片不同部分的时钟和电压,在某些情况下还会完全关闭芯片部分的时钟或电源,但不会影响功能或继续运行,只是速度较慢。然而,英伟达™(NVIDIA®)GPU 的最低能耗状态需要关闭整个芯片的电源,通常是通过调用 ACPI 来实现。这显然会影响功能。在关机状态下,GPU 无法运行任何功能。必须注意的是,只有在 GPU 上没有运行任何工作负载的情况下才能进入这种状态,而且在试图开始工作或进行任何内存映射 I/O (MMIO) 访问之前,必须先重新开启 GPU 并恢复任何必要的状态。
Linux阅码场
2023/08/21
3.1K0
GPU功耗管理方式介绍(Linux)
5700刀打造3卡1080Ti深度学习机器
5700美刀,打造3x1080Ti实验室GPU深度学习机器 最近为公司搭建了一台实验用的深度学习主机,在网络上参考了大量的资料,给出了目前最好的配置。本文首先会介绍所有硬件的选择分析,然后介绍深度学习
用户1332428
2018/03/09
1.7K0
5700刀打造3卡1080Ti深度学习机器
如何搭建你自己的“深度学习”机器?
深度学习是一门用来解决复杂问题的技术,例如自然语言处理和图像处理。目前,我们已经可以很快的处理超大计算量的问题——这多亏了GPU,GPU最初就是用于快速生成高分辨率计算机图像,由于它的计算效率使得其非常适合用于深度学习算法。原先需要用好几周才能分析出来的结果,现在几天时间就能完成。 虽然现在的计算机都有GPU,但是并不是所有的GPU都适合用来进行深度学习。对于那些不能深度学习功能的GPU,本文将会一步一步的教大家如何构建一个自己的深度学习机器。 深度学习系统本质上是在另一台电脑上安装一个具有深度学习的GPU
FB客服
2018/02/08
1K0
如何搭建你自己的“深度学习”机器?
深度学习装机指南:从GPU到显示器,全套硬件最新推荐
硬件设备,是任何一名深度学习er不可或缺的核心装备。各位初级调参魔法师们,你们有没有感到缺少那一根命中注定的魔杖?
量子位
2019/04/24
1.6K0
深度学习装机指南:从GPU到显示器,全套硬件最新推荐
nvidia-smi入门
nvidia-smi是一个用于管理和监控NVIDIA GPU(图形处理器)的命令行实用程序。它提供了一个简单而强大的方式来查看GPU的使用情况、温度、内存占用等信息,以及进行一些基本的管理操作。 本篇文章将介绍如何使用nvidia-smi以及常见的用法和参数选项。
大盘鸡拌面
2023/11/01
1.7K0
如何配置一台深度学习工作站?
这篇文章主要介绍的是家用的深度学习工作站,典型的配置有两种,分别是一个 GPU 的机器和四个 GPU的机器。如果需要更多的 GPU 可以考虑配置两台四个 GPU 的机器。
AI算法与图像处理
2019/08/23
3.5K0
如何配置一台深度学习工作站?
深度学习的完整硬件指南
深度学习是非常消耗计算资源的,毫无疑问这就需要多核高速的CPU。但买一个更快的CPU有没有必要?在构建深度学习系统时,最糟糕的事情之一就是把钱浪费在不必要的硬件上。本文中我将一步一步教你如何使用低价的硬件构建一个高性能的系统。
AI研习社
2019/08/01
8580
基于 Docker 的深度学习环境:入门篇
这段时间,不论是 NLP 模型,还是 CV 模型,都得到了极大的发展。有不少模型甚至可以愉快的在本地运行,并且有着不错的效果。所以,经常有小伙伴对于硬件选择,基础环境准备有这样、那样的问题。
soulteary
2023/03/22
1.7K0
基于 Docker 的深度学习环境:Windows 篇
本篇文章,我们聊聊如何在 Windows 环境下使用 Docker 作为深度学习环境,以及快速运行 SDXL 1.0 正式版,可能是目前网上比较简单的 Docker、WSL2 配置教程啦。
soulteary
2023/07/29
6570
家用万兆网络实践:紧凑型家用服务器静音化改造(二)
大家好,这篇文章我们继续分享家里网络设备的万兆升级和静音改造经验,希望对有类似需求的朋友有所帮助。
soulteary
2025/01/07
2380
家用万兆网络实践:紧凑型家用服务器静音化改造(二)
基于 Docker 的深度学习环境:Windows 篇
本篇文章,我们聊聊如何在 Windows 环境下使用 Docker 作为深度学习环境,以及快速运行 SDXL 1.0 正式版,可能是目前网上比较简单的 Docker、WSL2 配置教程啦。
soulteary
2023/09/04
1.3K0
基于 Docker 的深度学习环境:Windows 篇
Win10下配置WSL2使用CUDA搭建深度学习环境
操作系统:Windows 10 专业版 22H2(保系统版本高于windows10 21H2或Windows11)
御坂妹
2024/11/04
1.9K0
家用万兆网络实践:紧凑型家用服务器静音化改造(二)
大家好,这篇文章我们继续分享家里网络设备的万兆升级和静音改造经验,希望对有类似需求的朋友有所帮助。
soulteary
2025/01/05
2670
家用万兆网络实践:紧凑型家用服务器静音化改造(二)
RTX 2080时代,如何打造属于自己的深度学习机器
作者曾在 2015 年写过一版深度学习硬件推荐的文章,但如今计算机硬件的迭代速度非常快,因此作者在近期将原来的文章进行了大幅改动,写出了第二版深度学习硬件推荐。
机器之心
2018/12/28
1.8K0
RTX 2080时代,如何打造属于自己的深度学习机器
深入理解ipmitool:揭秘BMC与IPMI的智能服务器管理(带外管理)
BMC全称为Baseboard Management Controller,基板管理控制器,是用于监控和管理服务器的专用控器,普通PC没有,服务器产品必配,相比于普通PC,服务器在稳定性、可靠性、安全性、性能、可管理性等方面都要求更高更严酷,这时候就需要BMC来管控服务器。
RokasYang
2023/12/28
38.2K1
深入理解ipmitool:揭秘BMC与IPMI的智能服务器管理(带外管理)
腾讯云GPU服务器初体验:从零搭建Pytorch GPU开发环境
点击【立即选购】可以进入选购页面。每种机型又对应不同的规格。基本上同机型(比如GN7)他们的显卡型号都是相同的,该机型下的不同规格(比如GN7.LARGE20、GN7.2XLARGE32)只是在CPU、内存、带宽以及显卡个数方面不同而已。下面简单列一下机型与显卡的对应关系(截至2022年5月):
果冻虾仁
2022/05/06
10K0
腾讯云GPU服务器初体验:从零搭建Pytorch GPU开发环境
使用AMD CPU,3000美元打造自己的深度学习服务器
选自GitHub 作者:Wayde Gilliam 机器之心编译 本文作者详细描述了自己组装深度学习服务器的过程,从 CPU、GPU、主板、电源、机箱等的选取到部件的安装,再到服务器的设置,可谓面面俱
机器之心
2018/07/26
2.1K0
使用AMD CPU,3000美元打造自己的深度学习服务器
深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
---- 新智元报道   编辑:Joey David 【新智元导读】最近,曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在华盛顿大学读博的知名测评博主Tim Dettmers在自己的网站又上线了深度学习领域的GPU深度测评,到底谁才是性能和性价比之王? 众所周知,在处理深度学习和神经网络任务时,最好使用GPU而不是CPU来处理,因为在神经网络方面,即使是一个比较低端的GPU,性能也会胜过CPU。 深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体
新智元
2023/02/24
2.3K0
深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
推荐阅读
相关推荐
开发 | 深度学习训练时 GPU 温度过高?输入这几行命令就能迅速降温
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档