本文摘要:【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法。
今天我在有GPU的linux上执行 "nvidia-smi"命令,想查看一下nvidia 版本,但是被提示Failed to initialize NVML: Driver/library version mismatch。
就算你装了显卡那些配套东西,但是因为这个原因,也会让我们无法使用GPU。接下来我给大家提供两种主流的方法来解决这个问题。
我们先来分析下问题的原因。
输入命令:
dpkg -l | grep nvidia
可以看到对应的nvidia驱动的版本号:
可以看到我这里显示的是 535.171.04,接着输入命令查看内核的版本:
cat /proc/driver/nvidia/version
内核版本是535.154.05,跟我们之前的版本不是很对应。这就是问题所在。
Ubuntu显卡驱动自动更新,导致更新后的驱动程序和系统正在使用的内核程序版本不一致了。所以解决问题的思路就是让其版本一致即可。
直接reboot重启系统即可,系统会自动跟新内核,使得版本一致:reboot
然后就可以看到对应的显卡了。
采用指令退出当前内核使用的显卡模块,然后重新加载升级后版本的显卡驱动作为内核模块。
sudo rmmod nvidia
sudo nvidia-smi #nvidia-smi发现没有kernel mod的时候,会自动装载
但是这种方法可能会遇到一定的问题:
$ sudo rmmod nvidia
rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
说明我们正在使用,所以需要手动退出两个nvidia服务。
查看nvidia模块使用情况
$lsmod | grep nvidia
nvidia_uvm 94718 0
nvidia_drm 531248 0
nvidia_modeset 79588287 1 nvidia_drm
nvidia 121440 132 nvidia_modeset,nvidia_uvm 12899044640 132 nvidia_modeset,nvidia_uvm
这就需要我们来手动地关闭nvidia_modset和nvidia_uvm服务。
查看所有的nvidia相关的进程
sudo lsof -n -w /dev/nvidia*
通过kill -9 PID 终止掉和nvidia_uvm,nvidia_modeset有关的进程。然后再重新执行如下的指令:
sudo rmmod nvidia
sudo nvidia-smi #nvidia-smi发现没有kernel mod的时候,会自动装载
如果还是不可以,使用命令强制终止相关服务:
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia
然后再执行就可以看到显卡了。
sudo rmmod nvidia
sudo nvidia-smi #nvidia-smi发现没有kernel mod的时候,会自动装载