nvidia-smi

https://blog.csdn.net/huangfei711/article/details/79230446

GPU:GPU 编号;
Name:GPU 型号;
Persistence-M:持续模式的状态。持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态;
Fan:风扇转速,从0到100%之间变动;
Temp:温度,单位是摄氏度;
Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为P12)。
Pwr:Usage/Cap:能耗;
Memory Usage:显存使用率;
Bus-Id:涉及GPU总线的东西,domain:bus:device.function;
Disp.A:Display Active,表示GPU的显示是否初始化;
Volatile GPU-Util:浮动的GPU利用率;
Uncorr. ECC:Error Correcting Code,错误检查与纠正;
Compute M:compute mode,计算模式。
MIG M. 开启 MIG 模式(划分vGPU)

pic信息

lspci -D | grep NVIDIA
#检查nouveau driver确保没有被加载
lsmod | grep nouveau  
lsmod | grep -i nouveau

常用操作

https://blog.csdn.net/daydayup858/article/details/131633445

nvidia-smi
nvidia-smi -h  #查看帮助手册
nvidia-smi -L #列出所有可用的 NVIDIA 设备信息
nvidia-smi -i 0  #查看指定GPU信息
nvidia-smi -q -i 0 #列出某一GPU的详细信息
nvidia-smi -q #查看详细信息

nvidia-smi dmon #查看每秒使用状态  整体 GPU 使用情况
nvidia-smi pmon #查看每秒使用状态 每个GPU


watch -n 0.5 nvidia-smi  #动态地观察 GPU 的状态
nvidia-smi -l 5 #指定动态刷新时间,默认5秒刷新一次


在所有 GPU 上启用持久性模式:nvidia-smi -pm 1
指定开启某个显卡的持久模式:nvidia-smi -pm 1 -i 0

nvidia-smi -mig 1 #打开MIG模式
reboot
nvidia-smi mig -i 0 -lgip #查看序号