前言

配置过深度学习开发环境的同学都知道,这是一项繁琐工作,稍不注意就会发生问题。首先,要熟悉硬件配置以选择对应的软件版本。例如,RTX3090刚推出时,TensorFlow只支持CUDA10,但该显卡必须安装CUDA11,所以想要在RTX3090上使用TensorFlow,需安装nightly版本。其次,即使软件与硬件契合,在安装时也要考虑软件间的依赖问题。以PyTorch的torch-1.13.0-cp37-cp37m-manylinux1_x86_64.whl为例,该版本要求python为3.7.x、系统为32位或64位的linux,还要求计算机已安装对应版本的CUDA。

配置环境也是一项机械的工作,我相信每位同学安装环境前,都会在百度搜索框搜索“深度学习环境安装”,根据网上整理的博客、攻略,查找各软件的安装指令,磕磕碰碰地进行环境配置。有时候装的过程中才发现,资料内容是关于旧版本的,而新版本安装方式早已更新,想必此时各位内心有一万头X泥马奔腾而过……

baidu

所以,为了避免在配置环境上花费太多时间,我每次配置完环境后,很长一段时间不会更新(系统安装后自动更新就已被关闭)。但是随着技术发展,软件版本更新迭代非常迅速,不仅修复了已有bug,还会引入大量新特性,比如python在3.8.x引入了海象运算符(:=),PyTorch还发布了两个新库TorchData和functorch的beta版本等,因此重新配置环境是不可避免的。为了减少花费在配置环境上的时间、提高工作效率,本文记录了一次环境升级过程,记录操作步骤、注意点,供后续参考。

具体地,深度学习开发环境配置分为以下几点:

  • 现有环境卸载
  • 确定软件版本
  • 软件安装

涉及的软件由底层硬件到应用层的顺序,包括:

  • NVIDIA显卡驱动
  • CUDA工具包
  • 深度神经网络库cuDNN
  • TensorFlow/PyTorch/PaddlePaddle等深度学习框架

现有环境卸载

如果手头已经有一套配置好的深度学习开发环境,想在不重装系统的情况下升级,那么首先需卸载现有环境。本章分为两个小节,第一小节“查看现有环境”先熟悉下现有的开发环境,“卸载现有环境”介绍具体的卸载方法。

查看现有环境

查看linux内核版本号、gcc版本、ubuntu版本及安装时间等信息

1
2
louishsu@dl:~$ cat /proc/version
Linux version 5.15.0-52-generic (buildd@lcy02-amd64-045) (gcc (Ubuntu 9.4.0-1ubuntu1~20.04.1) 9.4.0, GNU ld (GNU Binutils for Ubuntu) 2.34) #58~20.04.1-Ubuntu SMP Thu Oct 13 13:09:46 UTC 2022

查看系统位数

1
2
louishsu@dl:~$ uname -a
Linux dl 5.15.0-52-generic #58~20.04.1-Ubuntu SMP Thu Oct 13 13:09:46 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux

查看显卡驱动版本和使用情况

1
2
3
4
5
louishsu@dl:~$ inxi -G
Graphics: Device-1: NVIDIA driver: nvidia v: 470.63.01
Display: x11 server: X.Org 1.20.13 driver: nvidia resolution: 3840x2160~60Hz
OpenGL: renderer: NVIDIA GeForce RTX 3090/PCIe/SSE2 v: 4.6.0 NVIDIA 470.63.01

查看CUDA版本,显示是11.0.194

1
2
3
4
5
6
louishsu@dl:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Thu_Jun_11_22:26:38_PDT_2020
Cuda compilation tools, release 11.0, V11.0.194
Build cuda_11.0_bu.TC445_37.28540450_0

还有一种方式也可查看CUDA版本

1
2
louishsu@dl:~$ cat /usr/local/cuda/version.txt
CUDA Version 11.0.207

疑问:为什么这里显示的是11.0.207

注意,nvidia-smi命令输出的是驱动信息,显示的CUDA版本是CUDA Driver Version,是与nvidia的显卡驱动绑定安装的,而深度学习环境或相关程序调用的Runtime CUDA,版本号是CUDA Runtime Version。在安装时,CUDA Driver VersionCUDA Runtime Version不需要保持一致,但CUDA Driver Version是最高可支持的CUDA Runtime Version

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
louishsu@dl:~$ nvidia-smi 
Thu Nov 17 22:16:55 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.63.01 Driver Version: 470.63.01 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... Off | 00000000:01:00.0 On | N/A |
| 0% 43C P5 54W / 350W | 1636MiB / 24265MiB | 17% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1310 G /usr/lib/xorg/Xorg 835MiB |
| 0 N/A N/A 1593 G /usr/bin/gnome-shell 329MiB |
| 0 N/A N/A 2115 G ...AAAAAAAAA= --shared-files 214MiB |
| 0 N/A N/A 2263 G ...AAAAAAAAA= --shared-files 185MiB |
+-----------------------------------------------------------------------------+

关于查看cuDNN版本的命令,网上大部分如下

1
louishsu@dl:~$ cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

但是执行时发现没有任何输出,原因是最新版本的cuDNN文件版本位于cudann_version.h中,而不是原来的cudnn.h(安装时同样需要复制该文件以保留版本信息)

1
2
3
4
5
6
7
8
9
louishsu@dl:~$ sudo cp cuda/include/cudnn_version.h /usr/local/cuda/include/
louishsu@dl:~$ cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
#define CUDNN_MAJOR 8
#define CUDNN_MINOR 2
#define CUDNN_PATCHLEVEL 2
--
#define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR *100 + CUDNN_PATCHLEVEL)

#endif /* CUDNN_VERSION_H */

卸载现有环境

为防止出现软件依赖问题,卸载按应用、底层包、驱动的过程进行。应用即TensorFlow/PyTorch/PaddlePaddle等深度学习框架,可以用pip uninstall <package>指令卸载,但是单独删除深度学习框架可能会导致一系列的已安装的python包依赖错误(如transformers、AllenNLP),因此我选择删除整个conda环境重新安装。

1
2
3
4
5
6
louishsu@dl:~$ conda env list
# conda environments:
#
base * /home/louishsu/anaconda3
nlp /home/louishsu/anaconda3/envs/nlp
louishsu@dl:~$ conda remove -n nlp --all
1
2
3
4
5
6
7
8
9
10
11
12
13
louishsu@dl:~$ conda create --name nlp python=3.7
Solving environment: done

... (省略若干字……)

#
# To activate this environment, use
#
# $ conda activate nlp
#
# To deactivate an active environment, use
#
# $ conda deactivate

然后运行cuda-uninstaller卸载CUDA,该指令运行后会显示一个复选框,用回车键勾选相应软件卸载即可

1
2
louishsu@dl:~$ sudo /usr/local/cuda-11.0/bin/cuda-uninstaller
Successfully uninstalled

cuda-uninstaller

此时残留目录中包含的即已安装的cuDNN,删除即可

1
2
3
4
5
6
7
8
9
louishsu@dl:~$ rm -rf /usr/local/cuda-11.0/
rm: cannot remove '/usr/local/cuda-11.0/targets/x86_64-linux/lib/libcudnn_adv_infer.so.8': Permission denied

... (省略若干字……)

rm: cannot remove '/usr/local/cuda-11.0/targets/x86_64-linux/include/cudnn.h': Permission denied
louishsu@dl:~$ sudo rm -rf /usr/local/cuda-11.0/
louishsu@dl:~$ sudo rm -rf /usr/include/cudnn.h
louishsu@dl:~$ sudo rm -rf /usr/lib/x86_64-linux-gnu/libcudnn*

接下来卸载显卡驱动,有两种方式卸载:

  1. 如果保留了显卡安装包,那么可借助安装包卸载显卡驱动
    1
    louishsu@dl:~$ sudo sh NVIDIA-Linux-x86_64-410.78.run --uninstall
  2. 调用卸载指令,卸载完成后重启
    1
    louishsu@dl:~$ sudo /usr/bin/nvidia-uninstall

driver-uninstall

确定软件版本

前面讲到软件版本需要和硬件适配,并且解决软件依赖问题,那么究竟应该如何确定各个软件的版本呢?是以下几种顺序吗:

  1. 先安装最新驱动,再选择驱动对应的最新CUDA,最后选择最新CUDA对应的PyTorch/TensorFlow
  2. 先确定最新CUDA,再根据CUDA版本确定驱动和PyTorch/TensorFlow
  3. ……

在回答上述问题前,我们首先要了解到,PyTorch/TensorFlow一定是基于已有的CUDA开发的,因此支持的CUDA版本是等于或者低于目前最新的CUDA的。例如,PyTorch最高支持CUDA 11.7,但CUDA 11.8已经发布。同理,CUDA也是基于已有的显卡驱动开发的,因此CUDA版本是等于或者低于最新显卡驱动对应的CUDA。因此,确定各软件版本的正确顺序应该是:应用决定底层,即先确定最新的PyTorch/TensorFlow支持的最高的CUDA版本,再根据选定的CUDA版本确定显卡驱动的版本。

首先,由PyTorch官网首页可知,PyTorch最新支持CUDA 11.7。

torch-download

因此,在NVIDIA官网查找CUDA 11.7.x相关版本下载

cuda-download-1

然后下载与CUDA版本对应的cuDNN(需登录信息,可以用微信),注意选择Local Installer for Linx x86_64[Tar],安装较为简单。

cudnn-download-1

最后根据CUDA版本确定显卡驱动版本,CUDA版本所需的最低显卡驱动版本可以从CUDA release相关文档查询,如下图,可以看到CUDA 11.7.1相应驱动版本是>=515.48.07

CUDA Toolkit and Corresponding Driver Versions

到NVIDIA官网下载对应驱动

driver-download-1

点击搜索,显示驱动信息如下,满足要求,下载即可

1
2
3
4
5
6
7
Linux X64 (AMD64/EM64T) Display Driver

版本: 515.76
发布日期: 2022.9.20
操作系统: Linux 64-bit
语言: Chinese (Simplified)
文件大小: 347.96 MB

软件安装步骤

首先安装显卡驱动,网上很多资料都推荐先关闭图形界面,这里推荐一种简单的安装方式,不用关闭图形界面直接安装

1
2
3
4
louishsu@dl:~$ sudo apt-get install gcc g++ make cmake
louishsu@dl:~$ sudo apt-get remove nvidia-*
louishsu@dl:~$ sudo chmod a+x NVIDIA-Linux-x86_64-515.76.run
louishsu@dl:~$ sudo ./NVIDIA-Linux-x86_64-515.76.run

安装完成后重启,就可以看到显卡驱动已经正确安装

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
louishsu@dl:~$ nvidia-smi 
Sat Nov 19 17:55:20 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.76 Driver Version: 515.76 CUDA Version: 11.7 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... Off | 00000000:01:00.0 On | N/A |
| 0% 46C P3 62W / 350W | 1270MiB / 24576MiB | 19% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1504 G /usr/lib/xorg/Xorg 686MiB |
| 0 N/A N/A 1797 G /usr/bin/gnome-shell 275MiB |
| 0 N/A N/A 2312 G ...AAAAAAAAA= --shared-files 241MiB |
+-----------------------------------------------------------------------------+

然后安装CUDA,注意因为驱动已手动安装,不要再安装驱动了,在复选框取消勾选驱动

1
2
3
4
5
6
7
8
9
10
11
12
13
louishsu@dl:~$ sudo sh cuda_11.7.1_515.65.01_linux.run

... (协议等,省略若干字……)

- [ ] Driver
[ ] 515.65.01
+ [X] CUDA Toolkit 11.7
[X] CUDA Demo Suite 11.7
[X] CUDA Documentation 11.7
- [ ] Kernel Objects
[ ] nvidia-fs
Options
Install

安装结束后,显示

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
louishsu@dl:~$ sudo sh cuda_11.7.1_515.65.01_linux.run
[sudo] password for louishsu:
===========
= Summary =
===========

Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-11.7/

Please make sure that
- PATH includes /usr/local/cuda-11.7/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-11.7/lib64, or, add /usr/local/cuda-11.7/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-11.7/bin
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 515.00 is required for CUDA 11.7 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
sudo <CudaInstaller>.run --silent --driver

Logfile is /var/log/cuda-installer.log

再将CUDA路径添加到.bashrc环境变量

1
2
3
4
# >>> cuda & cudnn >>>
export PATH="/usr/local/cuda/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"
# <<< cuda & cudnn <<<

如果CUDA编译器NVCC的版本查询指令nvcc -V能正确输出以下内容,则安装完成

1
2
3
4
5
6
7
louishsu@dl:~$ source .bashrc
louishsu@dl:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Jun__8_16:49:14_PDT_2022
Cuda compilation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler.31442593_0

最后安装cuDNN,通过解压.tgz包后手动复制,即可完成安装

1
2
3
4
tar -xvf cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz
sudo cp cudnn-linux-x86_64-8.6.0.163_cuda11-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp -P cudnn-linux-x86_64-8.6.0.163_cuda11-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

验证安装正确性

1
2
3
4
5
6
7
8
9
louishsu@dl:~$ cat /usr/local/cuda/include/cudnn_version_v8.h | grep CUDNN_MAJOR -A 2
$ cat /usr/local/cuda/include/cudnn_version_v8.h | grep CUDNN_MAJOR -A 2
#define CUDNN_MAJOR 8
#define CUDNN_MINOR 6
#define CUDNN_PATCHLEVEL 0
--
#define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)

/* cannot use constexpr here since this is a C-only file */

参考资料