Linux深度学习基础环境搭建

Cuda 和 Cudnn¶

后验证，如果是不做tensorrt或者onnx的部署，不需要安装Cuda和Cudnn，在安装pytorch的时候，自动就会安装相关的工具。

先在cmd环境使用nvidia-smi指令查看cuda支持的最高版本。

nvidia-smi

我这里的Cuda Version是12.4版本，所以需要下载不能超过12.4版本的Cuda以及对应版本的Cudnn。

然后去Cuda官网和Cudnn官网下载自己适合的版本，cudnn下载的是个压缩包，然后记得和Cuda下载相应版本。

这里选择Cuda版本10.2，使用sh *.run的方式安装cuda。

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
chmod 777 cuda_10.2.89_440.33.01_linux.run
sudo sh cuda_10.2.89_440.33.01_linux.run

是否同意条款，必须同意才能继续安装）
accept/decline/quit: accept

下一步弹出来的选项不选Driver

Installing the CUDA Toolkit（开始安装）

然后将环境加入环境变量

sudo vim ~/.bashrc

export PATH="/usr/local/cuda-10.2/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH"

source ~/.bashrc

安装完成后可以使用nvcc -V查看是否安装完成。

nvcc -V

Cudnn安装路径cuDNN Archive | NVIDIA Developer，下载对应版本，这里下载 8.2.1 for Cuda 10.2，有时候下载不了，可以复制链接到迅雷查看，点开后选择 cuDNN Library for Linux

下载好以后，接着用以下命令安装配置。

tar -zxvf cudnn-10.2-linux-x64-v8.2.1.32.tgz

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ 
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ 
sudo chmod a+r /usr/local/cuda/include/cudnn.h 
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

查看cuDNN版本方法：

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

注意，这句话可能执行了没效果，那是因为新版本换位置了，需要用:

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

这里再次注意路径问题。

至此CUDN + cuDNN安装完成，可以执行相关训练文件查看是否有gpu信息输出，或监控一下gpu状态

watch -n 1 nvidia-smi

卸载Cuda¶

sudo apt-get --purge remove "*cuda*" "*cublas*" "*cufft*" "*cufile*" "*curand*"  "*cusolver*" "*cusparse*" "*gds-tools*" "*npp*" "*nvjpeg*" "nsight*" "*nvvm*"

sudo apt-get autoremove

Miniconda安装¶

anaconda比较臃肿，直接安装miniconda就行，官网下载太慢的话可以去清华镜像源Miniconda镜像选择指定版本的Conda镜像。

安装的时候，直接bash你下载下来的对应的版本即可。最好放在用户目录下执行。安装过程应该就是输入yes和选择安装路径，其他的直接回车。

bash Miniconda3-latest-Linux-x86_64.sh

安装完成后，重新打开终端，可以使用以下命令创建新环境

conda create -n test python=3.8

可以通过以下指令查看安装的环境

conda env list

创建完成后使用以下命令跳转到该环境

conda activate test

要退出的话

conda deactivate

删除目标环境

conda env remove -n test

添加清华源，国外源下载包可能比较慢，所以我们查看清华源的文档，进行换源。官方帮助文档

2024_12_05:现在文档的步骤是找到用户目录下${HOME}/.condarc的.condarc文件，然后将该文件打开，没有就自己建立一个，加入以下内容

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

即可添加 Anaconda Python 免费仓库。

一般安装python库的话，要么使用pip安装，要么使用conda安装，最好不要同时使用，相互间的依赖文件可能会冲突。但是有的时候，缺少一些库文件的时候，可以用pip把对应的包删除掉，再使用conda安装，可能会安装好。

pip换源¶

在家目录下创建隐藏文件夹.pip，在隐藏文件夹.pip中创建pip.conf文件，编辑pip.conf文件

mkdir .pip
cd .pip
vim pip.conf

[global] 
index-url = https://pypi.tuna.tsinghua.edu.cn/simple/

Pytorch环境安装¶

到官网选择指定版本安装即可，但是一般不推荐使用这种方式，因为国内连接经常失效。

可以直接到whl/torch_stable网页中安装对应的whl文件，然后再pip下载对应的whl，如果翻q可能会快一点。

一般我们会安装3个工具，torch、torchvision、torchaudio。版本间对应关系可以参考博客，他博客中的对应关系分别来自官方文档torchvision和torchaudio，中的表格。自己选择项目对应的版本进行下载。

安装完成后测试

import torch
print(torch.__version__)

print(torch.version.cuda)
print(torch.backends.cudnn.version())

print(torch.cuda.is_available())

Opencv环境搭建¶

安装opencv

pip install opencv-python --verbose

安装opencv-contrib-python

pip install opencv-contrib-python --verbose

创建软链接¶

由于很多地方需要数据集，但是部分项目如果使用全局变量可能需要修改源码的部分，所以使用软链接，打开终端，然后执行以下指令。

ln -s [源文件] [目标文件]