万字长文详解：GPU服务器Ubuntu系统制作与安装、磁盘分区、驱动配置、SSH、向日葵远控、用户管理、Docker管理、CUDA安装、Anaconda安装、深度学习模型测试-FreeNAS中文网

admin 管理员组

文章数量: 887055

不要轻易Update or Upgrate，导致NVIDIA驱动不兼容 !!!

不要安装最新的版本，版本兼容问题应该看发行时间：比如NVIDIA Driver的的发行时间应晚于Ubuntu系统发行时间

安装不成功，大概率是版本不兼容问题、硬件问题、产品太新使用方案不同以往（如A100显卡）

1、Ubuntu 22.04 镜像文件下载、制作启动盘

0. 慎重安装Ubuntu 20.04，其在服务器端经常有bug，安装完之后会黑屏！

1. 官网下载镜像文件：https://releases.ubuntu.com/jammy/ubuntu-22.04.4-desktop-amd64.iso

2. 推荐 ventoy 软件写入镜像！

3. 或者用 UltraISO 制作U盘安装Ubuntu(不推荐):
   打开iso -> 启动 -> 写入硬盘映像 -> 写入方式: RAW

2、服务器安装系统

1. 系统安装时不要插网线联网，防止在安装过程中自动更新；安装完系统后再插网线联网！！！

2. F11/F10选择U盘启动，按照步骤安装

3. 建议磁盘分区：boot 4G, swap 60G, efi 1G, 剩下给/，创建用户数据存储文件夹(e.g., /user_data)并分区挂载

4. 对于覆盖之前的系统，直接选择 Erase and reinstall，但会自动磁盘分区，可以安装完系统后再挂载

3、开启SSH、安装NVIDIA驱动、安装向日葵远程连接

1. 开启ssh: sudo apt-get install openssh-server
			sudo systemctl start ssh
			sudo systemctl enable ssh
			sudo systemctl status ssh
			sudo systemctl restart ssh (可选)
			申请静态IP，便于远程连接

2. 安装nvidia-driver(安装dkms，否则重启会自动升级内核，导致驱动不匹配)：
   方式一：官网下载NVIDIA驱动: https://www.nvidia.com/download/driverResults.aspx/221949/en-us
   		   (安装g++等、禁用Nouveau等，可参考博客1)
   		   安装dkms，这个可以自动配置内核和驱动匹配
   		   sudo bash NVIDIA-Linux-x86_64-535.161.08.run
   方式二：Ubuntu系统推荐安装(慎用，可能导致驱动和网络全崩)：首先查看合适的驱动程序：ubuntu-drivers devices (找到合适的版本，建议参考一下NVIDIA官网驱动版本，这种方式经常会安装显卡不支持的小版本)
   		   sudo apt install nvidia-driver-xxx (e.g., xxx为535.161.08)
   		   禁用Nouveau驱动程序防止冲突：
   		   	   sudo bash -c "echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf"
			   sudo bash -c "echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist.conf"
		   更新initramfs ：
		   	   sudo update-initramfs -u
		   重启系统，生效，nvidia-smi
注：(1) 如果不小心update或upgrade导致驱动损坏，建议先卸载原驱动、重启后再重新安装驱动；或重装系统
	卸载驱动命令：sudo apt-get remove --purge nvidia*
	(2) gpu-burn 做gpu算力、压力测试
	(3) 正确的安装需要：内核和驱动版本配对上
	(4) .run安装时，如果图形界面安装报错，可能命令行方式不报错
	(5) A100系列以上显卡，不使用多实例GPU模式请禁用MIG，否则不加以配置，pytorch无法正常调用GPU

3. 安装向日葵：
   官网下载ubuntu的 .deb 文件
   sudo dpkg -i xxx.deb
   设置开机自启动、验证码永不更新

博客1

4、硬盘挂载到用户文件夹

0. 如果想把多个硬盘挂载到同一个目录(e.g., /home)，在装系统分区时，先把一个磁盘挂载到/home(一般系统会自动分配)，
   安装完成后再把其他硬盘挂载到这个目录(可以做逻辑卷)

1. 一个硬盘挂载到一个文件夹:
  创建文件夹： sudo mkdir -p /user_folder
  格式化硬盘分区(可选)：sudo mkfs.ext4 /dev/sdb1
  先卸载已有的挂载：sudo umount /old_folder
  挂载到新文件夹：sudo mount /dev/sdb1 /user_folder
  配置开机自动挂载：获取UUID：sudo blkid /dev/sdb1
  				   sudo vim /etc/fstab
  				   添加一下内容到末尾：UUID=<UUID> /mnt/new_data  ext4  defaults  0  2

2. 两块硬盘挂载到一个文件夹(使用 LVM（逻辑卷管理))：
  sudo apt install lvm2
  初始化为物理卷：sudo pvcreate /dev/sda /dev/sdb
  将物理卷合并到一个卷组中，假设卷组名为 vg0：sudo vgcreate vg0 /dev/sda /dev/sdb
  创建逻辑卷：sudo lvcreate -l 100%FREE -n lv0 vg0
  格式化逻辑卷：sudo mkfs.ext4 /dev/vg0/lv0
  挂载逻辑卷：sudo mkdir /user_folder2
             sudo mount /dev/vg0/lv0 /user_folder2
  自动挂载：获取UUID: sudo blkid /dev/vg0/lv0
  			sudo vim /etc/fstab
  			UUID=<UUID>  /user_folder2  ext4  defaults  0  2

5、Ubuntu新建用户、设置目录和权限

1. 创建存储所有用户数据的文件夹：sudo mkdir user_folder
2. 创建新用户并指定目录：sudo adduser --home /user_folder/newuser newuser (不加--home，默认在/home)
3. 设置每个用户的主目录只有该用户可以访问：sudo chmod 700 /user_folder/newuser
4. 确保新用户的主目录属于该用户：sudo chown newuser:newuser /user_folder/newuser
								sudo chown -R $(whoami):$(whoami) /user_folder/newuser
5. 删除用户：sudo userdel -r newuser

6、建议Docker管理 (权限不够用sudo docker) (使用之前先查其他资料，结合使用！)

1. Docker(容器化技术)相比于虚拟机技术(如Vmware)更加轻量化，建立在内核层之上；支持一键打包；Docker创建新容器之后，具有独立的操作系统(如ubuntu22.04)，这与主操作系统(如ubuntu22.04)是相互独立的。

2. 安装Docker
	sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common  # 安装必要的软件包
	# 添加Docker的官方GPG密钥
	curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
	# 添加Docker APT源
	echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
	# 安装Docker
	sudo apt-get install -y docker-ce docker-ce-cli containerd.io
	# 启动Docker服务
	sudo systemctl start docker
	# 设置Docker开机自启动
	sudo systemctl enable docker
	
3. 设置非root用户也具有docker命令权限 (这样每个用户可以自己建立独立的docker container)
	sudo gpasswd -a newuser docker
	newgrp docker

4. 拉取镜像并创建Docker容器
	# 去 Docker Hub 上找，同样的镜像拉取一次就行
	sudo docker pull ubuntu:22.04 或 sudo docker pull pytorch/pytorch:1.10.0-cuda11.3-cudnn8-devel 等等
	# 为 newuser 创建一个容器，并将 /user_folder/newuser 挂载到容器的 /home/newuser 
	docker run -d --name newuser_container -v /user_folder/newuser:/home/newuser ubuntu:22.04
	# 为容器设置SSH服务
	docker exec -it newuser_container bash  # 进入容器
	apt-get install -y openssh-server
	service ssh start
	exit  # 退出容器

5. 进入每个容器并设置用户密码
	docker exec -it newuser_container bash  # 进入容器
	passwd  # 设置密码
	exit  # 退出容器

6. 测试容器正常运行，并且用户的数据目录正确挂载
	docker exec -it newuser_container ls /home/newuser 

7. 一些其他(必要的)操作
	# Docker容器在服务器重启后自动启动
	docker update --restart unless-stopped newuser_container 
	sudo reboot, docker ps  # 重启后，检查容器状态
	
	# 将主系统上的文件复制到容器中：
	docker cp demo.sh newuser_container:/root/demo.sh
	docker exec newuser_container chmod +x /root/demo.sh  # 设置权限

	# 连接容器SSH
	container_ip=$(docker inspect -f '{{range .NetworkSettings.Networks}}{{.IPAddress}}{{end}}' newuser_container)  # 获取容器ip地址
	ssh newuser@${container_ip}

	# 手动重启容器
	docker restart newuser_container 
	docker ps  # 检查容器状态

8. pycharm调试容器中的python项目
	推荐的方法是在主系统上安装和使用PyCharm，并通过远程连接到Docker容器中的Python环境。
	 File > Settings > Project > Project Interpreter > Add > Docker > Docker中的conda/envs/myenv/bin/python

Docker参考1
Docker参考2
Docker参考3

7、CUDA、CuDNN安装 (可选，Anaconda虚拟环境下安装pytorch可自动创建CUDA和CuDNN相关依赖，但是有些包的安装和使用还是依赖于CUDA驱动和CuDNN，建议安装)

1. 参考博客1 安装CUDA、CuDNN
2. 注意：(1) CUDA添加环境变量给当前用户的步骤为(好处是：系统安装多个版本的CUDA，每个用户各自链接CUDA):
		 vim ~/.bashrc
		 # 在该文件的最后添加下面两行
		 # `注意：下面两行命令的cuda-x.x需要根据自己安装的版本号进行修改
		 export PATH=/usr/local/cuda-12.1/bin:${PATH}
		 export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:${LD_LIBRARY_PATH}
         # 使得修改后的环境变量生效
         source ~/.bashrc
         
		 (2) 希望所有用户都能够使用CUDA的配置为：
		 sudo vim /etc/profile
		 # 在该文件的最后添加下面两行
		 # `注意：下面两行命令的cuda-x.x需要根据自己安装的版本号进行修改
		 export PATH=/usr/local/cuda-12.1/bin:${PATH}
		 export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:${LD_LIBRARY_PATH}
		 # 刷新配置文件：使更改立即生效
		 source /etc/profile
		 
验证：nvcc -V

8、Anaconda安装（多种安装方式）

1. 安装anaconda：
	官网下载包，安装：bash Anaconda3-2024.02-1-Linux-x86_64.sh
	
2. root用户安装，并设置其他用户也能使用
	# 将Anaconda目录权限更改为允许其他用户读取和执行
	sudo chmod -R a+rx /path/to/anaconda
	# 将Anaconda的bin目录添加到所有用户的PATH环境变量中
	# 在/etc/profile文件或/etc/profile.d目录下创建一个新的脚本文件，如anaconda.sh
	export PATH="/path/to/anaconda/bin:$PATH"

3. 建议每个用户自己安装自己的anaconda环境，避免环境误删
	如果root用户设置了所有用户的anaconda，但是用户自己也安装了anaconda，则可以去修改用户的PATH环境变量，默认用户自己安装的anaconda优先级更高

4. 直接选择Anaconda的多用户安装模式
	# 安装Anaconda时选择安装路径为公共路径（如/opt/anaconda），并配置合适的权限
	sudo bash Anaconda3-*.sh
	# 将Anaconda目录权限更改为允许其他用户读取和执行
	sudo chmod -R a+rx /opt/anaconda
	# 将Anaconda的bin目录添加到所有用户的PATH环境变量中
	export PATH="/opt/anaconda/bin:$PATH"

9、深度学习模型测试

1. conda create --name py39 python=3.9

2. e.g. conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

3. 测试代码：
import time
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 超参数设置
batch_size = 64
learning_rate = 0.01
epochs = 10

# 使用CUDA（如果可用）
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

# 数据加载和预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)

test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)
test_loader = DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False)

# 简单的神经网络模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 512)
        self.fc4 = nn.Linear(512, 512)
        self.fc5 = nn.Linear(512, 512)
        self.fc6 = nn.Linear(512, 10)

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        x = self.fc3(x)
        x = self.fc4(x)
        x = self.fc5(x)
        x = self.fc6(x)
        return x

# 初始化模型、损失函数和优化器
model = SimpleNN().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=learning_rate)

# 训练函数
def train():
    model.train()

    for epoch in range(epochs):
        start_time = time.time()
        for batch_idx, (data, target) in enumerate(train_loader):
            data, target = data.to(device), target.to(device)
            optimizer.zero_grad()
            output = model(data)
            loss = criterion(output, target)
            loss.backward()
            optimizer.step()
        end_time = time.time()
        print(f"Training Time: {end_time - start_time:.2f} seconds")

# 测试函数
def test():
    model.eval()
    correct = 0
    total = 0

    with torch.no_grad():
        for epoch in range(epochs):
            start_time = time.time()
            for data, target in test_loader:
                data, target = data.to(device), target.to(device)
                output = model(data)
                _, predicted = torch.max(output.data, 1)
                total += target.size(0)
                correct += (predicted == target).sum().item()
            end_time = time.time()
            print(f"Inference Time: {end_time - start_time:.2f} seconds")
            print(f'Accuracy: {100 * correct / total:.2f}%')

# 执行训练和测试
if __name__ == "__main__":
    train()
    test()

10、一切安装就绪之后，禁用一切更新（包括系统自动更新）

1. 禁用内核更新
	查看正在使用的内核版本：uname -r
	查看正在使用的内核包(替换成上述搜索到的版本)：dpkg --get-selections | grep 6.2.0-26-generic
	禁止内核更新(替换成上述搜索到的软件包)：sudo apt-mark hold linux-headers-6.2.0-26-generic linux-image-6.2.0-26-generic linux-modules-6.2.0-26-generic linux-modules-extra-6.2.0-26-generic
	检查状态：dpkg --get-selections | grep 6.2.0-26-generic
	
	若要重新开启内核更新(替换成搜索到的软件包)：sudo apt-mark install linux-headers-6.2.0-26-generic linux-image-6.2.0-26-generic linux-modules-6.2.0-26-generic linux-modules-extra-6.2.0-26-generic
	若自动更新了内核版本导致驱动不可用，查看博客2

2. 禁用系统自动更新等等

博客2

本文标签：向日葵万字详解深度模型

版权声明：本文标题：万字长文详解：GPU服务器Ubuntu系统制作与安装、磁盘分区、驱动配置、SSH、向日葵远控、用户管理、Docker管理、CUDA安装、Anaconda安装、深度学习模型测试内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1734952445h1682470.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

万字长文详解：GPU服务器Ubuntu系统制作与安装、磁盘分区、驱动配置、SSH、向日葵远控、用户管理、Docker管理、CUDA安装、Anaconda安装、深度学习模型测试

不要轻易Update or Upgrate，导致NVIDIA驱动不兼容 !!!

不要安装最新的版本，版本兼容问题应该看发行时间：比如NVIDIA Driver的的发行时间应晚于Ubuntu系统发行时间

安装不成功，大概率是版本不兼容问题、硬件问题、产品太新使用方案不同以往（如A100显卡）

1、Ubuntu 22.04 镜像文件下载、制作启动盘

2、服务器安装系统

3、开启SSH、安装NVIDIA驱动、安装向日葵远程连接

4、硬盘挂载到用户文件夹

5、Ubuntu新建用户、设置目录和权限

6、建议Docker管理 (权限不够用sudo docker) (使用之前先查其他资料，结合使用！)

7、CUDA、CuDNN安装 (可选，Anaconda虚拟环境下安装pytorch可自动创建CUDA和CuDNN相关依赖，但是有些包的安装和使用还是依赖于CUDA驱动和CuDNN，建议安装)

8、Anaconda安装（多种安装方式）

9、深度学习模型测试

10、一切安装就绪之后，禁用一切更新（包括系统自动更新）

更多相关文章

专业|【购买笔记本硬盘必看】如何选取笔记本的硬盘？可以使电脑长期读写使用不卡顿，文末附详细专业测评结果，长时间、深度测试、功能测试等等

精选Win7系统推荐：三款优质版本详解

OpenStack详解、排错、经验总结

GetLasError参数详解

大模型：Python调用chatgpt的三种方法

AI工具使用经验分享--国产大模型

推荐使用：深度操作系统启动盘制作工具 - Deepin Boot Maker

deepin启动盘制作工具_小白一看就会的国产操作系统深度deepin 系统安装教程

win ce车载系统刷机包_刷脸开锁还能唱K？欧尚X5车载系统功能详解

Android抓包工具：Fiddler详解

国内大厂大模型产品网址大全

Windows10企业版下载指南及推荐版本详解

Windows 系统遭遇 pshed.dll 文件损坏怎么办，详解 pshed.dll 的作用及修复办法

Windows 7虚拟内存的设置及误区详解

SCP命令详解(Linux和windows之间传送文件)

Windows7开机过程详解

路由器R473g虚拟服务器设置,TL-R473G上网方式配置详解 路由器

Windows 7 安全之根本：UAC 详解

windows环境下sqlmap安装教程及问题详解

基于MLC LLM将Llama2-7B模型部署至Android手机运行

发表评论

推荐文章

OTN映射规律

linux（ubuntu）下创建新用户没有创建用户家目录

python绘制螺旋六边形

牛客周赛 round3

windows 关闭java进程

热门文章

探秘Windows 10高效工具：轻松离线安装.NET Framework 3.5

宽带资本刘唯：产业互联网投资策略及思考

史上最全将Ubuntu系统安装到移动介质

泰迪杯数据分析比赛2018年B题解答

C语言读取txt文件实例

RxJava与Retrofit实现简单的网络请求

电脑语音设置修复计算机,win10系统麦克风正确设置的恢复办法

win10 C盘扩容（系统自带磁盘管理功能受限时，请尝试此方法，亲测有效）

Windows系统快速搜索文件的软件，比win系统自带搜索功能好用一百倍

U盘启动盘制作及Win7系统安装详细教程

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

红帽7Linux系统，在没有取消挂载硬盘情况下移除硬盘进不去系统解决方案

巧解任何电脑的开机密码等秘诀

win10怎么重装win7 win10系统重装win7的详细步骤

万字长文详解：GPU服务器Ubuntu系统制作与安装、磁盘分区、驱动配置、SSH、向日葵远控、用户管理、Docker管理、CUDA安装、Anaconda安装、深度学习模型测试

戴尔poweredge r730服务器配置及系统安装详解教程

路由器R473g虚拟服务器设置,TL-R473G上网方式配置详解路由器