Machine World | Math World

记录实验过程

【实验室运维】Dell T440 塔式服务器加装GPU

【背景】

本科实验室进了一台新的Dell T440服务器,选配时因为经验不足遇到了点问题。遂记录一下整个过程,以供后续运维查表。

【硬件清单】

Dell T440服务器一台

RTX 2080Ti显卡一张

【官方配置要求】

《【实验室运维】Dell T440 塔式服务器加装GPU》

【BIOS设置说明】

官方并不支持/不建议加装第三方gpu,但自己可以安装,步骤如下:

1.拆机装入独立显卡,显示器连接线连接主板集显不要拔掉,进系统打好独立显卡驱动。

2.重启服务器按F2>System BIOS > Integrated Devices。

3.将Embedded Video Controller设置为Disabled 关闭板载集成显卡。

4.将Memory Mapped I/O above 4GB设置为Disabled。

5.保存设置,重启服务器,将显示器连接线接入独显接口。

【折腾记录】

在服务器选配时,出于成本考虑,我们选配了一块CPU(不是两块),内存选配为64G,全部插到CPU1一侧的内存槽处。因为购置是直接对接供应商,供应商对单CPU无法驱动Slot5闭口不谈,导致在装上显卡后,一段时间内进入系统后,输入:

lspci -V | grep nvidia

没有任何结果显示,即在硬件层面无法识别到Nvidia插入进而导致无法打GPU驱动。

折腾了接近两个月,来来回回重新订购cpu,散热器,装上CPU无法识别,送返厂安装…

终于在硬件层面处理好了。

【开机打驱动】

我们安装的是:Ubuntu 18.04.02 Server版操作系统,

为节省篇幅,我们将配置网络,ssh,密码等繁琐步骤略去。

1. 驱动文件准备:

前往Nvidia官方网站下载Linux 64bit版本驱动:页面直通车

《【实验室运维】Dell T440 塔式服务器加装GPU》

找到文件后可直接在服务器上使用wget 下载链接下载.run文件:

wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/470.94/NVIDIA-Linux-x86_64-470.94.run

2.关闭Ubuntu默认的驱动管理程序:nouveau

具体方法:

vim /etc/modeprobe.d/blacklist-nouveau.conf

在blacklist-nouveau.conf文件中输入一下内容:

blacklist nouveau
options nouveau modeset=0

然后保存退出,更新内核程序:

sudo update-initramfs -u

重启,nouveau已经被禁用

sudo reboot

3.关闭lightdm服务

sudo service lightdm stop

4.切换到root用户

sudo -s

5.赋予run文件可执行权限并安装依赖文件(Root用户下执行)

chmod 777 NVIDIA-Linux-x86_64-470.94.run
apt install gcc g++ make

6.执行run文件,一路ok/accept即可

./NVIDIA-Linux-x86_64-470.94.run

7.安装完毕,输入nvidia-smi查看结果。

nvidia-smi

《【实验室运维】Dell T440 塔式服务器加装GPU》
【深度学习后续配置】

【结语】

一波三折,总算完成一次运维任务。

点赞

发表评论

您的电子邮箱地址不会被公开。