Deep Learning服务器搭建(二)

作者 Lucyyang 日期 2018-06-26
Deep Learning服务器搭建(二)

Be fearless, brave and love yourself.

从上海回来之后感觉养精蓄锐了一番,自己手头上做的事情也兴趣大增(以至于被Google Girls Hackthon拒了之后甚至有点开心可以安心搞自己的东西了),继续完成我的小豆腐块~

上一篇说到我们组装好了硬件,但是这可能是我几天中最顺利的一步了,之后装系统、配环境一直都在踩坑,还好后来我觉得这样不行,开始记录每个问题和解决方案,再次出现重装的时候就很有信心了。

我个人总结了一下,出现这么多问题,主要是因为我缺乏"版本对应"的概念。系统及各种软件之间都有着相互依赖性,一拍脑袋就去装个Ubuntu18.04,却不事先调查有木有对应的显卡适配器,肯定要出问题的。类似的问题还有,装CUDA和cudnn与tensorflow版本的配合等等,下面就简单说说遇到的问题。

装配系统

我装的是Windows10和Ubuntu16.04双系统,Windows10先安装的,过程很顺利,但是再安Ubuntu的时候,就出了一堆问题了。 我先是看到Ubuntu18.04出了,脑子一热,要不装个最新的试试好了!开熏地装完,然后开始装CUDA的时候傻眼了,怎么只支持14.04/16.04/17.0X等版本??

注意:安装Nvidia显卡适配器的时候要查看官方支持系统!

于是,我哭着从Windows10卸Ubuntu18.04,幸好当时多想了一下,不能直接格式化吧?然后搜了一下,发现果然格式化有问题!如何从Windows10删除其他系统

之后我又安装了Ubuntu14.04,没想到这次就更顺利了,出现了大紫脸:解决方法1,解决方法2,循环桌面:解决方法1,解决方法2,总之都是和显卡有关的问题瘫。

还有一点千万注意,不要在装机过程中突然关掉电源键,否则你可能会像我一样得自己把M.2固态硬盘拆下来送去维修(其实是换新),而且要拆机测试才能找到问题,很是繁琐(不过我也算是知道怎么不抠电池reboot bios了(说得好像有谁想知道一样瘫))。

搭建环境

我的环境是Anaconda+TensorflowGPU+keras(CUDA9.0,cudnn7.0.5),类似的系统感觉装了N套了,总结一下目前为止,还是和python3.5配套的坑最少。而且Anaconda最好直接下Anaconda4.20版本,默认是python3.5,TensorflowGPU 版本我选的是1.5,因为考虑到清华镜像/科大镜像的版本更新没有那么快。keras就是最新版本的。

安装过程尽量参考官网的尽量,但是由于长城太高的原因还是会出现各种问题。比如:CUDA/cudnn下不下来,可以考虑用IDM,并配置成无限制尝试连接下载,参考这里。下载Tensorflow-GPU版本的时候要下的package比CPU版本的多很多,但是可能因为网络问题下不下来,这个时候可以换到清华镜像或者在这里下好了之后离线安装。注意对应的版本,包括python是2.7or3.X!

最后安装keras,如果在jupyter notebook里import的时候报错"No Module named keras",应该是安装的时候安装到了别的环境,或者notebook调用的是root下的包(哪怕你开了env),可以参考这个方法,或者像我一样暴力的把包丢到root下的site-packages里。

最重要的

一定要记得记录出现的问题啊!

(因为以后它还会出现的!hhhhhhhh)