全网最详细win10+anaconda+GPU+Tensorflow Object Detection API训练自己数据+新手教程+训练过程问题解决-FreeNAS中文网

admin 管理员组

文章数量: 887176

参考链接：

anaconda安装gpu-tensorflow

tensorflow 在windows 下使用gpu

超详细的目标识别api训练教程

软硬件配置：

cpu i7-6700hq -2.6GHz
gpu gtx960M
内存8G
windows10操作系统
anaconda3，python3.5
cuda8.0
cudnn6.0

总效果：

输入一张图片（一个视频流也是一帧一帧图片组成的）——>模型——>输出需要识别物体在图片中的位置，和物体的类别

实现步骤：

配置好基本的软件环境(anaconda3、cuda8.0、cudnn6.0、tensorflow1.4、几个必要的包)-->下载好tensorflow/models-->

图片数据采集-->图片标注（labelImg）-->图片排序等预处理（自己编写一些小程序）-->分为xmls和images文件-->

将处理好的数据放到下载的目标检测api，即models包中-->生成tf_record文件-->训练模型（同时可以评估模型）-->导出模型-->测试模型-->

多试试，看看不同的效果~

前言：

1、关于faster_rcnn的介绍，大家可以看看知乎或者博客上的一些文章，推荐一文读懂Faster R-CNN

不过，我觉得大概都看不懂，看懂了，改起来也挺麻烦的，其实只需要知道这个接口的优势性能就好了。

2、faster-rcnn分两步，先定位，再分类，而且可以多分类，还不受输入图片大小的限制。这样的网络基本上可以满足很多情况的使用，但是目前知道好像只能用方框进行定位，不能根据物体的实际形状进行完全精确的定位，不知道现在有没有更好的解决方案~

3、faster-rcnn关键点还是快，如果配置高的话，几乎可以本机实时识别，对视频流进行实时识别，这个就比较溜了~当然这个也只是达到了基本的门槛，目前我试过的几次，调用这个模型，消耗的资源还是蛮大的，图片越清晰自然就更大了~

4、ubuntu系统安装cuda总是失败，所以只好转战windows，具体的可以看看我前面的博客

5、这篇博客前后借鉴了好多博主的内容，综合他们的内容，加上自己踩的一些坑，以及一些小技巧，都列出来了。再次感谢~

1、安装anaconda:

目的：anaconda可以建立很多独立的python虚拟环境，可以替你管理很多乱七八糟的包，因为操作过程中，很容易会出现包的版本不兼容，可是卸载更容易出错，怎么办？到时候也许只能重装系统了~所以建议先安装anaconda.

Anaconda3-4.1.1-windows-x64.exe下载链接：https://mirrors.tuna.tsinghua.edu/anaconda/archive/

安装和配置，参考链接：https://wwwblogs/afangxin/p/6992050.html

需要设置国内镜像，输入命令：

# 添加Anaconda的TUNA镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu/anaconda/pkgs/free/
# TUNA的help中镜像地址加有引号，需要去掉
# 设置搜索时显示通道地址
conda config --set show_channel_urls yes

安装完成以后，将prompt快捷键发送到桌面，打开prompt。建立一个虚拟环境，比如 gtf ，并安装需要的包。输入命令：

conda create -n gtf36 jupyter matplotlib pillow lxml python=3.5

经尝试，这种创建会比较卡，得多试几次。最好还是简单的创建环境

conda create -n gtf36 python=3.5

然后激活环境：

activate gtf35

conda install opencv

需要安装的包，有jupyter,matplotlib,pillow,lxml，opencv，Cython

2、安装tensorflow-gpu版本：

1、不推荐：直接安装tensorflow(tf):
pip install --upgrade tensorflow-gpu
目前安装的tf基本上自动安装版本都是1.7版本了~

2、如果需要安装其他版本，比如1.4.0版本，则需要离线安装，先下载

https://pypi.python/pypi/tensorflow-gpu/1.4.0

然后进入到下载目录，pip install tensorflow_gpu-1.4.0-cp35-cp35m-win_amd64.whl

推荐使用离线安装。

3、安装cuda8.0和cudnn6.0:

参考链接：http://ystyle.top/2017/01/06/tensorflow-zai-windows-xia-shi-yong-gpu/

版本是和tf配套的，如果tf版本过高，比如1.7，则cuda也得升级到9.0。但是听说版本高了会有一些bug。自己没有试过，不知道到底有没有坑~

1、下载软件：

附上国内容易下载的cuda8.0-win链接：

https://developer.nvidia/compute/cuda/8.0/prod/local_installers/cuda_8.0.44_win10-exe

或者这个，最好是这个，因为最后成功的就是这个：
https://pan.baidu/s/1c2tBiLE
cudnn6.0-win下载地址：
https://pan.baidu/s/1ko5kTFj5hTNrGEBpmqgs-A
2、安装软件：

刚开始安装两次都是安装到一半就失败了，试过精简版自动安装，以及自定义。

后来查看了一下显卡驱动：计算机，管理，设备管理，看到显卡驱动有一个感叹号，

问题应该在这儿，应该是冲突了，于是我就自动搜索安装了需要的显卡驱动。

安装完毕，自动重启，重启完了之后，

点击第二个链接下载的cuda继续安装，精简版，

目录路径什么都不变，C盘就C盘吧，还能怎么办，，，还好一次性点亮。

如果出现了问题，就可以看看是不是显卡驱动的问题。

接下来把cudnn的东西放到该放的位置。
解压cudnn
添加bin目录到环境变量PATH，不是PYTHONPATH。至于如何新建环境变量，这个可以自己搜百度经验~
安装好了可以试试，激活环境，输入：python。进入python命令环境，输入如下程序：
import tensorflow as tf
hello = tf.constant("hello tensorflow")
sess = tf.Session()
print(sess.run(hello))
没有报错，并且显示cuda，那就ok了。
也可以试试nvcc -V，在命令行输入：
nvcc -V  
会显示：
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2016 NVIDIA Corporation
Built on Sat_Sep__3_19:05:48_CDT_2016
Cuda compilation tools, release 8.0, V8.0.44

抄的别人的一段话：记住安装完毕以后，一定不要随意升级驱动，不然后续出现驱动与硬件不兼容的问题。
往往出现这样的问题是最不容易排查的，由于CUDA开发的资料相对较少，
很多情况下百度和谷歌也搜不到相应的解决方法。自己也曾经为了一个小问题，搜索了二个星期，

尝试了不同的解决方案，终于在一个角落里，找到了问题所在，所以从事CUDA开发相对的门槛还是比较高的。

4、下载目标检测API：

参考链接：https://wwwblogs/mar-q/p/7579263.html

下载模型https://github/tensorflow/models

conda list 查看是否有protobuf，如果有了就不用管了，没有就输入conda install protobuf

5、配置API环境：

参考链接：https://wwwblogs/mar-q/p/7579263.html

先修改一个模型的bug，这个bug是在github中找到解决方案的，在运行train.py程序的时候，会有一个报错：

ValueError: Tried to convert 't' to a tensor and failed. Error: Argument must be a dense tensor: range(0, 3) - got shape [3], but wanted [].

解决方案在这儿：

https://github/tensorflow/models/issues/3705#issuecomment-375563179

ps:多利用github和谷歌，百度搜索很多东西是没有的~

即进入models/research/object_detection/utils/learning_schedules.py 在167-169行，有这样的代码

rate_index = tf.reduce_max(tf.where(tf.greater_equal(global_step, boundaries),
                                      range(num_boundaries),
                                      [0] * num_boundaries))

修改成为：

rate_index = tf.reduce_max(tf.where(tf.greater_equal(global_step, boundaries),
                                     list(range(num_boundaries)),
                                      [0] * num_boundaries))

如果你之前已经编译过protobufs,修改之后需要再编译一次，如果第一次安装，则跟着下面的步骤继续走。

1、编译Protobuf库，在object_detection同级目录打开终端运行：

cd E:\TensorFlow\GitHub\models\research
protoc object_detection\protos\*.proto --python_out=.
没有显示啥，就算是运行成功了，打开protos可以看到里面生成了.py文件

2、在research目录下运行：
python setup.py install
3、进入slim目录运行：
python setup.py install
要是slim文件下已经有了BUILD,需要先删掉这个，然后再python setup.py install

4、添加环境变量：

添加到PYTHONPATH中，将research和slim目录添加进入环境变量。

返回research目录测试环境是否准备完毕：
python object_detection/builders/model_builder_test.py
到这儿为止，基本上没有遇到报错，可以看到tensorflow1.4版本还是比较友好的

接下来就是处理自己的数据，然后进行训练的事儿了：

6、数据处理：

采集所需要识别物体的照片，图片分辨率大小规格都没啥关系，我们调用faster-rcnn算法，对图片大小不敏感。但是为了保证能识别出来，尽量清晰些。

在环境变化不大，识别物体种类不多的情况下，数据量可以在100-300左右，数据量越大越好。但是考虑到是自己标注数据，就必须得取一个自己扛得住的量。如果有大佬会数据合成的话，即标注现有的样本，然后通过图像处理的方式，在标注信息不变的情况下，对图片进行变换，增加样本。

我本来是想试试调节图片对比度、亮度，增加数据样本的，但是还没有找到好的算法，完全模拟出亮度的差异~

好了，假设你拍了300张有效的照片，放入images文件夹。（花了一天时间，学会了使用github上传自己的代码~）

详细的可以看这篇博客——https://blog.csdn/hehedadaq/article/details/79879752

所有的代码都在这儿——https://github/kaixindelele/tensorflow-models-data_diy.git

1、进入models/research/object_detection目录，进入data文件夹，创建annotations文件夹、images文件夹，再进入annotations，创建xmls

2、复制图片进入images，复制xml文件进入xmls

3、下载好create_trainval.py和change_name.py到annotations内，如果需要排序和改内容就可以执行这些脚本了

打开prompt，activate gtf ，进入环境，cd到这个目录下，然后执行
python create_trainval.py
4、如果需要合成数据的话，还是需要自己想办法的，要是有大佬做的话，可以艾特一下我

5、基本上数据处理好了，就可以生成tf_record文件了，退出到object_detection目录下，在上面的链接中，下载create_pet_tf_record.py，train.py，test_image.py，elevator_label_map.pbtxt，最后一个可以名字要是改的话，记得改所有需要pbtxt文件的名字，不改名字就方便了，先执行下面的程序吧:
python create_pet_tf_record.py
生成的tf_record文件将会在object_detection目录下，370张1920*1080的照片，train部分得有180MB，如果太小，大概就是有问题了。

后面不加路径配置，是因为完全按照我们步骤来的，如果不是的话，那就比较复杂了~

可以看看其他教程，我也没试过

7、修改配置文件：

1、下载断点文件。在faster_rcnn训练过程中，不是从零开始训练的，而是在类似数据集，已经训练好的网络数据的基础上，继续训练，算是一种迁移训练，下载链接：http://download.tensorflow/models/object_detection/faster_rcnn_inception_v2_coco_2018_01_28.tar.gz

2、解压后后，把里面的那个文件夹放到object_detection目录下。

3、在object_detection\samples\configs目录下找到对应的.config文件，选择faster_rcnn_inception_v2_coco.config，修改num_classes为你自己的num_classes，这里我训练的只有三个类，改成3。然后修改其中5个路径：
112行 fine_tune_checkpoint: "E:\\master_gpu\\research\\object_detection\\faster_rcnn_inception_v2_coco_2018_01_28\\model.ckpt"
127行 input_path: "E:\\master_gpu\\research\\object_detection\\elevator_train.record"
129行 label_map_path: "E:\\master_gpu\\research\\object_detection\\elevator_label_map.pbtxt"
141行 input_path: "E:\\master_gpu\\research\\object_detection\\elevator_val.record"
143行 label_map_path: "E:\\master_gpu\\research\\object_detection\\elevator_label_map.pbtxt"
第一个是上面的断点文件夹，model.ckpt不用变，后面四个都可以看出来了。

其他训练的配置信息可以自己研究一下，可以针对自己的数据集进行调整，但是比如训练步数，调整了会报错，不知道为啥。

8、开始训练：

1、上面都做好了，在object_detection目录下，建立一个training文件夹，用来保存自己训练断点的文件。而训练也就是执行一段命令了：
python train.py --logtostderr --train_dir=E:\\master_gpu\\research\\object_detection\\training --pipeline_config_path=E:\\master_gpu\\research\\object_detection\\faster_rcnn_inception_v2_coco.config
2、其中--logtostderr 不知道啥意思
--train_dir=
后面加的是输出check_point的文件夹路径
--pipeline_config_path=
加的是配置文件的路径
3、报错解决：

ValueError: Tried to convert 't' to a tensor and failed. Error: Argument must be a dense tensor: range(0, 3) - got shape [3], but wanted [].
解决方案在这儿：
<a data-cke-saved-href="https://github/tensorflow/models/issues/3705#issuecomment-375563179" href="https://github/tensorflow/models/issues/3705#issuecomment-375563179">https://github/tensorflow/models/issues/3705#issuecomment-375563179</a>
记得重新编译一下~
就是research和slim两个install,这个上面有~
基本上gpu和cpu，以及1.4，1.6的tf都会有这个错误，看github上的描述，是因为python3的问题~

这个问题我们上面已经解决了。

第二个报错

如果没有用我们新的train.py函数，应该会有这样的报错：

报错2：
AttributeError: module 'tensorflow.contrib.data' has no attribute 'parallel_interleave'
这个是因为train.py有问题，
需要用师兄给我的训练文件

比源代码多了两个函数，虽然我也不知道这俩函数有啥用~

4、训练过程中，笔记本会很烫，记得散热！

上面的数据量GPU大概需要0.3秒一步，cpu也试过，需要4.5秒一步。

刚开始的效果：

训练了20万步，大概18个小时，每步0.33秒的节奏
INFO:tensorflow:global step 200000: loss = 0.1098 (0.328 sec/step)
INFO:tensorflow:Stopping Training.
INFO:tensorflow:Finished training! Saving model to disk.
这是最后的输出显示。
使用gpu基本上是单独cpu的25倍速。可见如果不用gpu训练的话，肯定会很尴尬的，在loss值上，cpu训练18小时，一万多步，只能达到0.5的loss，而gpu最低和平均分别是0.01和0.1
这样可以看出，gpu还是很有趣的。

5、如何停止训练？

在训练过程中如果去复制断点文件，会提示有一些文件无法复制，

虽然你最后发现和训练完的文件都一样，至少肉眼看不出有啥少的，但就是无法导出模型。

如果提前ctrl+c打断训练过程则不一样，这样训练断点文件还是可以导出模型的~

在训练的过程中，就算是让电脑睡眠，也会继续训练，所以千万别把这个本子塞包里带走，会热炸的。。。

9、模型评估：

这是一个失败的评估~

1、在dataset文件夹下新建evaluation文件夹，继续在detection目录下执行：
python eval.py --logtostderr --checkpoint_dir=E:\master_gpu\research\object_detection\training --pipeline_config_path=E:\master_gpu\research\object_detection\faster_rcnn_inception_v2_coco.config --eval_dir=E:\master_gpu\research\object_detection\evaluation
报错：
File"C:\Users\lele\Anaconda3\envs\gtf\lib\site-packages\object_detection-0.1-py3.5.egg\object_detection\metrics\coco_tools.py", line 47, in <module>
from pycocotools import coco

ImportError: No module named 'pycocotools'

根据教程下载cocoapi,又会发现unable find vcvarsall.bat，网上说要安装vs2015，安装了也没用~

这个问题的解决方案我还没找到，所以就放弃了evaluation~

不过这个也没关系~还可以挣扎，直接导出训练模型，，，只是无法直观的看出实时的精确度变化曲线，这样也就不知道训练是否过拟合了~

10、导出模型：

1、detection同目录下，其中：

input_type后面的不用管，
pipline还是配置文件路径，
trained_checkpoint_prefix后面是训练过程的断点文件夹trianing。model.ckpt-198938是训练次数，
output_directory是存放训练模型的文件夹，需要自己建立。

执行：

python export_inference_graph.py --input_type=image_tensor --pipeline_config_path=E:\master_gpu\research\object_detection\faster_rcnn_inception_v2_coco.config --trained_checkpoint_prefix=E:\master_gpu\research\object_detection\training\model.ckpt-198938 --output_directory=E:\master_gpu\research\object_detection\pb

2、生成我们需要的
frozen_inference_graph.pb

文件

11、调用模型：

1、如果有object_detection_tutorial.py，可以修改一下，但是如果是object_detection_tutorial.ipynb文件，就不好改了，也很难嵌入到需要的程序中；

2、所以下载test_image.py文件，在object_detection目录下，

3、发现，上次好像无法在gpu环境下，使用cpu训练出来的模型~

12、训练可视化-tensorboard:

在输入训练的命令以后，(也就是训练过程中，不是训练结束)我们打开一个新的prompt,进入相同的虚拟环境，进入train.py文件相同的路径，然后输入：
tensorboard --logdir=E:\master_gpu\research\object_detection\training
即如下：
(gtf) E:\master_gpu\research\object_detection>tensorboard --logdir=E:\master_gpu\research\object_detection\training
这个logdir，后面的是你训练过程中，存放断点数据的目录，一定要写对。
把 http://LAPTOP-D1QQCSFC:6006
复制粘贴到谷歌浏览器中，然后就可以看到训练断点的过程了，好像有些浏览器打不开~

13、训练小技巧：

1、避免过拟合：大家可以看loss曲线，如果降得不太多了，就可以停止了。ctrl+c，不同的训练次数，多试几次，看看哪个效果好。

2、其他的以后想起来了再补充吧

14、2018.09.25更新：关于cuda和cudnn以及TensorFlow-GPU的版本匹配问题：

很明显，这也是一个非常恶心的问题，我已经在三台机子上，遇到了各种各样的bug，最糟心的是原来配好的环境，过了一段时间突然就不能用了！然后就一连串的不匹配！

昨天听室友的指导，直接在anaconda中创建一个新的虚拟环境，然后conda install tensorflow-gpu==1.8.0，换的是中科大的镜像源文件，这里的最新cudatoolkit是9.0，然后cudnn是7.1版本，是配置好的。我看了一下网站上也确实只有8.0和9.0这两个版本。

OK，我在9.0这个cudatoolkit上跑成功了。

给大家看一下效果：第一张加载模型，后面的时间都海星，下面再给大家看看，同样的模型，同样的数据，没有用GPU，调用的时间函数~

2018-09-25 08:38:03.628900: W C:\users\nwani\_bazel_nwani\mmtm6wb6\execroot\org_tensorflow\tensorflow\core\common_runtime\bfc_allocator:219] Allocator (GPU_0_bfc) ran out of memory trying to allocate 1.43GiB. The caller indicates that this is not a failure, but may mean that there could be performance gains if more memory were available.
每张图片运行时间：
6.345527648925781
--------------
每张图片运行时间：
1.3493921756744385
--------------
每张图片运行时间：
1.1449401378631592
--------------
每张图片运行时间：
0.8945975303649902
--------------
每张图片运行时间：
1.0701401233673096

CPU运行时间：

(tf) E:\models\research\object_detection>python test_image.py
2018-09-25 08:40:51.724263: I C:\tf_jenkins\workspace\rel-win\M\windows\PY\35\tensorflow\core\platform\cpu_feature_guard:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2
Tensorflow have not found GPU,run on CPU mode!
ok
每张图片运行时间：
6.292181968688965
--------------
每张图片运行时间：
3.382967948913574
--------------
每张图片运行时间：
3.152541399002075
--------------
每张图片运行时间：
3.010951519012451
--------------
每张图片运行时间：
3.1694912910461426

可以看到CPU的运行时间基本上是稳定在3秒，而加了GPU，会稳定在1.2秒，感觉有点尴尬，为啥训练的时候GPU的速度会比CPU高一个数量级，而调用的时候只减少了一半？

本文标签：过程新手教程数据详细

版权声明：本文标题：全网最详细win10+anaconda+GPU+Tensorflow Object Detection API训练自己数据+新手教程+训练过程问题解决内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1716188223h670048.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

全网最详细win10+anaconda+GPU+Tensorflow Object Detection API训练自己数据+新手教程+训练过程问题解决

前言：

8、开始训练：

更多相关文章

Windows10 安装 cygwin 教程

保姆级教程：0基础在Windows上安装Ffmpeg一分钟下载并安装ffmpeg(附安装包)

mac系统连接服务器教程视频教程,超详细教程：手把手教你15分钟在苹果Mac上装个Windows...

最新宝塔反代openai官方API接口教程，502 Bad Gateway问题解决

MySQL 8.0.27 下载、安装与配置 超详细教程（Windows64位）

数据分析案例-笔记本电脑价格数据可视化分析

Clion 2023.1.5 最新详细破解安装教程

VMware Workstation Pro 17官网纯下载教程

mac 完全删除 docker volume_清理 OSX 系统中的 Docker 容器、镜像与数据卷

win7系统安装mysql8.0.11压缩包版本完美教程

Windows11 系统下安装Anaconda详细教程

如何恢复U盘里格式化数据？别慌，有带图详细步骤！

Win11官网镜像怎么安装 Win11官方ISO镜像安装教程

Windows下mysql8.0.30安装教程＜＜超级详细＞＞

windows-sys:21：windows系统（win7 win10 win11）设置护眼色详细过程

微pe怎么重装win7系统？微pe装win7系统详细教程

戴尔poweredge r730服务器配置及系统安装详解教程

node.js安装及环境配置超详细教程【Windows系统安装包方式】

Nacos下载、安装、使用入门级教程（windows版）

python3.7下载安装和环境变量配置教程（Windows）

发表评论

推荐文章

改HUME的SHELLCODE模版程序

GeoGebra（数学图形计算器）

snort与其基础环境的安装与配置

win10系统java是什么版本号_win10安装什么版本 windows10安装java需要什么版本

windows如何安装并切换不同版本的cuda，更新cuda版本

热门文章

Windows系统组合键

ppt文本框变成了图片怎么还原_98.5%的人都不知道的PPT冷技巧

数据库表修改删除及查询操作

虚拟云主机支持php吗,如何让虚拟主机支持php

windows远程桌面无法连接，出现“这可能是由于CredSSP加密数据库修正问题”解决方案

两种方法教你检查自己的 Windows 系统是否激活

计算机自带录音机格式,Windows自带录音机

win10系统改win7系统怎么安装 电脑win10系统改win7系统

完全卸载VS2015_enterprise

Windows系统下CMD命令行切换目录文件

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

查看Windows11激活状态

戴尔计算机专业推荐笔记本电脑,戴尔笔记本电脑型号有哪些 戴尔笔记本电脑推荐【详解】...

内存条买什么品牌的好

什么样的笔记本电脑适合大学生？

vs 2022 Xamarin 生成 Android apk

MySQL 8.0.27 下载、安装与配置超详细教程（Windows64位）

win10系统改win7系统怎么安装电脑win10系统改win7系统

戴尔计算机专业推荐笔记本电脑,戴尔笔记本电脑型号有哪些戴尔笔记本电脑推荐【详解】...