admin 管理员组文章数量: 887021
2024年2月23日发(作者:sql server2008r2卸载)
高技术通讯2021年第31卷
第5期:489499doi
:10.
3772/j.
issn.
1002-0470.
2021.05.004基于改进Faster
RCNN的目标检测方法①王宪保②
朱啸咏
姚明海(浙江工业大学信息工程学院杭州310023)摘
要
针对基于区域的目标检测算法中定位精度不高的问题,本文提出了一种分裂机
制的改进Faster
RCNN算法。该算法首先选择特征提取能力强的卷积神经网络(CNN)作
为骨干网络进行特征的提取;然后通过12种不同Anchors产生候选目标区,以进一步提
升检测的精确度;最后将得到的特征分别传送到两个子网络,分别实现分类与定位。分类
网络以全连接结构为基础,定位网络则主要由卷积神经网络构成。本文在Pascal
VOC2007和Pascal
VOC2012以及吸尘袋图像集上对算法的有效性进行了验证。结果表
明,提出的算法在对目标进行有效检测的同时,定位效果比Faster
RCNN更加精确,实现
了边界框的精准回归。关键词
目标检测;卷积神经网络(CNN);定位精度;改进Faster
RCNN;分裂机制例如方向梯度直方图(histogram
of
oriented
gradient,
0引言目标检测,就是将目标定位和目标分类结合起
HOG)⑷,Sift⑸,可变形零件模型(deformable
parts
model,
DPM)同等对候选区域进行特征提取,最后
使用
AdaBoost®
和支持向量机(support
vector
machine,
SVM)⑻等机器学习算法对得到的特征进行
来,利用图像处理、机器学习等技术,识别图片中是
否存在事先定义的类别目标物体,如果存在,返回该
类别目标物体的空间位置以及空间范围,一般使用
矩形边框进行标定的计算机视觉技术⑷。检测过
分类,之后通过目标类别对目标进行边框回归。传
统的目标检测模型对于不同特征需要选择适合的分
类器,导致其泛用性差、鲁棒性不足。2012年之后,深度学习给机器学习领域带来了
程一般分为2个阶段,第1阶段通过目标分类判断
输入的图像中是否存在目标物体,第2阶段负责将
搜索到的目标物体使用边界框进行标注⑵。这要
巨大的变革,计算机视觉技术也得以迅猛发展。传
统图像特征提取方法的泛化性能不如深度学习方
求计算机在准确判断目标类别的同时,还要给出每
个目标的准确位置。法,在卷积神经网络(convolutional
neural
network,
CNN)提出以后,深度学习方法已经替代了手工特征
在目标检测算法中,图像以像素矩阵的方式存
储,需要从中抽象出目标类别和边框位置相关的图
像特征才可以进行目标检测⑶。传统目标检测算
方法。凭借CNN在提取图像高层特征上的优势,深
度学习在目标检测领域取得了较大的成功。文
献[9]和文献[10]分别提出了快速的基于区域的卷
法,一般根据图像特征点进行匹配或是基于滑窗的
积网络(fast
region
based
convolutional
neural
network,
Fast
RCNN)和更快的基于区域的卷积网络
(faster
region
based
convolutional
neural
network,
框架。首先利用图像预处理方法对输入图像进行去
噪、增强、裁剪等操作,之后采用滑动窗口方法对图
像进行候选区域的筛选,再采用经典特征提取方法,
Faster
RCNN)算法。前者利用共享卷积减少了整体①
国家自然科学基金(61871350),浙江省科技计划项目(2019C011123)和浙江省基础公益研究计划(LGG19F030011)资助项目。②
男,1977年生,博士,副教授;研究方向:模式识别,神经网络,图像处理;E-mail:
wxb@
zjut. edu.
cn(收稿日期=2020-04-03)489
高技术通讯2021年5月第31卷第5期网络的计算消耗,但由于其区域生成算法复杂度过
归任务需要对象级别上下文来确定边界框偏移量。
由于卷积可以提取对象级上下文信息,卷积更适合
高,使其训练及检测速度较慢。后者在前者的基础
上结合全卷积网络M
,利用区域提议网络(region
proposal
network,
RPN
)替换原先的
Selective
边界框回归任务。但是单一的FC
Head网络或是卷
积头(convolution
head
)网络都不足以同时处理分类
和定位。本文提出了一种分裂的快速区域卷积网络(di-
vide
faster
region
based
convolutional
neural
network,
DF
RCNN)算法,将分类任务和边界框回归任务有
Search1'2]以及Edge
Boxes[
13]算法,共享特征映射图
减少了重复的计算,加快了训练和检测的速度。
Faster RCNN为两阶段目标检测算法奠定基础,但
Faster
RCNN无法实现候选区域提取网络和特征提
取网络之间的权值共享。文献[14]提出基于区域
效地分开,提升了目标检测中边界框定位的精度。
的全卷积神经网络(region
based
fully
convolutional
network,
R-FCN
),利用位置敏感得分图(position
sensitive
score
maps)在一定程度上解决图像变形在
图像分类中一致但在目标检测中不一致的问题,且
检测速度高于Faster
RCNNO近年来,又出现了级联
基于区域的卷积网络(cascade
region
based
convolutional
neural
network,
Cascade
RCNN
)
[15]等两阶段
目标检测器。文献[16]提出的只看一次(you
only
look
once,
YOLO
)算法,其将目标检测问题定义为
图像空间边框回归以及类别预测问题。YOLO中仅
包含单个网络,无需候选区域提取,大幅减少了计算
量,虽然检测精度不及Faster
RCNN,但其检测速度
是Faster
RCNN的10倍,其将分类和定位结合的思
想为后续研究提供了新思路。在YOLO的基础上
单激发多盒探测器(single
shot
multibox
detector,
SSD)
I®结合Anchor机制并综合利用多尺度卷积层
的信息实现对小目标检测精度的提升。之后文
献[18
]提出RefineDet在SSD基础上将信息由粗到
细进一步提升回归框信息,同时利用特征融合提升
小目标检测精度。YOLOv2[,9]以及YOLOv3等口切
算法针对YOLO检测精度差的问题,前者增加k-
means进行方框先验提升了检测效果,后者采用逻
辑回归对方框置信度进行回归并对每个类别独立使
用逻辑回归采用二分类交叉爛作损失函数,提升了
多标签任务的检测效果。在目标检测任务中,图像的空间信息对于对象
分类是至关重要的,它提供了区域提议(region
pro-
posal)中是否涵盖完整的目标对象的信息。全连接
头(fully
connected
head,
FC
Head)网络适合分类任
务,因为它具有全局的空间敏感性。相反,边界框回
490
利用全连接结构将局部特征进行有效的组合,充分
利用特征金字塔提取的特征,获得更好的分类效果。
Convolution
head因其丰富的上下文信息提供了更
加精确的边界框定位。算法在吸尘袋图像集上进行
了验证,结果证明了算法的有效性。本文后续结构如下。第1节对Faster
RCNN等
相关工作进行了叙述;第2节对提出的DF
RCNN算
法进行了详细介绍;第3节通过实验设计,对DF
RCNN算法做了进一步分析,验证了所提出的深度
学习模型在该场景下的识别效果;第4节对全文工
作进行了总结和展望。1
Faster
RCNN1.1概述Faster
RCNN模型是在Fast
RCNN的基础上,用
借鉴注意力机制提出的RPN替代Fast
RCNN中的
选择性搜索,提供更加精确的region
proposals的同
时,降低了网络计算的冗余,提高了检测的速度。
12网络结构Faster
RCNN模型的结构如图1所示。模型主
体分为特征提取网络、RPN、感兴趣区域池化(region
of
interest
pooling,
ROI
Pooling)以及分类器几部分
组成。特征提取网络一般选择VGG16U2〕,其通过一
系列不同大小的卷积层提取输入图像中不同层级的
语义信息,形成特征映射图。1.3
RPNRPN接收任意尺寸的输入图像并输出一组包
含得分的矩形框作为region
proposals0使用共享卷
积顶层的特征信息,通过proposal层在大小为w
x
h
王宪保等:基于改进Faster
RCNN的目标检测方法其中%表示输入;A是分类损失函数和边界框回归
损失函数之间的平衡权重。利用该损失函数训练好
的RPN可以预测目标Anchors,并修正其边界得到
最终的ROI。R0I作为RPN的输出被传输给R0I
Pooling以及分类器以便做进一步的检测。。
,r f
0-
5%2 I
X
I
<
1SmoothL^
(^)二{
ll
%1
-
0.5
其他(2)1
・
4
ROI
PoolingROI
Pooling使用的是空间金字塔池化血],将
图1
Faster
RCNN的网络结构问的特征图上的每个像素位置采集k个初始区域,总
共获得w x h
x
k个Anchorso通过分类器对这些
Anchors进行遴选,挑出可能含有目标对象的Anchors
对其进行边界框回归,修正后的Anchors作为
目标候选区域。满足下面2个条件的Anchors在proposal层被
标注为正样本,否则为负样本。(1) Anchors与目标对象的交并比(intersection
over
union,
IOU)最大。(2)
Anchors与至少一个目标的IOU不低于
0.7o在Anchors完成标注后,根据式(1)作为RPN
的损失函数对RPN进行训练。+
A
X
P*
Sg
(ti,
t*)i(1)
式中,i是Anchors的索引值,p,表示索引值为i的
Anchor是目标对象的概率;盯代表真实值标签
(ground
truth,
GT)的值(如果真实值是正样本则该
值为1,若为负样本则为0);
是索引值为i的An-
chor的边界修正值,t:为真实标签的边界框修正
值;6,是分类损失函数,采用交叉爛损失函数实
现,表示预测值与目标值的误差;Lreg是边界框回归
的损失函数,采用下面的SmoothLl损失函数实现,
region
proposals对应的特征图作为输入,输出固定
长度的特征向量。特征向量经过全连接层后,分别
输入到Softmax分类器和边界框回归器中进行目标
类别的预测以及边界框的修正。最后,使用非极大
值抑制(non-maximum
suppression,
NMS
)消除重复
的边界框以得到更加准确的检测结果。该部分的损
失函数如下:L(p,
u,
tu,
v)
=
LcU{p,
u)
+A[u
>
1]厶”g(t",")(3)
式中,Lcls为分类损失函数,Lreg为边界框回归损失
函数,P是分类的预测值,u是类别的索引,t“表示
第u类边界框预测的修正值,"是真实标签的修正
值。Faster RCNN网络对RPN输出的目标特征向量
使用全连接层进行特征组合,随后分别输入给分类
器以及边界框回归器。但是全连接层对于这两种任
务并非都合适。边界框回归任务需要更多的目标级
别的上下文,卷积结构相较于全连接结构更能提取
目标级别上下文,故卷积结构在边界框回归任务上
比全连接结构更合适。本文就此提出一种新的检测
模型来提升边界框回归的精度。2
Divide
Faster
RCNN本文基于上述的先验知识,将全连接结构应用
于目标对象的分类,卷积结构应用于目标对象的定
位,提出了可以有效提升目标检测的精度,实现有效
的目标定位的改进Faster
RCNN模型——DF
RCNN
o
图2显示了本文的目标检测模型。首先利用
骨干网络提取RGB空间下输入图像的多尺度特征,
491
高技术通讯2021年5月第31卷第5期并将多尺度特征构建成特征金字塔,实现多尺度特
尺度的特征图上,最后将选择的特征输入基于全连
征映射图的构建。然后利用Anchor机制以及共享
特征映射方式实现候选区域生成,对提出的候选目
接结构的分类网络和基于卷积结构的回归网络实现
目标的类别确定以及目标的定位,得到目标检测的
标区域使用感兴趣区域对齐方法(region
of
interest
align,
ROI
Align)[24]将提出的候选区域映射至对应
结果O图
2
Divide
Faster
RCNN
网络结构2.1
Divide
Faster
RCNN
的主干网络DF
RCNN首先使用残差学习框架作为主干网
RCNN对小物体检测效果相对较差的原因。特征金
字塔(feature
pyramid
network,
FPN
)」提取不同层
级卷积层的输出,可以同时捕捉浅层与高层的语义
络。残差结构是在标准的前馈卷积网络的基础上添
加一个残差连接(skip
connect)以便跳过一些层的
连接,每完成一次skip
connect便产生一个残差块,
如图3所示。其中Conv表示卷积模块用于对输入
信息,提升了对小目标的检测能力。以残差网络为
例,将残差网络中conv2、convi、cotw4
conv5的输
出分别用C2、C3、Q、C5表示。FPN首先对C5使
进行卷积处理;BN为批归一化操作,减小了网络内
用一个1
xl的降维层将其通道数从2048降为256
得到特征映射图C4
,之后对CP5进行上采样,同
部协方差平移,加速深层网络训练;ReLu为网络的
激活函数。残差块的数学表达如下:y
=
时对C4使用一个降维层将其通道数从1024降至
(4)256,采用4加函数将两者结合得到CP4。之后对
Wi)
+
X
式中,y表示残差块的输出,%是残差块的输入,
F仏,{见})表示待学习的残差映射。CP4进行上采样再4加上c3经过降维层结果得到
特征映射图CP3。对CP3进行上采样再Add上C2
得到CP2。最后分别对CP?、CP3、CP。、CP5使用
一个3
x3的卷积以降低上采样带来的混叠现象,最
终得到巴、巴、匕、代,构成了特征金字塔。2.2区域提议目标候选区域推荐的数目和质量直接关系到目
图3残差块结构标检测的速度和精度。本文采用RPN方法进行目
标候选区域的提议。RPN通过Anchor机制直接在
残差网络的skip
connect方式降低了模型随着
特征映射图上生成候选区域。RPN共享了模型特
征金字塔部分的卷积特征,降低了整体计算的冗余,
网络深度增加发生过拟合的可能性,使模型的深度
可以构建得更深。一般而言,卷积层越深,高层语义
有效提升了模型的检测速度。本文对RPN的部分参数进行了调整,将Anchors
的基础尺寸调节为(32,64,128,256),长宽比
越明显,更利于分类任务,但同时损失的信息也越
多。该级别的损失对于大尺度目标的影响不大,但
是对小尺度目标会造成严重的影响。这就是Faster
492
调整为(1,0.5,2),总共得到12种不同大小的An-
王宪保等:基于改进Faster
RCNN的目标检测方法chors0本文采用NMS方法,通过比较Anchors与
点数目也是1024。两层全连接层大大增加了网络
Ground
Truth
之间的
IOU,删除
IOU
在
0.
3
~
0.
5
之
的非线性能力,提升了模型的复杂度,增加了模型对
间的Anchors,同时将IOU
M0.
5的Anchors作为正
复杂图像的识别能力。全连接结构聚合的特性使其忽略了特征出现的
空间信息,因此不适合边界框的回归。卷积网络对
样本,I0U
<0.
3的Anchors作为负样本。最后根据
Anchors的得分大小,选取得分最高的200个Anchors
作为最终的候选框。空间信息保留能力以及目标级别上下文提取能力更
2.3
ROI
AlignROI
Pooling可以从各个ROI中对特征进行进
强,更适合边界框回归任务。卷积结构采用堆叠的
子块构建,如图4所示。卷积子块1首先利用3x3
的卷积对ROI
Align的输出进行进一步的特征提
一步的提取,但是ROI
Pooling层引入了两次量化操
作,降低了
R0I与其特征之间的一致性。同时给边
界框回归带来了算法本身的偏移。ROI
Align采用
双线性插值法,在R0I上先进行分割,然后在分割
得到的每一块小区域中,采样K(K
一般取4)个点,
即对该小区域进行等分得到4个子区域,之后每个
子区域利用双线性插值得到中心点的像素值,之后
取这4个子区域中心像素值的最大值作为这个小区
域的像素值。该方法有效地避免了
ROI
Pooling中
的量化过程,有利于R0I和特征之间的一致性,提
升分类精度,避免量化带来的边界框误差。经过
ROI
Align处理的特征图的大小被固定为7
x7
x
256。由于特征金字塔输出了多个不同层级的特征
图,需要根据特征图尺度的不同来选择不同层级的
金字塔的输出,具体选择应用如下公式。%
=饥
+log2(無)
(5)式中,饥=5
,w和/i表示对应R0I区域的宽和高,
224对应特征金字塔第5层的尺度。2.4分裂检测网络与其他主流两阶段方法不同,DF
RCNN将分类
与回归问题分开,提出将目标检测中的分类任务与
边界框回归任务分别传输给全连接结构与卷积结构
以完成目标对象的准确分类以及精确定位。全连接结构将分布式表示特征映射到样本标签
空间,聚合了卷积网络提取的多种不同特征,降低了
特征空间位置对分类的影响。本文采用的全连接结
构包含2层全连接层,每层的神经节点数目为
1024,第1层全连接层将ROI
Align输出的7 x7
x
256张量降维到1
x
1024,第2层全连接层的神经节
取,后续1x1的卷积核将输入的通道数从256提升
到1024,增加了特征的丰富性。卷积子块2利用了
瓶颈块结构,使用一个1x1的卷积核将输入的维度
先降低到256,再利用3
x3的卷积进一步提取特
征,之后通过1
x
1的卷积将输出的维度恢复为
1024。因为全局平均池化层(global
average
poo-
ling,
GAP)[26]不像FC层需要大量训练调优参数,
且抗过拟合能力更强,故本文采用GAP层代替FC
层,实现对卷积结构输出向量的进一步降维,防止过
拟合。(a)卷积子块1(b)卷积子块2图4构成卷积结构的子块2.5网络的整体训练DF
RCNN的损失函数分为分裂网络的损失函
数以及RPN网络的损失函数。将其写为一个总的
损失函数进行训练,其总损失函数为^lotal
=
Wfc^fc
+
WcoTw^conv
+
^rpn
(6)式中Lf亠”和Lrpn分别为全连接结构、卷积结构以
及RPN网络的损失函数,wfc和叫。””是Lfc和Lconv的
493
高技术通讯2021年5月第31卷第5期权重平衡系数。本文采用带动量的随机梯度下降法
(SGD)进行网络的权重更新,利用动量可以有效避
包含了
20种不同物体。训练数据涵盖了各种场景
的图片,每张图片都有对应的标签文件。然后本文
自主构建了吸尘器尘袋图像集。数据集分为2部
免损失函数陷入局部最优值且加快整体收敛的速
度。利用迁移学习的方法,首先利用在COCO数据
分,数据集1和数据集2。数据集1包含8种不同圆
形开口的吸尘器尘袋,数据集2包含2种不同椭圆
集上预训练的参数对模型进行初始化,之后冻结网
形开口的吸尘器尘袋。表1和表2给出了数据集1
和数据集2的具体信息。图5和图6分别给出了对
络中的部分参数,使用目标数据集进行对模型剩余
部分的参数微调使其在更短时间内有效地适应目标
应数据集的部分示例图片。3.2评价标准本文采用各类平均精度(mean
average
precision,
mAP)以及中心偏移距离作为主要评价指标,
任务。3实验3.1数据集本文首先使用Pascal
VOC
2007和2012数据集
进行一般性测试。Pascal
VOC
2007和2012数据集
同时使用收敛速度以及目标检测速度作为辅助评价
指标,并与Faster
RCNN,Mask
RCNN两种主流的两
阶段目标检测模型作比较。表1数据集1中每一类包含的图片数目尖別数目圆型小开口圆形大开口75带十字带字花纹开口带花纹圆形中等带十字带横线花纹开口73开口77开口75开口77开口757573表2数据集2中每一类包含的图片数目类别跑道形椭圆花纹椭圆数目7674(d)带字花纹开口(e)带花纹开口(f)圆形中等开口 (g)带十字开口(h)带横线开口图5数据集1图片示例494
王宪保等:基于改进Faster
RCNN的目标检测方法3.3参数设置本文算法采用Python实现,版本为3.
6,基于
TensorFlowl.
12
框架。实验设备为
i5-9400,16
GB
内存,GTX1060(6
GB)的个人计算机。实验主要分
为以下几个部分,第1个实验比较了在一般性数据
集上
Divide
Faster
RCNN
网络与
Faster
RCNN
之间的性
能差异,验证Divide
Faster
RCNN在通用检测方面
的有效性能。第2个实验用于比较Divide
Faster
RCNN网络与Faster
RCNN网络在吸尘器尘袋数据
集1上的表现,验证Divide
Faster
RCNN对边界框回
归精度的提升。在实验中,由于实验设备的限制,将
batch
size设置为1,训练步数设置为200,总共训练
100个周期。第3个实验用于验证算法的性能,检
(b)花纹椭圆验增加类别后算法的鲁棒性,在原始数据集1上增
加扩展数据集2作为该实验的数据集。实验中Faster
RCNN算法采用文献[10]中的默认配置,Divide
Faster
RCNN采用带动量的SGD算法,动量设置为
图6数据集2图片示例GT的边框记作boxgt,格式为(ylg,,
xlg,, y2p,
%2巒);预测出的边界框记作boxpred,其格式与box妙
0.9,学习率初始化为0.
0001,输入图像的大小在第
相同为(刃问,xlpred,
y2pred,
x2pred)o两者之间的距
1个实验缩放为512x512,第2个和第3个实验缩
离记作d
=
dis
(boxg,,
box^),即为预测边界框的
放为
1024
x
1024
o中心偏移距离。d
=
dis
(bo%,
boxQ=J(场-畑亍+
(备
-x』
3.4算法比较实验1表3给出了本文方法与现有主流两阶
(7)段目标检测算法分别在Pascal
VOC2007trainval和
2012trainval上的测试结果。实验表明,在Faster
其中,y”
=
(yigl
+y2g,)/2,
xgt
=
(%
+%2”)/2,
Vpred
=(刃”也
+
AreJ/2,
Xpred
=
{xpred
+x2pred')/2o
本文的实验总共分为3部分。第1部分采用
Pascal
VOC
2007
数据集中的
Pascal
VOC
2007trainval子数据集以及Pascal
VOC
2012数据集
RCNN中加入特征金字塔且对不同任务使用不同网
络头结构之后,各类平均精度分别提高了
3.
9%和
5.7%,实验表明了本文方法在一般性问题中优于
Faster
RCNNO中的Pascal
VOC
2012trainval子数据集进行模型评
实验2本文采用端到端的训练方法在吸尘器
尘袋数据集1上完成模型的训练。并将其与现有主
估。第2及第3部分采用吸尘器尘袋数据集1和2
来评估模型。流两阶段目标检测算法进行比较。表4展示了在尘表
3
在
Pascal
VOC2007trainval
和
2012trainvaI 上的测试结果BackboneFaster
RCNNFaster
RCNNFaster
RCNN
+
FPNVGG16Anchor
boxesmAP/%mAP/%(VOC2012trainval)(VOC2007trainval)68.21212121265.466.8Resnet50Resnet50Resnet5069.770.573.668.
1本文算法72.5495
高技术通讯2021年5月第31卷第5期表4在吸尘器尘袋测试集上的检测准确率以及中心偏移距离BackboneFaster
RCNNAnchor
boxesmAP/%中心偏移距离/像素fps1.121.23VGG16Resnet50Resnet50Resnet52949424.3420.6212.72Faster
RCNNMask
RCNN0.95本文算法11.761.02袋数据集1上本文算法与现有模型之间的定量比较 的种类数目,fps表示每秒可以完成检测的图像的数
目,中心偏移距离的单位是像素。图7给出了部分
结果,其中backbone为模型采用的特征提取网络的
结构,Anchor
Boxes为在RPN网络中设置的Anchors
的检测结果。(a)
Faster
RCNN检测结果
(b)
Mask
RCNN检测结果
(c)本文算法检测结果(d)
Ground
Truth图7在数据集1上检测的结果(示例)从表4中可以看出,本文模型在中心偏移距离
Faster
RCNN,本文增加了全卷积结构,单层卷积的计
方面优于现有的模型。Faster
RCNN由于ROI
Pool
算复杂度为
0(%
x
Wout
x
(K2
xC;„
+1)
x
CJ
,
的缘故,在中心偏移距离方面表现最差。Mask
RCNN
引入了
ROI
Align以及掩码(mask)分支,目标定
其中Houl与Wout分别为输出特征图的高度和宽度,
Cin和CM分别为卷积层输入及输出的通道数,K2代
位能力得到了改进,中心偏移距离比Faster
RCNN
提高了
7.9个像素。本文的模型比Mask
RCNN提
表了卷积核的大小。对于多层卷积网络而言其时间
D高了
0.96个像素。不难看出,去卷积结构相较于全
复杂度是多个卷积层的累加0(
XC
X昭”,X1
=
1连接结构对于目标定位精度确实有提升。分裂机制
将卷积结构作为边界框回归的特征降维器,提高了
特征的空间信息保留,提高了目标的定位精度。((Q2
xcL
+
i)x
O,其中Z表示当前层的索
引,D为网络的深度。为了减少计算量,本文采用
瓶颈层方式,先利用1
X1卷积将输入通道数降低,
对降低之后的特征图进行进一步卷积,最后通过1
xl卷积将输出通道数重新升高回预设维度。模型
从表4中可以看岀,本文模型的分类精度要优
于Faster
RCNN模型。本文模型采用的backbone为
残差网络,残差网络对特征的提取能力优于
VGG16,更强的特征保留带来了
mAP的提升。同时
的检测速度还是优于Mask
RCNN但略逊于Faster
RCNNO同时,由于增加了卷积结构,致使本文模型
本文算法构建了特征金字塔,提高了对小目标的检
测精度,降低了模型的漏报率,提高了模型的召回
在训练过程中loss的下降速度稍微变慢,但下降趋
势基本没有变化,如图8所示。率,在相同精确率情况下,更高的召回率带来了
mAP的提升。特征金字塔的使用,使得本文模型比
实验3为了排除数据集中和数据不足带来的
干扰,本文进行了第2组实验,训练集采用数据集1
和数据集2,增加了数据的多样性。实验结果如表5
Faster
RCNN分类性能更强。在检测速度方面,本文模型由于引入了分裂机
所示,从中可以看到Divide
Faster
RCNN模型的
mAP为0. 94,中心偏移距离为12.
46,
Faster
RCNN制,增加了模型的复杂度,相较于结合FPN技术的
496
王宪保等:基于改进Faster
RCNN的目标检测方法的mAP为0.
88,中心偏移距离为26.63
,实验结果
种类型吸尘器尘袋的检测结果。从图中可以看到本
文模型对于各种类别的吸尘器尘袋都可以实现袋口
的有效检测,证明了其在尘袋袋口检测任务上的有证明了本文模型在类别增加的情况下效果依旧比
Faster
RCNN好。同时,图9给出了
DF
RCNN对各
表5在数据集1+2上的检测结果BackboneAnchor
boxesmAP/%88中心偏移距离
26.63fpsFaster
RCNNMask
RCNNResnet501212121.040.93Resnet50Resnet50929416.4612.46本文算法0.97(a)跑道形椭圆
(b)圆形大开口(c)带十字花纹开口(d)带十字花纹开口(e)带字花纹开口(f)带花纹开口497
高技术通讯2021年5月第31卷第5期(g)圆形中等开口 (h)花纹椭圆
⑴带十字开口图9
DF
RCNN在吸尘器尘袋数据集1
+2的检测效果效性。为了进一步测试其检测能力,将来自两个数
据集的吸尘器尘袋原始对象拍摄在同一张图片中,
RCNN模型本身的边界框偏差。实验结果表明,本
文提出的模型在目标检测效果与精度两方面都优于
并采用训练好的Divide
Faster
RCNN进行检测,结
现有算法,不仅实现了目标的有效识别,而且定位精
果如图10所示。以上结果共同证明了本文模型可
以有效地检测出不同类别的吸尘器尘袋并且对其开
口进行精准的定位,同时对类别的增加具有良好的
度也比Faster
RCNN高。在今后工作中,将寻求更
好的优化策略,进一步提升检测速度以及泛化能力。参考文献:1]张泽苗,霍欢,赵逢禹.深层卷积神经网络的目标检测
鲁棒性。算法综述[J].小型微型计算机系统,2019,
40(9):
1825-1831[
2]
Schmidhuber
J.
Deep
learning
in
neural
networks:
an
o-
verview[
J].
Neural
Network,
2015
,
61(8)
:
85-117[3]许必宵,宫嬪,孙知信.基于卷积神经网络的目标检测
模型综述[J].计算机技术与发展,2019,
29(12):
87-
92[
4]
Dalal
N,
Triggs
B.
Histograms
of
oriented
gradients
for
human
detection
[
C
]//IEEE
Computer
Society
Conference
on
Computer
Vision
and
Pattern
Recognition,
San
Diego,
USA,
2005:
886-893图10在同一图片中两种不同尘袋的检测效果[
5
]
Lowe
D.
Distinctive
image
features
from
scale-invariant
4结论为了有效提升目标检测的定位精度,本文提出
key
points
J
].
International
Journal
of
Computer
Vision,
2003,
20:91-110[
6]
Felzenszwalb
P,
Mcallester
D,
Ramanan
D.
A
discrimi-
natively
trained,
multiscale,
deformable
part
model [
C
]
〃IEEE
Conference
on
Computer
Vision
and
Pattern
Recognition
,Anchorage,
USA, 2008:1
-8了一种采用分裂机制的基于Faster
RCNN的目标检
测模型。不同于一般基于Faster
RCNN模型将ROI
特征经过全连接网络同时输入给分类与边界框回归
[
7]
Freund
Y,
Schapire
R
E.
Experiments
with
a
new
boos网络,本文利用卷积结构与全连接结构在分类与定
位方面不同性能差异,将R0I特征分别输入给使用
全连接结构的分类网络以及使用卷积结构的边界框
ting
algorithm
[
C
]
//
Proceedings
of
13th
International
Conference
on
International
Conference
on
Machine
Learning,
Bari,
Italy,
1996:
148-156[
8]
Dalal
N,
Triggs
B.
Histograms
of
oriented
gradients
for
回归网络。引入卷积结构,使得R0I特征中的空间
human
detection
[
C
]
〃
Proceedings
of
IEEE
Conference
on
Computer
Vision
and
Pattern
Recognition,
San
Diego,
USA,
2005:
886-893[9]
Girshick
R.
Fast
R-CNN[
C]
〃IEEE
International
Con-信息被更充分地利用。采用ROI
Align替代R0I
Pooling
取消了
ROI
Pooling
中的量化,消除了
Faster
498
王宪保等:基于改进Faster
RCNN的目标检测方法ference
on
Computer
Vision,
New
York,
USA,
2015:
multibox
detector
[
C
]
//
European
Conference
on
Comput1440-1448[10]
Ren
S,
He
K,
Girshick
R,
et
al.
Faster
R-CNN:
towards
real-time
object
detection with
region
proposal
networks
[J].
IEEE
Transactions
on
Pattern
Analysis
and
Machine
er
Vision,
Amsterdam,
Netherlands,
2016:21-37[18]
Zhang
S
F,
Wen
L
Y,
Lei
Z,
et
al.
RefineDet
+
+
:
single-shot
refinement
neural
network
for
object
detection
[J].
IEEE
Transactions
on
Circuits
and
Systems
for
Video
Intelligence,
2017,
36(6)
:
1137-1149[11]
Long
J,
Shelhamer
E,
Darrell
T.
Fully
convolutional
networks
for
semantic
segmentation
[
J
].
IEEE
Transactions
Technology,
2021,
31(2):
674-687[19]
Redmon
J,
Farhadi
A.
YOL09000:
better,
faster,
stronger
[C]
//IEEE
Conference
on
Computer
Vision
and
Paton
Pattern
Analysis
and
Machine
Intelligence,
2014,
39
(4)
.
640-651[12]
Uijlings
J
R
R,
K
E
A
van
de
Sande.
Selective
search
for
tern
Recognition,
Honolulu,
USA,
2017
:
7263-7271[20
]
Redmon
J,
Farhadi
A.
YOLOv3:
an
incremental
improvement
[J].
arXiv:
1804.
02767vl,
2018[21]
蒋弘毅,王永娟,康锦煜.目标检测模型及其优化方法
object
recognition
[
J
].
International
Journal
of
Computer
Vision,
2013,
104(2)
:
154-171[13]
Zitnick
C
L,
Dollar
P.
Edge
Boxes:
locating
object
proposals
from
edges
[
C
]
//
Proceedings
of
European
Confer综述[J].自动化学报,2020,
doi:
10.
16383/j.
aas.
C190756[22]
Simonyan
K,
Zisserman
A.
Very
deep
convolutional
networks
for
large-scale
image
recognition[
J].
arXiv:
1409.
ence
on
Computer
Vision,
Zurich,
Switzerland,
2014:
3914051556,
2014[23]
He
K,
Zhang
X,
Ren
S,
et
al.
Spatial
pyramid
pooling
in
deep
convolutional
networks
for
visual
recognition
[
J
].
[14]
Dai
J,
Li
Y,
He
K,
et
al.
R-FCN:
object
detection
via
region-based
fully
convolutional
networks
[
C
]
〃
Conference
on
Neural
Information
Processing
Systems,
Las
VeIEEE
Transactions
on
Pattern
Analysis
and
Machine
Intelligence,
2015,
37(9)
:
1904-1916[24]
He
K,
Gkioxari
G,
Dollar
P,
et
al.
Mask
R-CNN[C]
//
2017
IEEE
International
Conference
on
Computer
Vision,
gas,
USA,
2016:379-387[15
]
Cai
Z,
Vasconcelos
N.
Cascade
R-CNN:
delving
into
high
quality
object
detectionf C]
〃2018
IEEE/CVF
Conference
on
Computer
Vision
and
Patter
Recognition,
Salt
Lake,
USA,
2018:
798-802Venice,
Italy, 2017:
386-397[25]
Lin
T
Y,
Dollar
P,
R.
Girshick,
He
K
et
al.
Feature
[16]
Redmon
J,
Divvala
S,
Girshick
R,
et
al.
You
only
look
pyramid
networks
for
object
detection
[
C
]
〃
IEEE
Computer
Society
Conference
on
Computer
Vision
and
Pattern
Recognition,
Dhaka,
Bangladesh,
2017
:
1-10[26]
Lin
M,
Chen
Q,
Yan
S.
Network
in
network
[
J
].
arXiv:
1312.4400v3,
2013once:
unified,
real-time
object
detection [
C ]
〃
Computer
Vision
and
Pattern
Recognition,
New
York,
USA,
2016:
779-788[17]
Liu
W,
Anguelov
D,
Erhan
D,
et
al.
SSD:
single
shot
Target
detection
method
based
on
improved
Faster
RCNNWang
Xianbao,
Zhu
Xiaoyong,
Yao
Minghai(College
of
Information
Engineering,
Zhejiang
University
of
Technology,
Hangzhou
310000)AbstractFor
the
region-based
target
detection
algorithm,
there
is
a
general
problem
that
the
boundary
position
is
far
from
the
real
value.
This
paper
proposes
an
improved
Faster
RCNN
algorithm
using
the
splitting
mechanism.
Firstly,
the
algorithm selects
the
convolutional
neural
network(CNN)
with
strong
feature
extraction
ability
as
the
backbone
network
to
extract
features,
and
then
generates
candidate
target
regions
through
12
different
anchors
to
further
improve
the
accuracy
of
detection.
Finally,
the
obtained
features
are
transnetted
to
two
different
sub-networks:
the
classification
network
is
based on
the
fully-connected
structure,
and
the
targets
are
classified;
the
positioning
network
is
based
on
the
convolutional
neural
network
structure
to
achieve
the
target
positioning.
The
experiments
verify
the
effectiveness
of
the
algorithm
on
the
Pascal
VOC2007
dataset,
Pascal
VOC2012
dataset
and
vacuum
bag
dataset.
The
results
show
that
the
proposed
algorithm
is
more
accurate
than
the
Faster
RCNN
in
the
effective
detection
of
the
target,
and
achieves
the
accurate
regression
of
the
bounding
words:
target
detection,
convolutional
neural
network
(
CNN)
,
positioning
accuracy,
improved
Faster
RCNN,
dividing
mechanism499
版权声明:本文标题:基于改进Faster RCNN的目标检测方法 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/free/1708648253h528573.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论