admin 管理员组

文章数量: 887021


2024年2月23日发(作者:sql server2008r2卸载)

高技术通讯2021年第31卷

第5期:489499doi

:10.

3772/j.

issn.

1002-0470.

2021.05.004基于改进Faster

RCNN的目标检测方法①王宪保②

朱啸咏

姚明海(浙江工业大学信息工程学院杭州310023)摘

针对基于区域的目标检测算法中定位精度不高的问题,本文提出了一种分裂机

制的改进Faster

RCNN算法。该算法首先选择特征提取能力强的卷积神经网络(CNN)作

为骨干网络进行特征的提取;然后通过12种不同Anchors产生候选目标区,以进一步提

升检测的精确度;最后将得到的特征分别传送到两个子网络,分别实现分类与定位。分类

网络以全连接结构为基础,定位网络则主要由卷积神经网络构成。本文在Pascal

VOC2007和Pascal

VOC2012以及吸尘袋图像集上对算法的有效性进行了验证。结果表

明,提出的算法在对目标进行有效检测的同时,定位效果比Faster

RCNN更加精确,实现

了边界框的精准回归。关键词

目标检测;卷积神经网络(CNN);定位精度;改进Faster

RCNN;分裂机制例如方向梯度直方图(histogram

of

oriented

gradient,

0引言目标检测,就是将目标定位和目标分类结合起

HOG)⑷,Sift⑸,可变形零件模型(deformable

parts

model,

DPM)同等对候选区域进行特征提取,最后

使用

AdaBoost®

和支持向量机(support

vector

ma­chine,

SVM)⑻等机器学习算法对得到的特征进行

来,利用图像处理、机器学习等技术,识别图片中是

否存在事先定义的类别目标物体,如果存在,返回该

类别目标物体的空间位置以及空间范围,一般使用

矩形边框进行标定的计算机视觉技术⑷。检测过

分类,之后通过目标类别对目标进行边框回归。传

统的目标检测模型对于不同特征需要选择适合的分

类器,导致其泛用性差、鲁棒性不足。2012年之后,深度学习给机器学习领域带来了

程一般分为2个阶段,第1阶段通过目标分类判断

输入的图像中是否存在目标物体,第2阶段负责将

搜索到的目标物体使用边界框进行标注⑵。这要

巨大的变革,计算机视觉技术也得以迅猛发展。传

统图像特征提取方法的泛化性能不如深度学习方

求计算机在准确判断目标类别的同时,还要给出每

个目标的准确位置。法,在卷积神经网络(convolutional

neural

network,

CNN)提出以后,深度学习方法已经替代了手工特征

在目标检测算法中,图像以像素矩阵的方式存

储,需要从中抽象出目标类别和边框位置相关的图

像特征才可以进行目标检测⑶。传统目标检测算

方法。凭借CNN在提取图像高层特征上的优势,深

度学习在目标检测领域取得了较大的成功。文

献[9]和文献[10]分别提出了快速的基于区域的卷

法,一般根据图像特征点进行匹配或是基于滑窗的

积网络(fast

region

based

convolutional

neural

net­work,

Fast

RCNN)和更快的基于区域的卷积网络

(faster

region

based

convolutional

neural

network,

框架。首先利用图像预处理方法对输入图像进行去

噪、增强、裁剪等操作,之后采用滑动窗口方法对图

像进行候选区域的筛选,再采用经典特征提取方法,

Faster

RCNN)算法。前者利用共享卷积减少了整体①

国家自然科学基金(61871350),浙江省科技计划项目(2019C011123)和浙江省基础公益研究计划(LGG19F030011)资助项目。②

男,1977年生,博士,副教授;研究方向:模式识别,神经网络,图像处理;E-mail:

wxb@

zjut. edu.

cn(收稿日期=2020-04-03)489

高技术通讯2021年5月第31卷第5期网络的计算消耗,但由于其区域生成算法复杂度过

归任务需要对象级别上下文来确定边界框偏移量。

由于卷积可以提取对象级上下文信息,卷积更适合

高,使其训练及检测速度较慢。后者在前者的基础

上结合全卷积网络M

,利用区域提议网络(region

proposal

network,

RPN

)替换原先的

Selective

边界框回归任务。但是单一的FC

Head网络或是卷

积头(convolution

head

)网络都不足以同时处理分类

和定位。本文提出了一种分裂的快速区域卷积网络(di-

vide

faster

region

based

convolutional

neural

network,

DF

RCNN)算法,将分类任务和边界框回归任务有

Search1'2]以及Edge

Boxes[

13]算法,共享特征映射图

减少了重复的计算,加快了训练和检测的速度。

Faster RCNN为两阶段目标检测算法奠定基础,但

Faster

RCNN无法实现候选区域提取网络和特征提

取网络之间的权值共享。文献[14]提出基于区域

效地分开,提升了目标检测中边界框定位的精度。

的全卷积神经网络(region

based

fully

convolutional

network,

R-FCN

),利用位置敏感得分图(position

sensitive

score

maps)在一定程度上解决图像变形在

图像分类中一致但在目标检测中不一致的问题,且

检测速度高于Faster

RCNNO近年来,又出现了级联

基于区域的卷积网络(cascade

region

based

convolu­tional

neural

network,

Cascade

RCNN

)

[15]等两阶段

目标检测器。文献[16]提出的只看一次(you

only

look

once,

YOLO

)算法,其将目标检测问题定义为

图像空间边框回归以及类别预测问题。YOLO中仅

包含单个网络,无需候选区域提取,大幅减少了计算

量,虽然检测精度不及Faster

RCNN,但其检测速度

是Faster

RCNN的10倍,其将分类和定位结合的思

想为后续研究提供了新思路。在YOLO的基础上

单激发多盒探测器(single

shot

multibox

detector,

SSD)

I®结合Anchor机制并综合利用多尺度卷积层

的信息实现对小目标检测精度的提升。之后文

献[18

]提出RefineDet在SSD基础上将信息由粗到

细进一步提升回归框信息,同时利用特征融合提升

小目标检测精度。YOLOv2[,9]以及YOLOv3等口切

算法针对YOLO检测精度差的问题,前者增加k-

means进行方框先验提升了检测效果,后者采用逻

辑回归对方框置信度进行回归并对每个类别独立使

用逻辑回归采用二分类交叉爛作损失函数,提升了

多标签任务的检测效果。在目标检测任务中,图像的空间信息对于对象

分类是至关重要的,它提供了区域提议(region

pro-

posal)中是否涵盖完整的目标对象的信息。全连接

头(fully

connected

head,

FC

Head)网络适合分类任

务,因为它具有全局的空间敏感性。相反,边界框回

490

利用全连接结构将局部特征进行有效的组合,充分

利用特征金字塔提取的特征,获得更好的分类效果。

Convolution

head因其丰富的上下文信息提供了更

加精确的边界框定位。算法在吸尘袋图像集上进行

了验证,结果证明了算法的有效性。本文后续结构如下。第1节对Faster

RCNN等

相关工作进行了叙述;第2节对提出的DF

RCNN算

法进行了详细介绍;第3节通过实验设计,对DF

RCNN算法做了进一步分析,验证了所提出的深度

学习模型在该场景下的识别效果;第4节对全文工

作进行了总结和展望。1

Faster

RCNN1.1概述Faster

RCNN模型是在Fast

RCNN的基础上,用

借鉴注意力机制提出的RPN替代Fast

RCNN中的

选择性搜索,提供更加精确的region

proposals的同

时,降低了网络计算的冗余,提高了检测的速度。

12网络结构Faster

RCNN模型的结构如图1所示。模型主

体分为特征提取网络、RPN、感兴趣区域池化(region

of

interest

pooling,

ROI

Pooling)以及分类器几部分

组成。特征提取网络一般选择VGG16U2〕,其通过一

系列不同大小的卷积层提取输入图像中不同层级的

语义信息,形成特征映射图。1.3

RPNRPN接收任意尺寸的输入图像并输出一组包

含得分的矩形框作为region

proposals0使用共享卷

积顶层的特征信息,通过proposal层在大小为w

x

h

王宪保等:基于改进Faster

RCNN的目标检测方法其中%表示输入;A是分类损失函数和边界框回归

损失函数之间的平衡权重。利用该损失函数训练好

的RPN可以预测目标Anchors,并修正其边界得到

最终的ROI。R0I作为RPN的输出被传输给R0I

Pooling以及分类器以便做进一步的检测。。

,r f

0-

5%2 I

X

I

<

1SmoothL^

(^)二{

ll

%1

-

0.5

其他(2)1

4

ROI

PoolingROI

Pooling使用的是空间金字塔池化血],将

图1

Faster

RCNN的网络结构问的特征图上的每个像素位置采集k个初始区域,总

共获得w x h

x

k个Anchorso通过分类器对这些

Anchors进行遴选,挑出可能含有目标对象的An­chors

对其进行边界框回归,修正后的Anchors作为

目标候选区域。满足下面2个条件的Anchors在proposal层被

标注为正样本,否则为负样本。(1) Anchors与目标对象的交并比(intersection

over

union,

IOU)最大。(2)

Anchors与至少一个目标的IOU不低于

0.7o在Anchors完成标注后,根据式(1)作为RPN

的损失函数对RPN进行训练。+

A

X

P*

Sg

(ti,

t*)i(1)

式中,i是Anchors的索引值,p,表示索引值为i的

Anchor是目标对象的概率;盯代表真实值标签

(ground

truth,

GT)的值(如果真实值是正样本则该

值为1,若为负样本则为0);

是索引值为i的An-

chor的边界修正值,t:为真实标签的边界框修正

值;6,是分类损失函数,采用交叉爛损失函数实

现,表示预测值与目标值的误差;Lreg是边界框回归

的损失函数,采用下面的SmoothLl损失函数实现,

region

proposals对应的特征图作为输入,输出固定

长度的特征向量。特征向量经过全连接层后,分别

输入到Softmax分类器和边界框回归器中进行目标

类别的预测以及边界框的修正。最后,使用非极大

值抑制(non-maximum

suppression,

NMS

)消除重复

的边界框以得到更加准确的检测结果。该部分的损

失函数如下:L(p,

u,

tu,

v)

=

LcU{p,

u)

+A[u

>

1]厶”g(t",")(3)

式中,Lcls为分类损失函数,Lreg为边界框回归损失

函数,P是分类的预测值,u是类别的索引,t“表示

第u类边界框预测的修正值,"是真实标签的修正

值。Faster RCNN网络对RPN输出的目标特征向量

使用全连接层进行特征组合,随后分别输入给分类

器以及边界框回归器。但是全连接层对于这两种任

务并非都合适。边界框回归任务需要更多的目标级

别的上下文,卷积结构相较于全连接结构更能提取

目标级别上下文,故卷积结构在边界框回归任务上

比全连接结构更合适。本文就此提出一种新的检测

模型来提升边界框回归的精度。2

Divide

Faster

RCNN本文基于上述的先验知识,将全连接结构应用

于目标对象的分类,卷积结构应用于目标对象的定

位,提出了可以有效提升目标检测的精度,实现有效

的目标定位的改进Faster

RCNN模型——DF

RC­NN

o

图2显示了本文的目标检测模型。首先利用

骨干网络提取RGB空间下输入图像的多尺度特征,

491

高技术通讯2021年5月第31卷第5期并将多尺度特征构建成特征金字塔,实现多尺度特

尺度的特征图上,最后将选择的特征输入基于全连

征映射图的构建。然后利用Anchor机制以及共享

特征映射方式实现候选区域生成,对提出的候选目

接结构的分类网络和基于卷积结构的回归网络实现

目标的类别确定以及目标的定位,得到目标检测的

标区域使用感兴趣区域对齐方法(region

of

interest

align,

ROI

Align)[24]将提出的候选区域映射至对应

结果O图

2

Divide

Faster

RCNN

网络结构2.1

Divide

Faster

RCNN

的主干网络DF

RCNN首先使用残差学习框架作为主干网

RCNN对小物体检测效果相对较差的原因。特征金

字塔(feature

pyramid

network,

FPN

)」提取不同层

级卷积层的输出,可以同时捕捉浅层与高层的语义

络。残差结构是在标准的前馈卷积网络的基础上添

加一个残差连接(skip

connect)以便跳过一些层的

连接,每完成一次skip

connect便产生一个残差块,

如图3所示。其中Conv表示卷积模块用于对输入

信息,提升了对小目标的检测能力。以残差网络为

例,将残差网络中conv2、convi、cotw4

conv5的输

出分别用C2、C3、Q、C5表示。FPN首先对C5使

进行卷积处理;BN为批归一化操作,减小了网络内

用一个1

xl的降维层将其通道数从2048降为256

得到特征映射图C4

,之后对CP5进行上采样,同

部协方差平移,加速深层网络训练;ReLu为网络的

激活函数。残差块的数学表达如下:y

=

时对C4使用一个降维层将其通道数从1024降至

(4)256,采用4加函数将两者结合得到CP4。之后对

Wi)

+

X

式中,y表示残差块的输出,%是残差块的输入,

F仏,{见})表示待学习的残差映射。CP4进行上采样再4加上c3经过降维层结果得到

特征映射图CP3。对CP3进行上采样再Add上C2

得到CP2。最后分别对CP?、CP3、CP。、CP5使用

一个3

x3的卷积以降低上采样带来的混叠现象,最

终得到巴、巴、匕、代,构成了特征金字塔。2.2区域提议目标候选区域推荐的数目和质量直接关系到目

图3残差块结构标检测的速度和精度。本文采用RPN方法进行目

标候选区域的提议。RPN通过Anchor机制直接在

残差网络的skip

connect方式降低了模型随着

特征映射图上生成候选区域。RPN共享了模型特

征金字塔部分的卷积特征,降低了整体计算的冗余,

网络深度增加发生过拟合的可能性,使模型的深度

可以构建得更深。一般而言,卷积层越深,高层语义

有效提升了模型的检测速度。本文对RPN的部分参数进行了调整,将An­chors

的基础尺寸调节为(32,64,128,256),长宽比

越明显,更利于分类任务,但同时损失的信息也越

多。该级别的损失对于大尺度目标的影响不大,但

是对小尺度目标会造成严重的影响。这就是Faster

492

调整为(1,0.5,2),总共得到12种不同大小的An-

王宪保等:基于改进Faster

RCNN的目标检测方法chors0本文采用NMS方法,通过比较Anchors与

点数目也是1024。两层全连接层大大增加了网络

Ground

Truth

之间的

IOU,删除

IOU

0.

3

~

0.

5

的非线性能力,提升了模型的复杂度,增加了模型对

间的Anchors,同时将IOU

M0.

5的Anchors作为正

复杂图像的识别能力。全连接结构聚合的特性使其忽略了特征出现的

空间信息,因此不适合边界框的回归。卷积网络对

样本,I0U

<0.

3的Anchors作为负样本。最后根据

Anchors的得分大小,选取得分最高的200个An­chors

作为最终的候选框。空间信息保留能力以及目标级别上下文提取能力更

2.3

ROI

AlignROI

Pooling可以从各个ROI中对特征进行进

强,更适合边界框回归任务。卷积结构采用堆叠的

子块构建,如图4所示。卷积子块1首先利用3x3

的卷积对ROI

Align的输出进行进一步的特征提

一步的提取,但是ROI

Pooling层引入了两次量化操

作,降低了

R0I与其特征之间的一致性。同时给边

界框回归带来了算法本身的偏移。ROI

Align采用

双线性插值法,在R0I上先进行分割,然后在分割

得到的每一块小区域中,采样K(K

一般取4)个点,

即对该小区域进行等分得到4个子区域,之后每个

子区域利用双线性插值得到中心点的像素值,之后

取这4个子区域中心像素值的最大值作为这个小区

域的像素值。该方法有效地避免了

ROI

Pooling中

的量化过程,有利于R0I和特征之间的一致性,提

升分类精度,避免量化带来的边界框误差。经过

ROI

Align处理的特征图的大小被固定为7

x7

x

256。由于特征金字塔输出了多个不同层级的特征

图,需要根据特征图尺度的不同来选择不同层级的

金字塔的输出,具体选择应用如下公式。%

=饥

+log2(無)

(5)式中,饥=5

,w和/i表示对应R0I区域的宽和高,

224对应特征金字塔第5层的尺度。2.4分裂检测网络与其他主流两阶段方法不同,DF

RCNN将分类

与回归问题分开,提出将目标检测中的分类任务与

边界框回归任务分别传输给全连接结构与卷积结构

以完成目标对象的准确分类以及精确定位。全连接结构将分布式表示特征映射到样本标签

空间,聚合了卷积网络提取的多种不同特征,降低了

特征空间位置对分类的影响。本文采用的全连接结

构包含2层全连接层,每层的神经节点数目为

1024,第1层全连接层将ROI

Align输出的7 x7

x

256张量降维到1

x

1024,第2层全连接层的神经节

取,后续1x1的卷积核将输入的通道数从256提升

到1024,增加了特征的丰富性。卷积子块2利用了

瓶颈块结构,使用一个1x1的卷积核将输入的维度

先降低到256,再利用3

x3的卷积进一步提取特

征,之后通过1

x

1的卷积将输出的维度恢复为

1024。因为全局平均池化层(global

average

poo-

ling,

GAP)[26]不像FC层需要大量训练调优参数,

且抗过拟合能力更强,故本文采用GAP层代替FC

层,实现对卷积结构输出向量的进一步降维,防止过

拟合。(a)卷积子块1(b)卷积子块2图4构成卷积结构的子块2.5网络的整体训练DF

RCNN的损失函数分为分裂网络的损失函

数以及RPN网络的损失函数。将其写为一个总的

损失函数进行训练,其总损失函数为^lotal

=

Wfc^fc

+

WcoTw^conv

+

^rpn

(6)式中Lf亠”和Lrpn分别为全连接结构、卷积结构以

及RPN网络的损失函数,wfc和叫。””是Lfc和Lconv的

493

高技术通讯2021年5月第31卷第5期权重平衡系数。本文采用带动量的随机梯度下降法

(SGD)进行网络的权重更新,利用动量可以有效避

包含了

20种不同物体。训练数据涵盖了各种场景

的图片,每张图片都有对应的标签文件。然后本文

自主构建了吸尘器尘袋图像集。数据集分为2部

免损失函数陷入局部最优值且加快整体收敛的速

度。利用迁移学习的方法,首先利用在COCO数据

分,数据集1和数据集2。数据集1包含8种不同圆

形开口的吸尘器尘袋,数据集2包含2种不同椭圆

集上预训练的参数对模型进行初始化,之后冻结网

形开口的吸尘器尘袋。表1和表2给出了数据集1

和数据集2的具体信息。图5和图6分别给出了对

络中的部分参数,使用目标数据集进行对模型剩余

部分的参数微调使其在更短时间内有效地适应目标

应数据集的部分示例图片。3.2评价标准本文采用各类平均精度(mean

average

preci­sion,

mAP)以及中心偏移距离作为主要评价指标,

任务。3实验3.1数据集本文首先使用Pascal

VOC

2007和2012数据集

进行一般性测试。Pascal

VOC

2007和2012数据集

同时使用收敛速度以及目标检测速度作为辅助评价

指标,并与Faster

RCNN,Mask

RCNN两种主流的两

阶段目标检测模型作比较。表1数据集1中每一类包含的图片数目尖別数目圆型小开口圆形大开口75带十字带字花纹开口带花纹圆形中等带十字带横线花纹开口73开口77开口75开口77开口757573表2数据集2中每一类包含的图片数目类别跑道形椭圆花纹椭圆数目7674(d)带字花纹开口(e)带花纹开口(f)圆形中等开口 (g)带十字开口(h)带横线开口图5数据集1图片示例494

王宪保等:基于改进Faster

RCNN的目标检测方法3.3参数设置本文算法采用Python实现,版本为3.

6,基于

TensorFlowl.

12

框架。实验设备为

i5-9400,16

GB

内存,GTX1060(6

GB)的个人计算机。实验主要分

为以下几个部分,第1个实验比较了在一般性数据

集上

Divide

Faster

RCNN

网络与

Faster

RCNN

之间的性

能差异,验证Divide

Faster

RCNN在通用检测方面

的有效性能。第2个实验用于比较Divide

Faster

RCNN网络与Faster

RCNN网络在吸尘器尘袋数据

集1上的表现,验证Divide

Faster

RCNN对边界框回

归精度的提升。在实验中,由于实验设备的限制,将

batch

size设置为1,训练步数设置为200,总共训练

100个周期。第3个实验用于验证算法的性能,检

(b)花纹椭圆验增加类别后算法的鲁棒性,在原始数据集1上增

加扩展数据集2作为该实验的数据集。实验中Fas­ter

RCNN算法采用文献[10]中的默认配置,Divide

Faster

RCNN采用带动量的SGD算法,动量设置为

图6数据集2图片示例GT的边框记作boxgt,格式为(ylg,,

xlg,, y2p,

%2巒);预测出的边界框记作boxpred,其格式与box妙

0.9,学习率初始化为0.

0001,输入图像的大小在第

相同为(刃问,xlpred,

y2pred,

x2pred)o两者之间的距

1个实验缩放为512x512,第2个和第3个实验缩

离记作d

=

dis

(boxg,,

box^),即为预测边界框的

放为

1024

x

1024

o中心偏移距离。d

=

dis

(bo%,

boxQ=J(场-畑亍+

(备

-x』

3.4算法比较实验1表3给出了本文方法与现有主流两阶

(7)段目标检测算法分别在Pascal

VOC2007trainval和

2012trainval上的测试结果。实验表明,在Faster

其中,y”

=

(yigl

+y2g,)/2,

xgt

=

(%

+%2”)/2,

Vpred

=(刃”也

+

AreJ/2,

Xpred

=

{xpred

+x2pred')/2o

本文的实验总共分为3部分。第1部分采用

Pascal

VOC

2007

数据集中的

Pascal

VOC

2007trainval子数据集以及Pascal

VOC

2012数据集

RCNN中加入特征金字塔且对不同任务使用不同网

络头结构之后,各类平均精度分别提高了

3.

9%和

5.7%,实验表明了本文方法在一般性问题中优于

Faster

RCNNO中的Pascal

VOC

2012trainval子数据集进行模型评

实验2本文采用端到端的训练方法在吸尘器

尘袋数据集1上完成模型的训练。并将其与现有主

估。第2及第3部分采用吸尘器尘袋数据集1和2

来评估模型。流两阶段目标检测算法进行比较。表4展示了在尘表

3

Pascal

VOC2007trainval

2012trainvaI 上的测试结果BackboneFaster

RCNNFaster

RCNNFaster

RCNN

+

FPNVGG16Anchor

boxesmAP/%mAP/%(VOC2012trainval)(VOC2007trainval)68.21212121265.466.8Resnet50Resnet50Resnet5069.770.573.668.

1本文算法72.5495

高技术通讯2021年5月第31卷第5期表4在吸尘器尘袋测试集上的检测准确率以及中心偏移距离BackboneFaster

RCNNAnchor

boxesmAP/%中心偏移距离/像素fps1.121.23VGG16Resnet50Resnet50Resnet52949424.3420.6212.72Faster

RCNNMask

RCNN0.95本文算法11.761.02袋数据集1上本文算法与现有模型之间的定量比较 的种类数目,fps表示每秒可以完成检测的图像的数

目,中心偏移距离的单位是像素。图7给出了部分

结果,其中backbone为模型采用的特征提取网络的

结构,Anchor

Boxes为在RPN网络中设置的Anchors

的检测结果。(a)

Faster

RCNN检测结果

(b)

Mask

RCNN检测结果

(c)本文算法检测结果(d)

Ground

Truth图7在数据集1上检测的结果(示例)从表4中可以看出,本文模型在中心偏移距离

Faster

RCNN,本文增加了全卷积结构,单层卷积的计

方面优于现有的模型。Faster

RCNN由于ROI

Pool

算复杂度为

0(%

x

Wout

x

(K2

xC;„

+1)

x

CJ

,

的缘故,在中心偏移距离方面表现最差。Mask

RC­NN

引入了

ROI

Align以及掩码(mask)分支,目标定

其中Houl与Wout分别为输出特征图的高度和宽度,

Cin和CM分别为卷积层输入及输出的通道数,K2代

位能力得到了改进,中心偏移距离比Faster

RCNN

提高了

7.9个像素。本文的模型比Mask

RCNN提

表了卷积核的大小。对于多层卷积网络而言其时间

D高了

0.96个像素。不难看出,去卷积结构相较于全

复杂度是多个卷积层的累加0(

XC

X昭”,X1

=

1连接结构对于目标定位精度确实有提升。分裂机制

将卷积结构作为边界框回归的特征降维器,提高了

特征的空间信息保留,提高了目标的定位精度。((Q2

xcL

+

i)x

O,其中Z表示当前层的索

引,D为网络的深度。为了减少计算量,本文采用

瓶颈层方式,先利用1

X1卷积将输入通道数降低,

对降低之后的特征图进行进一步卷积,最后通过1

xl卷积将输出通道数重新升高回预设维度。模型

从表4中可以看岀,本文模型的分类精度要优

于Faster

RCNN模型。本文模型采用的backbone为

残差网络,残差网络对特征的提取能力优于

VGG16,更强的特征保留带来了

mAP的提升。同时

的检测速度还是优于Mask

RCNN但略逊于Faster

RCNNO同时,由于增加了卷积结构,致使本文模型

本文算法构建了特征金字塔,提高了对小目标的检

测精度,降低了模型的漏报率,提高了模型的召回

在训练过程中loss的下降速度稍微变慢,但下降趋

势基本没有变化,如图8所示。率,在相同精确率情况下,更高的召回率带来了

mAP的提升。特征金字塔的使用,使得本文模型比

实验3为了排除数据集中和数据不足带来的

干扰,本文进行了第2组实验,训练集采用数据集1

和数据集2,增加了数据的多样性。实验结果如表5

Faster

RCNN分类性能更强。在检测速度方面,本文模型由于引入了分裂机

所示,从中可以看到Divide

Faster

RCNN模型的

mAP为0. 94,中心偏移距离为12.

46,

Faster

RCNN制,增加了模型的复杂度,相较于结合FPN技术的

496

王宪保等:基于改进Faster

RCNN的目标检测方法的mAP为0.

88,中心偏移距离为26.63

,实验结果

种类型吸尘器尘袋的检测结果。从图中可以看到本

文模型对于各种类别的吸尘器尘袋都可以实现袋口

的有效检测,证明了其在尘袋袋口检测任务上的有证明了本文模型在类别增加的情况下效果依旧比

Faster

RCNN好。同时,图9给出了

DF

RCNN对各

表5在数据集1+2上的检测结果BackboneAnchor

boxesmAP/%88中心偏移距离

26.63fpsFaster

RCNNMask

RCNNResnet501212121.040.93Resnet50Resnet50929416.4612.46本文算法0.97(a)跑道形椭圆

(b)圆形大开口(c)带十字花纹开口(d)带十字花纹开口(e)带字花纹开口(f)带花纹开口497

高技术通讯2021年5月第31卷第5期(g)圆形中等开口 (h)花纹椭圆

⑴带十字开口图9

DF

RCNN在吸尘器尘袋数据集1

+2的检测效果效性。为了进一步测试其检测能力,将来自两个数

据集的吸尘器尘袋原始对象拍摄在同一张图片中,

RCNN模型本身的边界框偏差。实验结果表明,本

文提出的模型在目标检测效果与精度两方面都优于

并采用训练好的Divide

Faster

RCNN进行检测,结

现有算法,不仅实现了目标的有效识别,而且定位精

果如图10所示。以上结果共同证明了本文模型可

以有效地检测出不同类别的吸尘器尘袋并且对其开

口进行精准的定位,同时对类别的增加具有良好的

度也比Faster

RCNN高。在今后工作中,将寻求更

好的优化策略,进一步提升检测速度以及泛化能力。参考文献:1]张泽苗,霍欢,赵逢禹.深层卷积神经网络的目标检测

鲁棒性。算法综述[J].小型微型计算机系统,2019,

40(9):

1825-1831[

2]

Schmidhuber

J.

Deep

learning

in

neural

networks:

an

o-

verview[

J].

Neural

Network,

2015

,

61(8)

:

85-117[3]许必宵,宫嬪,孙知信.基于卷积神经网络的目标检测

模型综述[J].计算机技术与发展,2019,

29(12):

87-

92[

4]

Dalal

N,

Triggs

B.

Histograms

of

oriented

gradients

for

human

detection

[

C

]//IEEE

Computer

Society

Confer­ence

on

Computer

Vision

and

Pattern

Recognition,

San

Diego,

USA,

2005:

886-893图10在同一图片中两种不同尘袋的检测效果[

5

]

Lowe

D.

Distinctive

image

features

from

scale-invariant

4结论为了有效提升目标检测的定位精度,本文提出

key

points

J

].

International

Journal

of

Computer

Vision,

2003,

20:91-110[

6]

Felzenszwalb

P,

Mcallester

D,

Ramanan

D.

A

discrimi-

natively

trained,

multiscale,

deformable

part

model [

C

]

〃IEEE

Conference

on

Computer

Vision

and

Pattern

Rec­ognition

,Anchorage,

USA, 2008:1

-8了一种采用分裂机制的基于Faster

RCNN的目标检

测模型。不同于一般基于Faster

RCNN模型将ROI

特征经过全连接网络同时输入给分类与边界框回归

[

7]

Freund

Y,

Schapire

R

E.

Experiments

with

a

new

boos­网络,本文利用卷积结构与全连接结构在分类与定

位方面不同性能差异,将R0I特征分别输入给使用

全连接结构的分类网络以及使用卷积结构的边界框

ting

algorithm

[

C

]

//

Proceedings

of

13th

International

Conference

on

International

Conference

on

Machine

Learning,

Bari,

Italy,

1996:

148-156[

8]

Dalal

N,

Triggs

B.

Histograms

of

oriented

gradients

for

回归网络。引入卷积结构,使得R0I特征中的空间

human

detection

[

C

]

Proceedings

of

IEEE

Conference

on

Computer

Vision

and

Pattern

Recognition,

San

Diego,

USA,

2005:

886-893[9]

Girshick

R.

Fast

R-CNN[

C]

〃IEEE

International

Con-信息被更充分地利用。采用ROI

Align替代R0I

Pooling

取消了

ROI

Pooling

中的量化,消除了

Faster

498

王宪保等:基于改进Faster

RCNN的目标检测方法ference

on

Computer

Vision,

New

York,

USA,

2015:

multibox

detector

[

C

]

//

European

Conference

on

Comput­1440-1448[10]

Ren

S,

He

K,

Girshick

R,

et

al.

Faster

R-CNN:

towards

real-time

object

detection with

region

proposal

networks

[J].

IEEE

Transactions

on

Pattern

Analysis

and

Machine

er

Vision,

Amsterdam,

Netherlands,

2016:21-37[18]

Zhang

S

F,

Wen

L

Y,

Lei

Z,

et

al.

RefineDet

+

+

:

sin­gle-shot

refinement

neural

network

for

object

detection

[J].

IEEE

Transactions

on

Circuits

and

Systems

for

Video

Intelligence,

2017,

36(6)

:

1137-1149[11]

Long

J,

Shelhamer

E,

Darrell

T.

Fully

convolutional

net­works

for

semantic

segmentation

[

J

].

IEEE

Transactions

Technology,

2021,

31(2):

674-687[19]

Redmon

J,

Farhadi

A.

YOL09000:

better,

faster,

stron­ger

[C]

//IEEE

Conference

on

Computer

Vision

and

Pat­on

Pattern

Analysis

and

Machine

Intelligence,

2014,

39

(4)

.

640-651[12]

Uijlings

J

R

R,

K

E

A

van

de

Sande.

Selective

search

for

tern

Recognition,

Honolulu,

USA,

2017

:

7263-7271[20

]

Redmon

J,

Farhadi

A.

YOLOv3:

an

incremental

im­provement

[J].

arXiv:

1804.

02767vl,

2018[21]

蒋弘毅,王永娟,康锦煜.目标检测模型及其优化方法

object

recognition

[

J

].

International

Journal

of

Computer

Vision,

2013,

104(2)

:

154-171[13]

Zitnick

C

L,

Dollar

P.

Edge

Boxes:

locating

object

pro­posals

from

edges

[

C

]

//

Proceedings

of

European

Confer­综述[J].自动化学报,2020,

doi:

10.

16383/j.

aas.

C190756[22]

Simonyan

K,

Zisserman

A.

Very

deep

convolutional

net­works

for

large-scale

image

recognition[

J].

arXiv:

1409.

ence

on

Computer

Vision,

Zurich,

Switzerland,

2014:

3914051556,

2014[23]

He

K,

Zhang

X,

Ren

S,

et

al.

Spatial

pyramid

pooling

in

deep

convolutional

networks

for

visual

recognition

[

J

].

[14]

Dai

J,

Li

Y,

He

K,

et

al.

R-FCN:

object

detection

via

region-based

fully

convolutional

networks

[

C

]

Confer­ence

on

Neural

Information

Processing

Systems,

Las

Ve­IEEE

Transactions

on

Pattern

Analysis

and

Machine

Intel­ligence,

2015,

37(9)

:

1904-1916[24]

He

K,

Gkioxari

G,

Dollar

P,

et

al.

Mask

R-CNN[C]

//

2017

IEEE

International

Conference

on

Computer

Vision,

gas,

USA,

2016:379-387[15

]

Cai

Z,

Vasconcelos

N.

Cascade

R-CNN:

delving

into

high

quality

object

detectionf C]

〃2018

IEEE/CVF

Con­ference

on

Computer

Vision

and

Patter

Recognition,

Salt

Lake,

USA,

2018:

798-802Venice,

Italy, 2017:

386-397[25]

Lin

T

Y,

Dollar

P,

R.

Girshick,

He

K

et

al.

Feature

[16]

Redmon

J,

Divvala

S,

Girshick

R,

et

al.

You

only

look

pyramid

networks

for

object

detection

[

C

]

IEEE

Com­puter

Society

Conference

on

Computer

Vision

and

Pattern

Recognition,

Dhaka,

Bangladesh,

2017

1-10[26]

Lin

M,

Chen

Q,

Yan

S.

Network

in

network

[

J

].

arXiv:

1312.4400v3,

2013once:

unified,

real-time

object

detection [

C ]

Computer

Vision

and

Pattern

Recognition,

New

York,

USA,

2016:

779-788[17]

Liu

W,

Anguelov

D,

Erhan

D,

et

al.

SSD:

single

shot

Target

detection

method

based

on

improved

Faster

RCNNWang

Xianbao,

Zhu

Xiaoyong,

Yao

Minghai(College

of

Information

Engineering,

Zhejiang

University

of

Technology,

Hangzhou

310000)AbstractFor

the

region-based

target

detection

algorithm,

there

is

a

general

problem

that

the

boundary

position

is

far

from

the

real

value.

This

paper

proposes

an

improved

Faster

RCNN

algorithm

using

the

splitting

mechanism.

First­ly,

the

algorithm selects

the

convolutional

neural

network(CNN)

with

strong

feature

extraction

ability

as

the

back­bone

network

to

extract

features,

and

then

generates

candidate

target

regions

through

12

different

anchors

to

further

improve

the

accuracy

of

detection.

Finally,

the

obtained

features

are

transnetted

to

two

different

sub-networks:

the

classification

network

is

based on

the

fully-connected

structure,

and

the

targets

are

classified;

the

positioning

net­work

is

based

on

the

convolutional

neural

network

structure

to

achieve

the

target

positioning.

The

experiments

verify

the

effectiveness

of

the

algorithm

on

the

Pascal

VOC2007

dataset,

Pascal

VOC2012

dataset

and

vacuum

bag

data­set.

The

results

show

that

the

proposed

algorithm

is

more

accurate

than

the

Faster

RCNN

in

the

effective

detection

of

the

target,

and

achieves

the

accurate

regression

of

the

bounding

words:

target

detection,

convolutional

neural

network

(

CNN)

,

positioning

accuracy,

improved

Faster

RCNN,

dividing

mechanism499


本文标签: 目标 检测 特征 卷积 网络