一文带你读懂Cascade R-CNN,一个使你的检测更加准确的...

当前位置：首页 > 新闻动态 >

热卖商品

Cascade/Magnesium hydroxide/1309-42-8

Cascade/Ferric chloride/7705-08-0

Cascade/Butyl acetate/123-86-4

Cascade/Calcium hypochlorite/7778-54-3

新闻详情

一文带你读懂Cascade R-CNN,一个使你的检测更加准确的..._CSDN博客

来自 : CSDN技术社区发布时间：2021-03-24

论文名称:Cascade R-CNN: Delving into High Quality Object Detection

作者 Zhaowei Cai Nuno Vasconcelos

论文链接 https://arxiv.org/abs/1712.00726

代码链接 https://github.com/zhaoweicai/cascade-rcnn

简要概述文章精华

本篇文章主要解决了在目标检测中检测框不是特别准容易出现噪声干扰的问题即close false positive 为什么会有这个问题呢作者实验发现因为在基于anchor的检测方法中我们一般会设置训练的正负样本用于训练分类以及对正样本进行坐标回归选取正负样本的方式主要利用候选框与ground truth的IOU占比常用的比例是50% 即IOU 0.5的作为正样本 IOU 0.3作为负样本等但是这样就带来了一个问题阈值取0.5是最好的吗作者通过实验发现 1、设置不同阈值阈值越高其网络对准确度较高的候选框的作用效果越好。2、不论阈值设置多少训练后的网络对输入的proposal都有一定的优化作用。基于这两点作者设计了Cascade R-CNN网络如下面图Figure3(d)所示即通过级联的R-CNN网络每个级联的R-CNN设置不同的IOU阈值这样每个网络输出的准确度提升一点用作下一个更高精度的网络的输入逐步将网络输出的准确度进一步提高。

一句话总结就是 Cascade R-CNN就是使用不同的IOU阈值训练了多个级联的检测器。

读了文章精华我想你已经知道这个网络时做什么的如果感兴趣那么接着读下面的详细解析吧~~

文章详细解析

目标检测其实主要干的就是两件事一是对目标分类二是标出目标位置。所以了解Faster R-CNN或者SSD的同学可能都比较清楚为了实现这两个目标在训练的时候我们一般会首先提取候选proposal 然后对proposal进行分类并且将proposal回归到与其对应的groud truth上面但是这就带来了一个问题因为我们做分类需要确定样本的标签那么我们给什么样的proposal打一个标签呢最常用的做法是利用IOU proposal与ground truth的交并比可是IOU阈值设置成多少可以作为我打标签的边界呢常用的阈值是0.5 可是0.5是最好的吗作者通过实验证实了不同IOU对于网络的影响如图Figure 1 ©所示。图c中3条线分别代表3个IOU的阈值横轴是输入的IOU的proposal 纵轴是对应的proposal经过网络输出后的坐标框与ground truth的IOU 我们观察可以发现 3条线都在灰色对角线之上说明3条线都有一定的优化效果并且 3条线无一例外在自己设定的阈值周围优化较明显。

$\"\"$

那么问题来了我们是否可以将阈值提高以达到优化输出精度的效果呢

作者又做了不同阈值下网络精度的实验结果如图figure1(d)所示可以发现对于阈值为0.5以及0.6的时候网络精度差距不大甚至提升了一点但是将精度提升到0.7后网络的精度就急速下降了 (COCO数据集上 AP 0.354- 0.319) 这个实验说明了仅仅提高IoU的阈值是不行的因为提高阈值以后我们会发现实际上网络的精度 AP 反而降低了。

为什么会下降呢

由于提高了阈值导致正样本的数量呈指数减低导致了训练的过拟合。在inference阶段输入的IOU与训练的IOU不匹配也会导致精度的下降。所以才会出现Figure1(d)中 u 0.7的曲线在IOU 0.5左右的时候差距那么大。

实验证明了不能使用高的阈值来进行训练但是实验也呈现出了另一个事实那便是回归器的输出IOU一般会好于输入的IOU 图figure1 c 所示。并且随着u的增大对于在其阈值之上的proposal的优化效果还是有提升的。

那既然这样我们是否可以采用级联的方式逐步提升呢即首先利用u 0.5的网络将输入的proposal的提升一些假如提升到了0.6 然后在用u 0.6的网络进一步提升加入提升到0.7 然后再用u 0.7的网络再提升这样岂不是精度越来越高了

于是乎作者设计了Cascade R-CNN网络。

$\"\"$
图figure 3 d 是Cascade R-CNN的网络结构对比图 Figure 3 a 是Faster R-CNN的网络结构图其中H0代表的是RPN网络 H1代表的是Faster R-CNN进行检测与分类的head C1代表最终的分类结果 B1代表最终的bounding box回归结果。那么Cascade R-CNN有什么不同呢 H1那一部分是一样的但是Cascade R-CNN得到B1回归后的检测框后将其输入到H2部分继续回归以此类推到H3部分使得每次对bounding box都提高一定的精度已达到提高检测框准确度的作用。

注级联的方式不再是为了找到hard negatives 而是通过调整bounding boxes 给下一阶段找到一个IoU更高的正样本来训练。SSD等利用hard negatives方法进行优化。即对负样本loss排序取loss较大的部分

在作者Cascade R-CNN之前其实也有人研究了基于Cascade的方法进行坐标框的优化如图figure3 b 所示这种方法叫做iterative bounding box regression 不过该方法中所有的head都是相同的用公式表示就是如下

$\"f^{$

这会导致了如下问题

我们采用IOU 0.5来训练网络如图Figure1 ©所示,其对IOU更高的图像效果提升有限。在每次迭代后 bounding box的分布实际上发生了一定的改变而分类器是基于最开始的bounding box来训练的这样会产生较多的outlier point 如下图所示红的代表溢出点

$\"\"$

Cascade RCNN的结构图如图Figure3 d 所示公式表示就是这样的

$\"f^{$

iterative bounding box regression是对回归框进行后处理即生成了之后在多次处理而Cascade RCNN是在训练的时候就进行重新采样训练的时候不同的stage的输入数据分布已经是不同的了。这就在一定程度上解决了iterative bounding box regression出现的数据分布变化的问题。高手解决问题往往就是很简单的一个改动却产生了重要的意义。

图Figure 4代表了Cascade R-CNN不同stage的输入数据的IOU分布。

$\"\"$

实验部分网络参数

网络的默认设置共有4个stage,第一个stage产生RPN 另外三个stage分别设置IOU阈值为[0.5,0.6,0.7] baseline的选择 Faster R-CNN作者默认选择VGG网络 R-FCN以及FPN作者默认选择ResNet作为backbone 使用的是默认参数。

具体的网络训练的默认参数论文中有提及这里不详述了感兴趣的读者可以自行查看论文实验部分的介绍。

损失函数

关于损失函数跟Faster R-CNN基本一致没有什么变化。分类采用softmax 回归采用smooth L1 loss 并且为了防止由于bounding box的大小以及位置带来的回归尺度的影响我们一般会对box的坐标进行归一化操作即

$\"\\delta$
$\"\\delta$

网络分析

图Figure5 a 中 3条实线分别对应3个IOU阈值下训练的模型的AP 注意这里是单独训练的不是采用级联的方式训练的如图可以发现当u 0.6是时候在IOU比较低的时候其表现是没有u 0.5好的但是在IOU比较高的时候表现比0.5好了一些而对比u 0.7会发现其效果基本都在u 0.6以下只有在IOU 0.8的时候表现略微超过了u 0.5.该实验说明了设置不同阈值对于网络的影响。

进一步的作者又进行了实验作者将ground truth加入到了Proposal中间测试结果如图Figure5(b)所示实验结果显示网络的表现随着u提升而提升为什么会这样呢

说明 u 0.7的时候需要你保证proposal的质量即其输入的proposal的准确度要高一点另外 u 0.7确实可以做到比u 0.5要好只是需要你保证你proposal的准确度就行。

Cascade RCNN的作用不就是这样吗那是不是如我们猜想的一样呢图Figure5 a 给出了答案其中虚线代表的是cascade结构的精度可以发现精度确实提升了虽然没有在IOU较低的部分超过u 0.5,但是整体上是提升了的说明cascade的提升还是有效果的。

$\"\"$

图Figure 6 向我们展示了不同stage下不同阈值的表现可以发现 stage1的时候u 0.7的detector表现不是很好但是当stage 3的时候 u 0.7的表现就非常好了。并且细心的同学可能发现图6的精度比图5的精度要高这是为什么呢因为图6是采用cascade方法训练得到了而图5只是设置了不同的IOU阈值作为正样本来训练并没有采用cascade方法这里也侧面说明了cascade方法的有效性。

$\"\"$