Part-Guided Attention Learning for Vehicle Instance Retrieval

阅读量：4020 次

发布时间：2019-05-24

本文共 12762 字，大约阅读时间需要 42 分钟。

摘要

车辆实例检索(IR)通常需要识别车辆之间的细粒度视觉差异。除了容易受到视点变化和变形影响的车辆整体外观外，车辆零部件也是区分几乎相同车辆的重要线索。基于这些观察，我们引入了部分引导的注意力网络（PGAN）来精确定位突出的部分区域，并有效地将全局和局部信息结合起来，以进行区分性特征学习。PGAN首先在不考虑车辆身份的情况下检测不同零部件和显著区域的位置，作为自底向上的注意力，缩小可能的搜索区域。为了估计被检测部件的重要性，我们提出了一个部件注意模块(PAM)来自适应地定位具有高度注意权值的最具鉴别能力的区域，并抑制权重较低的无关部件的干扰。PAM受ID损失的影响，因此提供了自上而下的注意，可以在汽车零件和其他显着区域的级别上计算注意。最后，我们将全局外观和局部特征聚合在一起，进一步提高特征性能。PGAN在端到端框架中结合了部分引导的自底向上和自顶向下的注意力、全局和局部视觉特征。大量的实验表明，该方法在4个大型基准数据集上都取得了最新的车辆IR性能。

关键字：车辆实例检索、自下而上的关注、自上而下的关注。

1 简介

车辆实例检索（IR）旨在验证由不同摄像机捕获的两个车辆图像是否属于同一身份。车辆IR也称为车辆重新识别。随着道路交通的增长，它在城市系统和智能交通中扮演着越来越重要的角色[1]，[2]，[3]，[4]，[5]，[6]，[7]，[8] ，[9]，[10]。

在各种IR情况下，都需要不同级别的视觉注意粒度。在比较不同车型的车辆时，我们可以通过检查整体外观来轻松区分它们的身份，例如车型和前灯[3]。然而，大多数生产车辆可以展示几乎相同的外观，因为他们可能是大量生产的同一制造商。当呈现两辆车型相同的汽车时，会有更细粒度的细节(如年度服务标志、自定义画、个人装饰)需要进行比较，如图1所示(a) ID1与ID2相似，因为它们来自相同的汽车模式。因此，车辆识别的关键问题在于如何识别车辆之间的细微差异，并找到能够表征车辆特征的突出部位。

图1:部分引导注意说明。(a)同一车型的两辆不同车辆的前后视图。(b)从零件提取模块中检测到的候选零件区域。©来自部件注意模块的部件特征热图。突出的部分如年号等区域被突出，而不突出的部分如背景、后视镜等不重要的部分被抑制。

现有的工作大多集中在学习具有不同车辆属性的全局外观特征，包括车型[6]、[11]、[12]、车牌[11]、时空信息[13]、[14]、方位[5]、[15]、[16]、[17]等。全局特征的主要缺点是缺乏捕捉更细粒度视觉差异的能力，这在车辆实例检索中至关重要。虽然有辅助属性的帮助，但监管力度仍然很弱。例如，由于隐私保护，车牌通常无法用，同一车型类型的两款极其相似的车辆就无法区分(如图1所示)。而且，他们很容易被视点变化，失真，遮挡，运动模糊和照明，特别是在不受约束的现实环境。因此，探索更健壮和环境不变的信息来表示特定的车辆是很重要的。最近的许多工作倾向于探索汽车部件的细微差异[18]，[19]，[20]，以了解局部信息。然而，这些方法主要集中于空间部分区域的定位，而不考虑如何不同程度地关注这些区域。

为了解决上述问题，我们提出了一种新颖的部分引导注意力网络（PGAN），可以通过集中于最突出的部分区域来有效地提高性能，这是通过对自下而上的注意力和自上而下的注意力进行系统集成而实现的。特别地，我们首先利用一个自底向上的注意模块来提取相关的车辆部件区域，在我们的工作中称为部件提取模块（part extraction module）。利用已建立的针对车辆属性进行预训练的目标检测器[3]、[20]，我们将从零件提取模块中提取的零件区域作为候选对象，有利于缩小网络学习的搜索区域。值得注意的是，这种自底向上的注意通过对特定区域内的所有像素赋值相同，有效地利用了同一区域内像素间的上下文相关性，优于不考虑像素间关系的网格注意。另外，我们称这些候选区域为粗部分区域，因为预先训练的部分提取模块可能检测质量不准确，而且候选区域可能包含一些信息较少的部分区域。

为了提取更有效的局部信息，我们采用自顶向下的注意过程来选择最突出的部分区域，并在得到上述候选部分区域后对其进行适当的重要性评分。在这里，我们介绍了一个零件注意模块（PAM），该模块以ID损失为指导，为每个粗零件区域分配重要性。PAM自适应定位具有高注意权重的区分区域，抑制权重较低不相关部分的分散，如图1 ©所示。通过赋予一个接近于零的权重，它也有利于填充错误检测的部分区域(如图1中ID2的后视图所示)。其中PAM可以为每个对应的局部区域分配一个特殊的注意权值，即该区域内的所有像素具有相同的注意权值，通过将局部区域内的所有像素作为一个整体来反映所选局部区域的重要性。因此，PAM比网格注意或者均匀分解部分注意[21]、[22]、[19]、[23]更有效，因为PAM能够提供更多的细粒度注意，而不是对所有空间像素进行细粒度注意，它只考虑像素之间的上下文信息，在选择的部分区域进行。我们称这些选择加权的零件区域为精细零件区域。

我们的注意机制将自底向上和自顶向下的注意结合起来，可以为改进特征表征提供更突出的局部区域。最后，利用特征聚合模块对车辆的整体外观和部分特征进行聚合，进一步提高车辆的性能。图2显示了整个训练过程。综上所述，我们的主要贡献如下:

设计了一种新颖的部分引导注意力网络(PGAN)，它有效地将部分引导的自下而上和自上而下的注意力结合在一起，以捕获局部和全局的信息。

在零件提取模块中，我们提出了在不进行零件对齐的情况下提取零件的Top-D区域，以有效地保持零件的突出性和可用性。

我们提出了零件注意模块（PAM）来评估选定的Top-D零件区域的相对重要性，该模块进一步将重点放在突出的零件上，并减少了错误检测或不相关的零件的干扰。

在这里插入图片描述

图2:我们框架的整体训练流程。梯形表示框架中涉及的模块，实心矩形表示模块的输出。

2 相关工作

A.基于全局特征的方法

特征表示。车辆重识别的目标是学习判别特征表示，以处理不同车辆显著的外观变化。公开的[3]、[4]、[6]、[11]、[8]、[25]、[26]大型数据集在无限制的条件下被广泛收集，并带有标注的标签和丰富的属性。这些数据集在遮挡、光照、低分辨率和多种视角方面面临巨大的挑战。处理这些数据集的一种方法是使用深度特征[4]，[5]，[11]，[27]，[26]代替手工制作的功能来描述车辆图像。为了学习更鲁棒的特征，一些方法[6]，[11], [12], [13], [14], [28]尝试使用附加属性来探索车辆的细节，例如车辆类型、颜色、时空信息等。此外，[15]，[17]的作品提出使用生成对抗网络(GAN)[29]合成的多视角车辆图像来缓解车辆之间的交叉视角影响。在[5]，[16]作者还通过学习视图感知表示有效地实现了视图不变推理。这些方法虽然取得了很大的进展，但在遇到不同车辆不可见的差异以及同一车辆差异较大时，下降幅度较大。

度量学习。为了克服上述局限性，深度度量学习方法[30]、[31]、[32]、[33]利用强大的距离度量表达式将相同ID的车辆图像拉得更近，同时将不同ID的车辆图像推得更远。这些方法的核心思想是尽可能利用图像对或三元组之间的匹配关系，这在[34]，[35],[24]广泛应用。然而，在深度度量学习的抽样策略导致次优结果，也缺乏识别更有意义的不引人注目的细节的能力。因此，它受到了车辆外观复杂差异的限制。

B.基于部分特征的方法

与[36]、[37]、[38]、[39]、[40]相似，其他针对目标小块的重识别研究中，一系列基于部件的学习方法明确地利用了车辆多部件位置的判别信息。[20]提供属性检测器，而[41]提供标记检测器。[19]、[21]、[22]、[23]、[42]努力将特征图分成多个偶数分区，以提取各个区域的特定特征。然而，由于车辆外观变化较大，车辆很难直接应用这种幼稚的分区。换句话说，几乎所有的行人图像从上到下都有相对规律的外观(从头到脚)，而车辆外观存在多种视角，没有独特的共性。例如，图1中ID2前面车辆的底部分区是车轮，而后面那辆车的底部分区是车辆的后面。虽然[19]对每辆车利用了四个方向的判别特征，但仍然存在网格划分不准确导致的不对齐问题。

另一种基于部分的方法[5]、[43]、[44]、[45]提供了有用的关键点，将更多的注意力放在有效的局部特征上。特别地，尽管[43]尝试检测和使用关键点，但它定义了一个启发式规则来为每个输入图像选择关键点。实际上，[43]根据车辆的方向提取关键点特征子组，关键点组的选择是手动预定义的。[5]基于方向对局部特征应用聚合模块。然而，各个方向的关键点被同等对待，细节信息容易被忽略。与此相反，我们根据输入图像的条件，自适应地学习每个检测到的局部特征的软注意。软注意系数是衡量局部特征对目标任务重要性的指标，利用唯一目标ID损失来学习软注意系数。换句话说，我们不依赖于额外的信息，而[43]使用方向作为额外的监督。另外，[18]，[20]表示使用预先训练的检测模型从车辆的每个零件的ROI特征设计零件融合网络，以提取判别特征。但是，在[18]中，没有对候选零件区域进行重要选择，它对所有零件区域进行了同等的考虑。相反，我们的PGAN可以选择最突出的部分区域，例如年度服务标志和悬挂物，这对于区分不同的车辆来说微妙而重要。此外，我们对软权重部件特征应用了一个量身定制的监督。与[18]对每个部分特征应用单独的监督相比，我们的PGAN可以通过聚合特征提供更准确的监督。虽然[46],[47],[48]也利用了特征图中的注意，但注意机制被应用到特征图中的每个像素上。我们的零件关注模块主要关注像素集，即特征图上检测到的部分区域。因此，可以整体考虑同一部分的上下文相关性。这样既可以把各部分的特征放在一起整体考虑，又可以更加关注突出的部分区域，减轻不相关部分的影响。

3 方法

我们首先将每个车辆图像定义为x，将唯一的对应ID标签定义为y。在给定训练集的情况下，在这里插入图片描述车辆重识别的主要目标是学习特征嵌入函数 φ（xt;θ），以在特定度量下测量车辆相似性，其中θ表示φ（·）的参数。由于训练数据集和测试数据集之间不存在重叠同一性，因此学习对未见测试图像具有良好泛化能力的φ具有重要意义。在测试过程中，给定查询车辆图像在这里插入图片描述，我们可以通过比较和每个之间的相似性，然后在图库集合中找到相同ID的车辆。

在本节中，我们将详细介绍部分引导注意网络(PGAN)。整体框架如图3所示，该框架由四个主要组件组成:部件提取模块、全局特征学习模块、部件特征学习模块和特征聚合模块。首先在部件提取模块中生成车辆的部件掩模，然后对全局特征映射进行应用，得到掩码引导的部件特征。之后，我们通过增加区分性部分的权重和减少信息较少部分的权重来学习不同部分的注意力得分，以增强部分特征。随后，将三个改进的特征（即全局，部分和融合特征）全部用于模型优化。

图3:部分引导注意力网络(PGAN)pipeline。该模型由四个模块组成:部件提取模块、全局特征学习模块、部件特征学习模块和特征聚合模块。首先对输入的车辆图像进行处理，得到全局特征Fg和Top-D候选区域的部分掩模

。然后通过Eq.(2)得到部件掩模特征 {Fi}D i=1

，然后将

送入部件注意模块(PAM)，获得部分引导特征Fp。PAM是一个紧凑的网络，学习一个软注意权w∈RD，它由掩码引导平均池(mask-guided average pooling, MGAP)层和一些线性和非线性层组成。然后，将Fg和Fp串联得到融合特征Ff。在精化和全局平均池（GAP）操作之后，将 eFg，eFp和eFf

分别用于优化三元组损失函数Lf，Lg和Lp。与[24]一样， eFf

后面是BN层，使用归一化后的特征 eFf b

对softmax交叉熵损失Lc进行优化。其中FC, WN, LN, BN分别代表全连通层，权重归一化，层归一化，批归一化。Mean表示沿通道的平均操作。C、C’为细化操作前后的通道尺寸。

A.全局特征学习模块

对于车辆图像x，在获取部分特征之前，我们首先提取一个全局特征映射 Fg∈RH×W×C 采用标准卷积神经网络，如图3所示(a).之前的方法[34]、[24]（罗浩的那个行人重识别)将Fg直接送入全局平均池化(GAP)层获得主要考虑全局信息的嵌入特征，我们的实验将其作为基线模型进行研究。

但是，由于GAP之后丢失了空间信息，因此很难区分两个接近相同的车辆，如图1中的ID1和ID2所示。因此，保持特征图的空间结构至关重要，这有助于描述细微的视觉差异。因此，我们直接将Fg用作后续部分区域学习过程和最终优化的输入之一，并探索了一种新的方法来关注有效部分跟随区域。

B.部分提取模块

我们首先使用预先训练过的SSD检测器提取零件区域，该检测器专门训练过车辆属性[20]。在这里，我们只考虑表一所示的21个车辆属性中的16个。原因是其余属性是车辆样式，即“汽车”，“货车”，“三轮车”，“火车”和“公共汽车”，代表了整个车辆图像，这些图像可以在我们的论文中被识别为全局信息。一旦检测到，我们只使用置信度分数来选择部分区域，忽略每个部分的标签信息。这是合理的，因为由于多视角的差异，并不是所有的属性在每辆车中都是可用的，因此很难确定可靠的部分对齐的通用规则(即，为所有车辆选择相同的部分区域)。

表一:本文使用的车辆属性名称及缩写

与其通过在置信度分数上设置阈值来天真地选择相关部件区域，我们选择最有信心的top-D建议作为候选车辆部件。主要原因有两点:1)一些至关重要但不太自信的边界框，如年服务标志，在区分不同车辆图像方面起着至关重要的作用;2)部件编号固定，便于后续阶段学习注意模型。请注意，我们希望确保高召回率，以避免遗漏相关部件。不相关的部分会从随后的自上而下的注意力学习中过滤掉。

我们使用索引i∈{1,2，…， D}表示每个选中的top-D部分区域。每一部分所覆盖的空间面积记为Ai。对于每一个候选部分区域i，我们得到一个二进制掩模矩阵 在这里插入图片描述

，将部分区域Ai内的元素赋值1，其余元素赋值0，记为:

其中pix表示Mi的像素位置。请注意，每个Mi的大小与Fg的单个通道相同。这意味着如果神经网络的参数或输入图像的大小发生变化，Mi上相应的部件位置也会发生变化，空间区域Ai也会发生变化。尽管可以根据多尺度图像的输入来缩放M，但是为了简化起见，我们将所有图像的大小调整为相同的分辨率，因此M的大小可以调整为H×W。我们强制所有Ai在H×W的范围内，以确保所有部分区域都位于图像区域的范围内(即H×W的大小)。

在获得全局特征Fg和部件掩模

后，我们将部件掩模投影到特征映射Fg上，以生成一组基于掩模的部件特征表示在这里插入图片描述

，此表示将作为以下部分特征注意模块的输入。对于每一部分区域i，我们可以通过下式得到Fi:

其中

表示在Fg的每个通道上按元素进行乘积运算。Fi是第i个部件区域的基于掩码的部件特征图。注意， Fi∈RW H××C

。在每一个Fi，只有第i部分区域的元素被激活。如图3 ©所示。

在下一节中，我们将学习部件区域的注意力模块。与处理一组均匀网格的传统网格注意力方法不同，我们的注意模型可以通过激活选中的部分来关注突出的部分。因此，不相关的部分可以直接忽略不计。此外，可以整体考虑同一部分的上下文相关性，减少本质特征的缺失。此外，该部分提取过程可以看作是一个自下而上的注意机制[49]，并提出了一组候选图像区域。

C.部分特征学习模块

部分特征学习模块用于生成基于掩膜的部分特征图{Fi}的权重图。这样，网络可以专注于特定的部分区域。最近的方法[18]、[50]等突出所有局部区域，从而忽略了不同局部区域之间的重要性差异。此外，在某些特定情况下，一些检测到的部分可能没有提供足够的信息，例如错误地检测出背景或挡风玻璃，没有提供有用的信息，容易导致结果下降。针对上述问题，我们提出了部分注意模块(part attention module, PAM)，自适应地学习各部分的重要性，从而将更多的注意力集中在识别能力最强的区域，抑制信息较少的区域。因此，PAM可以被视为基于部分的自上而下的注意力机制，因为该注意力信号由特定的识别任务监督，以预测候选图像区域上的重要性分布。

部分注意模块(PAM)我们的PAM旨在获得部分引导的特征表示在这里插入图片描述

依赖于对候选部分区域自上而下的注意机制。从PAM中，我们可以得到一个软权向量在这里插入图片描述

表示每个部分区域的重要性，因此可以得到部分导向特征表示Fp:

其中wi∈[0,1]表示软权值w的第i个元素，其中表示通过Eq.(4)得到的第i部分特征Fi的学习权重。w被标准化，sum为1，以便不同部分之间的相对重要性是明显的。在这里,添加Fg是为了增强部分区域的能力。我们学习了一个紧凑模型来预测关注权值w，用于测量每个选择部分的不同重要性，如图3 ©所示。具体来说，我们首先在每个Fi上使用掩码引导的全局平均池化操作（MGAP），然后学习带有softmax层的映射函数以获得w。每个元素wi可以通过以下方式预测：

其中ψ(·)表示一个可学习函数，该函数能够高亮显示最重要的高值部分区域(如图3 ©所示)。θψ是映射函数ψ(·)的参数，mgap(·)表示mgap运算，下文讨论。

在将Fi输入ψ之前，我们通过mgap(·)算符将Fi的每个通道作为标量平均。注意，在每个Fi中，只有部分区域i中的元素被激活，Fi中的元素大多为零。我们没有执行标准的全局平均池（GAP），而是通过MGAP运算符将平均池限制在由掩码Mi指示的区域中。MGAP操作符用元素的数量(即||Mi||1 < H×W)来分离和值，而不是GAP中的元素总数（即H×W）。

D.特征聚合模块

由于全局特征和基于部件的特征提供互补信息，我们将全局特征Fg和部件导向特征Fp串联在一起，记为融合特征 Ff∈RH×W×2 c 。此外，我们对Ff进行细化操作，以降低特征表示的维数，加快训练过程。细化操作由一个SE块[51]和一个残块[52]组成，如图4所示。经过全局平均池（GAP）层后，精细的融合特征在这里插入图片描述和为整个模型优化得到。在这里,C’为细化操作后feature map的通道大小，C为细化操作前的通道大小。注意，在[24]之后，在 eFf 上采用了额外的批处理标准化(BN)层。这里，我们将BN层后面的特征表示为

图4精炼操作中的模块结构。C和C’为feature maps细化操作前后的通道大小。

E.模型训练

在训练过程中，我们采用softmax交叉熵损失和三重损失[34]作为联合优化。具体而言，我们对 eFf 采用三重损失，对 eFf b 采用softmax交叉熵损失，记为Lf和Lc。了充分利用全局信息和部件信息，我们还对精细化后的全局特征在这里插入图片描述和部分引导特征进行了三元组损失优化，分别记为Lg和Lp，总的来说，总损失函数可以表示为:

其中λ为损失权值，以权衡softmax交叉熵损失Lc和triplet损失Ltr i两种损失函数的影响。实验表明，联合优化可以提高特征表达的能力。

为了评估，我们使用归一化融合特征 eFf b

作为我们工作中的最终特征表示。

4 实验

A.数据集和评价指标

四个公共大型数据集：

VeRi-776，是一个具有挑战性的车辆重识别任务，包含20个摄像头的776个车辆身份的约50,000张图像。每辆车都有2-18个不同视点、照明和遮挡的摄像头。所有的数据集都被分为一个有576辆汽车37778张图像的训练集和一个有11579张200辆汽车图像的测试集。

VehicleID ，是一个广泛使用的车辆重识别数据集，它包含了多台摄像机在白天拍摄的车辆图像。共有221,763张图像，26,267辆汽车，每辆汽车都有前后视图。训练集包含13134辆111,178张汽车的图像，测试集包含13133辆111,585张汽车的图像。大型测试子集VehicleID的评估协议是从每辆车中随机选择一个图像以生成图库集（2400张图像），而其余图像用作查询集。重复随机选择过程10次，并将平均结果用作最终效果。

VRIC，是一种现实的车辆重识别基准，在分辨率，运动模糊，照明，遮挡和多个视点方面，图像无限制地变化。它包含在白天和晚上，60个不同的交通摄像头拍摄了60430张5622个车辆身份的图像。训练集有2811辆车的54,808张图像，而其余的则用于测试另外2811辆车的5,622张图像。

VERI-Wild，是最近发布的有174个摄像头捕捉到的416,314张40,671 id的车辆图像。训练集包含30671个id和277,797张图像。小型测试子集由3000个IDs和41,816张图像组成，而中型和大型子集分别由5000和10,000个IDs和69,389和138,517张图像组成。

评价指标。为了衡量车辆重识别的性能，我们利用累积匹配特性(CMC)和平均精度(mAP)作为评价标准。CMC计算在top-K候选项前出现的正确匹配的累积百分比。我们报告Top-1和Top-2的分数来代表CMC标准。对于一个查询图像，平均精度(AP)是精确召回曲线下的面积，而mAP是所有查询图像的AP的平均值。

B .实现细节

部分提取。我们使用预先训练好的检测器[20]直接进行推理过程来提取部分区域。由于在VRIC -776、VehicleID、VRIC和verii - wild这4个数据集中不存在属性注释，因此该方法不需要再训练或微调过程。在基于SSD模型[53]的[20]检测器的训练过程中，使用了VOC21_S数据集[20]作为训练数据。VOC21_S数据集在白天和夜晚被多个城市的多个真实世界的摄像机捕获，因此该数据集与我们使用的四个数据集共享类似的场景。由于这些数据集是由不同的摄像机在不完全相同的环境中收集的，因此在一定程度上存在域间隙问题。在推理过程中，所有实验均将NMS阈值设置为0.45。对于每张图像，我们根据置信度得分提取Top-D部分区域，其中D = 8，没有说明。

车辆重识别模型。在全局特征学习模块中，我们采用去掉最后一个分类层的ResNet50[52]作为骨干模型，该模型首先在ImageNet[54]上预先训练。模型修改遵循[24]，即在softmax交叉熵损失前，去掉最后一个downsample操作，添加BN层。

所有图像大小调整为224×224。在[24]中使用了随机水平翻转和随机擦除[55] (概率为0.5)的数据增强。我们使用0.9的动量和重量衰减为5×10−4 的Adam优化器[56]。对于没有其他规范的所有实验，我们将批次大小设置为64，随机选择16个id。学习速度从1.75×10−4开始，每20个epoch乘以0.5。epoch的总数是130个。

C.消融实验

分析了不同特征和损失函数下联合优化的有效性。

表二:verii -776上PGAN不同优化方法的比较。为了公平起见，包括基线模型在内的所有方法的特征维度都固定为512。为了清晰起见，我们省略掉Eq. 5中的损失权重，并在这里设置λ为2。

通过对全局特征和部件特征的进一步优化，可以为模型训练提供更多有用的信息。

表III：在不同注意力方法（即网格注意力，不带部件注意模块（PAM）的PGAN和我们在VeRi-776上的PGAN）上的性能比较。

证明PAM有利于聚焦突出部位，同时抑制一些错误检测或无用区域的影响。

如图5所示，无论维度是什么，与基线模型相比，我们的PAM模块都有一致的改进。

图6可以看到，当λ设置为2时，得到的效果最好。在没有说明的情况下，本文使用λ= 2作为默认的损失权重。

表四:在verii -776上PGAN不同部件数D的性能比较。

表五：在VRIC和VERI-Wild

如表IV和表V所示，与基线模型相比，在我们的PGAN中使用部分指导有一致的改善，这清楚地验证了我们的PGAN方法的有效性。当D = 8时，我们可以得到相对最好的结果。但是，随着部件数量的不断增加，性能下降。原因有两方面:1)许多被检测的部件区域相互覆盖，无法为模型学习提供进一步的部分信息;2)提取了更多错误检测的部分，提供了大量无效信息，分散了模型的学习。我们相信如果我们使用更好的检测器，性能会进一步提高。

不同基线的有效性:为了充分验证我们的PGAN的有效性，我们将我们的方法应用于各种基线模型。如图7所示，我们可以看到较深的主干对性能是有利的，

在这里插入图片描述

图7:不同基线的有效性。v1和v2是我们使用的基线ResNet50模型[24]的变体版本。v1表示ResNet50(最后一步是2)在[52]中没有增加[55]的数据。v2表示带有[55]的v1。这里，我们去掉了降采样，并在ResNet18, GoogleNet和ResNet50使用了[55]进行公平比较。

D.与最先进的方法比较

表六:VeRi-776、VehicleID、VRIC和VERI-Wild与最新重识别方法的比较。在每一列中，第一和第二高的结果分别用红色和蓝色突出显示。MSVR [26]报道了在VRIC上Siamese-CNN + Path-LSTM [14]和OIFE [5]的结果。∗表示VANet对车辆id数据集使用ResNet50，而对VeRi使用GoogLeNet。

E.可视化

在这里插入图片描述

图8:传统网格注意力与我们的PGAN在verii -776数据集的可视化比较图。对于查询图像，我们绘制:(a)前5个检索结果和(b) PAM在网格关注中对应的Fp热图;© Top-5检索结果;(d)检测到的候选部分区域;(e) PGAN中PAM对应的Fp热图。正确匹配的车辆图像和错误匹配的车辆图像分别用绿色和红色矩形包围。这说明我们的PGAN可以将更多的注意力放在最突出的部位区域，如后视镜、挡风玻璃贴纸、汽车品牌等。然而，网格注意力主要集中在一些不重要的区域，如车顶，导致注意力分散。(以彩色观看最佳)

图9：基线和我们的PGAN的Top-3检索图像的可视化。ID1和ID2来自VRIC数据集，ID3和ID4来自VERIWild数据集。对于查询图像，我们得出：（a）来自基线的前3个检索结果；（b）前3个检索结果，以及（c）来自PGAN中PAM的Fp的相应热图。正确和错误匹配的车辆图像分别用绿色和红色矩形包围。

具体来说，我们PGAN的主要优势可以总结如下:

1)对各种情况不敏感的:我们的PGAN可以提取更鲁棒的特征表示，从而显著改善重识别性能。如图8中的ID2和ID3所示，给定后方车辆图像，我们不仅可以从后方视图中找到容易的车辆，而且可以获得即使人也难以识别的侧面车辆图像。相比之下，网格注意力只能集中在来自几乎相同视角的图像上。此外，我们的PGAN还能够处理各种情况。如图9所示，虽然VRIC和verii - wild数据集的图像存在模糊、光照和遮挡等问题，但我们的PGAN仍然可以根据突出部分区域找到正确的车辆。这意味着我们的方法具有更好的鲁棒性，可以学习对环境中多个变量不敏感的判别特征。

2)部分提取模块作为自下而上注意的有效性:检测到的零件区域在特征表示中起着重要的作用。如ID3所示，很明显，网格注意方法错误检索的图像与查询图像的车灯是不同的。但是，代表汽车的车身和底部的很多区域都是集中的，这并不是两辆车之间的明显区别。但是，在检测到的部分区域的指导下，我们的PGAN只能专注于这些候选区域，这对于专注于有用区域以及减轻其他区域的不利影响是有益的。换句话说，部分提取模块通过缩小搜索范围来帮助网络学习。

3)部分注意模块作为自上而下注意的有效性:我们的PGAN有助于选择最突出的部分区域，减轻无效和无用区域的影响。如主论文所述，我们提出了一个部分注意模块(PAM)，负责学习每个部分的软注意权值。因此，重要部分区域被强调为高关注值，其他不重要部分的影响被相对抑制。从feature maps中，我们可以清楚地观察到我们的PGAN可以聚焦于最突出的部分区域，例如ID3中的车灯，ID1中的后视镜。如ID4所示，虽然提取的有效部分区域很少，但是我们的PGAN仍然可以找到识别车辆的关键信息，例如车轮和猫灯。相反，网格注意在很大程度上受到一些无效区域的影响，这些区域在不同的车辆中极其相似，例如车体底部。

4)重叠部分区域的影响:当重叠区域面积较大时，如果该区域显著，则两个区域从我们的PAM中得到的注意权值将一致趋于较大，反之亦然，例如图8中ID3的侧挡风玻璃。对于另一种情况，重叠区域的面积很小，我们PAM可以为每个部分区域提供总体评估。例如，如图3所示，annul services标志的注意权重因其独特而较大，而挡风玻璃的注意权重则较小，因为其信息量相对较少。

5)我们PGAN的局限性:从图10可以看出，我们的PGAN无法区分:i)极端相似的车辆共享相同的外观;ii）没有独特功能的公共车辆。这是合理的，因为我们的PGAN依赖于区分性信息。如果可以提供车牌，我们的PGAN可以实现更高的性能。

图10:VRIC数据集上一些失败示例的插图。

F .讨论

如表一所示，我们的零件提取模块包含16个属性。尽管基于置信度得分选择top-D部分区域时忽略了属性信息，但我们仍然可以分析哪些部分区域是突出的。我们从VeRi-776训练数据集中的PAM中提取注意力权重。请注意，我们在本节中设置D = 8，并且新的符号属性未出现在VeRi776训练数据集中。从图11（a）中，我们可以看到车灯是最常选择的部分。无论车辆视图如何，几乎所有车辆均会出现车灯，这是有道理的。此外，挡风玻璃、后视镜和车轮也经常出现，而layon (lay ornament)、entry license、hungs和tissue则很少出现。参考图11(b)，可以明显看出，车灯在区分不同车辆方面起着最重要的作用。有趣的是，一些微妙的部分区域仍然有有用的信息，如徽标，吊饰，进入许可证和标志，尽管这些属性看起来比windglass和backmirror少，几乎不包含任何信息。分析表明，我们的PGAN有效地提供了有意义且有用的信息，以可解释的方式识别车辆。

图11：对VeRi-776训练数据集中表I中每个属性的有效性进行统计分析。属性名称在表I中表示为缩写。(a)每个车辆属性的数量统计。(b) PAM对每个属性的注意力权重的概率密度函数。最突出的属性用红色虚线表示，而信息最少的属性用绿色虚线表示。彩色视图最佳。

Ⅴ.总结

在这项工作中，我们提出了一种用于车辆实例检索（IR）的新颖的部分注意力网络（PGAN）。首先，我们从目标检测模型中提取每个车辆图像的局部区域。这些部分区域为网络学习提供了一系列候选搜索区域，这被视为自下而上的关注过程。然后，我们使用提议的部分注意模块（PAM）通过学习每个候选部分的软注意权重来发现突出的部分区域，这是一个自上而下的注意过程。这样，具有较高注意力的权重将突出显示最有区别的部分，而以相对较低的权重可以抑制无效或无用部分的相反效果。此外，通过整体特征和部分特征的联合优化，可以进一步提高IR性能。大量实验证明了我们方法的有效性。提出的PGAN在很大程度上优于其他最新方法。我们计划将提出的方法扩展到多任务学习，即对象检测和跟踪，以同时提高这两个任务的性能。

转载地址：http://cerfi.baihongyu.com/

你可能感兴趣的文章