多媒体的发展

PDF
多媒体的发展/2021/文章

研究文章|开放获取

体积 2021 |文章的ID 8899007 | https://doi.org/10.1155/2021/8899007

杨立军,黄唐森 一种基于双通道对称CNN的车辆再识别算法",多媒体的发展 卷。2021 文章的ID8899007 6 页面 2021 https://doi.org/10.1155/2021/8899007

一种基于双通道对称CNN的车辆再识别算法

学术编辑器:位于拉詹
收到了 2020年7月18日
修改后的 10月20日10月14日
接受 2020年12月31日
发表 2021年1月18日

摘要

它已成为一个具有挑战性的研究课题,可以从大规模监控数据中准确识别过去的车辆。挑战是,图像中的车辆具有大的姿态,视角,光和其他变化,而这些复杂的变化将严重影响车辆识别性能。近年来,卷积神经网络(CNN)取得了巨大的成功,在车辆重新登封领域取得了巨大的成功。然而,由于车辆重新登封的数据集中的少量车辆注释,现有的CNN模型在训练过程中没有充分利用,这影响了识别深度学习模型的能力。为了解决上述问题,通过改进网络结构,提出了一种双通道对称CNN车辆识别算法。在该方法中,将两个样品同时被用作输入,其中每个样品具有互补特性。在这种情况下,利用有限的训练样本,输入的组合将更加多样化,CNN模型的训练过程将更加丰富。实验表明,所提出的算法的识别准确性优于其他现有方法,这进一步验证了本研究中提出的算法的有效性。

1.介绍

近年来,社会对公共安全问题越来越重视,监控设备也越来越普及。在交通路口、公园、大型商场、车站、机场等人群密集、易发生公共安全事件的场所,大量使用监控摄像头。监控摄像头的出现给公安机关的案件侦破带来了极大的便利,如疑似车辆追逐、跨场景车辆搜索、异常事件侦破等[12].大量的监控摄像头形成了一个巨大的监控网络。监测系统虽然发展迅速,但也给监测数据的管理和分析带来了巨大的挑战[3.4].目前,监控系统多采用实时摄像和人参与监控的方法。海量的监控数据是视频监控人员的一大难题。原因有二:(1)监测系统实时生成数据,导致数据量大;(2)实时监测数据记录的是一个随机变化的场景,在长时间的观察中,监测人员难以长时间注意。由此可见,这种人参与的监测机制已不再适用于监测数据的管理和分析。然而,车辆再识别技术的出现克服了人参与监督机制的不足。

近年来,以卷积神经网络(CNN)为代表的深度学习模型在计算机视觉领域取得了巨大的成功。同时,CNN在车辆再识别领域的研究也处于领先地位。与传统的手工设计的车辆再识别方法相比,基于CNN的车辆再识别方法可以更有效地克服车辆的复杂变化,获得更高的性能。然而,车辆再识别不同于其他计算机视觉任务,因为对车辆进行标注非常困难,导致现有数据集中车辆标注量很少。在现有图片训练集的有限训练集上,对现有的单通道CNN模型进行训练会使CNN模型的训练过程不足。为了使输入图像的组合更加多样化,可以使用多个图像组合作为输入,充分训练CNN网络。同时,由于双通道CNN网络可以输入更多的特征,识别率也会得到提高。

本研究试图通过改进网络结构,设计一种双通道对称CNN结构用于车辆再识别。在这种双通道结构中,一次输入两个样本。此时,与之前的单通道CNN模型相比,这种双向CNN模型的输入组合形式更加多样化,适合学习能力和获取判别能力更强的深度学习模型。

车辆再识别任务[56]是研究如何在大量的监控数据中准确识别特定场合出现的车辆,其中监控数据主要是图像数据。该任务的挑战在于车辆在图像中具有较大的姿态、视角等复杂变化。另外,在拍摄过程中,不同的灯光也会使车辆的外观发生很大的变化。上述变化将严重影响车辆识别性能。目前对目标再识别的研究主要集中在行人再识别领域[7- - - - - -10),很少适用于其他目标。自2015年以来,少数学者尝试进入车辆再识别领域,但只能应用于相同尺度、相同角度的图像,对环境变化或基于小数据集的鲁棒性较弱。

为了提高再识别能力,一些方法利用额外的属性信息,如模型/类型和颜色来指导基于视觉的表示学习[11].例如,[12]引入了一个两个分支的检索管道来提取模型和实例之间的差异。Yan等人[13]研究了具有多级属性的车辆的多粒子关系。其他工作研究时间和空间联系,从相机的拓扑信息中获得额外的好处[14].此外,一些方法使用GAN [15]从所需的视点生成图像,从而实现视点对齐。可以说,这些作品是通过视点对齐来解决视点变化的问题。

此外,(16]提出,除了用于训练的数据集,传统手工制作的特征易于生成深度特征,因此将这两种特征结合起来,实现了改进的表示。Liu等人[17]在一个由粗到细的车辆检索框架中,采用了包含视觉特征、车牌、摄像机位置等上下文信息的多模态有限元分析。为了增强训练数据,实现鲁棒训练,[18]利用生成的对抗网络合成不同方向和外观变化的车辆图像。周和邵[15]通过广告学习和视觉感知的注意模式,学习了车辆重新ID的视觉感知表示。张等人。[19]提出了一种改进的三次损失执行和辅助分类损失作为正则化的联合优化,以表示样本方差。

3.单通道CNN结构

本节首先介绍单通道CNN结构;然后,在下一节中详细介绍了双通道CNN结构。

在车辆再识别训练集中,采用基于识别的单通道CNN模型进行学习,使训练后得到的深度学习模型能够区分不同的车辆。基于现有经典CNN模型,AlexNet中的所有卷积层和全连接层[20.resnet-50 [21使用的模型。文献[]中提供的默认参数20.21],修改最后一个全连接层的输出为车辆再识别训练集中不同车辆的总数。单通道方法的CNN模型是对ImageNet数据集上获得的预训练模型进行微调[22],此时CNN模型的收敛速度更快。特别是在车辆再识别训练集规模不是很大的情况下,该训练策略更加有效,达到了区分不同车辆的目的。

网络训练的过程如下所示。车辆再识别训练集记为 车辆图像为 而身份(ID)是 首先将车辆图像处理为 像素,然后随机裁剪到一个固定的大小(AlexNet是 ResNet-50为 像素)。将处理后的车辆图像发送到CNN模型的数据层作为网络的输入。网络训练的目标是得到一个深度学习模型通过深入学习。它等价于映射: 在哪里 表示CNN模型中各层的参数。在每一个小批量迭代的过程中,参数 使用随机梯度下降(SGD)算法更新。在 迭代,当前参数 更新如下 在哪里 是学习率, 是随机抽取的一组小批量样品吗 是梯度运算,和 是损失函数,即softmax损失函数。softmax损失函数作为监控信号来指导网络训练过程。随着训练过程的进行,损失函数的值逐渐减小。此时,训练好的网络是收敛的。

在车辆识别过程中,采用了深度学习模型利用网络训练得到的特征提取器。对车辆图像的探测集和图库集的中间层进行处理,提取中间层的响应作为特征。FC7层的响应设置为AlexNet, Pool5层的响应设置为ResNet-50。在图像特征的基础上,进行跨摄像机检索,即计算探针集样本与图库集样本之间的图像特征距离。对距离进行排序,并根据排序后的列表评估最终的车辆再识别性能。

4.提出的双通道对称CNN结构

本节将介绍由双通道对称CNN结构提出的车辆识别方法。模型的整体结构如图所示1(以AlexNet模型为例)。与现有的单通道CNN模型相比,所提出的双通道对称CNN模型同时输入两个样本,输入组合形式更加多样化。每个中间层具有相同的结构,可以认为是对称的,但彼此不共享参数。通过连接双通道模型中最后一个完全连接的层,双通道模型中的每一层都相互作用,相互促进,可以认为是互补的。

辨识模型的网络训练过程的目标是学习给定训练集的最优映射,使车辆的预测结果更接近其真实身份(ID)。一方面,训练集中的样本越丰富,得到的模型泛化能力越强。另一方面,对于特定的车辆,由于它是在交叉摄像头下采集的车辆图像,所以外观上的差异更明显。通过在特定的车辆内组合不同的车辆图像,样本可以相互补充,缩小外观差异。因此,所设计的结构更适合于需要学习的识别能力更强的深度学习模型,从而提高车辆再识别的性能。

在所提出的双通道对称CNN结构中,每次同时输入两幅车辆图像,且这两幅图像属于同一辆车。这些样本对是对应于同一载体的所有样本以完全排列形式的成对组合。车辆图像发送到网络数据层之前的预处理与单通道方法是一致的。每个卷积层和全连接层具有相同的结构和设置,每个CNN模型都是通过在ImageNet数据集上获得的预训练模型进行微调的。图中显示了AlexNet模型的一个例子1.每条道路上的FC6和FC7的全连接层分别与其卷积层相连。两个通道中FC7的全连接层串联,记为FC7_concat。 维度; 维度。三个完全连接的图层(双FC7层和一个FC7_CONCAT层)分别连接到完全连接的层FC8。FC8层N3的输出的数量与训练集中的车辆总数相同。

三种softmax损失函数作为监控信号指导网络训练过程,三种损失函数之和作为网络损失。如果中间框架的两个互补对称CNN结构取代ResNet-50网络,因为网络的最后一层是池层Pool5层FC7而不是完整的连接,然后使用Pool5 FC7,而是和连接Pool5层可以表示为Pool5_concat, 尺寸和 维度。所提出的双通道对称CNN结构的网络训练策略和过程与单通道方法相同。

车辆再识别的过程就是利用网络训练过程中获得的深度学习模型作为特征提取器。它提取中间层的响应(AlexNet是FC7_concat层的响应,ResNet-50是Pool5_concat层的响应)作为探测集和图库集中车辆图像的特征表示。在图像特征的基础上,进行跨摄像机搜索,计算探针集中的图像特征与图库集之间的距离,并对距离进行排序。最后根据排序结果对车辆识别性能进行评价。

5.实验结果与分析

5.1.数据集建设

试验车辆数据集由4个不同的交叉口监控平台采集,安装位置如图所示2.相同角度的视频每2小时拍摄一次,间隔角度为30°,从前到后共获得7个角度的mp4格式视频图像。最后,以10秒为间隔从视频中抽取共20160幅复杂场景多车辆图像集T。由于数据采集充分考虑了大多数数据集遇到的正样本数为零的问题,所以设计监测安装位置在回路的每个出口段。如图所示2,同一车辆的图像捕获次数为2倍,无论任何交叉口的交叉口从一个d(反复进入路段的车辆除外)。共提取像素大于128的可识别车辆45,742辆T和表示D.其中80%是随机选择生成的 训练集的20%要生成 训练集的。

5.2。实验设置和评估标准

深度学习框架CAFFE [23]来实现所提出的方法。实验中使用的硬件配置如下:GTX 1080 GPU, 8gb显卡,128gb内存,Intel core 8 core i7处理器CPU,主频3.60 GHZ。

选取累积匹配特征(CMC)曲线、秩1精度(rank-1 accuracy)和平均精度(mean average precision)来评价该车辆再识别方法的性能。CMC曲线表示要查询的真值图像出现在不同长度的候选序列中的概率。排名1的识别正确率表示查询的真值图像出现在候选序列第一个位置的概率。MAP是所有查询样本正确率和召回率曲线下的平均面积,反映了车辆再识别方法的整体性能。

5.3。实验结果

通过使用AlexNet和ResNet-50模型框架,比较了单通道CNN方法和双通道对称CNN方法的实验结果,如表所示1


AlexNet ResNet-50
1级 地图 1级 地图

单通道 57.14 33.52 73.65 47.11
双通道对称 62.27 37.78 74.36 49.55

结果表明,双通道对称方法比单通道对称方法有稳定的改进。在AlexNet模型中,rank-1的准确率提高了5.13%,MAP的准确率提高了4.26%。ResNet-50模型中,rank-1的准确率提高了0.71%,MAP的准确率提高了2.44%。

此外,在ResNet-50模型上,本研究提出的方法的rank-1和MAP的精度分别为74.36%和49.55%。此时,所提出的车辆识别性能达到了一个更高的水平。

将本文提出的方法与现有的一些车辆再识别方法进行了比较,包括传统的手工设计方法和基于深度学习的方法。具体比较终点见表2.结果表明,该研究的拟议方法已经实现了竞争性能的车辆切除夹具,这比某些现有的车辆重新入住方法更好。


方法 1级 地图

SSDAL [24 39.48 31.56
TMA [25 42.38 36.97
端到端可以(26 54.82 37.59
SVDNet (AlexNet) [27 51.93 35.52
SVDNet (ResNet-50) [27 53.08 36.41
他。[28 61.13 36.82
提出(AlexNet) 62.27 37.78
提出(ResNet-50) 74.36 49.55

为了进一步验证该算法的有效性,对现有的VeRi-776数据集[28用于验证。VeRi-776数据集是由20个摄像头在一个24小时的城市地区拍摄的,包含了776辆汽车的49357张图像。图像是在真实世界的无约束监控场景中捕获的,并使用不同的属性进行标记,如类型、颜色和品牌。每辆车由2-18个摄像头在不同的视角、照明、分辨率和遮挡下拍摄。在本研究的实验中,选取2台摄像机的每张图像作为实验数据。结果如表所示3..数据显示,本研究提出的方法取得了较好的车辆再识别性能,优于其他算法。


方法 1级 地图

SSDAL [24 40.59 32.31
TMA [25 41.27 37.62
端到端可以(26 53.69 38.03
SVDNet (AlexNet) [27 52.91 34.95
SVDNet (ResNet-50) [27 54.24 37.32
他。[28 62.48 37.46
提出(AlexNet) 63.31 37.98
提出(ResNet-50) 72.42 48.62

6.结论

为了进一步提高车辆的性能,该研究提出了一种双通道对称CNN结构车辆重新凝融方法。在原始训练样本下,该算法同时输入两个样品,其中每个样品具有互补特性。此时,通过有限的训练样本,输入的组合将更加多样化,这将丰富CNN模型的培训过程。因此,可以更全面地培训CNN模型,并且可以获得具有更强识别能力的更深层次的学习模型。从不同交叉口的监测视频中提取了车辆训练地图库,然后,将本研究中的算法与其他算法进行了比较。实验结果表明,该算法的车辆识别准确性高于其他现有算法,其验证了所提出的方法的有效性。

数据可用性

支持本研究结果的数据包含在文章中。

利益冲突

作者声明他们没有利益冲突。

致谢

湖南省自然科学基金资助项目(no。2019JJ40097),湖南省教育厅青年研究基金资助项目(20B247、17B107),湖南省优秀青年研究基金资助项目(2019JJ40097)。湖南省自然科学基金资助项目(no. 2020JJ2015);2019JJ40096),湖南省自然科学基金资助项目(no. 2019JJ40096)。国家自然科学基金项目(2019YZKJ08、2019YZKJ10);湖南理工大学应用型特色学科建设重点项目(20120jj4327)。

参考

  1. “基于人脸识别的高速公路车辆管理系统”,《中国公路学报》国际人机环境系统工程会议论文集, pp. 369-376,施普林格,新加坡,2019。视图:谷歌学术搜索
  2. H. Chen和C. He,“基于Fusion特征的车辆识别算法和改进的二进制标准化梯度特征”科学与工程计算方法杂志第19卷,没有。11, 789-797页,2019。视图:出版商的网站|谷歌学术搜索
  3. G. Sreenu和M. a . Saleem Durai,“智能视频监控:通过人群分析的深度学习技术回顾,”大数据杂志,第6卷,第4卷。1,第48页,2019。视图:出版商的网站|谷歌学术搜索
  4. G. Manogaran, S. Baskar, P. M. Shakeel, N. Chilamkurti, R. Kumar,“使用二进制变换加速回归帧检查的实时监控视频分析”多媒体工具及应用,第79卷,16155-16172页,2020年。视图:出版商的网站|谷歌学术搜索
  5. 陈勇,霍振华,“基于多方向显著性度量学习的人再识别”,图像与图形学杂志第20卷,没有。12, pp. 1674-1683, 2015。视图:谷歌学术搜索
  6. Qi M. B., Hu L. F., Jiang J. G. et al.,“基于多特征融合和独立度量学习的人再识别”,图像与图形学杂志,卷。21,不。11,pp.1464-1472,2016。视图:谷歌学术搜索
  7. 彭旭东,王磊,王旭东,乔勇,“视觉词袋与动作识别融合方法”,《计算机科学与技术》,2015年第1期。计算机视觉和图像理解,第150卷,第109-125页,2016。视图:出版商的网站|谷歌学术搜索
  8. 郑磊,沈磊,田磊,王淑娟,“可扩展人的再识别:一个基准”,载于2015 IEEE计算机视觉国际会议论文集, 1116-1124页,IEEE,圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
  9. T.Berg and P. N.Belhumeur,“POOF:基于部分的单与VS - 一个功能,用于细粒度分类,面部验证和属性估计,”2013 IEEE计算机视觉与模式识别(CVPR)会议论文集,第955-962页,IEEE,波特兰,俄勒冈,2013年6月。视图:谷歌学术搜索
  10. S. Kasamwattanarote,Y.Uchida和S. I. Satoh,“查询引导:基于视觉挖掘的查询扩展”,“信息与系统汇刊E99卷。D,没有。2, pp. 454-466, 2016。视图:出版商的网站|谷歌学术搜索
  11. “基于双向lstm网络的车辆再识别”,载于2018年IEEE计算机视觉应用冬季会议论文集2018年3月,美国太浩湖。视图:出版商的网站|谷歌学术搜索
  12. Liu h, Tian Y., Yang Y., Lu P., Huang T., " Deep relative distance learning: tell the differential between similar vehicles, " in chinese journal of science and technology, 2009 .计算机视觉与模式识别IEEE会议论文集2016年6月,美国拉斯维加斯。视图:出版商的网站|谷歌学术搜索
  13. 闫凯,田勇,王勇,曾伟,黄涛,“基于多粒排序约束的视觉相似车辆精确搜索”,中国科学(d d), 2011IEEE计算机视觉国际会议论文集,威尼斯,意大利,2017年10月。视图:出版商的网站|谷歌学术搜索
  14. Shen y, T. Xiao, H. Li, S. Yi, and X. Wang, " Learning deep neural networks for vehicle re-id with visualspatial -temporal path, " inIEEE计算机视觉国际会议论文集,威尼斯,意大利,2017年10月。视图:谷歌学术搜索
  15. “基于多视角推理的车辆再识别”,载于2018年IEEE/CVF计算机视觉和模式识别会议论文集2018年6月,美国犹他州盐湖城,第2卷。视图:出版商的网站|谷歌学术搜索
  16. Y. Tang,D. Wu,Z.Jin,W.Zou和X. Li,“车辆重新识别在交通监测环境中的多Modalmet-RIC学习”IEEE图像处理国际会议论文集2017年9月,中国北京,2254-2258页。视图:出版商的网站|谷歌学术搜索
  17. X. Liu,W. Liu,T. Mei和H. Ma,“提供:大规模城市监督的渐进和多式联运车辆重新凝视,”IEEE多媒体汇刊第20卷,没有。3, pp. 645-658, 2018。视图:出版商的网站|谷歌学术搜索
  18. 吴芳,闫绍华,张博,“基于半监督学习的车辆再识别研究”,载于IEEE模式识别会议论文集2018年8月,中国北京。视图:出版商的网站|谷歌学术搜索
  19. 张勇,刘东,张志杰。查,“改进卷积神经网络对车辆再识别的三重训练”,在IEEE国际多媒体与博览会议论文集2017年7月,中国香港,1386-1391页。视图:出版商的网站|谷歌学术搜索
  20. A. Krizhevsky, I. Sutskever和G. E. Hinton,“深度卷积神经网络的图像网分类”,载于第25届神经信息处理系统国际会议论文集,第1097-1105页,Curran Associates Inc.,太浩湖,美国内华达州,2012年12月。视图:谷歌学术搜索
  21. 何启明,张学勇,任树清,“基于深度残差学习的图像识别”,载于2016年IEEE计算机视觉与模式识别会议论文集2016年6月,IEEE,美国拉斯维加斯,第770-778页。视图:出版商的网站|谷歌学术搜索
  22. 邓杰,董文伟,索彻,李立军。Li, K. Li, L. F. Fei,“一种大规模分层图像数据库”,载于计算机视觉与模式识别IEEE会议论文集, 248-255页,IEEE,迈阿密,佛罗里达,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
  23. Jia Y. Q., E. Shelhamer, J. Donahue等,“Caffe:卷积结构的快速特征嵌入”第22届ACM多媒体国际会议的诉讼程序, 675-678页,ACM,奥兰多,FL,美国,2014年11月。视图:出版商的网站|谷歌学术搜索
  24. C. Su,S. L. Zhang,J.L.Xing等,“深度属性驱动多相机人重新识别”第十四届欧洲计算机视觉会议论文集2016年10月,荷兰阿姆斯特丹施普林格,pp. 475-491。视图:出版商的网站|谷歌学术搜索
  25. N. Martinel, A. Das, C. Micheloni等人,“人再识别的时间模型适应”,在第十四届欧洲计算机视觉会议论文集2016年10月,荷兰阿姆斯特丹施普林格,第858-877页。视图:出版商的网站|谷歌学术搜索
  26. 刘慧,冯军,祁明,姜建军,“基于端到端比较注意网络的人再识别”,《中国科学:信息科学》,2011年第1期。IEEE图像处理汇刊第26卷,第2期。7,页3492-3506,2017。视图:出版商的网站|谷歌学术搜索
  27. 孙艳芳,郑磊,邓文杰,王绍峰,“行人检索的SVDNet”,《中国科学:信息科学》2017 IEEE计算机视觉国际会议论文集,pp.3820-3828,IEEE,威尼斯,意大利,2017年10月。视图:出版商的网站|谷歌学术搜索
  28. 他,j·李,赵y, y,“Part-regularized near-duplicate车辆鉴定,”IEEE计算机视觉与模式识别(CVPR)会议记录2019年6月,美国加利福尼亚州长滩,第3997-4005页。视图:出版商的网站|谷歌学术搜索

betway赞助版权所有:杨立军黄唐森这是一篇开放获取的文章知识共享署名许可,允许在任何媒介上不受限制地使用、分发和复制,只要原稿被适当引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点365
下载500
引用

相关文章