基于 CO-DETR 的光照感知 Transformer架构 | 即使在极低光照条件下也能准确检测目标 !
共 4877字,需浏览 10分钟
·
2024-05-15 09:00
点击下方卡片,关注「集智书童」公众号
在这场比赛中,作者采用了一种模型融合方法来实现接近真实图像的目标检测结果。
作者的方法基于CO-DETR模型,该模型在两组数据上进行训练:一组包含在暗条件下的图像,另一组包含用低光照条件增强的图像。
作者对测试数据使用了各种增强技术来生成多组预测结果。最后,作者应用了由IoU阈值引导的聚类聚合方法来选择最优结果。
1 Competition introduction
随着机器学习的发展,各种深度学习模型不断涌现。一种开放世界的半监督学习方法,用于自我学习多个未知类别,在包括ImageNet-100在内的各种基准测试中超越了最先进的方法。
作者应用语义共享,通过在共享的自注意力基础上训练每种模态的分类性能,确保了跨模态检索的一致性嵌入。作者提出了转导联邦学习方法(TFL),以解决在保护隐私的试点项目中对新收集数据做出推理的挑战。[12]。这场竞赛属于计算机视觉领域。
此次竞赛的背景围绕着在极低光照条件下捕获的图像中检测物体。[15]该数据集包含八种类型的物体,从自行车和瓶子到桌子和其他日常物品。在这些低光照场景中,物体可能经常出现堆叠或部分遮挡,增加了检测任务的复杂性。[16]这种堆叠现象提出了一个重大挑战,因为它要求检测算法准确识别并描绘出重叠的物体,这增加了任务的总体难度。
2 Model structure
Transformer 结构被广泛应用于许多地方[11]提出了一种具有自监督学习框架的上下文感知 Transformer (CAT),通过全面考虑复杂的时间结构和语义信息,有效地将视频分割成连贯的场景,在MovieNet数据集上实现了场景分割的先进性能,AP提高了2.15。[15]提出了多尺度分组 Transformer 与对比语言-图像预训练(CLIP)潜在表示(MG-Transformer)。
作者的模型建立在CO-DETR架构之上。DETR(Detection Transformer)是目标检测领域的一个基于 Transformer 的模型,以其端到端特性而闻名[17]。CO-DETR通过将传统的目标检测器作为检测Head合并到DETR中来进行扩展。[15]它还在DETR的损失函数上进行了改进,通过增加正样本的数量,增强了模型收敛性。
CO-DETR架构包括编码器-解码器结构。编码器使用基于 Transformer 的架构来处理输入图像并提取特征。同时,解码器生成目标 Query 并细化目标预测。这种组合使CO-DETR能够捕捉全局和局部上下文信息,这对于准确的目标检测至关重要。
此外,CO-DETR在传统DETR上引入了几个增强功能:
-
集成传统检测器:CO-DETR将传统目标检测器整合到架构中,提高了处理复杂检测任务的能力。 -
改进的损失函数:CO-DETR的损失函数进行了优化,以改善模型收敛性和性能。 -
增加正样本:通过增加正样本的数量,CO-DETR有效提高了目标检测能力,特别是在具有挑战性的情况下。
总结来说,作者的模型架构,基于CO-DETR,结合了基于 Transformer 模型的优点和传统目标检测技术,在极低光照环境下实现了鲁棒且准确的目标检测性能。通过利用 Transformer 架构,作者的模型捕捉到了在挑战性光照条件下检测目标所需的全局和局部上下文信息。此外,在CO-DETR框架中整合传统目标检测技术,增强了其在低光照场景下的适应性。通过这一全面的方法,作者的模型即使在最具挑战性的光照条件下也能准确检测目标,展示了卓越的性能。
3 Training strategy
在这场比赛中,作者的目标是检测在极低光照环境中的物体。为了应对这一挑战,作者采用了一种全面的训练策略,该策略利用模型融合和专业技术。作者使用暗图像、利用IAT模型增强的低光照条件图像以及使用NUScene数据集增强的图像来训练三个独立的目标检测模型。在测试期间,作者对测试图像应用各种变换,并使用聚类方法来融合预测结果。通过这一策略,作者旨在实现健壮且准确的目标检测结果,能够处理不同的光照和场景条件。
IAT
除了CO-DETR,作者还将在作者的架构中融入实例自适应 Transformer (IAT)模型。[14] 引入了实例 Level 的适应性,增强了模型在低光环境下的处理能力。在低光条件下,物体的细节可能被遮挡或不易区分。IAT模型根据每个物体实例的特定特征动态调整注意力权重。这使得模型即使在具有挑战性的光照条件下也能更多地关注相关特征。
Different models
多个模型共同处理数据在机器学习中是常见的。[15]提出了一种预训练多模型复用方法(PM2R),利用在不同模态上潜在的连贯性传播,使得在不重新训练的情况下有效地组合预训练的多模型,并解决了在学习ware框架中从多个预训练模型的响应中获取最终预测的主要问题。[15]提出了一个全面的多模态学习(CMML)框架,以解决现实世界中多模态数据中不同模态的挑战,通过实例级注意力和新颖的正则化技术,在一致性和多样性之间取得平衡,并在真实世界的数据集上展示了卓越的性能。
使用三个不同的数据集使得每个模型能够关注图像特征的不同方面。具体来说,在暗图像上训练的模型捕捉与低光环境相关的特征,例如昏暗的场景或夜间设置,在这些环境中物体的可见度可能降低。另一方面,在用IAT模型增强的图像上训练的模型适应了改善的照明条件。基于 Transformer 架构的IAT模型有效地增强了在暗场景中捕获的图像的亮度,使得模型即使在具有挑战性的光照条件下也能更好地感知物体。此外,在增强图像上训练的模型通过学习包含各种场景和光照条件的广泛数据集,获得了对场景多样性的更广泛理解。这种多样化的训练方法使作者的模型能够处理从低光环境到明亮场景的各种情景,确保在不同光照条件下进行目标检测任务时的鲁棒性能。
Tta
TTA代表测试期间的数据增强(Shanmugam等人,2021年)。在测试期间,作者对测试图像应用各种变换,以提高模型在不同场景中检测目标的能力。具体来说,作者将图像大小从1200x800像素增加到1400x1000像素,以提供更高的分辨率输入,这使得模型能够捕捉到更精细的细节并提高检测精度。此外,作者使用HSV(色相、饱和度、亮度)调整图像特征以改变饱和度和对比度。通过修改这些特征,作者可以模拟不同的光照条件,并提高模型对图像间亮度和对比度变化的鲁棒性。这个预处理步骤确保了模型能够有效地在各种光照和场景条件下检测目标,最终导致更可靠的检测结果。
Fuse
融合在机器学习中常被用来提升模型结果或转换模型。杨等人(2022年)提出了面向分歧的多模态融合网络(DOMFN)来解决简历评估中的跨模态分歧挑战,根据学到的分歧自适应地融合单模态和多模态预测,以提高性能。定性分析显示,在真实世界数据集上,该方法比 Baseline 模型具有更好的性能和解释性。对于融合策略,作者采用了一种聚类方法。对于每个图像的预测集,作者将交并比(IoU)值超过某个阈值的边界框分组到簇中。这个阈值用于确定边界框之间的重叠程度。此外,作者使用置信度分数在每个簇内过滤掉不太可靠的预测。具体来说,作者选择每个簇中置信度分数最高的边界框作为最终预测。
通过采用这种聚类方法,作者可以有效地整合多个预测,并选择最自信的预测,从而提高作者检测结果的总体准确性。这种方法使作者能够优先考虑最可靠的预测,并丢弃冗余或不那么自信的预测,从而得到更准确的目标检测结果。
4 Experiments
作者根据上述训练步骤训练了模型,并获得了以下结果:
首先,作者使用了两个数据集:一个包含在暗光条件下的图像,另一个包含使用IAT模型增强的图像。CO-DETR模型分别在这两个数据集上进行训练,以确保适应不同的光照条件。
此外,作者还使用了NUScene数据集进行数据增强,通过增加数据集的多样性来进一步提高模型的泛化能力。在测试阶段,作者对测试数据集图像应用了不同的处理技术,包括调整图像的大小和HSV特征。这些处理方法使模型能够关注在不同光照条件下图像的不同特征,并提高了模型的鲁棒性。
最后,作者采用了置信度过滤和GloU聚合方法来融合三个模型的预测。(Rezatofighi et al., 2019) 通过基于GloU值将预测聚集成簇,并在每个簇中选择置信度最高的预测,作者提高了模型的准确性和稳定性。通过这些实验,作者在低光照环境中验证了作者的模型的有效性,并取得了满意的检测结果。
5 Conclusion
本研究中,作者开发并评估了三种用于在低光环境下检测物体的目标检测模型。通过在包含暗图像、使用IAT模型增强的图像以及来自NUScene数据集的增强图像的数据集上训练模型,作者实现了对多样化光照条件的鲁棒适应。作者的实验结果表明,在具有挑战性的场景中,作者的方法在提高目标检测精度方面是有效的。通过仔细的测试和模型融合技术,作者成功地减轻了低光环境带来的挑战,获得了满意的检测结果。展望未来,作者的方法可以进一步改进并应用于现实世界场景,以增强低光条件下的目标检测性能。
参考
[1].Low-light Object Detection.
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!