单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选eccv 2024

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交W * t p流与传播。如果您有优秀的工作想要分B 0 I P Q g享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文第一作者林宏彬来自香港中文大学 (深圳) Deep Bit 实验室，导师为李镇老师。实验室专注于利用人工智能技术进行跨学科研究，例如自动驾驶的三维感知、医学成像和分子理解的多模态数据分析和生成等。研究领域涵盖计算机视觉、机器 / 深度学习和 AI4Science。感兴趣的同学可以在主页上获取更多信息htu 4 7 b !tps:O O 5 J \//mypage.cuhk.edu.cn/academics/lizhen/

全自动驾驶系统的纯视觉方案如特斯拉 “Tesla Vision”，仅& K R w _ & w [依赖于摄像头收集的图像数据，旨在实现高效且q G l X成本效益高的自动驾驶技术。在现实场景中，视觉感知模型在面对训练数据分布外场景的泛化能力尤为关键。来自香港中文大学（深圳）、5 Y + T C 2 u |新加坡国立大学、昆仑万维和南洋理工大学的学者们提出了一种名为 MonoTK o E : hTA 的单目三维检测模型的实时测试时自适应方法。该方法使模能在测试阶段实时进行快速的无监督学习，显著提升了其在未知测试分布上的表现。

MonoTTA\ L B r 1 M 通过自适应挖掘高置信度物体，同时利用负标签以] 8 b G E w (缓解伪标签的噪音，有效减少了模型的漏检和误检，从而帮助单目三维检测模型的实时泛化。目前代码已开源，欢迎感兴趣的小伙伴到 GitHub 查看更多展示视频。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

论文链接：https, p X 3://arxiv.org/pdf/2405.195 k F + O682
GitHub：h\ ? 1 = y 8 Yttps{ l V ? V K://github.com/Ho` L U f Pngbin98/MonoTTA

纯视觉0 s m t 4 I方案在自动驾驶的落地应用还有多远？

近年来，纯视觉自动驾驶系统在全球汽车行业中引起了广泛关注，标志着自动驾驶技术向更高智能化的迈进。不禁让人思考，在c I ! ,自动驾驶领域真正实现纯视觉方案还有多远呢？

在自动驾驶领域，纯视觉方案W , / `的泛化能力至关重要。然而，传统的机器学习技术通常依赖大量预先收集的数据来训练模型。实际应用中，测试数据的分布% { 1 c 3往往与训练数据不同，这种现象称为 “分布偏移”。分布偏移在实际测试中往往7 Y t h m P可能表现为：1）自然天气的变化导致道路上的% T S , M物体被遮挡（如雾、雪），或光线条件显著变化；2）由于驾驶过程中的摄像头抖动，出现画面模糊；3）模型训练数据来自某个四季如春的城市，但在高纬度的城市进行测试。这些常见但棘手的分布偏移问题对深度学习模型的影响很大，J [ F Y往往导致模型性能显著下降，严重制约了其在室外场景的广泛部署。

纯视觉方案在遭遇分布偏移时具1 j 6 q体会有什么问题呢？以单目三维检测u ` + Z : + r模型为例，如图 2 所示，当一个经过良好训练的模型直接应用于受自然气候干扰（如雪和雾）影响的非训练分布测试场景时，相比在训练数据相同分布（即晴天）的场景，分布外测试数据中的物体检测分数会显著下降。正如我们在恶劣天气下行车，视野范围内的车辆、行人也会变得模糊不清，很难判断清楚远方到底是不是有其他车辆。然而当前的单目L P W P K M ]三维检测方法通常使用固定的分数阈值（如 0.~ m b 9 | i 62）来进行物体检测，物体检测分数的大幅下降导致单目三维检测模型出现大量漏检、错检，从而使得模型的性能大幅下降。

^{图 2 单目三维检测模型在域外场景下呈现物体F J c检测分数的大幅下降，导致大量漏检、错检}

那么该如何解决分布偏移呢？为了应对数据分布的潜在偏移和算法在实际应用场景中对可扩展性和时效性的需求，一种可行的范式是测试时自适应（Test-Time Adaptation, TTA）。该范式要求& : = c算法在测试阶段指导模型进行快速无监督 / 自监督学习，是当前用z # C ` = X ~ C *于提升深度模型分布外泛化能力的一种强有效工具。而其中一种更快速、更实时的子范式即实时测试时自适应（Fully Test-Time Adaptation, Fully TTA），其旨在通过在线方式利用连续的测试数据流实时调整和优化模型，缓解数据分布偏v n j d Z ; D ` }移带来的问题从而显著提高模型J ; : w 1的性能。该范式能够满足现实场景下的算法部署与实时f Q a k ; W n优化需求，因此吸引了学术界和工业界越r + C ) D来越多的关注。

现存 Fully TTA 方法却往往难以应对分布差异很大的检测任务。例如在极端的天气条件2 F T b下，如图 2 中N m 8 ? Y v的雪天，单目三维检测模型往往无法生成B $ U足够的高分检测结果。通俗地说，模型在极端天气下会出现绝大部分O & 8物体对象都看不到了的问题。然而，现有的 Fully TTA 方法却是依赖于模型先检测出= 2 – v B物体对象，再进行模型的实时适应。因此，这些方法在具有极u 0 E : I大差异的分布外场景下难以对模型进行实时调整，换而言之，缺乏挖掘未被正确识别的物体（即漏检）的能力。

技术方案

基于前面的讨论，我们不禁思考：要怎么去设计一个 TTA 方法，去实现这种v \ ! x ] l y l挖掘未被正确识别的物体（即漏检）的能力呢？来自香港中文大学（深圳d W e）、新加坡国立大学、昆仑万维和南洋理工大学的学者们给出了他们的看法。学者们提出了一个针对单目三维检测模型的实时测试时自适应方法（Monocular Test-Time A) M s B qdaptation，MonoTTA），其由以下两个适3 1 K ] – k f n t应] } ^ ] g X ) ?策略所组成：1）基于可靠物– Z K z { H i z Z体对象的模型自适应；2）基于负标签优化的伪标签噪音缓解。具体细节阐述如下：

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

^{图 3 MonoTTA 方法整体框架图}

基于可靠物体对象的模型自适应：具体而言，测试数据分布的变L 2 # V 5化会导致物体对象的检测分数骤降，从而引起漏检和错检。而学者们通过分析发现，即便在域外场景下，高检测分y x v 2 [ 4 . A ,数的物体对象仍然是相对可靠的（如下图 4w f 8 \（a）* ~ H P c c所示）。此外，即使仅通过高分物体对象（F F h 1 c 1 V例如，score≥0.5）来优化模型，低分和高分对象的数量都会增加（即图 4（b））。这些观察启发我们[ 0 W # +要利用高分物体对象而不是V l J | X d & F所有物体t u I对象进行模型适应，这将是一种更可靠的方式来缓解数据分布变o = H化并发掘潜在物体对象。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

^{图 4 针对各自域外场景下的物体对象检测分数分析}

基于上述观察可以发现：域外场景下高分对象不仅是相对可靠的，还可以通过高分对象的这种相对可靠的模型优化，发掘出更多L C $ L U 5 Z W U的低分潜在物体对象！这启发学者们设计了适应性优化损失单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

来利用可靠物体对象子集进行模型适应，从而缓解域外分布的测试数据检测分数下降问题，并挖掘出更多潜k w ) J ) u在对象：

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

这里的

是在迭C { K ` U 7 p v代伦次 t 下的自适应阈值，这是考虑到实际测试场景的分布差2 e j C异是未知的，因此开发了一种自适应策略，e V . \用于在测试图像中自动识别可靠的高分对象。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

其中，

为所有检测到的物体对象的平均分数，是衰减系数，而则是遵循原方法的预定义物体检测阈值。B 为批量大小，单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

为单张图片下的最大检测物体对象数目，单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

则对应每个检测物体的z c q m w ~具体分数^ 8 u i 4 a | |值。

基于负标签优化的伪标签噪音缓解：虽然通过的优化，模型能有效缓解漏检问题。但像我们先前讨论的，一种极端情况是数据分布差异还会导致高分对象的极度稀缺，如上图 4（a）中的雪天场景，此时大+ ! J ? G –多数对象呈现低分，无法利用高分样本以W A | g Y m i Q u优化模型。为此，学者们开发了一个负标签正则化项，以合理利用众多低分物体对象以~ t h v进行~ v p Y b B – 6负标签学习。一方面，负标签正则化项 单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024 允许模型通过众多存在噪声的低分对象进行模型适应，从而I S r P a 8 F H使得模型在缓解分布变化后获得更多高分物体? . ` : . u B ]对象；另一方面，这一正则化项也防止了模型过度拟合噪声和简, j m )易解，例如给一个对象的所有类别分配高r 3 g分。

具体地，对那些低于自适应阈值

的物体对象，基于每个类别的k l / . O具体频率单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

，求和得到最终损失值：

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

而每个类别下的正则约束项有：

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

其中，

是常数权重p / 4 1，单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

则是具体检测物体对象对于l y ) F a I负类别 kt 3 Q D p 下的检测分数S K # 3 8 E。

通俗来说，极端情况下模型往往难以直接辨别出物体是什么，但相较之下模型有更大的把握知道; r P 6 [ ! ! !物体对象不属于某个具体类别。特别是极端场景下，

会在模型适应中扮演了更重要的角色。因为它可以通过只利用低分数的对象（即否定负面类别）来缓解分布偏移，换句话说，

使得模型在极端场景下仍然能够减轻分布偏移并获得更多相对高分的对象，从而为

的计算奠定了关键基础。

实验

方法有效性：MonoTTA 能为现存单目三维检测方法带E | 2 y p e u 0 D来可观的性能提升：实验结果展示了探索的% . I |新方法可以在域外分布测试场景中为单目三维检测模型带来显著的改进，例如，在所制作的 KITTI-C 数据集上的 13 种类型（囊括了噪音、模糊、天气变化以及设备退化影响）的分布外偏移中，平l G . 2 : `均性能提升了 137% 和 2j 0 ~ \ L ~ R b44%。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

此外，学者们还进一步在 nuScenes 数据集的白天到黑夜（Daytim6 * 7 ( oe → Night）和黑夜到白天（Night → Daytime）两个在真实数据场景下做进一步实验，验证了所提出方法的有效性Q q d J g：

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

结果可视化：进一步提供了可视化结果如下图所示

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

并且，基于 KITTI-RAW 数据提供了相应的 demo 视频（更多示例视频见$ Z \ @ l % R 0 Github 链接），其中左边为原方法，而右边则对应 MonoTTA 实时适应后的检测结果。基于单张 4090 显卡，MonoTTA 仅需约 45ms 即可适配一张 1280X384 的测试图像，即 fps >=15。相信通过量化部署优化，这个速度还能被进一步提升。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

^De^{focusm F T { 0 4 = 1（画}^{面模糊 – 等级 1）}

^{Fog 1（雾天 – 等级 1）}

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

^{Gaussi0 h R A r ! canf L ^ h K 3 1（高斯噪声 – 等级 1）}

基于上述实验结果，有理由相信通过单目三维检测模型的实时适应，该论文所设计的方法能够有效地提高模型的泛化性能，从而提升单目三维检测在自动驾驶中的落地和应用。

以上就是单目三维检测实时泛化，纯视觉自动! W E X b h _ y *驾驶鲁棒感知方法入选ECCV 2024的详细内容！

百度未收录

本文由【好易之】整理自网络！
原创文章，作者:【好易之】如转载请注明出处：https://www.zhengjiaxi.com/zxwd/itzx/117713.html
如有侵权，请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途，否则后果请用户自负。
本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。
如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。如有侵权请邮件与我们联系处理。