AIxiv专栏 是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏 接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投d ) R稿或者联系报道。投稿邮箱:liyazhou@m G j S ajiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇综述工作x a B e已被《IEE; I Q | d m 7 _E 模式分析Q % k W J g t与机器智能汇刊》(IEEe [ ] –E TPAMI)接收,作者来自三个团队:香港大学俞益洲教授与博士生陈超奇O g ) z r d ; D、周洪宇,香港中文大学(深圳)韩晓光教授与博士生吴毓双b g D V \ 6、许牧天,s K (上海科技大学J ` I 5 ! i H h杨思蓓教授与硕士生戴启元。近年来,由于在图表示学习(graph representation learning)和非网格数据(non-grid dato } m I } Z w Ea)上的性能优势,, n f P基于图神经网络(Graph Neural Networks,GNN)的方法被广泛应用于u 1 p不同问题并且显著推动了相关领域的进步,包括但不限于数据挖掘(例如,社交网络分析、推荐系统开发)、计算机视觉(例如,目标检测、点云z , O 5 /处理)和自然语言处理(例如,关系提取、序列学习)。考虑到图神经网络已经取得了丰硕的成果,一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展,以及从现有论文中总V % A q % { W结经验和产生新的想法。可惜的是,我们发现由于图神经网络在计算机视觉中应用非常广2 & G d泛,现有的综述文章往往在全面性或者时效性上存在不G , P , }足,因此无法很好的帮助科c G C 1 | x研人员入门和熟悉相关领域的经典方法和O ( d最新C 9 _ A I Y w v –进展。同时,如何合理地组织和呈现I % R d Q f相关的方法和应用是一个不小的挑战/ \ &。
论文标题:
- A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
论文地址:
- http4 1 l t 5s://arxiv.org/abs/2209.13232(预印版)o . q 4 a c f
- https://ieeexplore.ieee.org/document/10638815(IEEE 版)
简介:
尽管基于卷积神经网络(CNN)的方法在处理图像等规则网格上定义的输入数据方面表现出色,研究人员t + e T : \ 1 l逐B e O J ! c n + 6渐意识到具有不规则拓s G Y *扑的视觉信息对于表示学习至关E ( K 4 S重要,但尚未得到彻底研| 4 P ~ N L 8究。与具有内在连接和节点概念的自然图数据(如社Z F 1 X 5 ( l * P交网络)相比,从规则网格数据p y O # } # m构建图缺乏统一的原则且严5 – 3 Y D Y / ` o重依赖于特定的领域知识。另一方面,某些视觉数据格式(1 N b ; 3 : W s例如j 1 K ` @点云和网格)并非在笛卡尔网格) . N d O s ?上定义的,并且涉及复杂的关系信息。因此,规则和不规则的视觉数据格式都将受益于拓扑结构v h H R T m (和关系的探索,特W ~ 6别是对于具有挑战性的任务,例如理解复杂场景、从有限的经验中学习以及跨领域进行知识传递。
计算机视觉中的图神经网络:
在计算机视觉领域,目前许多与 GNN 相关的研究都有以下两个目& @ ~ 4 W L标之一:
- GNN 和 CNN 主干的混合
- 用于表示学习的纯 GNN 架构
本综述的结构:
本综述以任务为导向对计算机视觉中基于图神经网络(包括图 Transformers)的方法和最新进展进行了全面且详细的调研。具体来说,我们根据输入数据的模态将图神经网络在r { 0 r f计算机视觉中的应用大致划分为五5 x \ . B \ s s类:
- 自然图像(二维)
- 视频
- 视觉 + 语言
- 三维数据(例如,点V 9 V & j v = ; +云)
- 医学影像
结论:
本综述系统性地总结了基于图p F T b D q S S神经网络的计: ! O # n J \ % S算机视! P n 7 T ]觉方法的统一数学表达,阐明了我们组织这些文章的逻辑关系,突出了该领域的关键挑战,展示了图神经网# ; [ V络在应对这些挑战的独特优势,并讨论了它的局限和未来发展路线。
图神经网络发展史GNN 最初以循环 GNN{ # Z w 3 + | 的形式发展,用于从有向无环图中提取节点表示。随着研究的发展,GNN 逐渐扩展到更多类型的图结构,如循环图和无向图。受到深度学习中 CNN 的启发,研究人员8 , Z { S b E开发Z / , _了将卷积概念推广到图域的C n ? ( P u @ D \方法,主要包括基于频域的方法和基于空域的方法。频域方法依赖于图的拉普拉斯谱来定义图卷N D = % C $积,而空域方法则通过聚合节点邻居的信息来实现图卷积。这些方法为处理复杂的图结构和不规则拓扑提供了有效的工具,极大地推动了 GNN 在多个领域,$ y P N Q 3 u E尤其是计算机视觉中的应用和发展# 2 7。
具体来说– I n G m \ ),我们详尽地调查了如下这些任务:
- 基于二维自然图像的视觉任务,包括图像分类(多标签、少量镜头、零镜头、迁移学习)、物体检测、语义分割和场景图生成。
- 基于视频的视觉任务,包括视频动作识别、时序动作定位、多目标跟踪、人体运动预测和轨迹预测。
- 视觉 + 语言方向的任务,包括视觉问答、视觉定位、图像字幕、图像-文本匹配和视觉-语言导航。
- 基于三维数据的视觉任务,包括三维表示学习(点云、网格)、三维理解(点云分割、三维物体检测、三维视觉定位)和三维生成(点云a Q T s b d完成、三维数据去噪、三维重建)。
- 基g # H T i j p 4 f于医学影像的任务,包括脑活动调查、疾病诊断(脑部疾病、胸部疾病)、解剖分割(脑表面、血管等)。
总结来说,尽管在感知领域取得了突破性的进展,如何赋予深度学习模型推理能力$ 8 f d仍然是现代计算机视觉系统面临的巨大挑战。在这方面,图神经网络和图 TF : e E c s L h aransformers 在处理“关系”任务方面表现出了显著的灵活性和优越性。为此,我o % 7 u `们从面向任务的角度首次对计算机视觉中的图神经网络和图 Transformers 进行了全面的综述。各种经典和最新的算法根据输入数据的模态(如图像、视频和点云)分为五类。通过系统地整理每个任务的方法,我们希望本综述能够为未来的更多进展提供启示。通过讨论关键的创新、局限性6 ] b 9 d和潜在的研究方向,我; A } l们希望读者能够获得新的见解,并朝着类似人类的视觉理解迈进一步。
以上就是TPAMI 2024 | 计算机视觉中基于图神经网络和图Transform| n {ers的方法和最新进展的详细内容!