GAIR Paper 086：复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

Geo 复旦大学世界模型

2026/05/21 11:29

GAIR Paper 086：复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

从街景到仿真，离线地理信息正在成为车辆理解复杂道路的新线索。

作者丨郑佳美

编辑丨马晓宁

大模型的发展表明，智能体不能只依赖一次性的上下文输入，还需要能够检索、利用和管理长期记忆。自动驾驶也正在走向类似的路径：车辆不应只是根据当前摄像头和传感器看到的内容做即时判断，而应具备一种可检索的空间记忆，能够调取当前位置长期积累的道路结构信息。对于自动驾驶来说，这种记忆可以来自街景图、卫星图、历史地图和车队经验，从而当传感器“看不清、看不全、看不远”时，车辆仍然能理解自己所在的道路空间。

在真实道路上，这类问题几乎无处不在。夜间经过一个没有路灯的路口，摄像头里车道线被阴影吞没，雨天行驶在城区主干道，玻璃反光和水雾让路沿、人行横道变得模糊，驶入复杂立交或多岔路口时，车端传感器看到的只是当前一小段画面，却需要对完整道路结构做出判断。

人类司机在这种情况下，往往不会只依赖眼前一帧画面。我们会调动对道路的记忆：这里原本有几条车道，路口在哪里分叉，人行横道大概在什么位置，前方是不是高架匝道。

也就是说，人类驾驶天然具备一种“空间记忆”。但长期以来，自动驾驶模型大多仍被限制在实时传感器输入之内，车辆只能根据当前摄像头、激光雷达或 IMU 看到的信息进行判断。一旦遇到遮挡、低光、雨雾和长尾场景，模型就容易失去稳定的空间参考。

正是在这一背景下，由复旦大学可信具身智能研究院&上海交大团队提出了论文《Spatial Retrieval Augmented Autonomous Driving》。这项工作的关键思路不是再给车辆增加一种昂贵传感器，而是让自动驾驶系统学会“回忆”当前位置的地理信息：根据车辆 GPS 和位姿，检索对应位置的街景图、卫星图等历史地理图像，再将这些 Geo 信息与车载相机特征融合，为模型提供额外的道路结构参考。

更重要的是，这篇论文并没有把 Geo 图像包装成万能答案。研究结果反而清楚地表明：地理图像最擅长补充的是稳定、长期存在的道路结构信息，例如车道线、道路边界、人行道、建筑和可行驶区域，而对于车辆、行人等实时变化的动态目标，它的帮助十分有限。

这一结论让这项研究的意义更加明确——Geo 不是要替代实时感知，而是要成为自动驾驶系统中的一种空间先验，让车辆在看不清当前世界时，仍然能够参考“这条路原本是什么样子”。

因此，这项工作真正打开的不是某个单一指标的提升，而是一种新的自动驾驶范式：从“只依赖当前传感器”走向“实时感知 + 历史地理记忆”。在自动驾驶进入长尾场景、安全冗余和世界模型竞争的新阶段后，这种检索增强式思路，可能会成为下一代自动驾驶系统理解道路空间的重要补充。

论文地址：https://arxiv.org/pdf/2512.06865

Geo 的适用边界

整体来看，研究团队发现不同任务对地理图像的受益程度差异明显。静态道路结构相关任务提升较大，比如在线建图、占用预测和世界模型，而动态目标相关任务提升较小，例如 3D 目标检测。

研究人员认为，这是因为地理图像能够提供道路、车道、人行道和建筑等稳定背景信息，但无法反映当前时刻道路上的车辆和行人等动态目标，因此它更适合作为空间结构参考。

在线建图是提升最明显的任务。因为这类任务主要识别车道线、道路边界和人行横道等静态元素，所以 Geo 图像能够有效补充道路结构信息。

研究中，MapTR 的 mAP 从 50.3 提升到 61.2，MapTRv2 的 mAP 从 61.5 提升到 73.4。研究人员发现，在低曝光、雨天和遮挡场景下，加入 Geo 后模型能够恢复更多道路细节，说明地理图像相当于为模型提供了当前位置原本的道路结构参考。

占用预测同样获得提升，但幅度没有在线建图那么明显。Geo 的作用主要集中在可行驶区域、人行道和地形等静态区域。实验中，FBOcc 的整体 mIoU 从 39.11 提升到 39.74，其中可行驶区域从 80.07 提升到 82.47。研究人员认为，这说明 Geo 更适合帮助模型理解道路空间结构，而不是实时动态物体信息。

相比之下，目标检测提升非常有限。BEVFormer 的 mAP 仅从 41.60 提升到 41.64。研究团队指出，目标检测主要关注当前车辆和行人，而 Geo 图像属于离线地图或街景信息，无法反映实时动态场景，因此帮助较小。雷峰网(公众号：雷峰网)

端到端规划中，Geo 对轨迹误差影响不大，但能够提升安全性。实验结果显示，Night 场景下碰撞率从 0.55% 降到 0.48%。研究人员认为，这说明 Geo 不一定让轨迹预测更接近真实轨迹，但在夜间、雨雾和复杂路口等低能见度环境中，能够提供更稳定的道路参考，从而降低碰撞风险。

世界模型也是受益较明显的任务。研究人员发现，长时间生成驾驶视频时，模型容易出现道路漂移和背景不一致问题，而 Geo 图像能够提供真实道路结构约束。实验中，UVG 的 FVD 从 36.10 降到 29.97，说明生成结果更加稳定，幻觉现象也更少。

最后，消融实验进一步验证了方法有效性。没有 Geo 时，静态 mIoU 为 46.66，加入 Geo 后提升到 47.86。研究团队认为，这说明性能提升并不是偶然结果，Geo 图像、位置编码以及可靠性估计模块都对整体性能提升起到了重要作用。

从地理检索到可靠融合

研究团队首先基于 nuScenes 构建了一个新的扩展数据集 nuScenes-Geography，希望让自动驾驶模型除了使用车载摄像头信息外，还能够利用当前位置对应的地理图像信息。

研究人员先根据 nuScenes 中提供的车辆位姿数据，计算每一帧对应的经纬度坐标，再通过 Google Maps API 获取对应位置的街景图和卫星图。得到地理图像后，研究人员进一步将这些图像与车载相机画面进行空间对齐，使模型能够同时看到“当前车载视角”和“当前位置对应的历史地理视角”。

实验结果显示，train split 中可用地理图像占 94.32%，val split 中占 92.41%，说明大部分场景都能够成功获取 Geo 信息，数据覆盖率较高，实验并不是只在少量理想样本中进行。

在构建数据集过程中，研究团队发现街景图并不是按车辆每一帧单独采集的，很多连续车载帧实际上会对应同一个街景位置。如果按照每一帧单独下载街景图，不仅会产生大量重复数据，也会造成很高的存储和计算成本。

因此研究人员没有采用逐帧下载方式，而是让每个街景位置只下载一次数据。为了尽可能覆盖不同方向的视角，研究团队会在同一个街景位置下载 18 个不同方向的街景视角，并将这些视角合成为全景图。

之后，系统再根据当前车载相机的方向、位置和视角参数，从全景图中重新投影得到与当前驾驶视角更接近的 Geo 图像。研究结果显示，这种方法相比逐帧下载街景裁剪图节省超过 70% 的存储空间，同时还能减少重复数据，提高系统实际部署时的可行性。

研究人员还发现，Geo 图像并不一定始终可靠。现实场景中可能出现街景缺失、街景数据过时、GPS 定位误差、高架道路与地面道路混淆以及道路施工导致环境变化等问题。例如，街景图可能拍摄于数月甚至数年前，而当前道路结构已经发生变化。如果模型完全依赖这些 Geo 信息，就可能出现错误判断。

因此研究团队专门设计了可靠性估计模块 REG，用来判断当前检索到的 Geo 图像是否可信。研究人员会同时考虑 Geo 图像与当前车载图像之间的视觉相似性，以及地理位置之间的匹配程度，从而决定模型应该多大程度使用 Geo 信息。

为了训练这个模块，研究团队人工标注了 1800 个错位样本。实验中，train split 的错位图像占 4.93%，缺失图像占 0.75%，val split 的错位图像占 6.88%，缺失图像占 0.71%。这些结果说明研究并没有默认 Geo 永远正确，而是让模型在 Geo 信息可信时增强使用，在 Geo 不可靠时降低影响，从而提高整体系统稳定性。雷峰网

完成数据处理后，研究团队开始把 Geo 接入不同自动驾驶任务中进行验证。对于车端任务，研究人员首先从车载图像中提取 BEV 特征，再把检索到的 Geo 图像编码成另一组特征，随后通过适配模块将两种特征融合到同一个空间表示中。

研究团队希望让模型不仅能够利用当前传感器看到的信息，还能够利用当前位置对应的历史道路结构信息。研究覆盖了多个任务，包括 3D 目标检测、在线建图、占用预测以及端到端规划。对于世界模型任务，研究人员采用了不同策略。

由于世界模型需要生成未来驾驶视频，因此系统会根据未来轨迹提前检索对应位置的地理图像，再利用这些 Geo 信息约束未来场景生成过程。研究团队希望通过这种方式减少长时间视频生成中的道路漂移、背景变化和场景幻觉问题。

整个实验流程的核心目标，是验证 Geo 是否能够成为自动驾驶系统中的一种“空间记忆”。研究团队并不是只想证明某一个模型在指标上略有提升，而是希望说明自动驾驶模型除了依赖当前传感器外，还能够通过检索当前位置的历史地理图像获得额外空间参考信息。

因此，研究人员把 Geo 接入多个不同任务和模型中，希望验证这种方法是否具备通用性，以及它究竟更适合哪些类型的自动驾驶任务。

从感知增强到仿真约束 Geo

研究团队最重要的贡献，并不只是提升了几个实验指标，而是提出了一种新的自动驾驶思路。过去的自动驾驶系统主要依赖实时传感器输入，也就是车辆只能根据“当前看到的内容”进行判断，而这项研究证明，自动驾驶还可以主动检索当前位置对应的历史地理图像，从而获得一种类似“空间记忆”的能力。这意味着自动驾驶模型开始从单纯的实时感知，转向“实时感知 + 历史空间记忆”结合的方式。

研究团队认为，这项研究真正的重要性，在于打开了“检索增强自动驾驶”这一新方向。过去自动驾驶研究更多关注传感器、模型结构和端到端学习，而这项研究开始尝试把外部地理信息引入自动驾驶系统。

未来还可以继续扩展，例如利用车队历史数据替代公开地图，或者同时检索多个附近视角，从而进一步提升自动驾驶系统的空间理解能力。

成果背后的科研团队

贾萧松，复旦大学可信具身智能研究院助理教授，研究院是复旦面向下一代人工智能设立的校级实体化科研机构，重点研究 AI 如何从数字空间走向物理世界。它不只关注具身智能体“能不能感知、能不能行动”，也关注它们在真实环境中是否安全、可靠、可控。研究院围绕具身基础模型、数据引擎、具身交互、本体研制和可信机制五大方向展开布局，试图打通从模型、数据、硬件到安全评估的全链条，为工业生产、智能制造等场景提供底层技术支撑。

官网主页：https://teai.fudan.edu.cn/

贾萧松本博毕业于上海交通大学，导师为严骏驰教授，其研究主要围绕自动驾驶与具身智能展开，覆盖端到端自动驾驶、闭环评测、世界模型、强化学习、轨迹预测、多传感器融合等方向，同时也关注利用生成式模型和重建式模型构建更真实的世界模拟器，并结合模仿学习与强化学习训练端到端决策智能体。在学术成果方面，他已在 IEEE TPAMI、IJCV、RSS、CVPR、ICCV、ECCV、NeurIPS、ICLR 等国际顶级会议和期刊发表论文 40余篇，其参与研究曾获得 ICCV 2021 Mair2 Workshop 最佳学生论文奖和 CVPR 2023 最佳论文奖，另有研究成果获得 2025年 Waymo 仿真智能体世界模型挑战赛冠军。谷歌学术引用 4000 余次。此外，他还担任 NeurIPS与ICLR的Area Chair和TPAMI、TRO等期刊的审稿人。

参考链接：https://jiaxiaosong1002.github.io/

这次去 CVPR 现场，一定不要错过

【认识大牛+赚外快】的机会

需要你做什么：把你最关注的10个大会报告，每页PPT都拍下来

你能获得什么？

认识大牛：你将可以进入CVPR名师博士社群；

钱多活少：提供丰厚奖金，任务量精简；

听会自由：你的行程你做主，顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR，想边听会边赚钱，还能顺便为AI学术社区做贡献、认识更多大牛，欢迎联系我们：[添加微信号:MS_Yahei]

【限额5位，先到先得】

GAIR Paper 086：复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

专题

CVPR 计算机视觉与模式识别会议查看更多文章