
作者丨郑佳美
编辑丨马晓宁
大模型的发展表明,智能体不能只依赖一次性的上下文输入,还需要能够检索、利用和管理长期记忆。自动驾驶也正在走向类似的路径:车辆不应只是根据当前摄像头和传感器看到的内容做即时判断,而应具备一种可检索的空间记忆,能够调取当前位置长期积累的道路结构信息。对于自动驾驶来说,这种记忆可以来自街景图、卫星图、历史地图和车队经验,从而当传感器“看不清、看不全、看不远”时,车辆仍然能理解自己所在的道路空间。
在真实道路上,这类问题几乎无处不在。夜间经过一个没有路灯的路口,摄像头里车道线被阴影吞没,雨天行驶在城区主干道,玻璃反光和水雾让路沿、人行横道变得模糊,驶入复杂立交或多岔路口时,车端传感器看到的只是当前一小段画面,却需要对完整道路结构做出判断。
人类司机在这种情况下,往往不会只依赖眼前一帧画面。我们会调动对道路的记忆:这里原本有几条车道,路口在哪里分叉,人行横道大概在什么位置,前方是不是高架匝道。
也就是说,人类驾驶天然具备一种“空间记忆”。但长期以来,自动驾驶模型大多仍被限制在实时传感器输入之内,车辆只能根据当前摄像头、激光雷达或 IMU 看到的信息进行判断。一旦遇到遮挡、低光、雨雾和长尾场景,模型就容易失去稳定的空间参考。
正是在这一背景下,由复旦大学可信具身智能研究院&上海交大团队提出了论文《Spatial Retrieval Augmented Autonomous Driving》。这项工作的关键思路不是再给车辆增加一种昂贵传感器,而是让自动驾驶系统学会“回忆”当前位置的地理信息:根据车辆 GPS 和位姿,检索对应位置的街景图、卫星图等历史地理图像,再将这些 Geo 信息与车载相机特征融合,为模型提供额外的道路结构参考。
更重要的是,这篇论文并没有把 Geo 图像包装成万能答案。研究结果反而清楚地表明:地理图像最擅长补充的是稳定、长期存在的道路结构信息,例如车道线、道路边界、人行道、建筑和可行驶区域,而对于车辆、行人等实时变化的动态目标,它的帮助十分有限。
这一结论让这项研究的意义更加明确——Geo 不是要替代实时感知,而是要成为自动驾驶系统中的一种空间先验,让车辆在看不清当前世界时,仍然能够参考“这条路原本是什么样子”。
因此,这项工作真正打开的不是某个单一指标的提升,而是一种新的自动驾驶范式:从“只依赖当前传感器”走向“实时感知 + 历史地理记忆”。在自动驾驶进入长尾场景、安全冗余和世界模型竞争的新阶段后,这种检索增强式思路,可能会成为下一代自动驾驶系统理解道路空间的重要补充。

论文地址:https://arxiv.org/pdf/2512.06865

01
整体来看,研究团队发现不同任务对地理图像的受益程度差异明显。静态道路结构相关任务提升较大,比如在线建图、占用预测和世界模型,而动态目标相关任务提升较小,例如 3D 目标检测。
研究人员认为,这是因为地理图像能够提供道路、车道、人行道和建筑等稳定背景信息,但无法反映当前时刻道路上的车辆和行人等动态目标,因此它更适合作为空间结构参考。
在线建图是提升最明显的任务。因为这类任务主要识别车道线、道路边界和人行横道等静态元素,所以 Geo 图像能够有效补充道路结构信息。
研究中,MapTR 的 mAP 从 50.3 提升到 61.2,MapTRv2 的 mAP 从 61.5 提升到 73.4。研究人员发现,在低曝光、雨天和遮挡场景下,加入 Geo 后模型能够恢复更多道路细节,说明地理图像相当于为模型提供了当前位置原本的道路结构参考。
占用预测同样获得提升,但幅度没有在线建图那么明显。Geo 的作用主要集中在可行驶区域、人行道和地形等静态区域。实验中,FBOcc 的整体 mIoU 从 39.11 提升到 39.74,其中可行驶区域从 80.07 提升到 82.47。研究人员认为,这说明 Geo 更适合帮助模型理解道路空间结构,而不是实时动态物体信息。
相比之下,目标检测提升非常有限。BEVFormer 的 mAP 仅从 41.60 提升到 41.64。研究团队指出,目标检测主要关注当前车辆和行人,而 Geo 图像属于离线地图或街景信息,无法反映实时动态场景,因此帮助较小。雷峰网(公众号:雷峰网)

端到端规划中,Geo 对轨迹误差影响不大,但能够提升安全性。实验结果显示,Night 场景下碰撞率从 0.55% 降到 0.48%。研究人员认为,这说明 Geo 不一定让轨迹预测更接近真实轨迹,但在夜间、雨雾和复杂路口等低能见度环境中,能够提供更稳定的道路参考,从而降低碰撞风险。
世界模型也是受益较明显的任务。研究人员发现,长时间生成驾驶视频时,模型容易出现道路漂移和背景不一致问题,而 Geo 图像能够提供真实道路结构约束。实验中,UVG 的 FVD 从 36.10 降到 29.97,说明生成结果更加稳定,幻觉现象也更少。
最后,消融实验进一步验证了方法有效性。没有 Geo 时,静态 mIoU 为 46.66,加入 Geo 后提升到 47.86。研究团队认为,这说明性能提升并不是偶然结果,Geo 图像、位置编码以及可靠性估计模块都对整体性能提升起到了重要作用。


02
研究人员先根据 nuScenes 中提供的车辆位姿数据,计算每一帧对应的经纬度坐标,再通过 Google Maps API 获取对应位置的街景图和卫星图。得到地理图像后,研究人员进一步将这些图像与车载相机画面进行空间对齐,使模型能够同时看到“当前车载视角”和“当前位置对应的历史地理视角”。
实验结果显示,train split 中可用地理图像占 94.32%,val split 中占 92.41%,说明大部分场景都能够成功获取 Geo 信息,数据覆盖率较高,实验并不是只在少量理想样本中进行。

在构建数据集过程中,研究团队发现街景图并不是按车辆每一帧单独采集的,很多连续车载帧实际上会对应同一个街景位置。如果按照每一帧单独下载街景图,不仅会产生大量重复数据,也会造成很高的存储和计算成本。
因此研究人员没有采用逐帧下载方式,而是让每个街景位置只下载一次数据。为了尽可能覆盖不同方向的视角,研究团队会在同一个街景位置下载 18 个不同方向的街景视角,并将这些视角合成为全景图。
之后,系统再根据当前车载相机的方向、位置和视角参数,从全景图中重新投影得到与当前驾驶视角更接近的 Geo 图像。研究结果显示,这种方法相比逐帧下载街景裁剪图节省超过 70% 的存储空间,同时还能减少重复数据,提高系统实际部署时的可行性。

研究人员还发现,Geo 图像并不一定始终可靠。现实场景中可能出现街景缺失、街景数据过时、GPS 定位误差、高架道路与地面道路混淆以及道路施工导致环境变化等问题。例如,街景图可能拍摄于数月甚至数年前,而当前道路结构已经发生变化。如果模型完全依赖这些 Geo 信息,就可能出现错误判断。
因此研究团队专门设计了可靠性估计模块 REG,用来判断当前检索到的 Geo 图像是否可信。研究人员会同时考虑 Geo 图像与当前车载图像之间的视觉相似性,以及地理位置之间的匹配程度,从而决定模型应该多大程度使用 Geo 信息。

为了训练这个模块,研究团队人工标注了 1800 个错位样本。实验中,train split 的错位图像占 4.93%,缺失图像占 0.75%,val split 的错位图像占 6.88%,缺失图像占 0.71%。这些结果说明研究并没有默认 Geo 永远正确,而是让模型在 Geo 信息可信时增强使用,在 Geo 不可靠时降低影响,从而提高整体系统稳定性。雷峰网
完成数据处理后,研究团队开始把 Geo 接入不同自动驾驶任务中进行验证。对于车端任务,研究人员首先从车载图像中提取 BEV 特征,再把检索到的 Geo 图像编码成另一组特征,随后通过适配模块将两种特征融合到同一个空间表示中。
研究团队希望让模型不仅能够利用当前传感器看到的信息,还能够利用当前位置对应的历史道路结构信息。研究覆盖了多个任务,包括 3D 目标检测、在线建图、占用预测以及端到端规划。对于世界模型任务,研究人员采用了不同策略。
由于世界模型需要生成未来驾驶视频,因此系统会根据未来轨迹提前检索对应位置的地理图像,再利用这些 Geo 信息约束未来场景生成过程。研究团队希望通过这种方式减少长时间视频生成中的道路漂移、背景变化和场景幻觉问题。
整个实验流程的核心目标,是验证 Geo 是否能够成为自动驾驶系统中的一种“空间记忆”。研究团队并不是只想证明某一个模型在指标上略有提升,而是希望说明自动驾驶模型除了依赖当前传感器外,还能够通过检索当前位置的历史地理图像获得额外空间参考信息。
因此,研究人员把 Geo 接入多个不同任务和模型中,希望验证这种方法是否具备通用性,以及它究竟更适合哪些类型的自动驾驶任务。


03
研究团队最重要的贡献,并不只是提升了几个实验指标,而是提出了一种新的自动驾驶思路。过去的自动驾驶系统主要依赖实时传感器输入,也就是车辆只能根据“当前看到的内容”进行判断,而这项研究证明,自动驾驶还可以主动检索当前位置对应的历史地理图像,从而获得一种类似“空间记忆”的能力。这意味着自动驾驶模型开始从单纯的实时感知,转向“实时感知 + 历史空间记忆”结合的方式。
研究团队认为,这项研究真正的重要性,在于打开了“检索增强自动驾驶”这一新方向。过去自动驾驶研究更多关注传感器、模型结构和端到端学习,而这项研究开始尝试把外部地理信息引入自动驾驶系统。
未来还可以继续扩展,例如利用车队历史数据替代公开地图,或者同时检索多个附近视角,从而进一步提升自动驾驶系统的空间理解能力。

04
贾萧松,复旦大学可信具身智能研究院助理教授,研究院是复旦面向下一代人工智能设立的校级实体化科研机构,重点研究 AI 如何从数字空间走向物理世界。它不只关注具身智能体“能不能感知、能不能行动”,也关注它们在真实环境中是否安全、可靠、可控。研究院围绕具身基础模型、数据引擎、具身交互、本体研制和可信机制五大方向展开布局,试图打通从模型、数据、硬件到安全评估的全链条,为工业生产、智能制造等场景提供底层技术支撑。
官网主页:https://teai.fudan.edu.cn/
贾萧松本博毕业于上海交通大学,导师为严骏驰教授,其研究主要围绕自动驾驶与具身智能展开,覆盖端到端自动驾驶、闭环评测、世界模型、强化学习、轨迹预测、多传感器融合等方向,同时也关注利用生成式模型和重建式模型构建更真实的世界模拟器,并结合模仿学习与强化学习训练端到端决策智能体。在学术成果方面,他已在 IEEE TPAMI、IJCV、RSS、CVPR、ICCV、ECCV、NeurIPS、ICLR 等国际顶级会议和期刊发表论文 40余篇,其参与研究曾获得 ICCV 2021 Mair2 Workshop 最佳学生论文奖和 CVPR 2023 最佳论文奖,另有研究成果获得 2025年 Waymo 仿真智能体世界模型挑战赛冠军。谷歌学术引用 4000 余次。此外,他还担任 NeurIPS与ICLR的Area Chair和TPAMI、TRO等期刊的审稿人。

参考链接:https://jiaxiaosong1002.github.io/
这次去 CVPR 现场,一定不要错过
【认识大牛+赚外快】的机会
需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来
你能获得什么?
认识大牛:你将可以进入CVPR名师博士社群;
钱多活少:提供丰厚奖金,任务量精简;
听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。
如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]
【限额5位,先到先得】
