腾讯CVPR 50+中稿，这些技术亮点值得你关注！

腾讯 cvpr 论文

2026/06/02 18:19

来源：公众号“腾讯招聘”

原文链接：https://mp.weixin.qq.com/s/G0JIVvBbRNt0dwe691RMmA?scene=1&click_id=41

CVPR是计算机视觉领域最具影响力和权威性的国际顶级学术会议之一（CCF-A 类），聚焦计算机视觉、图像识别、多模态理解、生成式视觉模型、3D 视觉、自动驾驶等前沿方向。第43届会议将在美国丹佛举行，本届会议共收到全球16,092篇有效投稿，录用4,090篇，录用率为25.42%。

在近日公布的 CVPR 2026 论文接收结果中，腾讯共有50余篇论文入选，多篇成果获Oral与Highlight收录。入选论文来自腾讯混元、优图实验室、微信、腾讯游戏、腾讯视频等多个业务与研究团队，覆盖视觉生成、多模态理解、3D 视觉、视频理解、自动驾驶等核心 AI 研究方向。团队将携最新技术成果亮相丹佛 CVPR 现场，期待6月3日会场相见，碰撞技术火花！

From seeing to understanding，以下为部分腾讯入选本届 CVPR 2026 的 Oral 与 Highlight 论文精选，诚邀各位与腾讯开启一场关于视觉智能的深度对话。

Oral 论文精选

CoSMo3D: Open-World Promptable 3D Semantic Segmentation through LLM-Guided Canonical Spatial Modeling

✨ 2026 CVPR Best Paper Candidate ✨

Oral摘要

1. 提出了 CoSMo3D，一种面向开放世界（Open-World）的可提示（Promptable）3D语义部件分割方法。用户仅需输入任意文本描述（如“handle”“wing”等），即可在任意类别、任意姿态的3D模型中准确定位对应语义部件，实现开放词汇3D理解。

2. 针对现有方法主要依赖几何形状与文本语义匹配、缺乏空间语义理解的问题，CoSMo3D首次将“Canonical Space（规范空间）感知”引入开放世界3D语义分割。该方法模拟人类理解3D物体时的空间认知机制，通过学习统一的规范空间表征，使模型能够理解部件在物体中的功能位置关系，而不仅仅依赖局部几何形状。

3. CoSMo3D构建了覆盖200个类别、约17000个3D模型的跨类别规范空间数据集，并提出LLM引导的跨类别规范化方法，实现不同类别之间语义部件的空间对齐。同时设计双分支网络结构，通过规范空间映射约束（Canonical Map Anchoring）和规范空间包围盒校准（Canonical Box Calibration）等机制，使模型获得跨姿态、跨类别的一致语义理解能力。

4. 实验结果表明，CoSMo3D在3DCompat、ShapeNet-Part和PartNet-E等多个公开基准上取得新的SOTA性能，相比此前最佳3D方法Find3D平均提升25%以上，同时具备更好的跨类别泛化能力和姿态鲁棒性，为开放世界3D理解提供了新的技术路线。

团队介绍

腾讯游戏

光子工作室群

光子工作室群是全球知名的游戏研发团队，成立以来坚持精品化和国际化发展战略，致力于打造光子宇宙平台，连接全球玩家和游戏生态。

光子持续推出了战术竞技、MOBA、棋牌、MMO、射击、体育、竞速、音乐和模拟经营等多个品类游戏，打造了《和平精英》《欢乐斗地主》《欢乐麻将》《黎明觉醒:生机》《末刀》《自由幻想》《最强美职篮》《英雄杀》《天天象棋》《斗战神》《节奏大师》《全民飞机大战》全民突击》《全民小镇》等多款热门游戏，合作推出了《PUBG MOBILE》《英雄联盟手游》，为全球亿万用户提供丰富优质的游戏体验。

光子以强大的游戏研发实力、广阔的产品线为基础，在IP衍生、电竞生态、社会责任等领域积极拓展；持续深耕游戏技术和美术核心能力，在中国、美国、新加坡、加拿大、英国、法国、日本、韩国、新西兰、阿联酋等多个国家和地区研发布局，不断探索游戏的无限可能。

Highlight 论文精选

PET-DINO: Unifying Visual Cues into Grounding DINO with Prompt-Enriched Training

Highlight 论文摘要

1. 面对垂直领域或复杂视觉场景的开放目标检测，现有文本提示的范式难以实现精准的跨模态对齐，且业界普遍缺乏针对罕见或长尾类别的多模态图文对数据。针对这一挑战，本文提出了一种能够同时支持文本与视觉提示的通用开放目标检测器PET-DINO。将视觉线索注入到先进的文本提示检测器中，这不仅使模型得以保持原生的文本提示检测能力，同时显著降低了双模态提示检测模型的研发与训练成本。

2. PET-DINO 的核心在于其创新设计的自适应特征视觉提示生成模块（AFVPG）。该模块能够高效提取经由特征增强器处理后的图像特征，并通过与文本分支进行参数共享，促使模型在继承高层语义理解的前提下，实现实例级细粒度图像表征的精准对齐。

3. 针对单图视觉提示在开放检测中存在的泛化局限性与多样性缺失问题，本文进一步提出了批次内并行提示增强（IBP）和动态记忆驱动提示（DMD）策略。通过跨图聚合当前批次内其他图像的提示线索，并引入视觉线索库（Visual Cues Bank）对历史提示进行流式动态存储与更新。该机制在保障多模态空间稳健对齐的同时，有效提升了开放检测的泛化性，并极大拓宽了模型的跨类判别能力。

4. 相较于现有的前沿开放检测模型（如T-Rex2、CP-DETR 等），PET-DINO 在大幅减少数据依赖的前提下实现了性能的反超，并充分论证了基于成熟文本预训练模型的范式比从头训练具有更高的性能上限。在 COCO、LVIS 和 ODinW 等基准测试上的大量实验，一致验证了本方法的优越性和高效性。

团队介绍

腾讯

优图实验室

优图实验室成立于2012年，致力于推动AI前沿技术研究，将研究成果转化为实际生产力，助力产业与产品的智能升级。

在技术研究层，重点研究方向包含：计算机视觉（覆盖视觉感知理解、生图生视频等全栈视觉能力）、大模型技术（构建大语言模型、多模态理解双轮驱动体系）、AI infra（聚焦计算加速、模型优化等层地技术创新）

在应用层，外部赋能通过腾讯云输出慧眼核身、数智人、工业质检等解决方案；内部支撑微信支付（人脸核身）、QQ浏览器（agent）、腾讯会议（虚拟背景）、腾讯元宝（rag）等算法能力

在学术成果上，优图实验室已在全球范围内斩获逾1800项专利；发表高质量学术论文近1000篇（包括CVPR、ICML、NeurIPS等CCF A类会议论文占比达90%），研究成果多次入选国际顶级学术会议，发表顶级期刊数量逐年攀升。

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Highlight 论文摘要

1.我们将帧内与帧间编码能力融合到同一个模型中，无需再单独维护独立的 I 帧模型。借鉴经典视频编码"在帧间帧内允许使用帧内编码工具"的思想，每一帧都由同一模型自适应完成帧内/帧间编码。该设计有效应对场景切换与新出现的内容，同时降低了整体参数量。

2.我们训练模型根据参考信息质量自适应切换编码策略：参考可靠时优先帧间预测以最大化冗余消除，参考不可靠时则启用帧内编码保障当前帧质量。该机制天然截断帧间误差传播，并彻底摆脱了人工刷新机制（manual refresh）所带来的码率尖峰与有效参考信息丢失问题。

3.我们提出双帧同步压缩技术，对两个连续帧进行联合编码，使当前帧能同时利用前向与后向参考信息，仅引入一帧延迟。两帧协同建模还可挖掘单帧编码无法捕获的时序线索，在保持实时推理速度的同时，进一步提升帧间冗余利用率。

4.我们的方案相比 SOTA 低复杂度方案 DCVC-RT平均取得 12.1% 的 BD-rate 下降，且具有更小的模型规模与相当的推理速度，逐帧码率和质量更加平稳，无需任何刷新机制即可应对场景切换与超长序列下的误差累积。

团队介绍

腾讯

云架构平台部

云架构平台部是腾讯最核心的技术部门之一，为内外部业务提供数据接入下载、存储传输、计算加速等技术服务，是腾讯各业务背后的“技术引擎”。

我们研发对象存储、块存储、文件存储、键值存储等产品，支撑海量数据存储，安全高可靠地让信息穿越时光；通过缓存、智能路由、传输协议、编解码等技术构建全球加速引擎，让直播、点播、云游戏触手可达，助力用户随时随地观看高清视频、沉浸式探索游戏体验、高效处理工作事务；通过分布式网关、高性能转发框架、弹性资源调度系统打造一站式安全加速平台EdgeOne，时刻守护用网安全；基于丰富场景和底层软件积累的优势，自研业界领先的编解码芯片和AI软件栈，打破算力瓶颈；持续深耕公司网关TGW、TencentOS，并和OpenCloudOS社区共建操作系统生态，打造软件之魂。

Evaluating Generative Models via One-Dimensional Code Distributions

Highlight 论文摘要

1. 提出了基于一维离散视觉 token 分布的生成模型评价方法，用于更准确地衡量生成图像的分布质量和感知质量。不同于传统 FID 等依赖连续语义特征的评价指标，该方法直接在离散视觉 token 空间中建模生成图像的统计规律，从而更好地保留纹理、风格、局部结构和细粒度视觉质量信息。

2. 方法指出，现有生成模型评价指标通常依赖 Inception、CLIP 或 DINO 等识别特征，这类特征往往被训练为对外观变化保持不敏感，因此容易忽略颜色、纹理、局部伪影和空间一致性等人类感知敏感因素。同时，FID 等指标还依赖高斯分布假设，难以准确刻画艺术、医学、图表等复杂多模态视觉域中的真实分布。

3. 为解决上述问题，论文提出了两个 token 空间评价指标。其一是 Codebook Histogram Distance，简称 CHD，通过比较真实图像与生成图像在视觉 codebook 中的一阶 token 频率和二阶局部共现统计，衡量生成模型是否学习到了正确的视觉“词汇”和局部“语法”。其二是 Code Mixture Model Score，简称 CMMS，通过对 token 序列进行合成退化训练，学习无参考的单图像质量评分，不依赖昂贵的人类偏好标注。

4. 论文进一步构建了 VisForm 大规模跨域评价基准，包含约 21 万张图像、62 种视觉形态和 12 类生成模型，并引入专家标注来评估不同指标与人类感知的一致性。大量实验表明，所提出的 CHD 和 CMMS 在 AGIQA、HPDv2、HPDv3 以及 VisForm 上均取得了更强的人类判断相关性，为生成模型评价提供了一种更具解释性、可扩展性和跨域鲁棒性的 token-based 新范式。

团队介绍

腾讯

微信技术架构团队

作为微信后台的奠基团队，我们深耕底层架构与前沿技术，是集基础研究与落地应用于一体的核心部门。

核心业务：负责微信消息系统、音视频通话、朋友圈等超大规模基础服务的稳定运行，支撑全球14亿+用户的社交连接。

技术中台：打造微信核心ABC(AI、BigData、Cloud)平台。其中AI应用平台日均处理百亿级调用；BigData平台每日处理百万级任务；Cloud平台支撑千万级核心调度与每秒百亿级事务处理。

算法研究：专注于文本和多模态大模型领域、推荐算法和风控算法的深度预研，推动算法在真实业务场景的高效落地，并持续向开源社区与学术界输出成果。

专题

CVPR 计算机视觉与模式识别会议查看更多文章