GAIR Paper 095：NTU 曹子昂教授团队：破解 3D 标注成本难题，只需一张图片丨CVPR 2026

CVPR PhysX-Anything NTU

作者：郑佳美

2026/06/05 19:02

GAIR Paper 095：NTU 曹子昂教授团队：破解 3D 标注成本难题，只需一张图片丨CVPR 2026

PhysX-Anythingt：可从一张照片自动生成可用于机器人训练的物理 3D资产。

作者丨郑佳美、樊天骄

编辑丨郑佳美

在生成式 AI 进入 3D 内容生产之后，行业最先解决的是“看起来像不像”的问题：一个模型能不能从文字或图片生成外观完整、纹理逼真、形状合理的 3D 物体。

但随着机器人、具身智能、数字孪生、AR / VR 和工业仿真的发展，真正制约应用落地的矛盾已经变了。现实世界中的物体不是静态摆件，而是带有尺度、材料、重量、关节、摩擦、碰撞和功能关系的物理对象。

一个柜子不仅要有柜门，还要知道门轴在哪里、能向哪个方向打开；一副眼镜不仅要有镜框和镜腿，还要知道镜腿能绕哪个关节折叠；一个水龙头不仅要外形相似，还要能被旋转、能和机械手发生接触、能在仿真器里表现出合理运动。

换句话说，未来的 3D 生成如果只停留在“生成一个好看的模型”，就很难支撑机器人训练、交互式场景构建和真实物理仿真。

这正是当前 3D 资产生成面临的核心断层：视觉资产越来越容易生成，但仿真资产依然高度依赖人工建模和手动标注。这个过程成本高、效率低，也很难规模化扩展到家庭、工厂、商场、医院等复杂真实场景。

因此，行业真正需要的不只是“图像到 3D”，而是“图像到可交互、可运动、可仿真的物理 3D 资产”。

在这种背景下，南洋理工大学曹子昂团队提出了《PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image》。试图把单张真实图像直接转化为仿真可用的物理 3D 资产。

不仅恢复物体外形，还进一步推断部件结构、关节关系、材料属性、真实尺度、功能用途和文本描述，并输出 URDF、XML 等可直接进入物理引擎的格式。

PhysX-Anything 的意义不只是让 3D 生成结果更精细，而是把 3D 生成从“视觉建模”推进到“物理建模”，让生成结果真正具备被机器人操作、被仿真系统调用、被交互场景使用的能力。

对于家庭机器人来说，这意味着它可以从一张柜子照片生成可开合的柜门资产，用于学习开门和抓取；对于 AR / VR 来说，这意味着虚拟物体不再只是摆在场景里的装饰，而是可以被用户真实交互；对于工业仿真和数字孪生来说，这意味着大量真实设备和日常物体有机会从照片快速转化为可运行的仿真对象。

PhysX-Anything 的关键价值正在于此：它把 3D 资产生成的目标从“看起来真实”进一步推向“用起来真实”。

论文地址：https://arxiv.org/abs/2511.13648

从数据验证到仿真可用

实验结果显示，研究团队在 PhysX-Mobility 数据集上将 PhysX-Anything 与 URDFormer、Articulate-Anything、PhysXGen 进行对比，评估单张图像生成的物理 3D 资产在几何质量、物理属性、关节结构和文本描述方面的表现。

整体来看，PhysX-Anything 在主要指标上表现最好，几何质量达到 PSNR 20.35、CD 14.43、F-score 77.50，物体尺度误差从 PhysXGen 的 43.44 降至 0.30，说明真实尺寸预测明显更准确；

材料属性、可供性、运动参数和描述质量也均优于对比方法，说明研究生成的物体不仅外形更完整，也更能反映真实材料、功能用途和关节运动关系。雷峰网

在真实网络图片测试中，研究使用约 100 张 in-the-wild 图像，PhysX-Anything 的几何 VLM 评分和运动参数 VLM 评分均达到 0.94，明显高于 URDFormer、Articulate-Anything 和 PhysXGen，说明模型对非数据集物体也有较强泛化能力。

用户研究中，14 名志愿者共给出 1,568 个有效评分，PhysX-Anything 在几何、尺度、材料、可供性、运动参数和描述等维度都获得更高偏好，其中几何质量为 0.98，运动参数为 0.98，描述质量为 0.96，说明生成结果更符合人类判断。

消融实验进一步说明，最终表示方法优于 Voxel 版本和 Index 版本，最终版本达到 PSNR 20.35、CD 14.43、F-score 77.50，并在复杂结构和物理属性预测上更稳定。

机器人仿真实验中，研究团队将生成的水龙头、柜门、眼镜、打火机、笔记本和把手等资产导入 MuJoCo 风格仿真环境，用于水龙头开关、门开合、眼镜折叠、打火机打开、笔记本合上和把手操作等任务，结果说明生成资产可以通过 URDF 和 XML 直接用于仿真，不只是视觉 3D 模型，而是具备物理可执行性的仿真可用 3D 资产。

从几何识别到物理理解

实验经过主要围绕单张真实图像生成仿真可用的物理 3D 资产展开，研究团队希望系统不仅生成物体外形，还能同时得到部件结构、关节关系、材料、尺度、可供性和文本描述，并输出 URDF、XML、部件级 mesh 等可用于仿真的格式。

为支持训练和评估，研究团队构建 PhysX-Mobility 数据集，数据来自 PartNet-Mobility，包含超过 2K 个常见真实物体，覆盖 47 类物体，例如马桶、风扇、相机、咖啡机、订书机、柜子和椅子等。

标注内容包括绝对尺度、部件层级、材料、密度、关节类型、运动方向、运动范围、可供性和部件文本描述，使原有物理 3D 数据类别扩展超过 2 倍。

模型输入为单张 in-the-wild 图像，因此需要从单一视角中推断可能被遮挡的结构、复杂背景下的物体形状、不明确的材质、不可见的内部构造，以及物体真实的关节运动方式。

生成过程采用多轮对话，第一轮由基于 Qwen2.5 的 VLM 生成整体物理表示，内容包括 Name、Category、Dimension、Parts、Material、Density、Affordance、Kinematics、Description 和 Group_info，用来描述物体类别、尺寸、部件组成、材料属性、功能用途和运动关系。

之后从第二轮到 N+1 轮逐个生成部件几何，N 代表物体部件数量，每个部件输出 32 × 32 × 32 的 3D voxel grid，并用被占用 voxel 索引和连续区间合并方式表达几何，从而降低 VLM 上下文压力，减少不同部件之间的干扰。

由于原始 mesh 和 vertex quantization 会产生过长 token 序列，研究人员将几何表达改为 voxelization、voxel index 和 range merge，使 mesh 到 voxel 约压缩 74×，最终约压缩 193×，同时保留显式几何结构，也不需要额外 special tokens 或新 tokenizer。

随后，系统使用 controllable flow transformer 根据粗 voxel 细化几何，再结合图像条件、文本条件、粗 voxel 条件、噪声和时间步生成高分辨率几何特征。

接着通过预训练 structured latent diffusion model 生成 mesh surface、radiance fields 和 3D Gaussian，并用 nearest-neighbor 根据 voxel assignment 分割出部件级 mesh，最后整合全局物理信息和细粒度几何，得到 URDF、XML 和部件级 mesh。

实验评估包括多个部分，研究团队将 PhysX-Anything 与 URDFormer、Articulate-Anything 和 PhysXGen 对比，在 PhysX-Mobility 上用 PSNR、CD、F-score、Absolute scale、Material、Affordance、Kinematic parameters 和 Description 衡量几何质量与物理可用性。

又用约 100 张互联网真实图片测试泛化能力，通过 GPT-5 评价几何和关节运动，同时安排 14 名志愿者完成 1,568 个评分，补充人类主观评价。

最后，研究团队通过消融实验比较 voxel、index 和最终版本，验证表示压缩策略对几何保真度、物理属性预测和复杂结构稳定性的影响。

并在 MuJoCo 风格仿真环境中导入 URDF 和 XML，检查生成资产是否能发生碰撞交互、关节是否能正确运动、物理属性是否能支持策略学习，以及生成资产是否能直接用于接触丰富的机器人操作任务。

开创 3D 生成新范式

在方法和技术上，PhysX-Anything 把 VLM 从 2D 视觉任务扩展到 3D 物理生成，证明了 VLM 也能有效处理几何、关节和物理属性的联合建模。

而 193 倍 token 压缩的表示方法对后续研究也有参考价值——这种 "在 token 预算内最大化信息保留" 的思路，可以应用到其他需要处理 3D 数据的 VLM 任务中。雷峰网

同时它也让 3D 资产生成更接近真实世界的应用需求: 过去很多 3D 生成集中在外观重建上，生成的模型可以以假乱真，但它们无法用于机器人仿真、自动驾驶训练等需要物理真实性的场景。

PhysX-Anything 还证明了单目 3D 生成也可以同时处理几何、关节和物理属性，对于服务机器人、家庭机器人、AR / VR 和工业仿真都有价值。

对仿真行业来说，PhysX-Anything 具有超高的实用价值。PhysX-Anything大幅降低了可仿真 3D 资产的制作门槛：以前需要一个团队手搓建模并人工标注物理属性，现在只需一张照片就能自动生成。无论是在游戏开发、影视特效还是对工业仿真、自动驾驶仿真等领域，PhysX-Anything 都具有重要的意义。

总而言之，PhysX-Anything 的价值在于把 3D 资产生成从"看起来真实"推进到"用起来真实"，为未来更实用的家庭机器人、辅助设备和 AR / VR 应用都提供了基础。它是一个起点——让从图片到仿真资产的生成范式成为了一种新的可能。

PhysX-Anythingt 背后的研究者

本论文一作为 Ziang Cao（曹子昂），现为新加坡 NTU 计算机与数据科学学院博士研究生，隶属 MMLab@NTU 实验室，师从著名计算机视觉学者 Ziwei Liu 。其研究方向主要集中在计算机视觉、深度学习、机器人智能以及3D生成领域。

曹子昂的研究重点逐渐聚焦于物理智能与具身智能所需的 3D 资产生成技术，希望让AI生成的3D模型不仅具备视觉外观，还能够具备真实世界中的物理属性、运动结构和交互能力。

在学术成果方面，他已连续在 CVPR、NeurIPS、ICLR、TPAMI、ICCV等国际顶级会议和期刊发表多篇论文。

在荣誉方面，曹子昂于 2025年获得 Google PhD Fellowship（Machine Perception方向），并于 2026 年获得 China3DV Rising Star Award，成为计算机视觉与3D生成领域备受关注的新生代青年学者之一。

参考链接：https://ziangcao0312.github.io/

论文的通讯作者为 Ziwei Liu（刘子纬）现任新加坡 NTU 计算与数据科学学院副教授，MMLab@NTU 核心负责人之一，长期从事计算机视觉、机器学习、计算机图形学、多模态生成模型以及具身智能等方向研究。

刘子纬于 CUHK MMLab 获得博士学位，师从计算机视觉领域著名学者 Xiaoou Tang 和 Xiaogang Wang。先后在美国 University of California, Berkeley 和香港中文大学从事博士后研究工作，曾在微软研究院和谷歌研究院实习。

他在计算机视觉与人工智能领域发表论文200余篇，研究成果发表于 TPAMI、IJCV、CVPR、ICCV、ECCV、NeurIPS、ICLR 等国际顶级期刊和会议。

其中由其团队构建的CelebA数据集已成为计算机视觉领域最具影响力的人脸属性数据集之一，被全球学术界和工业界广泛采用。

在学术荣誉方面，刘子纬先后获得 PAMI Mark Everingham Prize、MIT Technology Review Asia-Pacific Innovators Under 35（TR35）、Asian Young Scientist Fellowship 以及新加坡总统青年科学家奖等重要奖项。

同时，他长期担任 CVPR、ICCV、ECCV、NeurIPS、ICLR 等国际顶会领域主席及程序委员会成员，是当前国际生成式视觉 AI、3D 生成与具身智能领域最具影响力的青年学者之一。

参考链接：https://liuziwei7.github.io

去哪看 CVPR 核心【演讲/论文】详解？

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货，雷峰网(公众号：雷峰网)已全面上线【CVPR 2026 深度专区】。

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲，更将持续更新前方记者的第一手会议动态。

扫描下方二维码，或点击「阅读原文」关注专区。

GAIR Paper 095：NTU 曹子昂教授团队：破解 3D 标注成本难题，只需一张图片丨CVPR 2026

与全球 8000 名顶尖大脑同步呼吸，抢先透视具身智能的下一个五年！

专题

CVPR 计算机视觉与模式识别会议查看更多文章