资讯 智能驾驶
此为临时链接,仅用于文章预览,将在时失效

单芯片RGBD,物理AI视觉的未来

作者:郑浩钧
2026/05/28 10:00

作者丨郑浩钧

编辑丨田哲

随着数字AI的蓬勃发展,AI逐渐从数字世界扩散到物理世界,物理AI正成为科技界关注的重点。理想汽车、荣耀、轻舟智航、元戎启行——无论是车厂、手机厂还是智驾供应商,都在高调宣布进军物理AI”

5亿多年前,地球迎来寒武纪生命大爆发时期,生命体的复杂性呈指数级跃升。动物学家安德鲁·帕克(Andrew Parker)认为,这场演进的导火索是光敏感性的出现——当生命开始感知光,视觉便成为了物种进化的核心驱动力。

如今,当物理AI站在爆发前夜,视觉感知能力的进化,同样成为了决定产业格局的关键变量。从智能驾驶到人形机器人,物理AI对感知的核心诉求始终不变:让机器看懂三维世界。而这一切的实现,离不开底层感知技术的突破。

一个正在形成的行业共识是:物理AI的下一代视觉感知方案,不是二维摄像头对三维世界的概率推测,而是色彩(RGB)与深度(Depth)在芯片层面的原生融合——这,就是RGBD空间相机。

在这次视觉感知能力的进化中,阜时科技作为国内唯一实现SPAD芯片从器件设计到车规量产全链条自主可控的芯片设计公司,早已在RGBD路线上完成了布局。

从结构光双目视觉的大规模量产积淀,到dToFSPAD-SoC的全链条自主可控;从即将量产的RGBD双芯片,到迈向终极融合的RGBD单芯片前瞻布局,阜时科技的每一步跨越,都在回应一个关乎未来的根本命题:当物理AI亟需一双敏锐的眼睛来理解真实世界究竟什么样的传感器才能定义下一个十年的感知基准


01

物理AI的感知困境:纯视觉路线的天花板

数字AI与物理AI的核心区别,在于是否需要与真实的物理世界产生交互。

数字AI处理的是文本、代码、图像等虚拟信息,允许概率性错误的存在。而物理AI要理解并作用于三维世界,它的感知必须是精准、实时且低容错的。阜时科技董事长莫良华对雷峰网(公众号:雷峰网)清晰界定了两者的差异。

人类驾驶汽车、抓取物品的日常行为,背后是视觉系统对色彩、纹理与深度的天然融合——我们既能感知周围环境的大致轮廓,也能精准捕捉针尖大小的物体。

莫良华举了一个更直观的例子:人在房间里的空间感知精度大约在1米级别,但拿起桌面上的一根细针时,精度需要瞬间提升到0.1毫米,精度相差万倍。这种从1米到0.1毫米的精度切换,是机器视觉难以复刻的能力。

当前主流的摄像头方案,本质上是三维世界在平面的投影,如同把三维世界压缩到一张可打印的纸张,无法直接获取物体的三维空间坐标。

试图用二维视觉推算三维信息,不仅面临着巨大的技术挑战,更存在无法规避的安全隐患。莫良华举例说明:自动驾驶汽车每秒30多米的速度在高速飞驰,若依赖算法从二维图像中推算深度,遇到复杂或未见过的场景时,计算延迟可能导致事故发生;同样,机器人抓取精密零部件时,一旦深度感知出现偏差,不仅会损坏部件,更可能造成生产事故。

物理世界的复杂性,导致物理AI对容错率的要求十分苛刻。数字AI一本正经的错误可以被容忍,但物理AI的一次感知失误,可能关乎生命与财产安全。这就决定了物理AI的感知,必须基于对三维世界的直接测量,而非概率性推算。

当前行业内关于自动驾驶感知路线的争议,核心在于纯视觉多传感器融合的抉择。马斯克倡导的纯视觉路线,凭借海量数据与强大算法,在部分场景中实现了较好的表现,但从第一性原理来看,其底层存在无法逾越的短板。

人类的视觉本身就是RGB(色彩)与D(深度)的融合,这是进化赋予的能力。莫良华直言,现在大家所说的纯视觉方案,其实是纯摄像头方案,它缺失了深度这一关键维度,本质上是用二维信息去猜测三维世界,终究会存在信息丢失。

信息缺失带来的后果在极端场景中尤为明显。当遇到无纹理的白墙、强光逆光、夜间黑暗等环境时,二维摄像头的感知能力会大幅下降甚至失效;即使在常规场景中,算法推算的深度信息也存在概率性错误,无法满足物理AI对确定性的要求。

在莫良华看来,从二维理解三维是升维,极其困难。当然不排除有些特别聪明的人,通过大量的训练,也能从二维信息大致理解到三维的情况。摄像头也是如此,采用优秀的算法,通过大量的训练,也能从二维信息得到部分三维信息,比如特斯拉FSD的体验就很好,但这是不够的。如果用了三维信息,FSD可以做得更好。

莫良华用一个生动的类比解释了这一问题:特斯拉就像一智商极高(算法先进)疯狂刷题(海量数据训练)的尖子生,即使高考缺考了物理(深度感知)这一门,也能考上985大学,但如果装备了RGBD空间相机,补齐深度感知的短板,它就能冲刺清华北大甚至姚班。毕竟,自动驾驶关乎生命财产安全,是一个高安全要求的场景,我们不能仅仅满足于985级别的优秀,必须追求更高级别的极致可靠。

莫良华给出了一个深刻洞察:摄像头方案本质上是在二维信息基础上进行极限压榨,而物理AI需要的是能直接感知真实物理空间色彩纹理和深度的类人视觉 基于此,他判断随着对安全冗余要求的提升,引入RGBD空间相机将是特斯拉乃至整个行业技术演进的终极形态

单芯片RGBD,物理AI视觉的未来

1:二维视觉无法直接获取物理空间的纵深维度数据

从法规层面来看,纯摄像头方案也被明确约束。国标《智能网联汽车组合驾驶辅助系统安全要求》和工信部《L3级自动驾驶功能评价细则》均强调,车辆不能依赖单一传感器源,必须具备感知冗余。这一要求背后,正是对物理AI感知安全性的极致追求——单一的二维视觉,无法支撑高安全等级的场景需求。

莫良华指出,法规的制定绝非单纯的行政干预,而是物理世界复杂性的理性敬畏物理世界非常复杂,即便是拥有强大视觉与大脑的人类,在很多场景下也需要触摸、闻嗅甚至品尝来确认信息。多传感器融合是物理AI理解真实世界的必然要求。


02

RGBD空间相机:从物理叠加到芯片级原生融合

解决二维视觉瓶颈的核心,是实现三维感知的工程化落地。目前行业内主流的多传感器方案,是摄像头+激光雷达的分立融合,摄像头负责捕捉色彩与纹理,激光雷达负责测量深度。本质上是一种物理层面的强行叠加,由此带来了三大痛点。

单芯片RGBD,物理AI视觉的未来

2,一站式解决即时定位、地图构建与自主避障

首先是空间对齐难题。摄像头与激光雷达的光学路径、镜头内参均不同,在温度变化、场景切换等复杂场景下,两者的空间对齐难度极大。其次,跨设备的时间对齐也需要额外的技术投入,容易出现同步偏差。最后是成本居高不下,独立的激光雷达与摄像头带来双份硬件成本,再加上叠加融合算法的开发成本,阻碍了方案大规模商业化普及。

正是这些痛点,推动着三维感知技术从分立融合原生融合演进,而单芯片RGBD空间相机,将RGB色彩感知与深度感知集成于一体,成为物理AI感知的新一代选择。

通过单镜头单芯片实现光路完全一致,RGBD空间相机实现了色彩与深度的像素级对齐,空间、时间天然同步,让机器能够像人眼一样,同时捕捉世界的色彩与空间信息。此外还大幅降低了成本与系统复杂度,使得RGBD空间相机的成本接近普通摄像头。

莫良华给出了一个极具前瞻性的预判:三五年内,传统的激光雷达概念将逐渐淡出,取而代之的是全面普及的 RGBD 空间相机。色彩深度在单芯片上完美融合,机器的眼睛将迎来真正的升维。

单芯片RGBD,物理AI视觉的未来

3,RGBD单芯片赋能具身智能应用

这个判断背后是对市场空间的把握。RGBD空间相机的应用场景几乎覆盖了物理AI的全部版图。通用机器人的导航与抓取、割草机器人的自主避障、无人配送车的路径规划、自动驾驶的前视与补盲等场景,都需要色彩+深度的一体化输入。一颗芯片同时输出语义信息和精确的三维坐标,才是物理AI感知效率的终极形态。

然而,要实现RGBD空间相机的工程化量产,必须攻克全固态激光雷达与光扫描两大核心技术壁垒。前者实现了深度感知的成像光学化、芯片化小型化后者则破解了远距离+大视场角+全固态的不可能三角,为RGBD的全场景应用奠定了坚实基础。

RGB摄像头接收端基于成像光学,而半固态/机械式激光雷达接收端基于扫描光学,两者原理不同,无法融合。如果要强行融合,意味着RGB也要改成扫描光学。RGB做扫描光学,曝光时间从30毫秒降到10-20微秒,信噪比差1000倍,太为难它了。莫良华解释道。

全固态激光雷达的接收端同样是成像光学,这是与RGB摄像头实现芯片级融合的物理前提。

目前全固态激光雷达主要分为Flash与光扫描两种技术路线。Flash方案采用一次曝光、全域探测的方式,视场角大,但光功率密度不足,探测距离通常二三十米,无法满足自动驾驶主雷达的远距离需求。

莫良华用通俗的语言解释了这一矛盾:“Flash全固态激光雷达就像汽车近光灯,看得广但看得近;如果需要看得远,就像汽车远光灯,需要把光集中起来,但集中光之后,视场角又会变小。要同时实现远距离和大视场角,就必须引入光扫描技术,让远光灯动起来,通过分时扫描,覆盖更大的空间。

传统的固态光扫描方案,激光利用率极低,通常只有5%左右。这意味着,大部分激光能量被浪费,要实现远距离探测,就需要使用高成本的光源,导致方案难以量产。

阜时科技自研了万向光控全固态光扫描技术,对电光偏转器模组进行了工程创新,优化了不同入射光条件与偏转器结构的匹配关系,大幅降低入射光损耗,将激光利用率提升至80%以上,解决了这一行业痛点。

单芯片RGBD,物理AI视觉的未来

4,阜时科技独家:万向光控光扫描技术

这种光扫描技术的核心,是通过控制电压改变电光晶体光栅参数,从而快速改变出光方向,实现无机械运动的全固态扫描。与传统的机械扫描或MEMS扫描相比,它不仅没有运动部件,可靠性更高,而且激光利用率的提升,让低成本光源也能实现远距离探测,10美元的光源就能实现过去1000美元甚至更贵光源的效果。莫良华解释道。

这项技术确立了阜时科技在行业内的独特地位——它是目前唯一一家能提供200距离大视场全固态激光雷达芯片及完整参考方案的公司。光扫描技术的难点,在于材料与结构的突破。阜时科技2020启动研发以来推翻了数十个设计方案,最终才找到性价比高、可量产的方案。


03

阜时科技:RGBD时代的芯片奠基者

除了万向光控全固态光扫描技术,在RGBD空间相机的技术链条上,阜时科技还建立了多条难以复制的护城河。

如果说光扫描技术是让RGBD空间相机具备远距离感知能力的望远镜,那么SPAD(单光子雪崩二极管)芯片就是提供核心感知能力的视网膜

SPAD芯片可以感知单个光子、实现皮秒级时间分辨,背后技术门槛极高,需要将光子接收、信号处理、数字计算等功能集成于单颗芯片,实现感存算一体。与传统的SiPM模拟方案相比,SPAD芯片属于半导体技术体系,能够充分享受摩尔定律红利,实现性能的快速迭代与成本的持续降低。

SPAD芯片的核心难点,在于高灵敏度与高稳定性的平衡。SPAD器件能够感知单个光子,灵敏度是普通摄像头的100万倍,但要让这种高灵敏度的器件稳定工作,难度极大。

我们在SPAD器件研发上耗时数年投入数亿元资金。历经三次全掩膜流片、近十次小改版,初始迭代涉及上百种规格,逐渐收敛才最终打磨出可量产的方案。莫良华透露,SPAD芯片的研发,不仅需要攻克器件物理层面的底层难题,还需要解决时间数字转换器TDC的皮秒级精度、大规模数字信号处理等一系列复杂技术挑战

值得注意的是,这些技术难题的攻克,需要全栈技术积累。从器件设计、芯片研发,到系统架构、算法优化,任何一个环节的缺失,都无法实现产品的量产落地。正因如此,阜时科技是行业首个且唯一乘用车智驾全固态激光雷达SPAD-SoC芯片供应商

单芯片RGBD,物理AI视觉的未来

5,极氪9X全固态激光雷达

阜时科技的自研SPAD-SoC芯片,已于2025Q4搭载极氪9X正式量产,累计交付数十万颗,在车规大面阵SPAD-SoC芯片月出货量持续保持全球第一。其核心产品FL6031FL6032,在性能上实现了对行业竞品的超越——FL6031分辨率达到360×150FL6032达到288×216,远超索尼IMX459192×56),同时集成了激光器驱动与温度传感器,大幅提升了系统集成度。

成本控制方面,阜时科技的SPAD芯片也展现出极强的竞争力。相对于半固态激光雷达接收1500元的成本,FL6031将成本降至500以下,大幅降低了全固态激光雷达的量产门槛。我们通过芯片集成,将半固态激光雷达上百颗芯片的功能,集成到1平方厘米的单一芯片上,使得系统复杂度呈指数级下降,成本自然随之降低。莫良华表示。

SPAD芯片和光扫描技术解决看多远问题后RGBD融合技术要解决的是怎么看的问题。阜时科技已明确规划了RGBD的演进路线,从双芯片到单芯片,逐步实现色彩与深度的原生融合,引领行业迈入RGBD时代。

目前,阜时科技已协助客户完成RGBD双芯片方案的研发,即将实现量产。方案采用单镜头+双芯片结构,解决了传统分立方案的空间对齐难题,同时降低了成本,适用于割草机器人、低速无人车和车载补盲等近距场景。

单芯片RGBD,物理AI视觉的未来

6,阜时科技SPAD-RGBD芯片引领空间相机终极方案

2027年,阜时将量产集成SPAD-RGBD单芯片的方案。这种单芯片方案,将RGB成像与dToF测距功能集成于一体,实现像素级的原生融合,不仅体积缩小50%以上,功耗降低40%以上,还能实现更高的分辨率与深度精度。

从双芯片到单芯片的跨越,核心难点在于将可见光(RGB)信号与红外线(深度)信号的处理集成在同一芯片上。之前要么单独处理可见光,要么单独处理红外线,现在要把两个光路集成在一起,把信号处理集成在一起,放在同一个芯片上,难度非常大。我们花了三四年时间去攻克。莫良华解释道。

据悉,现在阜时的RGBD空间相机像素达到30-40万,主要用于割草机器人,明年将推出400万像素(等效1440线激光雷达)的可上车方案,2028年将实现800万像素(等效2160线激光雷达)与当前车载摄像头最高像素对齐。

在技术实现上,阜时科技通过自研超小尺寸SPAD工艺、复合滤光技术和自适应并行重构算法,攻克了单芯片融合的核心难题。我们实现了四类工作波段的精准分离,光学串扰率低至万分之一,同时共享读出电路,实现高集成度和低功耗。莫良华表示,这种单芯片方案,将成为物理AI感知的终局解决方案,覆盖车载、机器人、AR/VR等全场景。

单芯片RGBD,物理AI视觉的未来

7,阜时科技SPAD-RGBD芯片引领空间相机终极方案

这一系列的技术突破,源于阜时科技多年的深厚积累。公司自2017年成立起就以机器视觉为核心赛道,布局结构光与双目视觉,并在智能锁领域实现大规模量产,双目3D人脸识别模组更是连续五年蝉联行业出货冠军。这段经历不仅沉淀了阜时科技对机器视觉应用场景的深刻理解,更锤炼出一支具备卓越工程化规模量产能力的精锐团队。

更关键的是,阜时科技的核心团队,拥有丰富的01”的技术创新经验。创始人莫良华是安卓系统触控显示一体化技术的发明人,年赋能超10亿部手机,创数百亿产值,推动国产芯片全球市占率领先。 

阜时科技现有研发人员120余人,涵盖器件物理、模拟IC、数字SoC、算法和系统集成等全栈领域。公司内设研究院,核心研发人员均为世界前100名大学的博士。在研发管理上,阜时采用目标责任制替代传统的细粒度KPI,给予核心骨干期权激励,充分释放研发人员的创新活力。

这种管理模式赋予了阜时科技极强的市场敏锐度,使其研发工作始终紧密围绕市场需求展开。

我们并未局限于单一的接收芯片,而是基于市场痛点,主动布局光扫描技术。因为我们知道,缺乏光扫描技术,全固态激光雷达便无法实现远距离探测,RGBD也无法覆盖全场景应用莫良华表示阜时的研发理念,始终是解决实际难题,这种以市场需求为导向的研发模式,让公司能够精准把握行业趋势,提前布局核心技术。

从结构光、双目视觉到dToFSPAD-SoC,再到RGBD单芯片融合,阜时的技术演进呈现出一条清晰的脉络:始终围绕3D机器视觉底层技术持续深耕,从近距识别走向远距感知,从分立方案走向芯片级融合,进而使得阜时在RGBD空间相机时代具备了先发优势。


04

结语

物理AI的终局,终究要回到第一性原理。

人类视觉从来不是平面的二维投影,而是色彩纹理与深度的天然融合。我们眼中的世界,富有色彩纹理,也包含物体与自身的相对距离。当机器试图用摄像头以纯视觉之名复刻人类驾驶与操作能力时,缺失的正是这关键的一维深度信息。

五亿年前,光敏感性的出现点燃了寒武纪生命大爆发而今天物理AI站在爆发前夜,RGBD空间相机成为机器感知真实世界更敏锐的眼睛。

阜时科技所做的,正是色彩纹理与深度在单颗芯片上完成终极融合,让物理AI拥有进入真实世界的通行证,为这场智能进化提供最底层的感知基础设施。(雷峰网)

长按图片保存图片,分享给好友或朋友圈

正在生成分享图...

取消
相关文章