单芯片RGBD，物理AI视觉的未来

RGBD 激光雷达芯片阜时科技莫良华

作者：郑浩钧

2026/05/28 10:00

作者丨郑浩钧

编辑丨田哲

随着数字AI的蓬勃发展，AI逐渐从数字世界扩散到物理世界，物理AI正成为科技界关注的重点。理想汽车、荣耀、轻舟智航、元戎启行——无论是车厂、手机厂还是智驾供应商，都在高调宣布进军“物理AI”。

在5亿多年前，地球迎来“寒武纪生命大爆发”时期，生命体的复杂性呈指数级跃升。动物学家安德鲁·帕克（Andrew Parker）认为，这场演进的导火索是“光敏感性”的出现——当生命开始感知光，视觉便成为了物种进化的核心驱动力。

如今，当物理AI站在爆发前夜，视觉感知能力的进化，同样成为了决定产业格局的关键变量。从智能驾驶到人形机器人，物理AI对感知的核心诉求始终不变：让机器“看懂”三维世界。而这一切的实现，离不开底层感知技术的突破。

一个正在形成的行业共识是：物理AI的下一代视觉感知方案，不是二维摄像头对三维世界的概率推测，而是色彩（RGB）与深度（Depth）在芯片层面的原生融合——这，就是RGBD空间相机。

在这次视觉感知能力的进化中，阜时科技作为国内唯一实现SPAD芯片从器件设计到车规量产全链条自主可控的芯片设计公司，早已在RGBD路线上完成了布局。

从结构光与双目视觉的大规模量产积淀，到dToF与SPAD-SoC的全链条自主可控；从即将量产的RGBD双芯片，到迈向终极融合的RGBD单芯片前瞻布局，阜时科技的每一步跨越，都在回应一个关乎未来的根本命题：当物理AI亟需一双“更敏锐的眼睛”来理解真实世界，究竟什么样的传感器，才能定义下一个十年的感知基准？

物理AI的感知困境：纯视觉路线的天花板

数字AI与物理AI的核心区别，在于是否需要与真实的物理世界产生交互。

“数字AI处理的是文本、代码、图像等虚拟信息，允许概率性错误的存在。而物理AI要理解并作用于三维世界，它的感知必须是精准、实时且低容错的。”阜时科技董事长莫良华对雷峰网(公众号：雷峰网)清晰界定了两者的差异。

人类驾驶汽车、抓取物品的日常行为，背后是视觉系统对色彩、纹理与深度的天然融合——我们既能感知周围环境的大致轮廓，也能精准捕捉针尖大小的物体。

莫良华举了一个更直观的例子：人在房间里的空间感知精度大约在1米级别，但拿起桌面上的一根细针时，精度需要瞬间提升到0.1毫米，精度相差万倍。这种从1米到0.1毫米的精度切换，是机器视觉难以复刻的能力。

当前主流的摄像头方案，本质上是三维世界在平面的投影，如同把三维世界压缩到一张可打印的纸张，无法直接获取物体的三维空间坐标。

试图用二维视觉推算三维信息，不仅面临着巨大的技术挑战，更存在无法规避的安全隐患。莫良华举例说明：“当自动驾驶汽车以每秒30多米的速度在高速飞驰，若依赖算法从二维图像中‘推算’深度，遇到复杂或未见过的场景时，计算延迟可能导致事故发生；同样，机器人抓取精密零部件时，一旦深度感知出现偏差，不仅会损坏部件，更可能造成生产事故。”

物理世界的复杂性，导致物理AI对容错率的要求十分苛刻。数字AI的“一本正经的错误”可以被容忍，但物理AI的一次感知失误，可能关乎生命与财产安全。这就决定了物理AI的感知，必须基于对三维世界的直接测量，而非概率性推算。

当前行业内关于自动驾驶感知路线的争议，核心在于“纯视觉”与“多传感器融合”的抉择。马斯克倡导的纯视觉路线，凭借海量数据与强大算法，在部分场景中实现了较好的表现，但从第一性原理来看，其底层存在无法逾越的短板。

“人类的视觉本身就是RGB（色彩）与D（深度）的融合，这是进化赋予的能力。”莫良华直言，“现在大家所说的纯视觉方案，其实是纯摄像头方案，它缺失了深度这一关键维度，本质上是用二维信息去猜测三维世界，终究会存在信息丢失。”

信息缺失带来的后果在极端场景中尤为明显。当遇到无纹理的白墙、强光逆光、夜间黑暗等环境时，二维摄像头的感知能力会大幅下降甚至失效；即使在常规场景中，算法推算的深度信息也存在概率性错误，无法满足物理AI对确定性的要求。

在莫良华看来，从二维理解三维是升维，极其困难。“当然不排除有些特别聪明的人，通过大量的训练，也能从二维信息大致理解到三维的情况。摄像头也是如此，采用优秀的算法，通过大量的训练，也能从二维信息得到部分三维信息，比如特斯拉FSD的体验就很好，但这是不够的。如果用了三维信息，FSD可以做得更好。”

莫良华用一个生动的类比解释了这一问题：“特斯拉就像一位智商极高（算法先进）且疯狂刷题（海量数据训练）的尖子生，即使高考缺考了物理（深度感知）这一门，也能考上985大学，但如果装备了RGBD空间相机，补齐深度感知的短板，它就能冲刺清华北大甚至姚班。毕竟，自动驾驶关乎生命财产安全，是一个高安全要求的场景，我们不能仅仅满足于985级别的优秀，必须追求更高级别的极致可靠。”

莫良华给出了一个深刻洞察：纯摄像头方案本质上是在二维信息基础上进行极限压榨，而物理AI需要的是能直接感知真实物理空间色彩纹理和深度的类人视觉。基于此，他判断：“随着对安全冗余要求的提升，引入RGBD空间相机将是特斯拉乃至整个行业技术演进的终极形态。”

图1：二维视觉无法直接获取物理空间的纵深维度数据

从法规层面来看，纯摄像头方案也被明确约束。国标《智能网联汽车组合驾驶辅助系统安全要求》和工信部《L3级自动驾驶功能评价细则》均强调，车辆不能依赖单一传感器源，必须具备感知冗余。这一要求背后，正是对物理AI感知安全性的极致追求——单一的二维视觉，无法支撑高安全等级的场景需求。

莫良华指出，法规的制定绝非单纯的行政干预，而是对物理世界复杂性的理性敬畏。“物理世界非常复杂，即便是拥有强大视觉与大脑的人类，在很多场景下也需要触摸、闻嗅甚至品尝来确认信息。多传感器融合是物理AI理解真实世界的必然要求。”

RGBD空间相机：从物理叠加到芯片级原生融合

解决二维视觉瓶颈的核心，是实现三维感知的工程化落地。目前行业内主流的多传感器方案，是“摄像头+激光雷达”的分立融合，摄像头负责捕捉色彩与纹理，激光雷达负责测量深度。本质上是一种物理层面的强行叠加，由此带来了三大痛点。

图2，一站式解决即时定位、地图构建与自主避障

首先是空间对齐难题。摄像头与激光雷达的光学路径、镜头内参均不同，在温度变化、场景切换等复杂场景下，两者的空间对齐难度极大。其次，跨设备的时间对齐也需要额外的技术投入，容易出现同步偏差。最后是成本居高不下，独立的激光雷达与摄像头带来双份硬件成本，再加上叠加融合算法的开发成本，阻碍了方案的大规模商业化普及。

正是这些痛点，推动着三维感知技术从“分立融合”向“原生融合”演进，而单芯片RGBD空间相机，将RGB色彩感知与深度感知集成于一体，成为物理AI感知的新一代选择。

通过单镜头单芯片实现光路完全一致，RGBD空间相机实现了色彩与深度的像素级对齐，空间、时间天然同步，让机器能够像人眼一样，同时捕捉世界的色彩与空间信息。此外还大幅降低了成本与系统复杂度，使得RGBD空间相机的成本接近普通摄像头。

莫良华给出了一个极具前瞻性的预判：“三五年内，传统的激光雷达概念将逐渐淡出，取而代之的是全面普及的 RGBD 空间相机。”当色彩与深度在单芯片上完美融合，机器的眼睛将迎来真正的升维。

图3，RGBD单芯片赋能具身智能应用

这个判断背后是对市场空间的把握。RGBD空间相机的应用场景几乎覆盖了物理AI的全部版图。通用机器人的导航与抓取、割草机器人的自主避障、无人配送车的路径规划、自动驾驶的前视与补盲等场景，都需要“色彩+深度”的一体化输入。一颗芯片同时输出语义信息和精确的三维坐标，才是物理AI感知效率的终极形态。

然而，要实现RGBD空间相机的工程化量产，必须攻克全固态激光雷达与光扫描两大核心技术壁垒。前者实现了深度感知的成像光学化、芯片化与小型化；后者则破解了“远距离+大视场角+全固态”的不可能三角，为RGBD的全场景应用奠定了坚实基础。

RGB摄像头接收端基于成像光学，而半固态/机械式激光雷达接收端基于扫描光学，两者原理不同，无法融合。如果要强行融合，意味着RGB也要改成扫描光学。“让RGB做扫描光学，曝光时间从30毫秒降到10-20微秒，信噪比差1000倍，太为难它了。”莫良华解释道。

全固态激光雷达的接收端同样是成像光学，这是与RGB摄像头实现芯片级融合的物理前提。

目前，全固态激光雷达主要分为Flash与光扫描两种技术路线。Flash方案采用“一次曝光、全域探测”的方式，视场角大，但光功率密度不足，探测距离通常仅二三十米，无法满足自动驾驶主雷达的远距离需求。

莫良华用通俗的语言解释了这一矛盾：“Flash全固态激光雷达就像汽车近光灯，看得广但看得近；如果需要看得远，就像汽车远光灯，需要把光集中起来，但集中光之后，视场角又会变小。要同时实现远距离和大视场角，就必须引入光扫描技术，让‘远光灯’动起来，通过分时扫描，覆盖更大的空间。”

传统的固态光扫描方案，激光利用率极低，通常只有5%左右。这意味着，大部分激光能量被浪费，要实现远距离探测，就需要使用高成本的光源，导致方案难以量产。

阜时科技自研了“万向光控”全固态光扫描技术，对电光偏转器模组进行了工程创新，优化了不同入射光条件与偏转器结构的匹配关系，大幅降低入射光损耗，将激光利用率提升至80%以上，解决了这一行业痛点。

图4，阜时科技独家：万向光控光扫描技术

这种光扫描技术的核心，是通过控制电压改变电光晶体光栅参数，从而快速改变出光方向，实现无机械运动的全固态扫描。与传统的机械扫描或MEMS扫描相比，它不仅没有运动部件，可靠性更高，而且激光利用率的提升，让低成本光源也能实现远距离探测，“用10美元的光源就能实现过去1000美元甚至更贵光源的效果。”莫良华解释道。

这项技术确立了阜时科技在行业内的独特地位——它是目前唯一一家能提供200米远距离、大视场角全固态激光雷达芯片及完整参考方案的公司。光扫描技术的难点，在于材料与结构的突破。阜时科技自2020年启动研发以来，推翻了数十个设计方案，最终才找到性价比高、可量产的方案。

阜时科技：RGBD时代的芯片奠基者

除了“万向光控”全固态光扫描技术，在RGBD空间相机的技术链条上，阜时科技还建立了多条难以复制的护城河。

如果说光扫描技术是让RGBD空间相机具备远距离感知能力的“望远镜”，那么SPAD（单光子雪崩二极管）芯片就是提供核心感知能力的“视网膜”。

SPAD芯片可以感知单个光子、实现皮秒级时间分辨，背后技术门槛极高，需要将光子接收、信号处理、数字计算等功能集成于单颗芯片，实现感存算一体。与传统的SiPM模拟方案相比，SPAD芯片属于半导体技术体系，能够充分享受摩尔定律红利，实现性能的快速迭代与成本的持续降低。

SPAD芯片的核心难点，在于高灵敏度与高稳定性的平衡。SPAD器件能够感知单个光子，灵敏度是普通摄像头的100万倍，但要让这种高灵敏度的器件稳定工作，难度极大。

“我们在SPAD器件研发上耗时数年，投入数亿元资金。历经三次全掩膜流片、近十次小改版，初始迭代涉及上百种规格，逐渐收敛才最终打磨出可量产的方案。”莫良华透露，SPAD芯片的研发，不仅需要攻克器件物理层面的底层难题，还需要解决时间数字转换器（TDC）的皮秒级精度、大规模数字信号处理等一系列复杂技术挑战。

值得注意的是，这些技术难题的攻克，需要全栈技术积累。从器件设计、芯片研发，到系统架构、算法优化，任何一个环节的缺失，都无法实现产品的量产落地。正因如此，阜时科技是行业首个且唯一乘用车智驾全固态激光雷达SPAD-SoC芯片供应商。

图5，极氪9X全固态激光雷达

阜时科技的自研SPAD-SoC芯片，已于2025年Q4搭载极氪9X正式量产，累计交付数十万颗，在车规大面阵SPAD-SoC芯片月出货量持续保持全球第一。其核心产品FL6031和FL6032，在性能上实现了对行业竞品的超越——FL6031分辨率达到360×150，FL6032达到288×216，远超索尼IMX459（192×56），同时集成了激光器驱动与温度传感器，大幅提升了系统集成度。

成本控制方面，阜时科技的SPAD芯片也展现出极强的竞争力。相对于半固态激光雷达接收端1500元的成本，FL6031将成本降至500元以下，大幅降低了全固态激光雷达的量产门槛。“我们通过芯片集成，将半固态激光雷达的上百颗芯片的功能，集成到1平方厘米的单一芯片上，使得系统复杂度呈指数级下降，成本自然随之降低。”莫良华表示。

在SPAD芯片和光扫描技术解决“看多远”的问题后，RGBD融合技术要解决的是“怎么看”的问题。阜时科技已明确规划了RGBD的演进路线，从双芯片到单芯片，逐步实现色彩与深度的原生融合，引领行业迈入RGBD时代。

目前，阜时科技已协助客户完成RGBD双芯片方案的研发，即将实现量产。该方案采用“单镜头+双芯片”结构，解决了传统分立方案的空间对齐难题，同时降低了成本，适用于割草机器人、低速无人车和车载补盲等近距场景。

图6，阜时科技SPAD-RGBD芯片引领空间相机终极方案

2027年，阜时将量产集成SPAD-RGBD单芯片的方案。这种单芯片方案，将RGB成像与dToF测距功能集成于一体，实现像素级的原生融合，不仅体积缩小50%以上，功耗降低40%以上，还能实现更高的分辨率与深度精度。

从双芯片到单芯片的跨越，核心难点在于将可见光（RGB）信号与红外线（深度）信号的处理集成在同一芯片上。“之前要么单独处理可见光，要么单独处理红外线，现在要把两个光路集成在一起，把信号处理集成在一起，放在同一个芯片上，难度非常大。我们花了三四年时间去攻克。”莫良华解释道。

据悉，现在阜时的RGBD空间相机像素达到30-40万，主要用于割草机器人，明年将推出400万像素（等效1440线激光雷达）的可上车方案，2028年将实现800万像素（等效2160线激光雷达），与当前车载摄像头最高像素对齐。

在技术实现上，阜时科技通过自研超小尺寸SPAD工艺、复合滤光技术和自适应并行重构算法，攻克了单芯片融合的核心难题。“我们实现了四类工作波段的精准分离，光学串扰率低至万分之一，同时共享读出电路，实现高集成度和低功耗。”莫良华表示，这种单芯片方案，将成为物理AI感知的终局解决方案，覆盖车载、机器人、AR/VR等全场景。

图7，阜时科技SPAD-RGBD芯片引领空间相机终极方案

这一系列的技术突破，源于阜时科技多年的深厚积累。公司自2017年成立起就以机器视觉为核心赛道，布局结构光与双目视觉，并在智能锁领域实现大规模量产，双目3D人脸识别模组更是连续五年蝉联行业出货冠军。这段经历不仅沉淀了阜时科技对机器视觉应用场景的深刻理解，更锤炼出一支具备卓越工程化规模量产能力的精锐团队。

更关键的是，阜时科技的核心团队，拥有丰富的“从0到1”的技术创新经验。创始人莫良华是安卓系统触控显示一体化技术的发明人，年赋能超10亿部手机，创数百亿产值，推动国产芯片全球市占率领先。

阜时科技现有研发人员120余人，涵盖器件物理、模拟IC、数字SoC、算法和系统集成等全栈领域。公司内设研究院，核心研发人员均为世界前100名大学的博士。在研发管理上，阜时采用“目标责任制”替代传统的细粒度KPI，给予核心骨干期权激励，充分释放研发人员的创新活力。

这种管理模式赋予了阜时科技极强的市场敏锐度，使其研发工作始终紧密围绕市场需求展开。

“我们并未局限于单一的接收芯片，而是基于市场痛点，主动布局光扫描技术。因为我们知道，缺乏光扫描技术，全固态激光雷达便无法实现远距离探测，RGBD也无法覆盖全场景应用。”莫良华表示。阜时的研发理念，始终是解决实际难题，这种以市场需求为导向的研发模式，让公司能够精准把握行业趋势，提前布局核心技术。

从结构光、双目视觉到dToF、SPAD-SoC，再到RGBD单芯片融合，阜时的技术演进呈现出一条清晰的脉络：始终围绕3D机器视觉底层技术持续深耕，从近距识别走向远距感知，从分立方案走向芯片级融合，进而使得阜时在RGBD空间相机时代具备了先发优势。

结语

物理AI的终局，终究要回到第一性原理。

人类视觉，从来不是平面的二维投影，而是色彩纹理与深度的天然融合。我们眼中的世界，既富有色彩纹理，也包含物体与自身的相对距离。当机器试图用摄像头以“纯视觉”之名复刻人类的驾驶与操作能力时，缺失的正是这关键的一维深度信息。

五亿年前，光敏感性的出现点燃了寒武纪生命大爆发；而今天，物理AI正站在爆发前夜，RGBD空间相机将成为机器感知真实世界更敏锐的眼睛。

阜时科技所做的，正是让色彩纹理与深度在单颗芯片上完成终极融合，让物理AI拥有进入真实世界的通行证，为这场智能进化提供最底层的感知基础设施。（雷峰网）