生成式AI预训练大模型的能力越来越强大,吸引了更多人探索大模型在端侧的落地应用。
不过在生成式AI火爆之前,CNN已经让端侧拥有了AI能力,所以让人更关心的问题是,端侧大模型会带来革命性的变化吗?
2024世界人工智能大会期间,爱芯元智创始人、董事长仇肖莘对雷峰网(公众号:雷峰网)表示,“目前端侧大模型的应用还是探索阶段,还不好判断是否会带来颠覆。”
爱芯元智创始人、董事长 仇肖莘
在世界人工智能大会期间,爱芯元智主办的“芯领未来丨智能芯片及多模态大模型论坛”上,智慧物联和人工智能创新融合专家殷俊分享,“不应该让用户放弃原有的技术投资,而是要通过大小模型协同和模型小型化,实现最优算力配置,来加快大模型行业落地。”
这是一个值得进一步探讨的话题,端侧大模型落地到底面临哪些挑战?会在哪些场景先落地?又会带来怎样的变化?
端侧大模型到底是不是一场革命?
包括智能手机、城市中随处可见的摄像头几年前已经经历过一轮AI浪潮,借助CNN、RNN等AI算法,手机能够AI拍照、美颜,摄像头也能识别车牌,统计人流等,虽然不够完美,但已经广泛应用。
端侧大模型要带来革命性的变革不仅要效果更好,而且可能要比传统AI方案成本更低,目前业界都还处于探索阶段,技术的变革并非一夜之间发生。
“我们做AI-ISP已经很多年,今年突然成为了爆款。”仇肖莘说,“传统的ISP降噪、防抖功能是通过硬件模块实现,AI-ISP用算法取代了这些模块,但AI算法也只是将传统ISP通路中20多个模块中的几个换成了AI算法。”
同样的道理,端侧大模型是否能带来颠覆,以及何时会带来颠覆,也还值得探讨。
在谈颠覆之前,端侧大模型首先应该解决的是落地的问题。
殷俊认为,大模型在文本、语音等领域快速发展,但在视觉领域的落地却面临可靠性、稳定性、理解不够全面等挑战,真实准确描述客观世界是视觉大模型落地的关键。
算力、内存和带宽都是端侧大模型落地最底层的挑战。
“大模型在端侧的落地,内存大小、带宽的限制超过了算力限制。”仇肖莘进一步表示,“算力可以很大,但数据会成为瓶颈,芯片一定要和算法做联合优化。”
业界也正在积极探索端侧大模型落地内存和带宽限制的问题,比如探索DDR用Wafer to Wafer的形式,实现1024个通道,解决带宽和延迟的问题。又或者开发出能够在端侧使用的HBM,解决数据墙问题。
技术向前演进的同时应用的探索也在加速,仇肖莘认为汽车、手机、PC都将是率先落地端侧大模型的场景。
这些场景无疑需要原生支持Transformer架构的处理器。
押中生成式AI,原生支持Transformer有10倍性能优势
爱芯元智在世界人工智能大会2024上正式发布了爱芯通元AI处理器,在高中低三档算力中已完成布局,已经在智慧城市和辅助驾驶两个领域实现了规模化量产,并且可以支持以文搜图、通用检测、以图生文、AI Agent等通用大模型应用。
这是一个有趣的话题,爱芯通元混合精度NPU早在2021年就已经立项,2022年年中回片,并在年底向客户销售,三年前设计的芯片为什么能原生支持Transformer?
爱芯元智联合创始人、副总裁刘建伟介绍,爱芯元智NPU设计是AI处理器的设计思路,从一开始就考虑各种模型结构包括Transformer等模型的算子支持,爱芯通元AI处理器的核心是算子指令集和数据流微架构。底层采用可编程数据流的微架构提高能效和算力密度。同时,爱芯通元的灵活性也保证了算子指令集的完备性,支撑各种AI的应用。
还有爱芯通元成熟的软件工具链可以让开发者快速上手,也能够快速实现对端侧大模型的适配。
今年四月,爱芯元智就基于AX650N平台完成了Llama 3 8B和Phi-3-mini模型的适配。
爱芯通元V4(AX630C)也已经适配了通义千问0.5B、TinyLlama-1.1 1.1B模型的适配,Token速度也不错。
“爱芯通元AI处理器现在最高支持7B参数的模型。”仇肖莘表示,“我们也注意到苹果手机上的大模型是3B,落地边缘侧和端侧模型的参数大小预计是3B-7B。”
如果模型的参数更大,带来的是更智能,但也更考验芯片和算法的联合调优。
“模型的轻量化很重要,这时候混合精度就非常有价值。比如同样是7B参数,如果用混合精度可以将计算和存储的需求都降低,爱芯通元就支持混合精度。”仇肖莘指出。
得益于爱芯通元采用的DSA架构,相比英伟达GPGPU架构,在端侧Transformer架构推理场景,爱芯通元AI处理器相比英伟达有10倍的性能优势。
爱芯元智会基于这些优势在哪些场景做探索?
手机和汽车两大端侧大模型落地场景
“从此前的单模态,到现在的多模态,AI检测的效率、准确度都会更高,应用场景也会更多。”仇肖莘认为。
手机、PC和汽车无疑是当下端侧大模型最适合落地的场景。
“我们已经接触了很多手机厂商,以及手机芯片厂商,探讨将我们的IP集成到他们SoC里的可能性。”仇肖莘透露。
另外智能手机现在想要快速实现对生成式AI的支持,可以在SoC之外增加一个协处理器,这样做的劣势是成本高,应该是一个临时的解决方案。
“未来一定是在手机SoC中集成NPU,但要集成多大算力的NPU,能够支持手机各种应用的同时成本又不太高,苹果和国内手机厂商的探索都很重要。”仇肖莘说。
汽车的计算实时性需求,以及对智能化的需求,也让汽车成为了落地端侧大模型一个重要的市场。
如今汽车行业关注端到端,比如信号通过ISP之后是否可以通过黑盒子的大模型直接成像、出执行策略,通过大模型降低系统的复杂性,这都是端侧大模型在汽车行业落地非常好的场景。
爱芯元智的AI芯片在2022年下半年就已经通过了车规,基于成熟的工具链很快就做出了demo通过Tire1提供给主机厂。
“我们的时机比较好,那时候国内缺性价比的智驾方案,加上国内的车企比较愿意尝试新方案,很快就拿到了定点。”仇肖莘认为,“目前汽车智能化是一个很好的市场,特别是10万及以下级别汽车的法律法规市场,比如7月份欧盟要求汽车的主动安全变成强制标配,用于减少交通事故,国内主动安全带动的装配量也会快速增长。”
爱芯元智瞄准的是售价10万以下汽车的L2、L2+智能驾驶场景,性价比就是关键。
爱芯元智降低成本的方法是将芯片平台化,也就是取不同应用场景需求的最大公约数设计芯片并平台化,用同一个平台面向不同市场,通过大量出货降低芯片成本。
仇肖莘指出,爱芯元智要做普惠AI,智慧城市是爱芯元智增长的第一曲线,第二曲线是智能驾驶,现在也在探索边缘计算和具身智能。
从传统CV算法到Transformer,从智慧城市到智能汽车再到未来的具身智能,爱芯元智不仅前瞻性的看准了算法演进的方向,还非常明确要做普惠AI以性价比立足市场,无论是技术路线还是战略,爱芯元智显然走在正确的道路上。雷峰网