尖子生不交「废卷」。
作者 | 郭思
编辑 | 陈彩娴
2023年4月,中国AI布道人陆奇在演讲中表示,未来是一个模型无处不在的时代,他更是坚定地预言有一天大模型会在手机上运行。
两个月后,一则关于高通演示Stable Diffusion的视频在网上流传。 视频中,操作人员在一部没有联网的安卓手机上使用了Stable Diffusion 来生成 AI 图像,整个生成时间不超过 15 秒,整个过程完全在终端进行,但是生成效果却没打一点折扣。
陆奇关于大模型会在手机上运行的预言,被高通提前变成了现实。
数据显示,目前已有超过 3000 个可用的生成式 AI 应用和特性,几乎所有全球科技大公司都在积极布局AI大模型。 然而大模型的成败,高度依赖算力支撑。一个人工智能大模型,通常得用数万亿个单词训练,参数量也“飙升”到了上万亿。
以GPT为例,OpenAI在2018年推出的GPT参数为1.17亿,预训练数据量为5GB,而GPT-3参数量达1750亿,预训练数据量达45TB,在模型训练阶段。总算力消耗约为3640 PF-days,总训练成本为1200万美元。国内的华为“盘古”大模型参数最多可达1.085万亿,阿里达摩院M6最新参数已从万亿跃迁至10万亿。
一个共识其实已经形成:谁能解决算力成本,谁便拥有优先话语权。
对此,科学行业众多「优等生」集中开卷,更好的算法,更高能效的芯片,成为主流路线。而高通这个长久以来专注于芯片的「尖子生」却默默提交了一份另辟蹊径的答卷——混合AI。
混合AI聚焦的是对于AI计算的降本增效:
终端和云端协同工作,在适当的场景和时间下分配 AI 计算的工作负载,以提供更好的体验,并高效利用资源,这便是混合AI。
这一理论可以用章鱼这种动物来阐释。章鱼拥有巨量的神经元,60%分布在章鱼的八条腿上,仅有40%在大脑,因此它的触角有独立思考能力且反应敏捷,在捕猎时异常灵巧迅速,腕足之间配合极好,从不会缠绕打结。 章鱼的大脑相当于我们常说的云,而触角则相当于边缘端也就是手机电子设备等终端。 章鱼狩猎时物体最靠近哪边,便使用那个触角。
对于一个AI任务,混合AI这个章鱼会根据模型和查询需求的复杂度等因素,来决定将这个任务丢给哪个触角来处理最快最高效。有时候可能需要A触角,有时候需要A+B触角一起,有时候得丢给大脑,一切根据处理任务的复杂来决定。
例如,如果模型大小、提示(prompt)和生成长度小于某个限定值,并且能够提供可接受的精确度,推理即可完全在终端侧进行。如果是更复杂的任务,模型则可以跨云端和终端运行。
除此之外,混合 AI 还能支持模型在终端侧和云端同时运行,也就是在终端侧运行轻量版模型时,在云端并行处理完整模型的多个标记(token),并在需要时更正终端侧的处理结果。这能极大限度地解决能耗和成本问题。
隐私方面,这个章鱼也处理得得心应手,直接从源头减少数据运输过程,隐私泄露的问题便不复存在。 高通指出,混合 AI 架构中有一个“隐私模式”,当用户利用终端侧 AI 向聊天机器人输入健康问题或创业想法等敏感话题时,这个模式会自动开启。
人世间数百万个闲暇的小时流逝过去,方始出现一个真正的历史性时刻,对一个问题数千种同质思考,出现了一丝细微的变化,这便是创新的源头。
但高通的AI实力并不仅限于提出一个创新性理念,它的AI王国早已通过具体的落地地基得以搭建。 与以往的边缘计算一样,混合AI概念十分前卫,但要完美落地,仍需要满足多方条件。
硬件上,AI端侧需要使用计算能力强和存储容量大的终端设备,算法上,为了将AI模型部署到边缘设备上,需要优化算法,使其能够适应较小的计算资源和存储空间。同时AI端侧需要有高质量的本地数据来帮助进行推理。
这三点,却恰恰好是高通的综合优势。
数据显示,搭载高通 AI 引擎的终端设备产品出货量已超过 20 亿,高通以极低功耗提供业界领先的终端侧 AI 性能,提供完美硬件。
在算法上,高通有一批专门的研究团队从事神经网络架构开发和调整工作。 拿最火的视频产业举例,主流视频算法做法是用卷积神经网络处理视频,但这其实是一个计算量巨大的任务。卷积处理图像时需要——将图像完整地“扫”一遍,有时会浪费巨大的算力,但真正的视频,往往存在大量变化不大的场景。 针对这一问题,高通推出的FrameExit 模型由多个级联分类器组成,可以随着视频帧的复杂度,来改变模型所用的神经元数量。
简而言之,FrameExit就是一个会偷懒的计算模型,有点类似于一个高效的管理者,深谙资源调配之道。当看到视频前后帧差异大的时候,AI会用整个模型计算;前后帧差异小的时候,则只用模型的一部分计算。相比于其他模型,这种方法最高甚至能提升5倍的性能,与此同时,神经网络检测的精确度也大幅增加。
在软件方面,高通推出的 AI 软件栈将各种AI软件产品整合到一个软件包,这对于AI工作者而言便是一个能满足各种需求的AI"淘宝"。 里面有琳琅满目的主流AI 框架(TensorFlow、PyTorch、ONNX等),亦集成了推理软件开发包(SDK),基础的实时操作系统(RTOS)、系统接口和驱动程序以及广泛的操作系统和用于部署和监控的基础设施;小打袜子,大到冬衣,用户都可以在淘宝解决,同理,从模型设计到优化、部署和分析,这一系列完整工作,开发者都可以在高通AI 软件栈里完成。
更有意思的是,在高通AI 软件栈开发出的大模型可以在不同地方使用,同时可以与混合AI部署相结合,「黄金长矛」和「胜利之盾」同时握在高通之手,生成式AI规模化扩展与普及,指日可待。
从时间维度上而言,高通对 AI 的布局其实由来已久。
2013年,高通Zeroth 处理器发布,采用了仿生自生物大脑的神经元架构,能够不依赖编程、而是通过反复的“观察”和“自学习”,实现程序、性能的自我进化。
回顾整个高通AI的布局,Zeroth是重要节点,却仅仅只是一个开始。
2015年,高通在世界移动大会(MEC)上展示了照片分类和手写识别应用、同年与阿姆斯特丹大学建立联合研究实验室,并发布了第一代人工智能产品(骁龙820)。骁龙820集成了首个专门面向移动平台的高通AI引擎,支持图像、音频和传感器的运算。
2016年,为了在各类设备上实现基于深度学习的软件开发,高通为骁龙系列移动处理器开发了“神经处理引擎”(NPE),并为其发布了SDK(开发工具包),这个SDK的发布,可以让软件开发者更好地利用移动端芯片的深度学习能力。一经发布,便被FaceBook(现Meta)等知名企业相中,通过高通NPE,FaceBook的照片和直播视频中的现实增强功能性能提升了5倍。
2019年,高通正式发布骁龙865移动平台,支持许多移动端的新老应用,包括AI实时语音翻译、人像留色、背景虚化、AI一键多拍、夜景拍摄与人像智能识别。
2022年,高通在AI生态上再推利器,推出高通AI软件栈(Qualcomm AI Stack),为开发者提供了一个绝佳平台(上文已有详细阐述)。而此次高通白皮书发布,混合式的AI的提出再次让我们看到了高通在AI布局上的决心和其长远的规划。
一家拥有全球基因的硬件公司在算力成本上的范式创新,这种突破性在AI赛道上已经属于前无古人,也很有可能成为一种里程碑式的存在。
同时,它留下的想象空间也是巨大的。
这种想象空间源于高通不断自我革新的突破精神。
另一个层面,众多早已扎根的应用领域,加上高通在硬件领域的优势,会进一步扩大高通AI布局的外延。 “我们的 AI 能力赋能一系列广泛的产品,包括手机、汽车、XR、PC 和物联网。”高通白皮书如是说。 比如,在汽车领域,高通推出了 5 纳米工艺制程打造的首款可扩展自动驾驶 SoC 平台。本田、梅赛德斯、雷诺、沃尔沃等数十家厂商都搭载了这个平台。
未来,AI将赋能更加智能的人车交互体验,比如在高通数字座舱里,用户可以体验到真正意义上的“和自己的车对话”。你可以告诉你的车:“导航带我去机场,但是在去机场的路上,我要找个地方吃个汉堡,再找个地方喝某种口味的咖啡,顺便把我之前干洗的衣服取了。”对于这一切要求,「贴心管家」AI都将能高效完成。 “因为与其他商用终端不同,在汽车里出现任何一个小错误都可能带来非常严重的后果。所以我们在确保提供最佳体验的同时,也要确保极高的准确性。”高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar表示。
与此同时,结合搭载高通平台的各项设备,混合AI在保护用户隐私的基础上,可以应用于包括高通AI引擎支持的全球40%的手机、高通16000 家的客户相关的物联网设备、65 款采用高通骁龙平台的 XR 终端及未来其他的智能设备等,推动高通实现在AI领域的无界延展。
混合AI让「大模型在终端上运行」这件事从将来时变成了进行时。 高通在一定程度上,也会从一家传统芯片企业,成为AI领域极具潜力的黑马。 翻开高通的白皮书的最后一页,对于混合AI,高通总结道,凭借具备前瞻性的早期研究和产品开发投入,目前骁龙平台能够支持参数超过 10 亿的生成式 AI 模型,并即将支持 100 亿或更多参数的模型。
高度凝练,只说数据,正如高通多年以来呈现在大众眼前的形象。在现今的环境下,或许对于AI行业而言,只有高度凝练的“真”,才能不负这个时代。如果我们把科技企业放在这样一个维度上要求,对于高通混合AI即将带来的颠覆,这一次或许值得期待。
白皮书链接:https://www.qualcomm.cn/ 【雷峰网】 【雷峰网】 【雷峰网(公众号:雷峰网)】