2024 上半年, OpenAI 的成果从世界模拟器 Sora,到首个实现多模态 in 到多模态 out 的 GPT-4o ,仍在强势推进着迈向 AGI 的节奏。面对技术上的差距,追赶 OpenAI ——是这场人工智能革命浪潮发展至今, AI 界仍在追求的目标和努力的方向。
但其实,当下的 AI 技术尚处于高速迭代的过程,依然有非常多有挑战性的问题没有被解决,而其中的研究趋势和范式也不一定只有 OpenAI 才能引领。国内对人工智能对研究不应是亦步亦趋,也不应止于 OpenAI。
几乎与 OpenAI 同期捕捉到大模型的机遇,2018 即年成立的北京智源人工智能研究院推出我国首个大模型「悟道」,并一直承担着中国在人工智能行业原始创新的角色。一位悟道大模型的早期参与者告诉 AI 科技评论,「眼光和魄力」力是智源在在本次大模型浪潮中的可贵之处,甚至在最开始国内大模型起步阶段,智源会毫不犹豫地给予经费和算力支持。
如今的智源已走过 6 个年头,在第六届北京智源大会上值得注意的是,不同于以往从悟道 1.0 到 3.0 所推出的系列模型,本次智源推出了大模型全家桶,分别是大语言模型系列、多模态模型系列、具身智能大模型、生物计算大模型。这背后的原因是,今年 2 月王仲远接任智源研究院院长,带领智源团队基于大模型通往 AGI 的技术路径的研判,对未来三到五年的战略规划进行了重新的梳理和判断。
「智源不会去做各企业已经在做的、重复性事情,而是去做原始性的创新,要去攻克的是业界的关键痛点抑或是前沿技术的热点,真正为中国去做技术突破。」智源人工智能研究院院长王仲远说道。
基于这一理念,在具身智能、生物计算等十分前沿的领域中,智源起到提前布局的开创性引领作用,打出了「人无我有」的先手,推出了具身大模型,在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果。在国内发展尚不成熟的生物计算大模型中,智源研发了全原子生物分子模型OpenComplex 2。
在国内争相突破万亿语言模型的节奏下,智源能做到「人有我优」,研发了全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。多模态大模型层面,智源并没有采用 DiT 架构,而是押注自回归路线研发了原生多模态世界模型 Emu 3,同时也推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B。
正如智谱 CEO 张鹏在智源大会上所说,智源从最早被定义成为 NGO 的偏新型研发机构,发展到今天已成为国内甚至国际人工智能领域的一面旗帜。智源也已经为中国人工智能界奠定了研究基础,培养了诸多当下业界中的顶尖人才,使得后人能够站在巨人的肩膀上进一步看到更广阔的 AI 世界。
而当下的智源亦坚持初衷,不懈怠脚步。「令人惊艳的东西不能只出现在大洋的彼岸。」王仲远说道。
一、0-1 的原始性创新
「大模型的思潮和很多技术都是从智源发展起来的。」百川智能创始人王小川在 2024 智源大会上说道。
当下,非营利性科研组织站位使得智源既有技术高度,又有智库的角色,能更多的进行0-1的原始性创新。
解决万亿参数模型的收敛痛点
万亿参数模型,是今年各大模型厂商的必争之地。
模型规模的提升,带来了模型精度的提升,但因为参数量规模过大,也对模型的训练带来了极大的挑战,包括内存需求大、网络通信量大、训练或推理性能低等问题,常常难以收敛。因此,今年市面上见到的更多为稀疏激活模型,较少有单体稠密的万亿参数模型。
可以说,现在的大模型生态格局中,缺少一个单体稠密万亿参数模型。王仲远告诉 AI 科技评论,智源在做的事是解决这一痛点,当某家厂商需要训练万亿乃至更大规模参数模型的时候,无需从头去解决收敛等一系列问题,开源社区中有一个好的初始化的版本,这时再基于更强的算力和数据量即可对模型进行进一步迭代,不再从头造轮子。
巨大算力消耗是大参数模型无法避开的问题。对此,智源联合中国电信人工智能研究院开发了基于模型生长和损失预测等关键技术,推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T能够提高训练效率,降低能耗,实现低碳生长。该模型与百亿级的 52B 版本,千亿级的 102B 版本共同构成Tele-FLM系列模型。
仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型 Tele-FLM-1T。模型训练全程做到了零调整零重试,算力能效高且模型收敛性和稳定性好。
目前,TeleFLM系列模型已经全面开源了52B版本,核心技术(生长技术、最优超参预测)、训练细节(loss曲线、最优超参、数据配比和Grad Norm等)均开源,Tele-FLM-1T版本即将开源。
Tele-FLM-52B 版本开源地址https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM-Chat 试用(纯模型单轮对话版)地址https://modelscope.cn/studios/FLM/ChatFLM
并且,生长策略也为大模型训练提供了其他可能性,王仲远透露,将会将其用于异构芯片的异构计算上,基于此训练 MoE 模型。
不走 DiT 架构的多模态模型
今年,比万亿参数模型更火的趋势是多模态大模型。而其中在文生视频这一层面上,国内外主流的研究方式均以 Sora 的 DiT 架构为主,而智源却没有跟随 OpenAI 。
「DiT 当然能达到一个可用的产品级的模型,这是毫无疑问的。但如果瞄准的目标是真正为 AGI 而使用的多模态大模型,我们会认为自回归路线才是更佳的技术路线。」王仲远如是判断。
基于此,智源研发了原生多模态世界模型 Emu 3,最开始即是为统一的多模态生成和理解而设计,采用智源自研的多模态自回归技术路径,既统一了视频、图像、文字,也统一了生成和理解。目前,Emu3在持续训练中,经过安全评估之后将逐步开源。
「这个技术路线真的很难,但这也恰恰是适合智源研究院来做的。但同时,我们在做原始创新的时候要尊重科学规律,也接受它失败的可能性,但即使失败也是非常有意义的。」
同时,为适应智能端侧的应用,智源研究院推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B,该模型系列采用灵活架构,可支持多种视觉编码器和语言基座模型。多个榜单的综合结果表明,Bunny-8B 的多模态能力可达到 GPT-4o 性能的 87%。目前,Bunny 模型参数、训练代码、训练数据已全部开源。
开源地址:https://github.com/BAAI-DCAI/Bunny
FlagOpen,打造大模型时代的Linux
一直以来,智源的大模型开源有两条线同时进行:一条线是进行智源所研发的悟道系列大模型的开源;第二条线是将整个大模型技术体系开源,包括模型、工具、算法代码的开源等,建立了 FlagOpen。
时至今日,FlagOpen 的开源更多需要满足不断攀升的训练和推理计算需求,应对大规模AI系统和平台面临的集群内或集群间异构计算、高速互联、弹性稳定的技术挑战。于是,智源研究院推出了面向大模型、支持多种异构算力的智算集群软件栈 FlagOS。
FlagOS 融合了智源长期深耕的面向多元 AI 芯片的关键技术,包括异构算力智能调度管理平台九鼎、支持多元AI异构算力的并行训推框架 FlagScale、支持多种AI芯片架构的高性能算子库 FlagAttention和 FlagGems,集群诊断工具 FlagDiagnose 和 AI 芯片评测工具FlagPerf。
FlagOS 如同“操作系统”一样,集异构算力管理、算力自动迁移、并行训练优化、高性能算子于一体。向上支撑大模型训练、推理、评测等重要任务,向下管理底层异构算力、高速网络、分布式存储。
目前,FlagOS已支持了超过50个团队的大模型研发,支持8种芯片,管理超过4600个AI加速卡,稳定运行20个月,SLA超过99.5%,帮助用户实现高效稳定的集群管理、资源优化、大模型研发。FlagOS的推出将为中国新一代智算中心的建设提供助力,显著提升智算集群的能力水平,加速大模型产业的发展。
二、「人无我有」的先手
「大模型变化得非常快,其中确实有部分工作是商业公司没有动力、也没有资源做的事。」面壁智能 CEO 李大海在 2024 智源大会上探讨道。
针对万亿参数模型、多模态模型等相对主流且有共识的项目,各大厂商花费较大力气尚可一试,但在在具身智能、生物计算等十分前沿的领域中,并不是任何一家都具备「想做就能做」的条件。对此,智源会打出「人无我有」的先手。
当下,我们会将大模型视作通用人工智能的基础、数字世界的智能体。未来,数字世界的智能体也会逐渐进入到物理世界,其方法有二:一是进入到硬件设备中,也就是具身智能;二是进入到微观世界,即和生命分子相关,是生物计算大模型。
具身智能大模型
智源研究院具身智能创新中心在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果。
在具身智能通用抓取能力方面研发了泛化抓取技术ASGrasp,针对跨任意形状和材质的泛化难题,智源率先突破95%的真机实验成功率,从而实现了全球领先的商业级动作执行水平。借助这项技术,即使在复杂光线透射、反射的情况下,机器人依然能够准确感知包括透明、高反光物体的形状和姿态,并预测出高成功率的抓取位姿。
在分级具身大模型系统方面,智源研发了能够从失败中重思考、再尝试的铰接物体操作大模型系统 SAGE。该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识,使大模型驱动的机器人能够在任务执行失败时能够重新思考并再次尝试新的交互方式。
并且,智源还研发了全球首个能做到开放指令控制六自由度物体拿取放置的大模型系统Open6DOR。该系统不仅像谷歌RT系列大模型一样按照自然语言指令中的要求将物体放到指定位置,还能够进一步对物体的姿态进行精细化控制。
在面向技术终局的端到端具身大模型层面,智源发布了全球首个端到端基于视频的多模态具身导航大模型 NaVid。该模型可直接将机器人视角的视频和用户的自然语言指令作为输入,端到端输出机器人的移动控制信号。雷峰网雷峰网(公众号:雷峰网)雷峰网
针对新一轮的具身智能热,王仲远也提出了一些冷思考,要用客观理性的态度来看待前沿技术,能够去接受它存在周期并持续投入知道跨越周期。
生物计算大模型
此外,智源研究院,还探索了生成式人工智能应用于分子生物学中的应用。智源研究院研发的全原子生物分子模型OpenComplex 2,是世界领先的大分子结构预测模型,能有效预测蛋白质、RNA、DNA、糖类、小分子等复合物。在生物分子结构预测领域国际竞赛CAMEO(Continous Automated Model EvaluatiOn)中,OpenComplex 连续2年稳居赛道第一,并获得了CASP(Critical Assessment of Techniques for Protein Structure Prediction)15 的RNA自动化赛道预测冠军。
OpenComplex 2 是基于全原子建模的生命分子基础模型,科研人员发现不仅可以预测大分子的稳定结构,还初步具备预测分子多构型以及折叠过程的能力。基于这样的能力,生命科学家可以进一步探索蛋白质的生物学功能。目前,智源已和研究伙伴在多项重要疾病上展开了研究,提供成药性和分子机理研究。
智源研究院构建了全球首个实时孪生心脏计算模型,可实现高精度的前提下生物时间/仿真时间比小于1。实时心脏计算模型是虚拟心脏科学研究的开端,是孪生心脏走向临床应用的基础。基于这一模型,智源将创新性地采用物理-数据双驱动模型,融合第一性原理和人工智能方法,从亚细胞级、细胞级、器官级、躯干级仿真出一个“透明心脏”,且能根据患者的临床数据,构建出反映患者的个性化生理病理的孪生心脏,从而进行药物筛选、治疗方案优化、术前规划等临床应用。
三、AI 研究的新范式
「要是三年前问我还需要多长时间可以实现 AGI,我可能会回答50年,但这几年随着大模型的发展,我认为这个数字可以除以 2,20年左右即可能实现。」在2024智源大会的现场,中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤笑着说道。
图片
具体来看,信息智能领域 0 至 5 年内,即可在对语言、图像、声音和视频的理解、生成等方面通过新图灵测试;物理智能领域 0 至 10年内,能实现大模型在物理环境中的理解与操作能力;生物智能领域 0 至 20 年内,都会聚焦人体、脑机接口、生物体、制药和生命科学,实现大模型与生物体连结的生物智能。
AGI 的加速来临,也侧面要求 AI 有新范式的变动。单纯靠 Scaling Law ,做不到 AGI。
在 Sora 及Dall-E团队负责人阿迪蒂亚·拉梅什(Aditya Ramesh)与纽约大学助理教授谢赛宁的交流过程中,也从技术的角度传递出技底层技术的变化:AI 行业正在从依赖手工标注的深度学习模型转向能够通过自然语言和描述性文本重建视觉内容的高级模型。
快速流变的同时, AI 带来的失控风险和安全问题也需提上日程。对此,零一万物创始人李开复博士表示,如果我们越来越依赖Reward model ,完全让 AI 自己找路径的话,发生失控的概率或许会增高,但中长期来看,需要尝试用“以子之矛攻子之盾”——用更好的技术解决技术带来的挑战。
尽管到如今 AI 发展面临诸多可能性与挑战,但回顾 2020 年开始悟道模型的研发,智源至少是在亚洲地区最早投入,而且真的投入去做大模型的机构。「最初成立智源、做悟道道想法是非常难得、非常领先的,今后 AI 研究的视野也会更宽广,智源也会成为促进中国 AI 生态繁荣的平台。」
AGI 还有很长的路要走。王仲远预判,GPT-4 之后的突破难度会更大,对算力资源、核心算法的要求都会更高,彼时将不是追赶的过程,而是突破的过程。