悟道2.0,要怎么用起来?
连创“中国首个”和“世界最大”两项记录后,悟道大模型的落地应用成为业界关心的热点话题。
GPT-3的问世掀起了一股“炼大模型”的浪潮,去年10月,北京智源研究院集结中国产学界100多位AI专家联合攻关,在一年之内发布了1.75万亿级大规模预训练模型悟道2.0,超越GPT-3、Switch Transformer,成为全球最大万亿级人工智能大模型。
时至今日,“产业应用”成为未来人工智能大模型时代的下一个赛点。
GPT-3早早开放了API供开发者使用。据OpenAI透露,截止今年3月,全球已有300多个APP采用了GPT-3技术,基于GPT-3的应用也有100多个;今年悟道2.0发布会上,智源研究院启动大模型产业生态建设规划,表示悟道大模型下一步将作为AI基础设施,像“发电厂”一样为不同行业、企业、个人开发者赋能。
9月24日,智源研究院承办2021中关村论坛“人工智能与多学科协同创新”平行论坛,围绕“人工智能大模型时代学科交叉和可持续发展”展开深入交流。会上,智源研究院学术副院长、清华大学教授唐杰公布了悟道2.0产业应用的最新进展,并发布了一系列技术创新成果。
唐杰教授表示,悟道大模型应用技术正在像“低门槛+高效率+高情商”三个方向努力,能够满足不同行业和企业实现规模化、产业化的应用需求,悟道正在从最大向“更好用”迈进。
此次技术创新包括:“悟道”大模型开发平台、大模型高效推理工具包BMInf、全新升级的AI文图绘画大师CogView和实现大模型群聊的对话模型EVA。
大会现场还发布了“悟道2.0”赋能产业应用案例:冬奥会语音播报数字人和OPPP小布助手问答系统。小布助手是OPPO旗下开放式对话虚拟语音助手,OPPO小布技术总监杨振宇在现场表示,融合悟道大模型的生成式问答系统,解决了小布助手开放式对话的长尾问题,单条回答建设成本降低99%。
“悟道”开放平台面向所有中小型企业、行业应用企业和IT领军企业提供一站式服务,包括数据服务、在线训练、模型调优、模型评测、在线部署,可通过API开放接口一键调用。
需求多样化与场景碎片化是AI落地普遍存在的难点,智源研究院针对不同企业主体通过API既降低了应用门槛,也满足了特定化需求。正常来讲,百亿级大模型训练一次通常需要512张A100卡,约合人民币六千万。而对于数据不足、算力不足的中小企业,悟道开放平台提供十亿级别模型的在线训练与微调。唐杰教授表示悟道开放平台在快捷易用的同时,更注重解决规模化、产业化AI应用问题。目前平台提供了写诗、问答、绘画等7种API功能。
解决可用问题之后,是如何帮助企业实现降本增效。悟道发布的开源大模型高效推理工具包BMInf,实现了“一卡顶四卡”,支持在低配置的NVIDIA GTX 1060单卡机上运行百亿大模型。
智源研究团队对原CPM2模型进行了基于INT8优化的微调,使得模型参数的存储空间从40G压缩到了10G,且性能基本保持不变。CPM2是为提高大模型精度和效率,研发的从模型、训练、微调到推理的全链路高效训练框架。此外,针对部分显卡显存不足的情况,工具包通过显存和内存间的调度与优化,实现了低性能显卡的大模型推理。
唐杰教授表示,原CPM2模型现已升级到CPM2.1,新模型通过持续学习,引入基于生成的预训练任务,在保留补全能力的条件下大幅提升了文本生成能力。
继今年6月份超越DALL·E取得MS COCO榜单第一后,CogView也进行了全新升级。CogView可以根据文本提示生成对应图像,优化后其图像生成能力实现了4倍提速,4倍清晰。CogView的绘画能力可应用于服装、海报等设计行业。
对话模型EVA是智源悟道团队的最新研发成果,作为一款生成式对话系统,EVA模型主打高情商,能够借鉴心理咨询助人理论,实现深度情绪安抚,让人机聊天更有温度。除了心情聊天外,它还支持大模型在线群聊等多类趣味对话应用,有望推动“人与物”交流的现在时代迈进到“物与物”交流的人机共融未来时态。
基于以上能力,悟道大模型将在医疗、金融、新闻传播等行业有着广泛的应用空间。例如在金融、法律、零售等传统行业领域,大模型能提供高性能的智能信息解析和提取、智能数据整合、自动机器翻译、辅助决策等功能,提升业务流程效率和水平。在新闻传播领域,基于模型可实现智能新闻线索收集、机器写作、辅助编辑、虚拟主播等应用。
在大会现场,OPPO小布助手技术总监杨振宇发布了与智源研究院合作的首款应用——基于悟道大模型的“生成式问答系统”,大模型黑科技加持,小布助手在一定程度上解决行业共通的长尾问题。
AI语音技术在智能助手应用有着较为成熟的落地方案,智能家居、智能车载、新闻播报、智能终端等场景也有广泛的应用案例。但现阶段,“检索式回答”是大多虚拟助手的主要人机交互方式之一,对话内容局限于模型自建库和互联网数据,这意味着,诸如长江长还是黄河长这类问题,如果无法在数据库中找到答案,在度秘、搜狗助手、阿里夸克等途径也无法查询到的话,虚拟助手就无法做出回答。
从长尾问题来看,小布助手以及整个行业普遍存在的以下难题:
大量用户提问(至少有1亿),AI语音助手无法回答
长尾单个问题命中率低、体量大且无法穷尽
自建语料库周期长,人工数据标注成本高
针对这些问题,悟道开放平台提供了两套解决方案:一是针对小布助手现有用户已经提出的问题生成回答。“悟道”大模型具有强大的小样本学习以及文本的理解与生成能力。
二是针对用户未来可能问到的问题,通过“悟道”大模型结合知识图谱,持续学习,形成持续知识预训练模型,进而生成问答QA语料库。目前每台机器每天生成10万左右的待审核答案,单条回答的建设成本降低了99%。
智源研究院学术副院长、清华大学教授唐杰与OPPO数智工程系统总裁刘海峰接受媒体采访
在会后采访中唐杰教授表示,他希望打造出更加智能的知识型、交互型、聊天式的智能助手,在回答人类提问时能够更开放,风格更多样化。当然,人性化的互动目标对模型的自然语言理解和生成提出了更高的要求,目前还没有更好的解决方案,但悟道大模型正在朝着这个方向迈进。
另外,此次发布的基于悟道大模型的冬奥手语播报数字人,将在北京冬奥会期间正式投入应用,提供全流程智能化的数字人手语生成服务,方便听障人士也能收看赛事专题报道。
从大炼模型,到炼大模型,智源研究院是其中强有力的推动者,从世界最大到产业落地,智源“悟道”一直坚持前沿引领。在他们看来,大模型的兴起的背后,是迈向通用人工智能的一条极富潜力的路径,也是推动传统行业实现智能化改造和升级的新机遇。现阶段,更智能的对话客服、更高效的机器翻译、更智能的语音播报在电商、媒体、金融等领域已经表现出极大的发展空间,而“大算力+大数据+大参数”也验证了模型越大,智能潜力越大。
黄铁军院长告诉AI科技评论,人工智能的潜力取决于数据,未来科学研究领域突破数据获取的局限,大模型还有更广阔的应用空间。悟道大模型就像「发电厂」,会形成类似于电网的智能基础平台,为全社会源源不断地供应「智力源」。目前,以GPT-3、Switch Transformer为代表,布局大模型已成为世界性趋势,国内百度、阿里达摩院、华为&循环智能等企业和科研机构也已相继推出大模型ERNIE3、M6和盘古NLP。
雷锋网雷锋网雷锋网