雷峰网(公众号:雷峰网)消息,2024 vivo开发者大会于10月10日在广东深圳正式召开,vivo发布自研大模型——全新蓝心大模型矩阵,并带来了多项核心能力升级。
首先是语言大模型升级,vivo自研语音大模型基于蓝心文本大模型开发,通过离散化编码结合文本大模型学习,实现更智能、丰富和简单的语音交互。它具备四大核心能力:语音合成、音色复刻、语音翻译和方言自由说。语音合成能将文本转化为逼真拟人的语音,支持多语言及方言;音色复刻则只需用户一句话即可复制音色;方言自由说功能不仅满足用户方言交流需求,还助力方言文化的保护与传承;语音翻译能力则能直接将语音转化为目标语言文本,提高翻译效率。
vivo将继续深耕语音大模型在各场景的应用,提升用户体验,并期待与各界共同探索大模型技术的更多可能性,造福社会。未来,vivo计划将语音大模型能力逐步开放至智能体平台,以更广泛地服务于用户和开发者。
BlueLM-70B 2.0新增学习了1亿知识问答,500w篇的论文,以及1.2亿代码仓库等高质量数据,模型整体能力提升30%。新增了多模态多轮对话能力,支持400+手机系统工具和180+三方工具的调用,以及全面升级了大模型的代码生成能力,能实现数理计算和Excel的数据分析能力。BlueLM-70B 2.0模型较1.0模型能力提升30%。
图像大模型方面,随着扩散模型与AI架构的深度融合,图像生成技术迎来了指数级飞跃,其中文生图技术尤为显著。vivo AIGC图像大模型技术总监阮晓虎在论坛上介绍了vivo的文生图大模型——蓝心图像大模型BlueLM-Art,该模型精通中文语境,融合了中国特色与东方美学,其在中文理解、中国文化诠释、人物摄影美学及中文文字绘制等多个维度都取得了出色的效果,多次荣登SuperCLUE-Image基准榜单中文领域榜首。
通过在算法架构、数据处理、工程以及算力上的全面优化,使蓝心图像大模型BlueLM-Art拥有诸多特性,不仅精通中文,拥有出色的指令跟随性,还能生成与图文完美结合的中文字符,并提供艺术字绘制插件。同时,蓝心图像大模型BlueLM-Art在人物摄影美学方面有着卓越表现,能呈现美观、真实、富有质感的人物形象。最后,BlueLM-Art还拥有可控性生成能力,能在图像创作中保持更高的主体一致性。
基于蓝心图像大模型BlueLM-Art,vivo在蓝心小V中推出了图像创作、AI消除、图像风格化、艺术字创作等一系列AI功能,并在PAD的原子笔记中加入了AI涂鸦美化功能,极大地提升了用户的创作体验。后续vivo将继续优化文生图大模型及其相关AIGC功能,为用户提供更多创意资源,让先进的AI技术惠及更广泛的用户群体,持续推动图像生成技术的创新与发展。
大模型时代,vivo持续推进各模态大模型端侧化能力建设,探索大模型在各业务场景端侧产品落地,覆盖“听、说、读、写、画”各应用场景。在“听”方面,vivo升级应用语音识别大模型,让语音操作随时可用;在“说”方面,利用语音生成大模型生成超拟人音色,为故事讲述赋予更鲜活的魅力;在“读”方面,利用多模态大模型针对视障用户打造图像问答功能;在“写”方面,将语言大模型在端侧更广泛的应用,同时升级为3B端侧大模型,给用户更为优质的体验。此外,vivo还探索了图像大模型端侧化,为用户带来随时可用的AI消除功能。
针对全模态大模型端侧化,vivo从算法模型设计,到量化、性能瓶颈分析工具建设,再到底层运行时异构方案设计和业务框架层灵活的多业务部署架构建设,提供了完整的解决方案。通过软硬件协同,充分挖掘芯片潜力,确保大模型在端侧运行时的强悍性能。未来,vivo计划开放成熟算法能力与端侧加速能力,与行业开发者合作,共同打造创新、便利、智能的业务场景,为用户提供更优质的智能化体验。