近日,全球增长咨询公司弗若斯特沙利文发布了《2024年中国大模型能力评测》,对国内主流的15个大模型进行了权威评测。文心一言取得了综合第一,而紧随其后的,是亮相后一直低调的腾讯混元大模型。测评结果显示,腾讯混元在通用基础能力和专业应用能力上均领先国内其他大模型。
值得一提的是,文心一言、腾讯混元等排名前四的大模型,不仅处于国内第一梯队,而且高于国际大模型均线,这条均线的设置,是以Gemini10、GPT4、GPT3.5和Claude2为基准的,可以说意味着这四家大模型具备了国际主流大模型的竞争力水平,含金量十足。
沙利文《2024年中国大模型能力评测》:大模型综合竞争力气泡图
据了解,这份报告以用户使用体验和实际使用价值为衡量标准,综合考量数理科学、语言能力、道德责任、行业能力及综合能力等5大核心维度及21个细化二级维度。具体细分的维度目前批露的不多,不过可以看到,在语言能力的评测中,文心一言、通义千问、腾讯混元分别位列前三。
中国大语言模型能力评析:语言能力
作为全链路自研的通用大语言模型,腾讯混元具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
在腾讯最新发布的2023年第四季度及全年业绩报告中,对混元大模型的实力进行了肯定。财报写到:“腾讯混元已经发展成为领先的基础模型,在数学推导、逻辑推理以及多轮对话中性能卓越。”财报还披露,腾讯混元采用混合专家模型结构,已扩展至万亿参数规模。
不仅如此,近日中国电子学会公布了2023科学技术奖,由腾讯主导,北京大学、北京科技大学共同参与的联合项目Angel机器学习平台获本年度科技进步一等奖,Angel 机器学习平台是支撑腾讯混元大模型的核心技术。
除了通用基础能力外,在大模型落地看重的专业应用能力评测中,腾讯混元也在此次测评中排名领先。据介绍,目前腾讯内部有超过400个业务及场景已接入腾讯混元测试。
比如,腾讯广告基于混元大模型推出了AI广告创意平台妙思,有效提高了广告生产及投放效率。企业微信和腾讯会议部署了生成式AI功能,增强了商业化效果。腾讯云还联合生态伙伴,将大模型技术与20多个行业结合,提供超50个行业大模型解决方案。腾讯自身丰富的业务和场景大量接入腾讯混元,也意味着大模型已经在应用端验证了价值。
当前,国内大模型赛道的重点已经从通用技术向落地能力转移,AI的能力逐渐从文生文,到文生图、文生视频,图生图、图生视频等多模态方向发展。企业也将进一步关注大模型能否真正与应用相结合,助力各行各业的高质量发展。
雷峰网(公众号:雷峰网)