9月2日,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年8月报告》,腾讯混元大模型凭借在多个核心任务上的出色表现,总得分居国内大模型第一名,成为榜单中进步最快的模型之一。
据SuperCLUE报告,在11个能力项的测评中,腾讯混元在其中 8 项核心任务上排名国内第一,综合来看,“腾讯混元整体能力不俗,是一个非常有竞争力的通用大模型。“
SuperCLUE本次测评的是腾讯混元新一代大语言模型预览版(Turbo-Preview),模型采用全新的混合专家模型(MoE)结构,从训练数据、模型架构、训练策略,训练框架,软硬件体系等方面实现了全链路自研,模型一方面在性能上实现大幅提升,另一方面也实现了推理成本的显著下降,有着较大的应用潜力。
作为独立的第三方中文大模型基准测评机构,SuperCLUE本次8月报告聚焦通用能力测评,测评方案由理科、文科和Hard三大维度构成。具体来看,理科能力包括计算、逻辑推理和代码能力;文科任务覆盖知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大维度;Hard任务则侧重精确指令遵循以及复杂任务高阶推理。
作为国内成绩最好的模型,腾讯混元在理科、文科均居于第一名。Hard任务上腾讯混元表现出色,取得74.33分,是国内唯一超过70分的大模型,仅与ChatGPT-4o有微小差距。
值得注意的是,随着大模型行业的蓬勃发展,以腾讯混元为代表的国产大模型正在加速进化,能力升级速度不断加快。测评报告数据显示,总体趋势上,国内第一名的大模型在中文领域的通用能力与国外领先模型差距持续缩小,从2023年5月的 30.12% 的缩小至 2024 年8月的1.29%,总分上仅有 1 分左右的微小差距。
自2023年9月正式亮相以来,腾讯混元通过在国内率先采用MoE结构,模型已扩展为万亿参数规模,总体性能不断升级,除了通用能力和文生文,在文生图、图生文以及视频生成等多模态能力上也有比较突出的表现。在此前发布的中文多模态大模型SuperCLUE-V基准榜单中,腾讯混元大模型凭借在多模态理解方面的卓越表现,国内大模型排名第一,稳居卓越领导者象限。
基于领先的模型能力积累,腾讯混元大模型正在积极推进应用落地,让大模型创造更多价值。目前腾讯内部近700个业务及场景已接入,包含腾讯元宝、腾讯云、QQ、微信读书、腾讯新闻、腾讯客服等。此前,腾讯旗下协作SaaS(软件即服务)产品全面接入腾讯混元大模型。
腾讯混元大模型在腾讯云上提供了多种尺寸的模型服务,通过API、专属模型、精调模型等接入和使用方式面向企业及个人开发者全量开放。目前,腾讯混元的云上版本包括Turbo-Preview、Pro,Standard,Lite等多个版本;在专属模型上开放了代码生成、角色扮演、Functioncall等;企业也可以通过腾讯云TI平台对腾讯混元进行精调。
基于多年深耕产业互联网经验和积累,腾讯云已联合行业头部企业,为20+行业输出了超过50个解决方案,提供一整套模型服务工具链,帮助企业高效率、高品质、低成本地创建和部署AI应用。
雷峰网(公众号:雷峰网)