真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。
与云端相比,端侧离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。
今日,面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V——
据介绍,MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。
而类比知识密度来看,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%,MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)。
值得一提的是,面壁还将“实时”视频理解、多图联合理解、多图 ICL等能力首次搬上了端侧。
量化后端侧内存仅占 6 GB,端侧推理速度达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理,且支持多种语言。
实时视频、多图联合理解,首次上端
有了实时视频理解功能,大模型犹如拥有一双“眼睛”,能够实时看到真实世界,这是多模态大模型走向具身智能等更多实际领域,实现 AGI 的必要条件之一,此外实时视频理解功能提升人机交互的自然度。
此次,面壁新发布的 MiniCPM-V 2.6 让实时视频理解功能首次运行在了端侧。
此外,对于「太长不看」的视频,现在可以直接把文件拖进来,让模型为你总结重点信息,不用看完、不用倍速、也不用快进。
这段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 能在没有听到任何语音的情况下,发挥强大的视频OCR功能,识别出视频画面里密集的文字,给出不同视频段落中不同城市的详细天气描述:
MiniCPM-V 2.6 的回答(注:该结果为代码环境中复现)
除视频多模态外,在多图理解方面,最新发布的 MiniCPM-V 2.6 还首次将多图联合理解、多图ICL(上下文少样本学习 )功能集成在端侧模型,这也是此前 GPT-4V 引以为傲的能力。
在多图联合理解方面,面壁例举了如下场景——记账或报销难题令人头疼,小票上密密麻麻的数字难以辨别,更别提进行繁琐的总账计算。
此时,可以拍照全部甩给 MiniCPM-V 2.6,在 OCR 能力+CoT (思维链)能力的加持下,MiniCPM-V 2.6 可以找出每张小票的金额,并计算总账。
不仅如此,在端侧多模态推理能力方面,MiniCPM-V 2.6 也顺利追赶 GPT-4V。
比如这道 GPT-4V 官方演示经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。
仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力,通过和模型进行多图多轮对话,它清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。
MiniCPM-V 2.6 的“调整自行车车座”测试
值得一提的是,MiniCPM-V 2.6 的理解能力还不止步于表面,对于梗图背后的槽点也能展开理解。
比如,让 MiniCPM-V 2.6 解释下面两张图背后的故事:
MiniCPM-V 2.6 能够通过OCR识别到两张图片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,并进一步推理出“WFH”居家办公状态。
随后,结合两张图片的视觉信息联合推理出“工作在家时,8:59还在床上睡觉,9点立马出现在视频会议上”的居家办公的“抓狂”状态。
当然,MiniCPM-V 2.6 的单图理解能力也较为理想,其也能揣测出梗图中很多未明显露出的潜台词。
而就多图 ICL 理解而言,上下文少样本学习能让模型无需 fine-tune,即可快速适配到特定领域和任务,提高模型的输出稳定性。对此,MiniCPM-V 2.6 也交出“答卷”:
提供给 MiniCPM-V 2.6 两组神转折画面,以及对画面中的“梗”给出示意文字描述,例如一个戴着手套、重视卫生的厨师,下一秒却用戴手套的手直接去拿实际有些肮脏的纸币;一个看似热衷环保的人,却把塑料瓶装水打开装进环保水壶……
MiniCPM-V 2.6 能够自动从前面两组图文关系,揣摩出题人的意图,并自动学会“答题模版”,给出神转折答案—— 一个人手握大量加密数字货币,可你猜怎么着,他出门购物,可是商店却竟然只收现金!
性能全面对标 GPT-4V
以小博大,是端侧模型的核心竞争力。
而面壁 MiniCPM-V 2.6 以 8B 参数,在综合性能上追赶上 GPT-4V 的同时,首次作为端侧模型,掀开单图、多图、视频理解三项多模态核心能力全面赶超 GPT-4V 的新格局,且均实现 20B 参数以下模型性能 SOTA。
在 MiniCPM-V 2.6 的知识压缩率方面,我们发现,MiniCPM-V 2.6 体现出极致的高效,取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density) 。
Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。
在面壁的测试中,闭源模型的 Token Density 由 API 收费方式估算得到。结果表明,MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的。
Token Density 比较结果
单图方面,在综合评测权威平台 OpenCompass 上,MiniCPM-V 2.6 的单图理解能力越级超越 Gemini 1.5 Pro 和 GPT-4o mini ;多图方面,在多图评测权威平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ,且超越 GPT-4V;而在视频方面,在视频评测权威平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越GPT-4V。
从左往右依次为 OpenCompass | Mantis-Eval | Video-MME
此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA,而在幻觉评测榜单 Object HalBench 上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)也优于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。
Obiect HalBench(左) OCRBench(右)
面壁认为,MiniCPM-V 2.6 之所以能实现从单一到全面的优势跃进,除了 Qwen2-7B 基座模型的性能加持之外,也归功于采用了统一高清视觉架构,让传统单图的多模态优势功能得以继承,并实现了一通百通。
统一高清视觉架构
以 OCR SOTA 能力为例,它能够将 MiniCPM-V 单图场景的“180万高清图像解析”进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。
而在 OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT(思维链)的复杂推理。比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌,CoT 的过程为,首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家;再将前三名国家的金牌总数相加。
8.2%的超低幻觉率,亦是发挥了小钢炮系列AI可信方面的传统优势。
此外,面壁还通过 Ultra 系列对齐技术,增强了MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力:
在多模态复杂推理能力对齐方面,MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据,构造高效对齐种子数据,并通过模型自迭代完成数据净化和知识学习。
在多图联合理解方面,MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义,实现多图联合理解数据的高效构造。
除面壁外,近来,国内其他大模型团队也都在多模态方面卯足全力。
7月,上海人工智能实验室发布书生·浦语灵笔(InternLM-XComposer)多模态大模型的 2.5 版本,规模为7B。
官方介绍称,IXC-2.5 可以支持 24K 多模态图文上下文,超过 20 轮图文交互,具备图像视频理解、网页创作、图文写作等多项功能。
与前一版相比,IXC-2.5 在视觉语言理解方面主要进行了包括超过 4K 分辨率的图像理解、多轮多图超长对话、精细视频内容分析在内的三项升级。
刚刚过去的世界人工智能大会(WAIC)期间,联汇科技也带来了第二代多模态智能体 OmAgent,相较于去年发布的第一代,OmChat V2 在感知模块、思考决策能力等方面进行了提升,可以看准时序关系、多图关系。
同样在 WAIC 期间带来多模态大模型最新升级产品的还有商汤科技,商汤将流式交互融入大模型,发布了国内首个具备流式原生多模态交互能力大模型“日日新SenseNova 5.5”,综合性能较 5.0 版本提升了 30%,交互效果和多项核心指标实现对标 GPT-4o。
此外,商汤升级版的端侧模型“日日新 5.5 Lite”,相比 4 月的 5.0 版模型精度提升10%,推理效率提升15%,首包延迟降低40%。雷峰网雷峰网(公众号:雷峰网)