让「GPT-4V」跑在手机上，这家中国大模型公司做到了

面壁智能多模态 GPT-4V

作者：朱可轩

2024/08/07 09:42

真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。

与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。

今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V——

据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，三项能力均取得 20B 以下 SOTA 成绩，单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

而类比知识密度来看，得益于视觉 token 相比上一代下降 30% ，比同类模型低 75%，MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度（token density）。

值得一提的是，面壁还将“实时”视频理解、多图联合理解、多图 ICL等能力首次搬上了端侧。

量化后端侧内存仅占 6 GB，端侧推理速度达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理，且支持多种语言。

实时视频、多图联合理解，首次上端

有了实时视频理解功能，大模型犹如拥有一双“眼睛”，能够实时看到真实世界，这是多模态大模型走向具身智能等更多实际领域，实现 AGI 的必要条件之一，此外实时视频理解功能提升人机交互的自然度。

此次，面壁新发布的 MiniCPM-V 2.6 让实时视频理解功能首次运行在了端侧。

此外，对于「太长不看」的视频，现在可以直接把文件拖进来，让模型为你总结重点信息，不用看完、不用倍速、也不用快进。

这段 1 分钟左右的天气预报视频，MiniCPM-V 2.6 能在没有听到任何语音的情况下，发挥强大的视频OCR功能，识别出视频画面里密集的文字，给出不同视频段落中不同城市的详细天气描述：

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

MiniCPM-V 2.6 的回答（注：该结果为代码环境中复现）

除视频多模态外，在多图理解方面，最新发布的 MiniCPM-V 2.6 还首次将多图联合理解、多图ICL（上下文少样本学习）功能集成在端侧模型，这也是此前 GPT-4V 引以为傲的能力。

在多图联合理解方面，面壁例举了如下场景——记账或报销难题令人头疼，小票上密密麻麻的数字难以辨别，更别提进行繁琐的总账计算。

此时，可以拍照全部甩给 MiniCPM-V 2.6，在 OCR 能力+CoT （思维链）能力的加持下，MiniCPM-V 2.6 可以找出每张小票的金额，并计算总账。

不仅如此，在端侧多模态推理能力方面，MiniCPM-V 2.6 也顺利追赶 GPT-4V。

比如这道 GPT-4V 官方演示经典命题：调整自行车车座。这个对人很简单的问题对模型却非常困难，它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。

仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力，通过和模型进行多图多轮对话，它清晰地告知完成调低自行车车座的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

MiniCPM-V 2.6 的“调整自行车车座”测试

值得一提的是，MiniCPM-V 2.6 的理解能力还不止步于表面，对于梗图背后的槽点也能展开理解。

比如，让 MiniCPM-V 2.6 解释下面两张图背后的故事：

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

MiniCPM-V 2.6 能够通过OCR识别到两张图片上的文字：“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”，并进一步推理出“WFH”居家办公状态。

随后，结合两张图片的视觉信息联合推理出“工作在家时，8:59还在床上睡觉，9点立马出现在视频会议上”的居家办公的“抓狂”状态。

当然，MiniCPM-V 2.6 的单图理解能力也较为理想，其也能揣测出梗图中很多未明显露出的潜台词。

而就多图 ICL 理解而言，上下文少样本学习能让模型无需 fine-tune，即可快速适配到特定领域和任务，提高模型的输出稳定性。对此，MiniCPM-V 2.6 也交出“答卷”：

提供给 MiniCPM-V 2.6 两组神转折画面，以及对画面中的“梗”给出示意文字描述，例如一个戴着手套、重视卫生的厨师，下一秒却用戴手套的手直接去拿实际有些肮脏的纸币；一个看似热衷环保的人，却把塑料瓶装水打开装进环保水壶……

MiniCPM-V 2.6 能够自动从前面两组图文关系，揣摩出题人的意图，并自动学会“答题模版”，给出神转折答案—— 一个人手握大量加密数字货币，可你猜怎么着，他出门购物，可是商店却竟然只收现金！

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

性能全面对标 GPT-4V

以小博大，是端侧模型的核心竞争力。

而面壁 MiniCPM-V 2.6 以 8B 参数，在综合性能上追赶上 GPT-4V 的同时，首次作为端侧模型，掀开单图、多图、视频理解三项多模态核心能力全面赶超 GPT-4V 的新格局，且均实现 20B 参数以下模型性能 SOTA。

在 MiniCPM-V 2.6 的知识压缩率方面，我们发现，MiniCPM-V 2.6 体现出极致的高效，取得了两倍于 GPT-4o 的最高多模态大模型像素密度（Token Density）。

Token Density = 编码像素数量 / 视觉 token 数量，是指单个 token 承载的像素密度即图像信息密度，直接决定了多模态模型实际的运行效率，数值越大，模型运行效率越高。

在面壁的测试中，闭源模型的 Token Density 由 API 收费方式估算得到。结果表明，MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的。

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

Token Density 比较结果

单图方面，在综合评测权威平台 OpenCompass 上，MiniCPM-V 2.6 的单图理解能力越级超越 Gemini 1.5 Pro 和 GPT-4o mini ；多图方面，在多图评测权威平台 Mantis-Eval 榜单上，MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ，且超越 GPT-4V；而在视频方面，在视频评测权威平台 Video-MME 榜单上，MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA，超越GPT-4V。

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

从左往右依次为 OpenCompass | Mantis-Eval | Video-MME

此外，在 OCRBench上，MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA，而在幻觉评测榜单 Object HalBench 上，MiniCPM-V 2.6 的幻觉水平（幻觉率越低越好）也优于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

Obiect HalBench（左） OCRBench（右）

面壁认为，MiniCPM-V 2.6 之所以能实现从单一到全面的优势跃进，除了 Qwen2-7B 基座模型的性能加持之外，也归功于采用了统一高清视觉架构，让传统单图的多模态优势功能得以继承，并实现了一通百通。

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

统一高清视觉架构

以 OCR SOTA 能力为例，它能够将 MiniCPM-V 单图场景的“180万高清图像解析”进行能力迁移和知识共享，无缝拓展至多图场景和视频场景，并将这三种视觉理解场景统一形式化为图文交替的语义建模问题，共享底层视觉表示机制，实现相比同类型模型，视觉 token 数量节省超过 75% 。

而在 OCR 信息提取的基础上，MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT（思维链）的复杂推理。比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌，CoT 的过程为，首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家；再将前三名国家的金牌总数相加。

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

8.2%的超低幻觉率，亦是发挥了小钢炮系列AI可信方面的传统优势。

此外，面壁还通过 Ultra 系列对齐技术，增强了MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力：

在多模态复杂推理能力对齐方面，MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据，构造高效对齐种子数据，并通过模型自迭代完成数据净化和知识学习。

在多图联合理解方面，MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义，实现多图联合理解数据的高效构造。

除面壁外，近来，国内其他大模型团队也都在多模态方面卯足全力。

7月，上海人工智能实验室发布书生·浦语灵笔（InternLM-XComposer）多模态大模型的 2.5 版本，规模为7B。

官方介绍称，IXC-2.5 可以支持 24K 多模态图文上下文，超过 20 轮图文交互，具备图像视频理解、网页创作、图文写作等多项功能。

与前一版相比，IXC-2.5 在视觉语言理解方面主要进行了包括超过 4K 分辨率的图像理解、多轮多图超长对话、精细视频内容分析在内的三项升级。

刚刚过去的世界人工智能大会（WAIC）期间，联汇科技也带来了第二代多模态智能体 OmAgent，相较于去年发布的第一代，OmChat V2 在感知模块、思考决策能力等方面进行了提升，可以看准时序关系、多图关系。

同样在 WAIC 期间带来多模态大模型最新升级产品的还有商汤科技，商汤将流式交互融入大模型，发布了国内首个具备流式原生多模态交互能力大模型“日日新SenseNova 5.5”，综合性能较 5.0 版本提升了 30%，交互效果和多项核心指标实现对标 GPT-4o。

此外，商汤升级版的端侧模型“日日新 5.5 Lite”，相比 4 月的 5.0 版模型精度提升10%，推理效率提升15%，首包延迟降低40%。雷峰网(公众号：雷峰网)雷峰网