人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。
元象今日发布多模态大模型 XVERSE-V ,支持任意宽高比图像输入,在主流评测中效果领先。
XVERSE-V 性能优异,在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型,在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。
传统的多模态模型的图像表示只有整体,XVERSE-V 创新性地采用了融合整体和局部的策略,支持输入任意宽高比的图像。
注:
这样的处理方式使模型可以应用于广泛的领域,包括全景图识别、卫星图像、古文物扫描分析等。
示例- 高清全景图识别 、图片细节文字识别
免费下载大模型
Hugging Face:
ModelScope魔搭:
Github:
问询发送:
商业合作
微信添加:
元象持续打造国内开源标杆,在国内最早开源最大参数65B 、全球最早开源最长上下文256K 以及 国际前沿的MoE模型, 并在SuperCLUE测评全国领跑。
商业应用上,元象大模型是 广东最早获得国家备案的模型之一 ,可向全社会提供服务。
模型不仅在基础能力上表现出色,在实际的应用场景中也有着出色的表现。
图表理解
不论是复杂图文结合的信息图理解,还是单一图表的分析与计算,模型都能够自如应对。
视障真实场景
在真实视障场景测试集VizWiz中,XVERSE-V 表现出色,超过了InternVL-Chat-V1.5、DeepSeek-VL-7B 等几乎所有主流的开源多模态大模型。
VizWiz测试示例
看图内容创作
XVERSE-V 具备多模态能力的同时保持强大的文本生成能力,能够很好胜任理解图像后创造性文本生成的任务。
教育解题
模型具备了广泛的知识储备和逻辑推理能力,能够识别图像解答不同学科的问题。
百科解答
模型储备了历史、文化、科技、安全等各类主题的知识。
代码撰写
自动驾驶
情感理解与识别
一元复始,万象更新。
元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。
元象获国家“专精特新”、“高新技术企业”认证,团队目前有75%为研发人员(60%为硕博学历)。
元象已经为多家龙头企业提供一站式技术与服务,包括:
公司注册名:
官网:
官微:
Logo下载
链接: https://pan.baidu.com/s/1fB-zoITVJZ7Znv5IVe-fZg
提取码: rav0