作者:郭思
编辑:陈彩娴
ChatGPT之前,国内最近一次的AI热潮是以“AI四小龙”的发展为代表,但这些公司烧钱程度与落地产出的不匹配,令市场倍感失望。
时间来到2023年, 在ChatGPT 出来之后,市场再度火热,视觉大模型公司也如雨后春笋般不断涌现,据不完全数据统计,市面上现有的视觉大模型公司共有三十余家。淘金者前仆后继,但相同的问题却仍然存在。
部分入局者好大喜功,产品未经雕琢就推上市,拉高用户期待值,结果在真正使用过程中,却漏洞百出。
要想让用户对视觉大模型的声音从叹气变为欢呼,似乎需要一场新的革命。
2023年,10月9日,美图公司举办15周年生日会并发布自研AI视觉大模型MiracleVision(奇想智能)3.0版本。面世100天后,美图AI视觉大模型MiracleVision3.0将全面应用于美图旗下影像与设计产品,并将助力电商、广告、游戏、动漫、影视五大行业。
在生日会现场,美图CEO吴欣鸿不仅向与会者展示了美图视觉大模型MiracleVision(奇想智能)3.0版本的效果,也对产品和整个行业给出了自己的思考和见解。
「现如今视觉大模型普遍在生成效果上、结果可控性以及适用范围上还有很多待解决的问题。比如说对于成熟的大中型企业,他们对效果的精度要求很高。当前,大部分视觉大模型的生成效果与设计师的标准存在一定差距,甚至不少设计师会觉得AI味很重,一看就是生成的,很没诚意。」
市面上的大部分视觉大模型都在卷数据量和参数量。但美图认为,衡量能力的标准并非在追求参数指标,而是要抓住应用场景的核心需求,并且在商业模式上得到验证。
意简言赅,美图想做的,是一个离用户更近的大模型。
大模型热度毋庸置疑,针对大模型产品发布的评测榜单也五花八门。
甚至有行业人士曾经就表示,现在市面上大家能看到的很多榜单数据背后很有可能是各家公司在前期调整过,刷榜现象是行业共识。
不顾实际效果的刷榜带来的弊端十分明显,这就像一个平日在学校只会迎合学校标准,而忽视了自己能力的「好学生」在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。
要想防止这种现象的频繁发生,或许确得从根源思考,在评判标准上下功夫。
究竟什么样的视觉大模型才是好用的?以什么样的标准来评价?
美图给出的答案是,榜单说的不算,吴欣鸿说的不算,只有设计师和用户说好用,才是真正好用的大模型。
带着这样的理念,美图视觉大模型最大的不同便是整个研发团队由设计师主导。
美团视觉大模型负责人是设计师许俊,对于大模型效果的呈现有没有在领域取得应用,作为设计师的他,标准非常高。
而对于整个美图团队而言,一切指令都以设计师的意见为先,当设计师说可以上,美图视觉大模型就上,设计师说不能上,团队就会继续进行调整。加上设计师自己得时刻使用,对于模型实际体验感肯定是最在意之人。
「他天天用我们的模型,我们的生成架构敢不快吗?天天催。」
作为一家以美为基因的公司,美图在美学上与用户产生的深厚链接,足以让美图视觉大模型团队以用户体验作为第一出发,进行大模型的评估,从而反推技术上的研发。
从实际效果上来说,在发布会现场,我们通过各类效果的对比,着实看到了美图视觉大模型3.0的强大实力。
图片由MiracleVision3.0生成,关键词:新闻现场,1记者,专注的眼神,城市街道,高清分辨率,科技感,现代,自然光,金属质地
以应用场景为例,身处传媒行业或者广告行业的小伙伴,都有过熬夜拼赶,花费巨大心力的设计稿发给「甲方爸爸」,却因对方一个NO字,需要重新进行返工重做的经历。
这其实和传统的设计工作模式相关,一个设计师,在创意脑暴后,寻找情绪版给甲方参考,确认后再由设计师进行具体设计,中间需要与甲方反复沟通确认,最终交付作品,耗时耗力。
传统的设计工作流,在创意脑暴后,寻找情绪版给甲方参考,确认后再由设计师进行具体设计,当然这中间需要与甲方反复沟通确认,最终交付作品。
美图视觉大模型的出现,带来了AI原生工作流。在创意脑暴后,AI能快速生成各种创意视觉供甲方确认,在确定最终创意后,再交由设计师与AI协同进行创意细化,很快能完成作品交付。
在具体的功能上,美图将自研AI视觉大模型MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。
「奇思妙想」主要聚焦于辅助用户提供创意方面,当用户输入关键词,MiracleVision可自动补充相关表述,如光影效果、质感、风格、图片质量等,让即使没有那么多年美术功底的普通用户也能一键生成大片。
当然,如果用户有更专业的需求,通过MiracleVision的「提示词精准控制」功能也可以轻松实现「近景」、「远景」、「顺光」、「逆光」等生成效果。
在「智能创作」层面,MiracleVision通过「深化创作」功能,可以进一步丰富作品细节和提升表现力。通过「AI画面扩展」功能让作品尺寸更大、细节更丰富。通过「局部修改」功能,对部分画面进行精准修改与调整。通过「分辨率提升」功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。
MiracleVision将落地电商、广告、游戏、动漫、影视五大行业,希望能帮助五大行业「工作流提效」。
算力和数据、算法是大模型行业的三驾马车。
尽管老生常谈,但是这三个方面的基本功,却决定着大模型能否走得扎实且长远。
美图2015年成立了美图影像研究院(MT Lab),从那时起,便致力于影像技术的研发与探索。在算法方面,美图影像实验室拥有在近十年的经验积累。
在算力方面,美图联合厂商合作,拥有雄厚的算力资源。在数据方面,美图有专业的设计师标准的数据,数据集比较高质量。其次是有标注,除了设计师还有一些美院合作的专业人士帮我们标注,还有艺术家们帮助审核。
在三个月前,MiracleVision绘画水平在前三个月其实还停留在一个初级阶段,如今的3.0版本已经能描绘出真实细腻的画面细节。
而从6月份美图视觉大模型1.0发布到如今3.0上新,中间的每一步,美图都有着自己的考量。
从0到1阶段,美图考虑更多的是如何搭建这个平台,而在1.0版本发布后。高质量的数据集变成了美图的关注重点。数据怎么来,质量怎么保证?
美图的做法是,既然针对的是美学领域的视觉大模型,那集思广益,采集最专业的数据,邀请外部设计师包括艺术院校的老师和学生一起去构建比较高质量的数据集,从而使得美图在美学上达到比较好的状态。
如今美图视觉大模型3.0发布,如何保证效果的卓越?
第一点便是模型的可控性。不管是在细节的控制还是在局部的编辑都能达到用户想要的效果,在模型的技术层面能达到一个很好的实现。
通用领域可控,那么一些十分专业的垂直领域,是否也同样可控呢?
这一点也是美图花费了大量心力去完善的地方,美图视觉大模型3.0十分注重垂直领域的效果精致度。
美图在发布会上坦言,如果做通用视觉大模型,把全网的各种图片进行训练,然后生成图片,这个事情很好做。
但难的是细分到各个场景里,这些图片不一定能用,比如电商细分下去分为特别多的品类,鞋子分运动鞋、帆布鞋、拖鞋。美图技术团队对各个垂直领域效果进行训练、生成、调试,最后才得以在各个领域产生生产力。
拥有深厚美学功底的美图呈现给大家的是非常文艺的文科生形象,但对产品精雕细琢,不断内省的理科生思维,夯实了美图的技术底座,也让美图的视觉大模型之路走得更加长远。
视觉模型新一轮增长飞轮背后
新一轮AI大模型浪潮中,每个公司都想分一份羹,但对于视觉这个专精深领域,却并不是所有公司都可以hold得住 。
什么样的公司做视觉大模型会有优势?
对于这个问题的答案,很多人第一反应很可能是拥有深厚学术背景的技术团队。
但在美图发布会现场,我们得到了一个全新的答案。
最懂视觉,与用户打交道的公司做视觉大模型的优势不可忽视。
大模型创业九死一生,巨大的成本投入是一方面,另一方面,没有实际的应用场景也是创业成功道路上的拦路虎。再好的技术也得先活下来才有话语权。
大半年过去了,大模型浪潮大浪淘沙之下,存活下来的模型创意公司非常之少。最后只剩下比较成熟或者中型的公司存在,因为创业很关键的一点是做模型给谁用,给别人用的前提是中间要有一个应用层作为辅助和支撑。没有这些,那么创业团队需要从0开始推广应用,如果无法短时间获得成效,风险巨大。
而对于美图而言,这个问题并不存在。
拥有强大用户规模的美图已经拥有了现成的应用场景。模型研发-发布-应用-用户反馈-调整,闭环已经形成。
「我们所谓的增长飞轮,能够越推越好,这个是非常关键的,也是美图过去15年的厚积薄发在大模型时代的体现。」
对于美图视觉大模型3.0,美图团队给予它的期待是在可控性上持续发力。
而看向更长远的未来,在吴欣鸿看来,视觉大模型应用普及将经历三个阶段:2024年之前为探索期,2024-2025年为高速发展期,2026-2030年为成熟期,随着视觉大模型在生产端的应用走向成熟,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。
在这股竞争之潮中,当被问及深耕视觉领域的美图对自己的角色定位是什么时,吴欣鸿面带微笑,目光一如15年创立美图之初那般坚定,缓缓答道:
「相比起在同业竞争里面获得多大的地位,我们更加注重用户体验,以及自身能力的不断提升,即使是对标也是去对标我们认为全球最领先的产品,我们要一点点去接近乃至超越,因为对我们来说,视觉大模型的竞争才刚开始,做,是第一要义。」
雷峰网(公众号:雷峰网) 雷峰网 雷峰网