近日,大模型创业公司阶跃星辰在其开放平台体验中心,正式上线了图像生成大模型 Step-1X,注册即可体验。(指路链接:https://platform.stepfun.com/console-tools?model=step-1x-medium)
事实上,这款大模型之前已经备受期待。在 7 月份举行的 2024 世界人工智能大会上,阶跃星辰一口气发布了万亿参数语言大模型 Step-2、多模态大模型 Step-1.5V 和图像生成大模型 Step-1X 三款大模型,并且跟上海电影梦幻联动,基于经典 IP《大闹天宫》开发了 H5 互动体验“测测你是哪路神仙”。据了解,《大闹天宫》可用于训练的数据资源稀缺,但 Step-1X 图像生成大模型只用了极其少量的数据,就实现了质量可观的生成效果。
Step-1X 重点打磨了深度语义对齐能力和细节生成能力,采用全链路自研的 DiT(Diffusion Models with transformer)模型架构,能深度理解复杂指令下的含义,比如多主体和复杂场景背后的逻辑关系、情感和文化内涵。Step-1X 还支持高达 2000 个字符的图片生成指令,能让图文精准匹配,灵活满足广告创意、游戏美术、影视制作、产品设计、教育辅助等不同场景下的创作需求。另外,Step-1X 针对中国元素和文化进行了深度优化,在处理中国风内容时具有独特优势,能更好地演绎出背后的文化精髓。
Step-1X 发布后,不少用户已经率先玩起了创意,从大家的体验图中我们也观察到了这款大模型在不同创作场景下的生成效果:
诗画创作
让大模型为古诗词配图,挑战在于是否能精准理解古诗中描绘的象征性事物,并捕捉和抒发出诗词背后的意境和诗人蕴含其中的情感。
“疏影横斜水清浅,暗香浮动月黄昏”,图片描绘出了梅花照水,在月光下暗香浮动的唯美和静谧。
“采菊东篱下,悠然见南山”,有纵深感的绘画视角与“远远看到南山”的含义相应和,明朗柔和的用色体现出了陶渊明诗词背后豁达开阔的心境。
“浪迹江湖白发新,浮云一片是吾身”,Step-1X 用国风动漫风进行了刻画,设计了一个背对画面的人物,站在高处远眺壮阔的云海,去表达浪迹江湖的恣意洒脱。
故事绘本
越来越多作家开始用 AI 写小说、配插图,也有用户通过给 Step-1X 描述剧情,创作属于自己的故事绘本。比如:
故事:女孩的神秘探险
1. 一个未来的水下城市中,女孩戴着透明头罩,穿梭在闪烁着蓝绿色光芒的隧道里。她周围是高耸的珊瑚建筑和游弋的海洋生物。头罩内的智能系统实时分析环境,她的任务是探索这片充满未知的海底世界以及体验深海带来的神秘与孤独感。
2. 一个未来的水下城市中,女孩戴着透明头罩,穿着黑蓝色的高科技质感的潜水服,她四肢修长,在海里像一个优美的美人鱼。她发现海底世界边缘某处闪着耀眼的金光,似乎是一处宝藏,她向宝藏的方向游去。远景镜头。
3. 一个未来的水下城市中,在水下城市的最深处,美丽的女孩戴着透明头罩,穿着黑蓝色的高科技质感的潜水服,她发现了海底的宝藏,宝藏放在一个破旧的箱子里金光闪闪,宝藏后面隐藏着一只凶猛的巨兽。
古风人物
Step-1X 在生成古代人物时,对富有历史感的服饰体现出了像素极的把握,比如在这幅凤冠霞帔的女子画面中,饰品上的纹路都清晰可见。
现代人物
用 Step-1X 生成现代人物的视觉图像,对女孩子发丝、雀斑、唇纹的描绘细致入微,且图像就定格在水滴滑落的瞬间,有了时间感。
动画英雄
用 Step-1X 生成动画英雄人物的形象,Step-1X 交的答卷展现出了几种对英雄的刻画方式:耀眼的、眼神坚毅的、在冲突性场景中对抗对手的。
艺术画作
Step-1X 可以为用户指定的创作元素赋予不同艺术流派的风格,这背后是文生图大模型对艺术家风格的捕捉和理解能力。比如模仿印象派大师莫奈创作的花海,抓住了光影轮廓线模糊化、色彩透明度高的特点,演绎出印象派抒情的画风。而模仿达利创作的图片,捕捉了超现实主义荒诞不羁的特色,呈现了一个内容魔幻的动物茶话会。
生动有趣的动物刻画
在对动物形象的描绘中,Step-1X 呈现出了细腻的画风,而且动物在刻画中被赋予了或可爱或威武的人格。
隐藏玩法
阶跃星辰官方公众号还披露了两个隐藏玩法,能让生图效果获得加成:
1. 在 Prompt 中融入咒语「令人叹为观止的细节,逼真的画面」,让图片的写实程度进一步提升。图片中对古典中国园林的刻画极致入微,能细致到每片叶子,巴黎街道的长曝光图片也跟单反相机拍摄效果有的一拼。
古典中国园林景象
巴黎街道的长曝光照片
2. 用智能助手「跃问」完善 Prompt
阶跃星辰开发的智能助手「跃问」搭载了 Step-1.5V 多模态大模型,识图能力 Max。把图片发给跃问(yuewen.cn),配以下 Prompt,使用新得到的 Prompt 进行文生图创作:"你是一个文生图模型的提示词专家,你善于通过图片分析内容里面的人物形象、环境、背景、图片风格、色调等信息,然后以此为基础创作文生图模型的提示词。" 比如下面两张图,基于跃问识图和 Step-1X 文生图能力,生成了一张与原图中人物动作、情感都十分类似的图片。
原图
Step-1X 生成图
另外,除了上线图像生成大模型 Step-1X ,阶跃星辰开发平台近期还迎来了多项更新,包括:
• 发布极速版模型 Step-1-flash。Step-1-flash 是一款高性价比模型,可支持的上下文长度为 8k,相对于此前发布的 Step-1 语言大模型首字延迟降低 25%,输出速度是 Step-1 的 1.7 倍。
• 开放平台体验中心上线,体验中心具有直观的用户界面,无需编写任何代码即可体验阶跃星辰旗舰模型。
• 上线了应用开发指南,根据开发者碰到的高频问题,提供大模型应用开发的最佳实践指导和代码示例。目前已经上线了关于文生图、 Json Mode、Prompt Engineering、流式输出、多轮对话、异常处理和 Tool Call 的内容。
要迎来 AI 应用的井喷式爆发,先决条件是底层大模型创新公司能坚持探索技术边界,通过生态开放实现技术普惠,无限降低开发者的使用门槛。阶跃星辰正在这条路上持续加码,除了快速迭代模型产品,阶跃星辰也面向 AI 应用开发者推出了“繁星计划”,提供免费 tokens、技术支持、孵化器服务、行业资源对接等一系列支持和服务。
欢迎体验 Step-1X 文生图功能,https://platform.stepfun.com/console-tools?model=step-1x-medium
雷峰网(公众号:雷峰网)