对话 HiDream.ai 梅涛：做一家对标 MJ 和 SD 的公司，比扎堆做 LLM 机会更大｜AGI十人谈

梅涛 HiDream.ai 视觉多模态基础模型

作者：李扬霞

2023/07/20 19:32

梅涛2002年底就进入了微软，博士5年，他有3年半都在微软度过。2006年他拿到博士毕业证后，继续回到微软工作，直到12年后才离开微软亚洲研究院。

他说：“在微软加起来总共15年，不管是技术的价值观还是公司的文化都是在这边形成的，第一份工作对一个人的影响很重要。”

而在京东5年的经历，他确实学到了很多经验，弥补了自己从技术到产业化的不足。

春节前走的时候，梅涛很坦然的对刘强东说：“我待了5年，想出去做点事情。”刘强东也很赞同。在最近一次梅涛给刘强东回信中，他讲述了最近公司的一些进展，刘强东也对梅涛送上了由衷的恭喜。

在创业初期，梅涛获得最大帮助就是科大的校友，科大人可以说是聚是一团火，散是满天星。

梅涛公司第一轮投资有15个人是科大校友，他们组成了一个合伙人LLP来支持他。

甚至，梅涛公司会议室的桌子椅子，也是上一个科大人公司搬过来直接捐赠给他们的。

梅涛虽然为人低调，但朋友很多，这些校友无一不在帮助梅涛，包括出谋划策去融钱、发展公司、搞业务、搞客户。

“科大人帮科大人的故事就是这么来的，科大人才密度很高，所以我们科大人帮助科大人很有成效。我非常感激母校中国科技大学。”梅涛有些动容的说。

“我自己有个梦想，就是在中国做一家具有硅谷创新精神的公司。”

如今大模型的大潮到了，梅涛也开启了他的创业之路，成立了HiDream.ai 。梅涛告诉AI科技评论，HiDream.ai 要在基础模型上超越Stable Diffusion最新版本，而在产品上则要赶超Midjourney。

这是国内第一家喊出来对标Stable Diffusion和Midjourney而且真正希望做到的公司。

在AIGC领域，做图像生成的基础模型中，开源的Stable Diffusion无疑是最好的，因为有很多人来做贡献；而在产品上，由于Midjourney 最早通过社区用户积累了独有的用户反馈，数据的轮子已经转起来了，同时配合高质量数据集，形成了自己的竞争壁垒。

梅涛告诉AI科技评论，要对标就要对标最好的，这个领域要卷就要跟国外卷，直接做基础模型底层的正面竞争。目前HiDream.ai 已经在开发一个生成式视觉多模态基础模型，该模型不仅能够支持文生图，还能支持文生视频、图生视频以及文生 3D 等功能。

梅涛认为，必须自己做多模态基础模型，因为没有模型就没有核心壁垒。

对话 HiDream.ai 梅涛：做一家对标 MJ 和 SD 的公司，比扎堆做 LLM 机会更大｜AGI十人谈

1
对标MJ和SD，不在国内卷

AI科技评论：听说你前段时间在找算力？

梅涛：前段时间是在找算力，那个时候确实比较辛苦一些，现在算力问题解决了，已经在用了。

AI科技评论：你现在创业在哪个阶段了？

梅涛：我是春节前两天离开京东，三月初注册了智象未来科技有限公司。

我们现在做的就是AIGC（人工智能生成内容），主要是生成式多模态基础模型以及其应用，主要应用会面向设计师来使用，例如游戏设计师、营销设计师、绘画设计师等。

在AIGC的路上，我们可以说是一路狂奔。三月注册公司，四月中旬第一轮融资就结束了，五月初基本的算力资源和核心人员都已经到位，六月底数据和模型的规模都已经达到了60亿，七八月份我们就会发布第一版产品。我们的办公室也从亚运村的一个百平米的公寓搬到了现在的中关村。

AI科技评论：目前很多创业者都在往应用方面走，为什么要坚持做一个基础模型？

梅涛：因为如果没有基础模型，就肯定没有自己的核心壁垒；另外不自己做，就要用开源的模型或者调用别人的模型，就会相当依赖别人的技术。

我们坚持做一个底层的多模态基础模型，并不一定要做很大，因为视觉领域生成式基础模型参数能做到100 亿就已经很大了，目前最大也就是十几亿或者二、三十亿。

从五月份到现在八个礼拜，我们已经做到了60亿规模，目前已经上线了一款应用了，不过还在内测阶段，想先在B端客户推广使用。

AI科技评论：在算法方面，你们目前能达到什么程度？

梅涛：ChatGPT这个模型它的天花板很高，今天它能做到 1750 亿，未来它也能做到1万亿。因为它的模型能力很强，它能够记住很多知识。当前的视觉模型本身天花板比较低，现在我们给他喂很多的数据，它也只能做到大概十几个亿的参数规模。

我们现在做的第一个事情是，给模型打很强的补丁，增强它的记忆能力，让它能够记住更多的信息。另外，我们会在算法层面做很多技术的改进，如encoder、decoder等。

如果今天让我去做大语言模型，我觉得没有机会，因为通用的大语言模型确实是大公司做更有优势。而视觉领域的多模态基础模型，以及基于此的很多应用对创业公司来说还是有很多机会的。

AI科技评论：国内在图片或者视频领域大家其实拉不开差距，你为什么觉得有机会？

梅涛：所以我们不跟国内比，直接对标国外Midjourney和 Stable Diffusion，目前我们已经把Stable Diffusion的最新版本甩在后面了，现在正在追赶Midjourney的最新版。

虽然我们起跑的时候晚了一点，但是我们跑得很快。因为我们有一个很强的团队，刚好是十一个人，可以组成一支足球队，团队都是类似于像华为天才少年这样级别的选手。而我自己本人在这个领域做了十几年，我们勤奋、脑子也不笨，我相信我们公司以后会跑的越来越快、走的越来越稳的。

AI科技评论：国内几乎没有这样说自己直接对标这两家公司，为什么敢把Midjourney和 Stable Diffusion作为对标对象？

梅涛：我们对标的是 Stable Diffusion这种基础模型，以及Midjourney这样的应用。我们是国内唯一一家愿意对标Midjourney这种现象级产品的公司，而这个空间还是挺大的。

第一，Midjourney是一个小公司，但是它的数据其实很不错，数据的轮子已经转起来了，行业壁垒已经形成；

第二，Midjourney做文生图，但这个领域也只是满足专业设计师这个小众群体，只是作为找寻灵感的工具，还没有正式进入设计师真正的工作流程；

我们的优势在于不仅做文生图，还做文生视频、图生视频、文生3D等，多种模态可以随意切换。现在公司的能力还没有被释放出来，但是过去两个月的实践证明，在这么短的时间我们就快要追赶上Midjourney了。

我们要对标最好的，而不是关在国内的市场做浅层技术的内卷，一定要走到全球，做Global Market Player。

AI科技评论：你们的产品打算什么时候推出？

梅涛：七八月份，我们也在内测，想先在B端客户内部的设计师使用，然后再投到社区里传播。因为生成式AI的产品一定是体验为主，就是用户觉得好不好。举例说你跟 ChatGPT 对话，如果把ChatGPT比喻成一个“高中生”，再来一个低版本的 GPT 3. 0，那你面对的就像一个“小学生”，你肯定就不太愿意跟他对话了。

所以我们一定要把产品打磨到很不错的程度才会去公开发布。基本到七八月份就可以达到Midjourney V4版本的水平了，赶上它V5 版本甚至未来的V6版本估计得Q4左右。

AI科技评论：您现在做产品会不会结合Stable Diffusion和Midjourney的一些特点？

梅涛：Stable Diffusion和Midjourney就是其中两道菜，并不是满汉全席。而我们知道什么菜用什么组合，用什么佐料。

Stable Diffusion 本来是一个开源的模型，它有文字开源、图片开源，并不是专一在某一个行业里面把产品功能或应用做得最好；Midjourney 它本身没有特别突出的底层模型能力，他们把数据玩的挺好，模型也训练的不错，但他们工程师中做基础算法研究的人很少，基础模型的创新性长期看竞争力有限。

AI科技评论：做大模型，数据是一个问题，现在您这边怎么解决的？

梅涛：因为我们启动的比Midjourney要晚一点，Midjourney他现在比较好，他的模型和数据已经滚动起来了。我们实际上现在已经累积了 60 多亿的数据。

我们做多模态基础模型的时候，实际上是需要图片和文本的配对的。它不像语言模型可以直接从文本数据中拿一个词出来，就可以做自监督学习。我们实际上是需要文本和图片的配对，这种配对的话要求很精准的，而且配对关系很难找。

目前基本上所有的开源、闭源模型都用到了50亿规模的数据集，都是基于开源数据做的。而我们还有 20 多亿的自有数据，所以在数据上我们不输他们，只不过他们的轮子已经转起来了，用户反馈也有了。

我们会在垂直领域上线，很快我们也会积累一些原始数据。我认为真正影响大模型的只有数据和算法，因为算力大家都会有。

2
AI创业门槛提高，主要看谁的效果好

AI科技评论：Midjourney有很多外包人员，你怎么看待他们这条路子？

梅涛：确实Midjourney有60多个外包或顾问，现在这个阶段的创业就是这样，它跟AI 1.0创业时代的四小龙不一样，那个模式商业BD能力会很重要，因为他做 ToB ToG，搞定客户的能力是关键。

我们不准备走他们那种创业故事的路子。我们这波创业的，技术门槛会很高，谁做得好用谁的。比如以前人脸识别一个单子下来十几个供应商都在那里投标，这里面看的不是模型，而是是哪个公司的综合解决方案的能力，包括技术、市场和服务。现在的模式下，更多的是看产品体验、生成的内容质量等。

AI科技评论：包括AI四小龙在内的一些人工智能公司也开始做大模型，您怎么看？

梅涛：其实现在一些公司做的普遍都还是判别式的大模型，而不是生成式的大模型，两种模型不太一样，两个一起做可能会起到一些互补作用。

例人脸识别、目标检测就是判别式的模型。我们现在做的是纯生成式的基础模型，这个门槛很高，不是随便一个使用过Stable Diffusion开源模型的团队就可以创业了。首先得有高密度的人才，并且懂Transformer 架构，所以现在真正想做、能做基础大模型的公司相对还是比较少的。

AI科技评论：判别式和生成式模型的区别在哪里？

梅涛：判别模型和生成模型底层的编码器可能是一样的，但是上面的任务层是完全不一样的。比方判别式模型追求的是准确率；生成式模型则追求的是相关性、创意、真实感，对于准确率容错率高，是一个有创意的领域。

AI科技评论：以前有做过类似生成模型的尝试吗？

梅涛：以前这种深层次的东西，我们想做，但是没想到确实能做出来。我之前在微软时候就做过图生文、相当于看图说话。后来2017年就开始做文字生成视频，文字生成图片。但那个时候技术不成熟，真实感、质量很差，比如画一只鸟，当时我们很难控制它，觉得技术离产业化比较远，所以没有继续进行下去。

如今真正的大模型出来了，机会真的来了，以前只能做ToB，现在也可以做ToC。我们公司之前也做过一个案例，就是利用生成模型，进行工业残次品的检测。

AI科技评论：您认为工业质检是生成式AI应用场景的一个突破口吗？

梅涛：我认为质检不是生成式AI的主要市场。在创业之前我也调研过，这个行业天花板不是特别高，而且市场相对来说比较细分，包括其中几家上市公司，面向ToB 和ToG行业，毛利率一直不是很好。

此外，这个行业是高度的定制化，很难突破“通用性”和“标准化”这两个难题。

我们产品的场景更加聚焦于视觉内容生成，比如游戏和电商领域的设计和营销环节。

3
把技术产品化是“使命感”使然

AI科技评论：对于未来你觉得能做到什么样的程度？

梅涛：模型的训练我们会有很多条技术路径，我们会放出很多匹“马”出去，但到底哪匹马能走到终点，我现在也不太好确定，也许这一匹马折了，再放一匹马出去。比如图片或者视频。

AI科技评论：对于开源您怎么看？

梅涛：现在很多人开源了，但是我觉得真正应该思考的是怎么样去拥抱开源？怎么去跟开源共存？

因为所有人都能够参与的开源生态，其广度绝对是超过任何一个大公司的，因为每个人都可以在上面贡献，迭代速度特别快。所以说不管是创业公司也好还是大公司也好，都得想办法跟开源社区能够一起成长。

我们公司打算把一些偏研究的算法和与核心产品有差异化的开源一些出来。其实之前在微软和京东就已经开源了很多框架，当时点赞率也挺高的。

AI科技评论：国内外对待开源有何不同？

梅涛：国内做开源的公司基本很少，而且是很难的一件事情。

首先，国内公司的开源文化和氛围还有待建设。

其次，开源有开源的协议，如果用了开源的东西，就要贡献你的开源模型；作为开源社区的受益者，你也要遵守这些规则。

我的价值观就是：只要用了开源的东西，就要遵从开源社区的游戏规则，也要反哺社区，否则开源社区没有未来，也无法形成正循环。我们国内的公司包括个人都应该思考怎么跟开源社区共存。

AI科技评论：关于融资，现在进展到什么情况了？

梅涛：现在正在做第二轮天使轮的融资，预计这一轮很快就会结束。投资的具体情况会等到真正交割的时候透露，我不喜欢搞烟雾弹。

AI科技评论：目前人员扩张计划如何？

梅涛：短期内会保持在 25-30 个核心人员左右。从现在开始到明年年底，初步估计核心员工也不会超过 50 个人。我们不是 ToB 的公司，做 ToC 不需要那么多人。

现在主要缺的是产品经理、工程师、运营人员等。尤其是产品经理，一定得是一个很多元化的选手，产品方向不对会把大部队带偏。

AI科技评论：对于招聘人员有什么标准？

其实看一个人的标准主要看是不是有梦想，还有是否愿意来创业公司发展，年轻有想法，动手能力也得强，然后我们一起投身进来干事情。

AI科技评论：您平时比较低调、严谨，您觉得主要受谁影响？

梅涛：我是在微软待了 12 年，在京东待了 5 年，其实受到的影响都是很大的，开复、亚勤、宏江、Harry、世鹏、芮勇等都是我以前的同事，从微软出来的人，价值观、使命感还是挺强的。包括最近我和同时也在创业的周明老师聊天，我们这一波人对于把技术产品化从而创造社会价值，有一种使命感。而京东帮我跨过了从技术到产品再到商业化这两个Gap。

我个人的特点是喜欢厚积薄发、长期主义。我觉得一个人不是说跑得多快，也不是说他跑步的时候有人给他敲锣打鼓了他就可以跑的很远，我觉得最后要看你能不能坚持有韧性，这样才能跑得远一点。

而我看到，国外技术迭代太快了；如果长期这样下去，国内就要被甩开了。所以我必须自己出来做这个事情。（雷峰网(公众号：雷峰网)雷峰网）

本文作者：李扬霞，微信Dec9102。长期聚焦网络安全领域，同时关注AIGC、大模型等内容，对以上领域感兴趣的读者欢迎添加作者微信。