作者丨郭思
编辑丨陈彩娴
大模型的创业进入2.0阶段,除了此前如雨后春笋出现的自然语言公司之外,瞄准视觉大模型应用的创业公司也陆续成立。
近日,AI 科技评论独家获悉:IEEE Fellow、香港大学教授徐东成立了一家 AI 公司——徐图智能,定位是基于视觉大模型技术,提供文生视频等服务。
企查查信息显示,该公司于今年6月成立,仍处于注册状态。
团队成员方面,徐东担任徐图智能 CEO,他于2001年和2005年在中国科学技术大学取得学士和博士学位,目前担任香港大学计算机系教授。
他曾在微软亚洲研究院、香港中文大学和哥伦比亚大学从事研究工作,并在南洋理工大学和悉尼大学任教。徐东教授在计算机视觉、多媒体信号处理以及机器学习等领域做出了重要贡献,在IEEE Transactions和国际顶级会议上发表了150余篇论文,其中两篇论文分别获得T-MM 2014最佳论文奖和CVPR 2010最佳学生论文奖。徐东教授是IEEE和IAPR Fellow,于2018和2021年两次入选科睿唯安 (Clarivate Analytics)高被引学者,同时也担任ACM Computing Surveys (CSUR)资深副主编。
在徐东加码之下,徐图智能在文生视频领域有强大的技术基础,其团队或也绝大多数来自香港大学、商汤等名校或名企。
长久以来,相对于文本、代码和图片生成,视频生成(Text-to-Video)也一直被认为是 AIGC 的“高地”,面临庞大的计算需求、高质量数据集短缺、可控性等挑战。所以对于视频的GPT时代,人们一直抱有期待但迟迟没见其到来的迹象。
但近期,视频领域似乎迎来了新的春风。Runway 先后发布了 Gen1、Gen2, Motion Brush 则近期朝视频可靠性向前了一步,Stability AI 也发布了自己的首个 Text-to-Video 模型 Stable Video Diffusion。今年 7 月,Pika Labs 在 Discord 推出服务器,并在几个月时间内收获了 50 万用户。
不过相比起文本和图像领域,视频创业要想取得突破一段还有漫长的路程。行业一致认为,视频生成的主要难题在于时长,跟时长相关的是动作的意义,不仅要延长视频制作的时长,还要关注动作的意义,看它到底能做多复杂的动作。
其次,视频的清晰度也需要进一步提高。尽管清晰度方面已经有突破,但还没有提高到电影级的水平,现在生成的视频一般是720p分辨率,视频的流畅性也不够理想,特别是一些细节的texture。
而对于Pika Labs创始人提出的视频生成处于类似GPT-2的时期,徐东则在2023年新一代人工智能创业大赛的主题演讲中提出,视频生成暂时还无法直接定义为来到了GPT时代,但可以肯定的是已经初现曙光,这或许也和徐东此次创立文生视频创业公司息息相关。
大模型创业公司的机会在哪里?文生视频领域能否迎来GPT时刻的?欢迎添加作者微信(lionceau2046)交流,互通有无。
雷峰网 雷峰网(公众号:雷峰网) 雷峰网
雷峰网 雷峰网 雷峰网