过往视频编导的标签几乎都是熬夜、通宵,每天工作到凌晨三四点甚至通宵是常态。慧川智能CEO康洪文看来,这中间存在太多的重复劳作,因此,去年年底,康洪文与团队成员共同确定了AI+视频的创业ider。
7月8日,在由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与机器人峰会AI+专场上,康洪文重点介绍了AI+视频中,视频的创作以及视频处理理解两方面工作。
首先,关于视频创作,慧川智能希望做到“让人只要会写文章,就会做视频”。对于人来讲,创造力是无限的,文字工作者有强大的图文创造能力与讲故事能力,不该被制造视频的繁琐工作局限掉。加之如今短视频市场的爆发趋势,更该大力布局。
据雷锋网了解,目前视频网络用户已突破5.5亿,并保持每年8.1%的增长速度。
康洪文以公众号文章为例称,通过到头条以及微信公众号平台统计,这两个平台每天产出文章数量为100万篇以上。根据大数据分析,里面67%的文章都非常适合用视频的方式来呈现,以及这种类型与慧川智能研发的技术也非常契合。重要的是,目前这两个平台上视频覆盖率还非常低,因此有一个非常大的空间等待填补。
除了公众号,以淘宝为代表的电商上有十亿级商品,也被寄予制成视频的希望。康洪文现场演示,基于网页界面,将任意网页或文字输入,后台AI算法会根据这段文字进行分析,找到里面所有关键点,比如提到阿尔法狗和柯洁的比赛,后台就根据自然语言去处理这些关键部分,如时间、地点、人物。通过文章的语义分析,自动与素材进行匹配,对每一段话、每一个句子找到对应的多媒体素材,比如图片、视频、社交媒体分享,进而自动生成故事线。
康洪文表示,如此步骤下,生成可以直接使用的视频,是最理想状态,但如果有需要进一步修改的话,可以在生成界面基础上再进行素材调整,比如,还可以截取每个视频片段长度、起始时间,甚至在图片上添加一些像画字或者文字的信息。
据雷锋网了解,通过慧川智能系统,视频制作效率可能被提升近百倍。之前花费几小时制作的视频,如今通过智能手段,可被压缩至几十秒。
在具体步骤上,首先根据输入文章或者网页进行文本分析,通过自然语言处理技术分析发现关键信息,之后再跟结构化素材库进行匹配和搜索,找到相关的图片、视频片段和社交媒体,之后还有部分延伸的广告进行匹配。慧川智能提供简便的在线剪辑和预览平台,客户只需要注册一个账号就可以进行剪辑,以及视频预览,满意之后直接点击生成视频,在云端即可生成下载。
整个提升视频制作效率的系统结构,大致分为三部分——计算机视觉、自然语言处理、以及大规模计算。这三个部分正好对应慧川智能三位创始人的背景——康洪文康慧文于卡耐基梅隆大学专攻人工智能视频理解,CTO黄健博士是康在微软的同事,在谷歌从事过搜索引擎与商品推荐,首席架构官刘曦博士主攻大视频分析平台。
康慧文表示,面临的最大挑战是对视频结构化信息一无所知。从根本上讲,慧川智能是希望将视频结构化,根据三维形态的视频流,理解其内部的人与物,以及他们正在进行的动作,把它构建一个精确到帧级的视频内容标签。
同时,康洪文表示,此次会开放一个API,帮助对视频有需求的人进行理解,进而促进全网视频结构化。其主要包括两大功能——一个是视频内容的理解和标签化,提供包括时间、地点、人物、事件等一千多个视频结构化标签。另外,慧川创造了全球明星的数据库,当输入一段视频,后台可以将这个视频出现的所有明星,出现的位置,从第几帧到第几帧的具体位置全部标注出来。目前慧川智能已收录全球最知名的500位明星。