慧川智能康洪文：AI让视频更简单| CCF-GAIR 2017

慧川智能康洪文 AI CCF-GAIR 2017

作者：吕倩

2017/07/24 23:33

慧川智能康洪文：AI让视频更简单| CCF-GAIR 2017

在AI 与各行各业相融合的行业大背景下，AI+视频可以碰撞出什么样的火花？

7月8日，在由中国计算机学会（CCF）主办、雷锋网与香港中文大学（深圳）承办的第二届CCF-GAIR全球人工智能与机器人峰会AI+专场上，慧川智能CEO康洪文重点介绍了AI在视频的创作以及内容理解两方面的技术，希望能让视频创作者、以及其他视频领域从业人员的工作更加简单。

杭州慧川智能科技有限公司旗下的产品名为智影。智影基于在计算机视觉、自然语言处理及大规模云计算三方面的技术，目前提供两个功能：一个能将输入视频进行结构化理解，并提供细化到帧级精确度标签（时间、地点、人物、事物、事件）的视频内容理解API；以及一个基于此技术，能够将脚本文字快速转化为短视频的云平台。在用户输入一篇文章、一个链接或者一个关键词后，它将基于人工智能技术，自动搜索合适的图片及视频素材，并配以人工智能合成的语音，最后融合成一条短视频，当然，用户还可对产出的短视频在线进行调整。

团队方面，CEO康洪文为美国卡耐基梅隆大学计算机、人工智能专业博士毕业，曾在微软研究院，Intel研究院工作，其视频方面的工作应用于微软的Windows操作系统，并取得了视频分析合成的美国专利。联合创始人刘曦为美国卡耐基梅隆大学计算机专业博士毕业，曾在美国视频大数据公司Conviva工作任首席架构师。联合创始人Sean Huang是美国宾州州立大学计算机博士，曾就职于谷歌购物，任技术带头人。

慧川智能已获得数千万人民币融资，由清流资本投资。

现场，康洪文向雷锋网解释了慧川智能如何使得全网视频结构化，雷锋网进行了不更改原意的整理：

雷锋网：我们目前的主要盈利方式是怎样的？

康洪文：目前慧川智能主要通过付费的方式、将API提供出来给第三方，比如媒体平台、个人需求者等。让他们直接对接素材库，我们负责提供视频理解这个服务。

雷锋网：慧川领导团队是如何搭建起来的？

康洪文：我们团队成员很早就一起工作了，相互认识并合作了10年以上。目前智影底层的系统得益于团队近3年来的技术积累。

雷锋网：黄健博士的NLP技能是具体怎样落地到AI+视频的呢？

康洪文：比如当对一篇文章进行自然语言处理时，去具体理解分析其存在的包括人物、时间、地点等关键元素，之后再与素材库进行匹配对接。类似的NLP技术和核心思想也已经用到我们的视频结构化工作里面，因为我们注意到视频无外乎就是另一种信息的呈现方式。

雷锋网：可以聊聊资金的具体使用方向吗？

康洪文：我们由清流资本投资。方向主要投入在人员与技术上，技术方面，目前主要用于基础框架的搭建，比如视频理解、数据结构化与收集等。

雷锋网：智影最核心的支撑技术是什么？

康洪文：我们有三大核心技术支柱——计算机视觉、自然语言处理，以及大数据云计算平台。

雷锋网：通过上传文章或图片的形式，来制作视频，会不会产生由于资料源短缺而使视频质量不达标的情况？

康洪文：资料稀少的问题，正是我们可以解决的。比如我说斯里兰卡人头攒动的机场、热带海洋气候的景象、当地鲜艳服装，你在脑海里就能想象出具体场景。你能做到这样，是因为你之前有相关类似经历。而我们推出的AI也能达到如此，甚至更好。因为机器是有大数据的，它可以从庞大的素材库里搜索对方的各类特质。

雷锋网：当AI可以从大数据上获得情景再现，如果希望在视频中加入主观情绪色彩呢？

康洪文：细微情绪这方面在目前是稍难的，但在一定程度上也可以做到，即情感分析。比如说我们讲到特朗普，可能85%对他的言论都是否定的，15%是正面的，这种情感的识别和分析对于自然语言处理现在来说已经是非常成熟了。

雷锋网：当视频生成后，有没有具体的评测机制对其判断优劣？

康洪文：我们有一个类似谷歌的标准，去定义视频的合成质量—— 一是我们匹配素材的相关度，一是整个视频制作出来后的质量。我们希望的目标是能够在未来的几个月，做到相当大部分自动生成视频是高质量的、用户可以直接拿来用的一个质量水准。

同时，我们目前的系统是交互系统，用户是可以在视频自动生成基础之上再进行修改的。而作为一个客观度量方式，就是观测用户有多少次修改，我们会有针对性地降低这个修改数量。

专题

GAIR 2017 查看更多文章