用图片搜索视频是一种什么样的技术？ | 雷锋网公开课

CVPR 深度学习图麟科技

作者：程弢

2016/07/04 17:42

今年8月，雷锋网将在深圳举办盛况空前的“全球人工智能与机器人峰会”（CCF-GAIR），届时雷锋网将发布“人工智能&机器人Top25创新企业榜”榜单。目前，我们正在逐一拜访人工智能、机器人领域的相关公司，从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中，请联系：2020@leiphone.com。雷锋网

各大搜索引擎已经先后推出了以图搜图的功能，它可以实现输入与图片名称或内容相似的关键字就可以检索到相应的图片，例如电商购物、微信扫一扫以及百度识图等都使用了这一技术。但是，随着视频内容的走红，业界又衍生出了一种新的技术——以图搜视频，即你能够通过这一技术在海量视频中搜索到目标视频。

那么问题来了，这又是一种什么样的技术？它和以图搜图的区别在哪？有什么技术难点？

为此本期硬创公开课邀请了图麟信息科技CEO魏京京来为大家解答这些疑惑。

用图片搜索视频是一种什么样的技术？ | 雷锋网公开课

魏京京：中国科学技术大学计算机专业本科/硕士，毕业后就职于IBM北京研发实验室和美国硅谷研发实验室，担任工程师和产品经理，随后就职于咨询公司和投资公司，曾在同创伟业做过4年的风险投资，担任投资总监。现为图麟信息科技CEO。

简单介绍下图麟科技？

魏京京：图麟科技的核心技术团队在图像处理、识别领域有十几年的经验。现在主要专注于海量图像/视频的搜索、识别、智能分析处理，核心算法团队来自于全球前沿的图像视频处理技术研究机构，具有超过15年的图像视频研究经验。

在以图搜视频领域，我们开创了以视频为单位来提取特征，并实现以图搜视频技术的实际商用。

以图搜视频是用什么样的技术方式实现的？它解决了什么样的问题？应用场景有哪些？

魏京京：先说作用，以图搜视频解决了当前针对海量视频内容的精准快速检索的硬伤。

随着图片和视频等数据在我们日常生活中、实际应用中海量爆发，就像当年文字互联网的爆发一样，我们需要一个有效的方式对图像和视频内容进行快速筛选和获取，为了达到这个目标，海量视频检索就是一个非常必要的工具。

相对于视频鉴黄，以图搜视频实现的是针对通用物体在海量视频中的快速精准视频检索。

再来谈谈它的核心技术。

以图搜视频的技术包括经典的模式识别、深度学习领域相关技术，其原理是通过经典的模式识别技术和深度学习技术的融合，达到海量视频搜索在精准度、速度上的最佳组合。

而应用场景就很好理解了。

视频搜索的应用场景覆盖很多我们生活和工作中的方方面面，简单来说，大家目前在各大互联网视频网站、电影视频网站搜索自己感兴趣视频的时候，只能通过文字关键字来搜索。

而如果集成了以图搜视频的技术，就可以通过某个电影场景、片段、海报等等直接的图片内容来进行搜索。

另外，在互联网安全领域，目前对图像、视频内容的审核，都无法做到自动审核，还很大程度上要依赖人力，通过以图搜视频技术，可以自动审核图片或者视频中的包含的内容信息，这就提高了互联网安全领域的图像以及视频内容的过滤和审核效率。类似的应用场景还存在于安防、电视媒体、个人图片以及视频管理应用等诸多领域。

以图搜图与图像识别，物体识别的区别是什么？

魏京京：其实，“图像/视频检索”和“图像/物体识别”是一对孪生兄弟，在某些时候，这两类技术是可以相互通用的，比如，为了达到物体识别，你可以先进行图像检索，再进行图像识别来达到识别的效果；为了达到图像检索，也可以先进行识别物体，然后再进行检索来达到图像检索的效果。

当然，它们之间也有很多差异，为了达到通用范围的图像/视频检索，目前经典的图像/视频检索算法，是没有加入图像识别技术，这主要有几方面原因：

一、没有加入图像识别，可以有效的降低物体遮挡造成的无法识别的问题，图像/视频检索可以通过物体的局部特征进行有效的匹配并准确查找到目标伍，即使该目标物体大部分都被遮挡也不会妨碍搜索的准确性。

二、为了达到通用物体的搜索，目前还无法加入万事万物的识别，即使随着深度学习技术的迅猛发展，我们仍然无法对所有物体进行有效识别。因此，为了检索的准确性，依赖对万事万物的识别也是不现实的。视频鉴黄也是只能对一类特征目标物体来进行识别，但是我们需要实现的是所有通用物体的检索，因此无法现在就能加入识别技术。

但是随着深度学习技术的发展，非常好的趋势就是把深度学习技术和过去经典的图像/视频检索技术进行结合。图麟科技的做法有两方面：

1.通过把识别技术和检索技术进行有效的统一，真正把原来两步过程（检索、识别分成两个单独的步骤）变成统一的一个过程来做检索。这涉及到算法每一个步骤的两类技术的融合统一，包括特征提取、比对等等细节过程。

2.在某些可以限定的较宽泛的领域，通过识别问题来确定范围，然后在有效识别的子类中进行快速图像/视频检索。视频鉴黄只是其中某一类场景，还有包括很多客户特定的应用场景，这一方式可以快速有效的进行优化融合，把识别和视频搜索技术快速有效结合。

以图搜视频的相比以图搜图，技术上存在哪些区别与难点？

魏京京：视频的本质就是图像序列，所以以图搜视频，面临的一个最直接问题，就是数据量非常庞大，一秒钟的视频就相当于25-30张图片，因此需要一个非常好的方法来把这些图像序列的特征进行紧凑快速有效的融合，而不是简单的把每帧图片分别进行特征提取然后采用以图搜图的方式实现视频搜索。

简单来说，相比较以图搜图，以图搜视频，必须要通过视频为单位来进行特征提取，才能在实际应用中达到可实施的可能。这就是相对于以图搜图，以图搜视频的区别和难点。

再补充一下，为了实现以视频为单位进行特征提取，这中间还会涉及到视频内容本身的认知及算法，这方面会超出以图搜图中单幅图像比对的范畴，算法复杂度和难点较高。

那么以视频搜视频又有什么样的技术特点呢？

魏京京：以视频搜视频，我们坚信这一定是未来的一个趋势。因为目前以图搜视频还是基于单幅图像来进行搜索，相对还有局限性。

用图麟科技举个例子，我们正在实现的以视频搜视频技术，结合的还是之前提到的以视频为单位进行特征提取的算法基础，可以对用户输入的这段视频进行有效的特征提取，通过算法判断用户对视频中某类物体或场景感兴趣，从而快速的在海量视频中查找到相似的视频片断。

综合来讲，以视频搜视频，这中间的核心技术，也是之前提到的以视频为单位的特征提取和比较。这与针对单幅图像作为目标来进行搜索相比，更往前了一步。

这样的优势具体体现在哪里？

图麟科技算法负责人张工：现在视频的检索很多时候大家还是把视频作为孤立的帧来使用，也就是，先提取多帧的特征，最后来一对一匹配。

这样做看起来很精细，但会导致数据库过于庞大，而且实际上除了效率不高，精度也不好。图麟的做法就是从视频级，而不是帧级来组织数据库，在效率上、精度上都有相应的提升。

上述不同种类的图像处理技术应用前景如何？

魏京京：正如前面提到的，以图搜图、以图搜视频和以视频搜视频直接解决了目前我们对图片/视频内容本身的快速获取和过滤。

类似于2000年左右，网络文字信息的爆发，直接催生了文字检索过滤等功能的诉求。而目前我们所处的工作生活领域，图片和视频的获取，就像当年我们输入文字一样便捷。

这直接导致了我们所接触到的是图片/视频的海量存量信息，同时随着基础硬件的不断提高，图片和视频的处理也变得越来越便捷和经济，所以视频检索就会在将来的各个领域变成一个刚需。具体的应用场景之前的回答中也涵盖了很多方面，这里不再赘述。

精彩问答：

Q：视频检索现在主要是用在公安，安防这一块，那么未来有没有新的发展方向？

A：从我们目前接触的客户诉求，公安、安防只是其中一个比较小的领域，大批量具有很多图片、视频存量的企事业单位，都表现出很直接的对以图搜视频的紧迫需求。

目前的很多公司，已经在图片、视频上积累了很多数据，但是这些数据本身他们没有办法进行有效的交互和获取，这些都是视频检索的用武之地，类似于广电、互联网、文化、营销等等。

Q：您认为以图搜视频技术在机器人技术方面有没有应用可能呢，或者说您对这项技术在机器人方面的有没有什么想法？

A：以图搜视频本身涵盖的底层技术面比较多，包括了图像识别、深度学习、模式识别、视频检索，从大类来看，这些都是CV领域很重要的底层技术，他们也都可以直接应用在机器人视觉方面，简单来说，机器人的视觉所需要的物体识别、室内导航视觉模块、图像/视频比对技术，都已经在视频检索中部分得到体验。

以视频搜视频，其实跟机器人场景结合的就很密切，机器人通过摄像头进行视频输入后，可以快速有效的定位他所处的场景，并做出行为反馈。其他关于识别方面相信大家都很了解了。

Q：“从视频级，而不是帧级来组织数据库”，这个可以详细解释下吗？

A：这么说吧，如果一个视频有100个小时的话，目前市面上很多视频检索系统，可能数据库是存储单帧的，这样总共有100*3600*25帧，数据库是这么大。但是如果以视频内容来分级，可能只有几个独立的视频剪辑，这样就小很多了，检索起来也快。

Q：您经常逛那些技术论坛以及社区？

A：我个人喜欢看一些顶尖的国际论文，例如CVPR，ICML，ICLR。

用图片搜索视频是一种什么样的技术？ | 雷锋网公开课

专题

雷峰网公开课查看更多文章