图像识别创业者谈Firefly：视频识别是难点数据将成门槛

亚马逊图像识别 Firefly Fire Phone

作者：王星

2014/06/24 12:50

上周，亚马逊推出了其首款智能手机Fire Phone，其中号称能“扫描一切”的图像识别应用Firefly被认为是该产品上最大的亮点，也引起了业界对于图像识别技术的新一轮关注。

另一方面，由于Fire Phone尚未出货，许多关注Firefly的人对这款产品提出了一系列疑问：它的识别准确度如何？亚马逊的数据是否能帮它建立起门槛？它又会给图像识别领域带来怎样的影响？

在此之前，已有不少图像识别领域的创业团队在图书、商品、人脸、视频识别方面做了不少尝试，并推出了相关应用，例如来自提供图像识别和增强现实解决方案的亮风台、专注于人脸识别的Face++以及来自硅谷的图像识别创业公司Orbeus。

近日，亮风台创始人廖春元、Face++联合创始人印奇以及Orbeus的联合创始人刘天强、王盟先后接受了雷锋网的采访，谈及了自己对于Firefly的看法。

雷锋网：之前是否关注过亚马逊在图像识别方面的进展？

廖春元：在4、5年前，亚马逊收购了SnapTell公司时就开始关注。

王盟：亚马逊一直花了很多精力做图像识别，在历届计算机视觉会议上都能看到他们的身影。他们的A9团队一直在做基于特征点的图像匹配，效果还不错。

印奇：有。之前亚马逊就推出了Flow这个应用，它是Firefly的前身，在移动端商品、视觉搜索领域做出了很前沿的尝试。

雷锋网：你认为亚马逊在图书封面、商品包装、视频流媒体方面的图像识别的准确率能达到怎样的水平？

王盟：图书封面、商品包装基本已经很成熟了。产品实物识别还比较难，不过随着最近几年深度学习的成熟，被解决的时机也指日可待。

廖春元：没有专门的测试集我无法给出准确估计，但亚马逊在这方面布局很久，应该不差。

雷锋网：在Firefly涉及到的这些领域里，哪一个的技术难度最高？

印奇：这些技术里，类似图书封面这类的视觉搜索相对简单，因为有很多图像和OCR的信息。商品包装和流媒体搜索用的是不同技术，都很有挑战性。

廖春元：在识别图书、包装和视频等内容中，识别技术上应该都差不多。如果要根据视频中任意一帧，识别出该视频的来源，则难度会相对高一些，因为需要索引的东西比普通书籍封面等多得多。

王盟：准确的文字检测。

刘天强：就单纯图像、模式识别这些方面，识别精度亚马逊并不出众，但是Fire Phone设计上，多摄像头对于形成物体的三维信息有很大的帮助，因此对于物体识别来说，他们能够拿到比其他手机更全的信息，降低了识别的门槛。具体来说，其技术特点在于：一是用更多的特征数据来区分物体，二是将算法构架在Amazon巨大的商品数据库上面，三是对区分算法精度要求很高（如果正如他们声称的能够识别超过一亿类的物品，实在是一件了不起的工作）。

雷锋网：亚马逊拥有大量的图书、商品、电影资源，他们的数据库是否能够成为他们在这些领域的图像识别方面的门槛？

印奇：数据一定是一个核心资源，但未来这些数据一定会越来越开放。最终还是“搜索引擎”本身的技术能有多准确，多普适。

刘天强：当然，这是这项技术最高的门槛，算法谁都可以提高，但是数据却并不是谁都有，海量的带标注的数据，就更加难得。

廖春元：是的。

雷锋网：你们是否会与其他的电商、视频网站合作推出类似的产品？

刘天强：目前我们在App store上已经有了ReKoEye这个应用，扫描物品得到其信息，暂时没有推出类似产品的计划，因为两个原因。第一，算法精度达不到识别具体品牌的程度，例如我们可以识别某个物体是衣服，甚至可以识别出衣服的种类，但是识别不出来是哪些牌子，这会给消费者产生误导。想象这样的场景：一个用户用我们的app扫眼前朋友身上的衣服，我们App就告诉她这是件短袖，然后推荐网站上同颜色的短袖，这件事情不是不能做，但目前已经有不少相关App出现，个别app还依托于电商巨头的数据库（哪一家你懂的！），在商业上的表现也就是不温不火。第二，我们认为这类App，并不是目前物体识别技术最佳的应用领域，因为目前的技术更加适合在大的数据集上跑，做统计、做搜索或者视频更合适，而无法保证对单张图片的识别95%以上都正确，这样就很难做到很好的用户体验。

雷锋网：此前是否有手机厂商希望与你们合作，把图像识别的功能深度集成在手机中？

印奇：我们的技术被应用在很多手机中，但现阶段都没有做深度合作，未来有可能。

刘天强：有的，还不少，也考虑过，但是我们暂时打算继续坚持云计算路线，因为我们相信未来多媒体数据最终一定都是在云端的。

廖春元：是，比如最近和Oppo合作推出的O-video就有类似功能，只不过数据量没有亚马逊大，还在扩充中。

雷锋网：Firefly会给整个图像识别领域带来怎样的影响？

刘天强：3D方面的识别会被带起来，之前深度学习等工作，目前在视觉上比较常见的领域还是2D图像，如果亚马逊这种布局摄像头的方式成为业界普遍接受的标准，那么甚至有可能本质改变图像的表示形式，例如现在图像就是由像素点组成的，未来会不会由三维点阵组成的3D模型呢？让我们拭目以待。

廖春元：会加速教育用户，刺激创新，推动这个领域技术的产品化

印奇：Firefly算是第一个大规模商业化的移动端视觉搜索，会是里程碑意义的。现在大家都在想什么才是真正移动搜索的形态，也许Firefly会给大家很多启发。

雷锋网：对你们公司呢？

印奇：未来我们会在人脸识别领域持续专注的同时，会从人脸领域扩展到更广的图像识别理解领域。不排除做视觉搜索的可能性。

廖春元：既有挑战也有机会。挑战是在世界范围内有这样强劲的对手；机会是为我们树立了一个行业标杆，加速中国市场的培育。

王盟：让人们知道我们的东西的重要性。

雷锋网：它能否帮助用户真正养成用手机扫描图片、视频进行识别的习惯？

刘天强：亚马逊不是第一家做了类似的产品，过去其他公司用了众包的方法做，比如IQ Engine和Camera Find，效果也很精确，但暂时都没有取得商业上的成功。亚马逊和他们的区别在于识别全自动，但对于真正需要购买该商品的用户来讲，不会在乎多等几秒钟时间，更何况目前亚马逊的App如果没有Fire Phone的支持，对于非刚性的物体的识别精度还不够，不如目前市面上做物体识别的许多公司，比如我们Orbeus。

廖春元：手机扫描只是交互的实现方式。从用户体验的本源来看，当一个人看到当下周边环境中有感兴趣的目标时，的确有冲动想要了解更多。这个产品以简单的输入方式满足用户的这种需求，借助亚马逊强大的内容和技术资源，是有可能培养用户习惯的。也许将来不一定是用手机，可能是和智能眼镜，但视觉搜索这个功能会像当年的关键字搜索一样成为生活必需。

印奇：我觉得因为在手机端文字输入太低效，未来大家一定会像现在习惯扫二维码一样习惯去扫更多的东西，Firefly是一个很好的开端。

雷锋网：Firefly也提供了SDK，会有更多人用他们的图像识别技术直接开发应用，是否担心它会对你们带来冲击？

刘天强：当然，在物体识别这个领域必然会有竞争，但是Orbeus的技术更加细分，除了物体场景识别外，还支持用户自定义数据库，而不仅仅只是识别亚马逊库里才有的商品。例如用户想识别狗，想识别猫，这些活物，就不会是亚马逊上的商品；再比如用户希望手机能识别所有Facebook的好友的脸，这些数据集都是非常个性化的，亚马逊并不具备这方面的技术优势，对他们目前的布局也没有太大的贡献。因此，在大的识别领域，我们并不构成竞争。

廖春元：作为一个成功的产品，除了识别算法外，本地化的数据积累、产品设计、市场营销等都必不可少。我们在国内有先发优势，这和云计算领域国内产品和AWS的竞争类似。另一方面，使用SDK开发会有一定局限性，难以在垂直领域优化性能；而我们公司拥有自己的全套自主知识产权识别算法和系统，最灵活，最容易单点突破。

雷锋网：未来是否会有更多手机搭载四枚或更多的前摄像头，以支持这类功能？

廖春元：多镜头手机是趋势，也是应对用户对3D输入、输出的要求。

印奇：硬件永远是软件的延伸。如果亚马逊这些视觉功能未来被大家广泛使用，硬件改造难度并不高。

（题图来源：The Hindu）

“硅谷锋向标”（guigufxb），雷锋网硅谷新闻中心出品，关注硅谷动向的科技人士不可不看的前沿资讯平台。请通过微信扫描以下二维码关注：

图像识别创业者谈Firefly：视频识别是难点 数据将成门槛

图像识别创业者谈Firefly：视频识别是难点数据将成门槛