“视频一直被视为计算机视觉里的暗物质。”在Google Cloud Next' 17大会上,机器学习的权威李飞飞博士如此说到,虽然视频能提供比文字和图片多得多的信息,但一直以来,视频内容都像一个黑洞,搜索引擎最多只能借助视频上传者选择的标签进行索引。
为了解决这样的问题,Google开放了视频识别API(Video Intelligence API),帮助开发者实现搜索视频中的实体的功能。雷锋网消息,现在,一家叫Matroid的创业公司也开始内测类似的服务,而且,他们要让视频识别变得更简单。
Matroid的创始人Reza Zadeh是斯坦福的副教授,他一直专注于机器学习、分布式计算和离散数学的研究,还是微软和Databricks的技术顾问;他的论文《FusionNet融合三个卷积网络:识别对象从二维升级到三维》曾获得2016 KDD Applied Data Science Track 最佳论文(亚军);他本人还创办了大规模机器学习大会(The Scaled Machine Learning Conference 2016),邀请到了Jeff Dean、陆奇等人,讨论微软、Google在机器学习领域的最新进展。
(Matroid创始人Reza Zadeh)
2016年,Reza Zadeh正式创办了Matroid,希望将研究成果应用到实践中。Matroid的核心技术是从视频中识别具体的物体,而且,Matroid不需要开发者使用TensorFlow或接入视频识别API,而只需要上传一个自定义的训练集或者包含大量图片的图库,甚至是视频片段,Matroid使用不同的神经网络处理不同的输入数据,然后为用户生成一个从视频中搜索相似内容的探测器。为了更好地训练探测器,如果你上传的是视频,Matroid会要求你用方框圈出重要的物体。
现在,Matroid的官网上列出了一些已经调试好的、比较受欢迎的探测器,包括人物、动物、动作、军队、汽车等几个大的分类,在这些大类之下,有具体的如“伊隆·马斯克”、“戴眼镜的人”、“哺乳动物”、“重武器”等具体的探测器,你也可以使用关键词搜索探测器。因为Matroid仍在测试阶段,雷锋网未能直接测试探测器的搜索结果。
当然,Matroid主要也不是面对普通用户,目前,它想和像尼尔森这样的数据调研公司合作,从电视和在线视频中挖掘有价值的内容来实现商业化。比如,苹果肯定想知道,在HBO的电影里,iPhone或者MacBook出现了多少次。除了广告,在公共安全中,Matroid也有很好的应用场景,比如,警方可以上传包含犯罪嫌疑人驾驶的车辆的图片集,来生成一个探测器,然后搜索全城摄像头拍摄的画面来进行追踪。
现在,Matroid还在着手建立一个计算机视觉的“商城”,计算机视觉专家们可以在这里制作、出售自己的更先进的、定制化的探测器。为了吸引开发者,Matroid在制作更多有用的工具。
据雷锋网了解,国内也有不少专注于图像识别的创业公司,如Face++旷视科技、图普科技、格灵深瞳,产品应用于人脸识别、安防监控、交通、零售等各个领域;成立于2015年的创业公司极视角,更是同样致力于做视觉算法中的“App Store”。不过目前,这些公司的产品应用比较成熟的场景,主要还是基于海量人脸图片数据库的人脸识别和安防监控,专注于从识别视频内容,并提取出有价值信息的公司,在国内并不多见。
对Matroid来说,吸引更多的开发者,并产生越来越多的复杂的、更先进的探测器是最大的挑战,Reza Zadeh正在筹备2017年的大规模机器学习大会,同时布道TensorFlow,希望以此建立一个良性增长的开发者社区。