昨天(3.23日)腾讯官方发布正式公告,任命人工智能领域顶尖科学家张潼博士担任腾讯AI Lab(腾讯人工智能实验室)主任,腾讯迎来其人工智能发展的新阶段。
雷锋网获悉,腾讯 AI Lab 于2016年成立,专注于人工智能的基础研究及应用探索,不断提升AI的决策、理解及创造能力,同时为腾讯各产品业务提供AI技术支撑。AI Lab的愿景是打造全面AI能力,“让AI未来无处不在”(Make AI Everywhere)。
张潼博士作为腾讯AI Lab第一负责人,将带领50余位AI科学家及200多位AI应用工程师团队,聚焦于四大基础研究领域看,包括计算机视觉、语音识别、自然语言处理和机器学习,并根据腾讯业务提出游戏、内容、社交及工具平台型AI四个应用方向。下面,我们就从核心领导层、代表论文和研发领域三个方面,全面解读腾讯AI Lab。
根据腾讯AI Lab官方资料显示,实验室领导层目前包括:张潼、俞栋和刘威。
张潼
AI Lab 执行主任
张潼博士是中央组织部“”特聘专家,拥有美国康奈尔大学数学系和计算机系学士,以及斯坦福大学计算机系硕士和博士学位。加入腾讯前,张潼博士曾经担任美国新泽西州立大学教授、IBM研究院研究员、雅虎研究院主任研究员,百度研究院副院长和大数据实验室负责人,期间参与和领导开发过多项机器学习算法和应用系统。
张潼博士曾参加美国国家科学院大数据专家委员会,并负责过多个美国国家科学基金(National Science Foundation)资助的大数据研究项目。此外,张潼博士是美国统计学会和国际数理统计学会Fellow,并担任NIPS(神经信息处理系统进展大会)、ICML(国际机器学习大会)、COLT(学习理论大会)等国际顶级机器学习会议主席或领域主席,以及JMLR(机器学习研究期刊)和Machine Learning Journal(机器学习期刊)等国际一流人工智能期刊编委。
俞栋
AI Lab副总经理
俞栋博士于2017年加入腾讯,现任腾讯人工智能实验室杰出科学家和副总经理。加入腾讯前,他在微软公司工作了19年并任职微软研究院首席研究员。他是语音识别和深度学习方向的资深专家,出版了两本专著和160多篇论文,是50余项已授权专利和10余项待审批专利的发明人、及深度学习开源软件CNTK的发起人和主要作者之一。
他的工作已被引1万余次,h-index达到50多。他在基于深度学习的语音识别技术上的开创性工作,带来了语音识别研究方向的转变,极大的推动了语音识别领域的发展,并获得2013年和2016年IEEE 信号处理协会最佳论文奖。俞栋博士现担任IEEE语音语言处理专业委员会委员,IEEE西雅图分会副主席,及APSIPA杰出讲师,曾担任IEEE/ACM音频、语音及语言处理汇刊、和IEEE信号处理杂志等期刊的副编辑,以及多个国际会议的技术委员会和组织委员会成员。
刘威
计算机视觉中心总监
刘威担任 AI Lab 计算机视觉中心总监,负责图像视频数据相关的AI研究。
刘威博士长期从事计算机视觉、机器学习、数据挖掘、信息检索等领域的基础研究和产品开发,迄今发表和录用论文100+篇,总引用次数为3600+次。刘威博士多次担任国际权威期刊的客座编委与审稿人,自2007年起一直担任国际顶级会议NIPS、CVPR、ICCV等的程序委员成员,担任第四届自然语言处理与汉语计算会议 NLPCC 2015的领域主席,并自2014年起担任美国自然科学基金信息与智能系统分部(NSF IIS Division)的研究项目评审。
刘威于2012年获得美国哥伦比亚大学计算机科学与电子工程博士学位,曾任IBM沃森研究中心研究科学家。曾获得2011年底 Facebook 博士研究生奖学金,2013年度哥伦比亚大学优秀博士论文奖,2014年度计算机视觉与模式识别国际会议(CVPR)青年研究者奖,2016年度国际信息检索大会(SIGIR)最优论文荣誉奖。
腾讯AI Lab关注于基础研发,其官方所列的8大代表性论文分别被IEEE、ICML等期刊、大会收录。下面是雷锋网对这8大论文简要介绍,更多内容请访问:http://ai.tencent.com/ailab/paper-list.html。
1、多媒体哈希算法和网络(Multimedia Hashing and Networking)
作者:Wei Liu and Tongtao Zhang
摘要:我们总结了基于浅度学习的哈希算法和基于深度学习的哈希算法。通过成功利用浅度学习算法,先进的哈希算法技术已经成功广泛用于高效的多媒体存储、索引、检索,尤其在智能手机设备上的搜索应用效果很好。我们引入了Multimedia Information Networks (MINets),提出利用MINets的范式,同时整合视觉和文本信息来达到合理的事件指代消解。
2、深度学习促进从单一图像的视觉路径预测 (Deep Learning Driven Visual Path Prediction from a Single Image)
作者:Siyu Huang, Xi Li, Zhongfei Zhang, Zhouzhou He, Fei Wu, Wei Liu, Jinhui Tang, and Yueting Zhuang
摘要:我们提出一个深度学习框架,能够对视觉表征进行深度特征学习,同时进行时空背景建模。然后,使用一个联合的路径规划机制,基于深度背景模型返回的分析结果来精准预测路径。高度有效的视觉表征和深度背景模型,确保我们的框架对场景和运动模式进行深度语义理解。
3、基于话题浏览视频搜索结果的分层可视化(Hierarchical Visualization of Video Search Results for Topic-based Browsing)
作者:Yu-Gang Jiang, Jiajun Wang, Qiang Wang, Wei Liu, and Chong-Wah Ngo
摘要:这篇论文里,我们介绍了一种分层可视化方法进行视频搜索结果浏览,这可以帮助用户以一种组织良好的方式,快速理解一个查询话题的多面内容。对于一个查询语句,系统对其文本描述进行分层,这通常可以在维基百科获得,然后通过分析视频信息调整分层结构,来反映出搜索结果的话题结构。之后,这就形成了一个优化问题,根据三个重要的指标建立视频到点(video-to-node)的关联。此外,挖掘跟多的话题面以补充现有的语义层次机构中的内容。
4、稳定随机梯度:大型优化里的流形传播方法(Stochastic Gradient Made Stable: A Manifold Propagation Approach for Large-Scale Optimization)
作者:Yadong Mu, Wei Liu, and Wei Fan
摘要:这篇论文里,我们提出一种创新的分层半随机梯度下降法(S3GD) ,加速大型复合凸函数的优化。虽然之前的半随机算法理论上收敛更快,但它具有很高的迭代复杂性,这使得它在实际很多数据库中比SGD的速度还要慢。在我们的S3GD方法中,半随机梯度基于有效的流形传播进行计算,可以进行大量的稀疏矩阵乘法。S3GD能够在大大减少计算法复杂度的情况下,从每一个mini-batch里生成高度精确的梯度估测。
5、使用复合迭代量化锚图哈希方法进行可扩展的乳房x光照片检索(Scalable Mammogram Retrieval Using Composite Anchor Graph Hashing with Iterative Quantization)
作者:Jingjing Liu, Shaoting Zhang, Wei Liu, Cheng Deng, Yuanjie Zheng, and Dimitris N. Metaxas
摘要:这篇论文里,我们旨在为一个大型乳房x光照片库开发出一种可扩展的CBIR(基于内容的图像检索)方法。为此,我们扩展了原有的锚图哈希 (AGH),并提出一个新的非监督哈希算法,命名为“复合迭代量化锚图哈希”(Composite Anchor Graph Hashing with Iterative Quantization,CAGH- ITQ),能够压缩乳房X光照片的ROIs至简洁的二进制代码,使得能够实时搜索汉明空间。多模型特征和不同的距离度量整合在其中,基于一个复合锚图运行。为了提升哈希代码的效率,我们通过引入一个正交旋转矩阵来反复缩小量化误差。
6、高效多类别图片选择性取样(Efficient Multi-Class Selective Sampling on Graphs)
作者:Peng Yang, Peilin Zhao, Zhen Hai, Wei Liu, Steven C.H. Hoi, and Xiao-Li Li
摘要:基于图的多类别分类问题总是会通过one-vs.-all策略,而转换为二元分类任务集合,最后应用适当的二元分类算法来解决。我们提出了一个统一的架构,并不使用one-vs.-all策略,可以直接在多类别分类问题上直接运行,不需要将其拆分为一系列二元分类集合。另外,这个框架使得多类问题的积极学习变得实际可行,而这是one-vs.-all策略达不到的。
7、基于Pairwise排序学习的无参考重定向图像质量评估(No-Reference Retargeted Image Quality Assessment Based on Pairwise Rank Learning)
作者:Lin Ma, Long Xu, Yichi Zhang, Yihua Yan, and King Ngi Ngan
摘要:在这篇论文里,我们为重定向图像,提出一种基于pairwise排序学习的无参考图像质量评估方法。每一个重定向图像需要以特征向量的形式进行表征,不仅需要捕捉图片的特征,也要对重定向过程中的变形保持敏感。因此,我们针对不同的图片表征,调查和检测了其描述重定向图片感知质量的能力。基于图片表征,我们使用了pairwise排序学习方法,来判别每一对重定向图片的感知质量。
8、自动语音识别领域里的残差卷积CTC网络(Residual Convolutional CTC Networks for Automatic Speech Recognition)
作者:Yisen Wang, Xuejiao Deng, Songbai Pu, Zhiheng Huang
摘要:这篇论文里,我们提出了一种新的既深又宽的CNN架构,名为RCNN-CTC,具有残差关系和CTC损失函数( Connectionist Temporal Classification loss function)。RCNN-CTC是一种端到端的系统,可以同时开发语音信号的时间和光谱结构。另外,我们引入了一个基于CTC的联合系统,与传统基于senone的framewise系统有很大不同。这个联合系统里的基本子系统有不同类型,因此可以相互补充。实验结果显示,与几个自动语音识别领域广泛使用的神经网络系统相比,我们一个RCNN-CTC 系统在WSJ和Tencent Chat数据库里,达到了最低单词错误率(WER)。
腾讯AI Lab聚焦四大领域的基础研究,包括:计算机视觉、语音识别、自然语言处理与机器学习,力求全面覆盖并深层次拓展AI的前沿技术能力。同时发展AI在具有腾讯特色的四大业务场景中的应用能力:内容 AI、社交AI、游戏AI和平台工具AI。
计算机视觉
追踪和研究最前沿的计算机视觉理论与算法,依托人工智能和大数据的支持,赋予计算机接近乃至超越人类视觉系统的能力,提升计算机完成各类视觉任务的水平,探索计算机在最新领域中的应用。
主要研究分支:图像视频的分析、理解与编辑,人脸的检测与识别,物体的检测、跟踪与分类,3D视觉,基于视觉的增强学习等。
语音识别
基于声学模型和语言模型, 创建一个智能的"机器听觉系统" 和"机器会话系统", 让机器能"听懂"人类语言, 并理解语言中包含的信息从而达到真正的人机"对话"。
主要研究分支:语言前端处理、声学模型/语言模型的建立、语言解码和语音合成等。
自然语言处理
赋予计算机系统以自然语言文本方式与外界交互的能力(即让计算机能够"读懂"自然语言文本,并能够用自然语言文本的方式"表达"自己的"思想"),追踪和研究最前沿的自然语言文本理解和生成技术,孵化下一代自然语言处理技术与商业应用场景。
主要研究分支:语义分析、知识推理、智能问答、机器翻译等。
机器学习
研究前沿的机器学习理论及算法,研发和部署大规模机器学习/深度学习系统。在大数据和互联网背景下,探索机器学习算法在社交网络、广告推荐,行业大数据,智能游戏,以及基于感知和决策的AI等方向的应用 。
主要研究分支:机器学习理论,优化算法,大规模分布式计算,异构平台,以及创新监督,半监督,和增强机器学习算法的研究。
更多雷锋网文章: