李航,华为技术有限公司诺亚方舟实验室主任,北京大学、南京大学兼职教授。他日本京都大学电气电子工程系毕业,日本东京大学获得计算机科学博士学位。李航博士的研究方向包括信息检索,自然语言处理,统计机器学习,及数据挖掘。他一直活跃在相关学术领域,曽出版过三部学术专著,并在顶级国际学术会议和国际学术期刊上发表过上百篇学术论文,拥有40项授权美国专利。
近日,在雷锋网举办的CCF-Gair大会上,李航接受了雷锋网在后台关于AIR方面的对话,阐述了华为在大数据,机器学习,人工智能三块工作的内部联系。
华为的大数据主要是用在帮华为,电信,运营商去提高效率,基于这些企业多年积累的大数据去解决业务、运营上的各种问题,做智能化升级的事情,用大数据去解决各种业务遇到的问题,公司里面所有的业务应该是能(和我们实验室)联系在一起的。
以客户之一上海联通举例,那里有500万的用户,通过这些手机大量的数据来确定这些人在一天内的流动,然后我们可以去做很多的事情……
通常我们所说的大数据很多时候都是小数据,比如你自己手机里的数据你不愿意给别人去看,把所有小数据加起来才是大数据,但你不能随便把每个人的数据都拿出来,有版权,有隐私等各种问题。
而训练模型的时候需要大规模的数据,这时我们只能学一个通用的模型,学好了再把它迁移到每一个个体的数据案例上,再进一步去学习,目前这个(迁移学习应用)还没有具体的案例。
但具体地,现在华为基于大数据用机器学习在做的事情有:
其一,用文字或者自然语言检索分类照片。该方式不使用人工或机器学习的形式预先为每个照片设置一个标签,然后通过标签来处理照片。而是采用深度学习模型的方式处理照片,利用照片承载的内容产生自然分类。
其二,神经机器翻译。
其三,神经响应机,即一个自动生成式系统,这是业界第一台公开发表的能够自动生成回复的智能应答机,而不是通过大数据搜索配对实现的。
主要是研究的时候驱动力会着重跟公司的业务挂钩。
这些研究有长期的有短期的。
比如公司未来十年发展业务方向需要什么样的技术,然后反推过来需要什么样的技术。(实验室研究方向,跟华为其它业务一样,还是客户导向的?)对,可以这样说。
前一任主任杨强教授和您的管理风格有何不同?
每个人都有自己的作风,大的方向是一样的,大家都是想要把自己的研究做好,把研发推动。他也是学者,我也是学者。
我们的背景不太一样,他的方向主要在迁移学习,我的方向主要在自然语义处理,信息检索等,方向会跟人研究的内容和兴趣关联比较大。
四年前我们在一起建立了华为诺亚方舟实验室,现在各自的领域大家还坚持在做,这个是不会有变化的。
没有绝对的比率,实验室的目标还是围绕公司业务来的。
如果是10年规划的产品,目的是围绕未来去做,去投资,反过来就是我们需要在哪些领域去做尝试。但如果光瞄准未来10年,目标就容易很空。
如果是3年到5年规划的产品,则是要有一些阶段性的成果,甚至还有一年,半年要出阶段性成果的,这个时候会根据情况去调整,但大的方向往往都是比较明确的,主要关注人工智能、机器学习、数据挖掘等前沿科技领域的研究。
然后根据这三个方向去决定,要往哪个领域加大力度去投入,要跟哪些实际的产品去合作,平衡好长期研究和实际应用开发的两类项目,相对来说,产品开发的比例会大一些。
现在华为有两个是产品(一款产品是华为手机上的App市场。另一款产品是华为“手机服务”。)另外也有在做的业界领先的深度学习,自然语义处理相关的一些合作,这些虽然还在技术研发阶段,快一点一两年也能成功。
人工智能现在的核心技术就是机器学习,这两者目前几乎是画等号的,未来可能还有其它的手段可以做地更好,只是现在没看到而已。
机器学习往往需要数据,或者说大数据,跟大数据相关。
很多大数据在没被利用的时候就是一些垃圾,如果能被有效利用,用机器学习的技术,基于此做一些智能型的东西,它就是人工智能了。
人工智能的手段基本都是这个套路,基本上都是跟这三个(大数据,机器学习,人工智能)相关的。具体怎么称呼,主要看你强调什么东西。