首发 | 阿里iDST总监初敏加盟思必驰，将建立北京研发团队（附专访）

初敏思必驰语音交互人工智能

作者：刘芳平

2017/08/28 13:55

雷锋网消息，8月28日，智能语音交互技术公司思必驰宣布，阿里iDST总监初敏博士加入思必驰，担任思必驰VP、思必驰北京研发院院长，拓展语音技术在物联网外的新业务、新场景的落地。

初敏原来的团队交给了阿里 iDST 语音组总监鄢志杰管理，“他很能干的”。

在接受雷锋网专访时，初敏表示自己选择加入思必驰的原因主要是，“对人工智能特别是语音交互的未来的观点”和后者很一致，而且创业公司可以做到十分专注。

加入思必驰后，初敏将领导建立思必驰北京研发院，初期目标是在一年左右建立50人的团队，二年达到100人的规模。研发院不仅将进行基础技术的研究，也将探索语音在更多场景里的应用。

首发 | 阿里iDST总监初敏加盟思必驰，将建立北京研发团队（附专访）

关于初敏博士

初敏是中科院声学所博士，主要研究方向覆盖语音识别与合成、自然语言处理、机器学习和数据挖掘、大数据处理和计算等，在相关领域发表了近百篇学术论文并取得20多项国内外专利。

2000年，初敏博士加入微软，在微软亚洲研究院从事科学研究近10年，创建并领导语音合成研究小组，研制出了第一个中英文双语语音合成系统“木兰”；

2009年入职阿里巴巴，担任阿里iDST智能语音交互方向负责人，使Yun OS、支付宝、手机淘宝、钉钉等产品具备语音交互能力；

2017年加入思必驰，担任思必驰VP、思必驰北京研发院院长，拓展语音技术在物联网外的新业务、新场景的落地。

以下为采访实录，雷锋网作了不改变原意的删减。

雷锋网：为什么离开阿里加入思必驰？

初敏：其实我跟老高（高始兴）和俞凯很早以前就认识了，但是没有聊这方面的事。在阿里八年，感觉也是时候迎接一些新的变化和挑战，陆续收到很多大公司的橄榄枝，恰巧最近有些机会和老高深聊，我觉得我们对人工智能特别是语音交互的未来的观点其实蛮一致的。

未来的3到5年是一个AI技术实用化成型的过程，是我们的一个共识。跟俞凯也谈了很多技术，包括深度学习怎么在自然语言中去更好的应用，怎么能让机器更快地从人这里学习。我觉得蛮谈得来的，有很多共识做事会很方便，这是一个很重要的原因。

阿里的团队是我建起来的，团队来说我们是一个相当好的团队。公司大有大量的好处，比如资金更充足资源更丰富一些，数据、计算能力这种技术环境会更好，但是思必驰专注只做一件事情的公司，这对我来讲是有吸引力的。

其实也跟朋友聊是不是要创业，我觉得自己还没有这个勇气自己去创业，哈哈，这个过程太痛苦了。

但是加入一个思必驰这样在创业过程的公司，对我来说逃避了最开头的那一段，希望通过我的加入能帮助这家公司更快地成长。

雷锋网：加入思必驰后，对于将来的工作有什么样的规划？

初敏：因为其实就是这两天的事情。我们希望做的事情是，原来思必驰基本上的团队是在苏州，至少技术团队是，北京这边几乎没有技术人员，但是其实北京是人才最丰富的地方，所以我会在北京建立一个北京的研发院。

这个研发院会做一些核心技术的研发，也会做一些工程上的，包括真正在应用场景中的一些落地。不只是把原来的东西做得更精细，而是开辟出更多新场景，使整个语音交互为核心的技术能有更强更多的辐射面。

我们这些做技术出身的人，就是希望自己做的技术真的被很多人用，这是最大的成功。挣多少钱是附带的，因为这个过程中不挣钱的话做不到那一步，只要能做到那步一定能挣到钱。但是最大的是自我的成就感，一定是来自于很多人用而且感觉很好。

雷锋网：关于北京团队的规划您现在有比较详细的一些想法吗？

初敏：在规划之中，主要思路是主要以研发人员为主，核心技术以及工程落地的，以后可能会有一些业务落地的。

希望在一年左右能招到50人左右，两年左右可能是一百人的规模。

细的东西还要更细致地做工作以后才能把详细计划落实，但是现在开始我们也开始在招聘，包括北京新的HR开始要招募了。因为原来都是苏州整个管掉，现在也会在这配套。

雷锋网：语音识别公司现在是不是到了拼市场份额，合作案例经验积累的时候了，研究上的进步只是锦上添花，不起决定作用？

初敏：我们建立的团队不是一个纯研究的团队。今天我觉得中国所有的团队都不是一个像以前在微软MSRA一样的研究团队，包括iDST也不是。

北京的团队我称之为研发，有研究的成员，但最终一定是开发成一个完整的东西，然后这个东西是可以用的。

你刚才说的这个，我有非常多的实践经验，特别是在过去这几年碰到了很多用户的实际问题，的确是这样子的。但是也不能说技术就是锦上添花，而是说这两个腿都不能短。一个是核心技术的研发，一个是所谓的工程导向或者是产品导向。总而言之，要把产品用户体验做到完备两个都必须有。

我们在两块都会做，思必驰不是定位在产业链条的某一个环节，而是希望至少把语音交互这个完整场景做出来，包含了链条中的每个环节。

因为这个过程是相辅相成的，过程有好多环节，这些环节是个链条，只要有一个链条出问题，最后的用户体验就会很差。所以要把整个链条闭合，从核心技术到平台到产品一直到用户体验。

链条上的基础建设，好多都是核心技术，比如语音识别本身深度学习的建模技术可以做到更好。

但是下一个问题是如果数据是在A场景采集的，拿到B场景不好了，模型换成B场景可能不太好了，那么要多快，用什么样的数据规模，多长时间把它带过去，这时候会有一个困难的转移过程。可以从头到尾训，也可以做Transfer Learning，这个就是比核心技术了。

但是话又说回来，最终还是需要一个链条。最后希望达到的是，客户给我上传，比如说多少多少小时的一个标准数据，我很快就得到一个模型，那在他这个地方就好了。所以实际上是场景的适应能力，解决一些这样的问题，最终才能大规模的把这个技术铺开。

我在这边也会去搭建这种基础设施，核心实力我认为就是快。对于核心实力我一直认为，特别是在今天这种所谓的大数据时代，数据很多（理论上很多，但实际上分散在不同领域）。要把数据管理好，把不同场景的数据更好地用起来，包括在一个新的场景中用起来。这里就有核心算法的的提升空间了，也有很多工程上要把这件事情做顺畅的方面。

还是刚才说的，这两个腿都做起来，迭代效率快，那你将来去实施就很快，才真正具备商业化的能力，要不然都是A项目B项目C项目，做一个项目花的成本差不多，那就很辛苦。

我们要做到的是，做第一个项目，比如花费是1，第二个项目花费可能是0.5，第三个项目花费就是0.3了，以后可能每一个项目生成就是花个0.1、0.15的代价，甚至做到更低，这时候才能从一个到一百个或者到几百个。

磨就是这个过程。每复制一次，成本都下降，实现规模化，最终产生经济效益。

雷锋网：对于场景落地这块您有什么规划吗？

初敏：思必驰在一些现有的地方还是蛮强的，比如在汽车，特别是后装，还有智能家居包括音箱，其实好多家用的都是我们的解决方案。

我希望我进来不是在这些地方添点砖加点瓦，而是会试图去探索一些新场景，现在有很多可能性，是什么今天还没有完全弄清楚。所以会从招聘开始，和底层一些技术建设，场景还是要慢慢看的，没有那么快，但是一定会去探索更多的，我相信是很多的。

雷锋网：有没有想法做一个消费品牌？

初敏：目前还没有，原因也比较清晰，就是实际上这个链条很长，如果我们什么都做了，很有可能做不好。而且做了这个端实际上和别的端是竞争的关系，所以今天我觉得可能不会往实际产品做，但是也不排除自己去做一两个demo，更好地展示技术。

雷锋网：您怎么看现在火爆的智能音箱？

初敏：我觉得蛮有争议的，不是特别看好。首先，我觉得Echo是不是真的叫成功，就是看你怎么定义成功，如果从品牌、影响的角度来看，是挺成功的，因为它利用了这整个潮流，出了影响，一堆人跟着做。

但是我也跟有些人聊过，实际上它的粘性并不见得好，大家因好玩新鲜，所以买了一个回家，但是有多少人在买回家三个月后还在天天用，很少。换句话说这个音箱是不是真的解决了问题，变成一个必需品，这个问题没有看到。

美国市场和中国市场也不太一样，美国市场大概只听到这两个（Echo和Google Home）。中国没有这样的领导产品，一堆公司在做。中国今天最大的问题还是没解决核心问题，很多人只是买它来玩一下，知道它能干啥，之后可能就没兴趣了，真的有什么事总找音箱做的很少。

有几个原因，一是他上头能干的事情真的太少了，一个东西必须让我觉得能信赖他，至少一类事情我持续找它，它都能做，对这我才会养成习惯。所以我觉得这不光是语音技术的问题了，是背后他到底能干什么事。今天还大家还称之为音箱，那就是听音乐，那显然这样子的音箱听音乐都不是最好的选择，就是大几百块钱的音箱，也不是好到哪里的。

Echo稍微好一点，接入了很多控制功能，美国人房子大，在楼上关下楼下的灯什么的，这种需求可能还稍微强一点，在中国没有这么强，当然从某种角度讲还是存在的。

所以我觉得最后的争论不是技术问题，不是说语音识别准不准（当然它也有问题），是说它能听懂的话，我想干的事情里他能做多少，这是我觉得最关键的。

雷锋网：这几年智能语音交互借着新的AI技术实现了快速的发展，不过前段时间也看到一些观点，说深度学习正遇到瓶颈。所以想问，您认为语音识别、NLP这块，在接下来几年技术上会有怎样的发展，是否会遇到瓶颈？

初敏：深度学习到今天虽然已经很火了，好像已经到处都是了，一般相关的学术会议可能至少一半或者更高的论文都和它相关。但是我今天的观点是还没有到饱和期，技术的替代是一个过程。就像语音识别从深度学习获得的第一步成功，是在原有的HMM框架后加了一块，把原来的模型提升了。

所以这个（技术替代）过程中还是有很多尝试可以做的。语音现在的这套统计的深度学习框架，不是一个完全的理论推导的技术，是有个基本的理论框架，最后它是否work，是靠实验来做的。

包括它们的拓扑结构，建模单元的大小，因为起步都是依赖原来那套体系，所以后续能做的事情还有很多，比如变一变建模单元。会慢慢的把原来的那些东西换掉，然后去尝试新的东西，像现在很多新的模型其实就是在改变单元，因为单元一大解码速度就快很多。

另外一方面是场景适应，传统我们叫它adaptation，或者你也可以叫它Transfer Learning，这块也可以尝试不同的方法。

还有，语音里头现在更多是声学模型上用了深度学习，语言模型上有尝试，但没有特别的成功，因为语言模型计算复杂度高。但是今天鸡肋并不证明这个方法不对，而是还没有做出最好的方法，这一部分也有很多人在尝试。所以我觉得至少还有个五年、十年的空间它才会饱和。

但是，也不排除在这个过程中会长出新的分支，比这个看起来还更优秀，那也是有可能的，特别是在自然语言上，我觉得空间更大。

我觉得自然语言处理还处于非常早期的阶段。语音的识别很难，但是他是一个定义非常清晰的问题，进去这段录音出来就是这个字，没有二义性，所以是最适合学习。自然语言是问题没定义清楚，你可以这样定义问题，把它定一个分类问题，也可以把它变成一个序列转换问题，而且一个任务是由好多小问题组成，还是作为一个整体。所以在自然语言里还需要想怎么更好地使用深度学习，包括可能需要引入强化学习的概念，那么要怎么引入？

比如强化学习里一直担心什么是reward，怎么定义成功失败，有很多这些问题。这块明显的还能走更长，包括问题怎么定义法，以前分的小问题是不是可以用一个问题就能解等，这些地方我觉得有很多可尝试的空间。

4月16日 20:30-21:30 ，雷锋网旗下学术频道 AI 科技评论联合AI慕课学院、腾讯课堂邀请思必驰CMO龙梦竹为大家带来一场直播分享！点击链接报名参与吧！！

课程主题：《人工智能需要科学家，也需要普通人》

报名链接：https://ke.qq.com/huodong/aiqzzty_pc/index.html#tuin=8f7939df