雷锋网按:7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
语音技术的演进和 IoT 时代的到来将会发生有趣的碰撞,芯片的进步会提升了二者的结合。在 CCF-GAIR 2019 AI 芯片专场,深聪智能 CTO 朱澄宇带来了关于端侧芯片的分享,演讲主题为《端侧专用芯片-- AI 算法的理想载体》。
深聪智能 CTO 朱澄宇
朱澄宇在演讲时表示,语音技术的演进和 IoT 时代的到来某种程度上可以说是一种天作之合,这两个技术必定是未来十年增长的亮点,特别是在芯片领域。
他同时指出,如果使用第三方通用芯片,产品研发与 AI 市场需求、AI 算法、AI 数据不能形成闭环,如果没有闭环就不能形成生态,不利于把这块蛋糕做大,这些问题的存在让思必驰最终决定成立一家公司专门做芯片。
值得注意的是,朱澄宇强调,思必驰做芯片不是赶时髦,而是出于市场需求、技术以及算法能力三方面因素,具有长远规划。
雷锋网此前报道,思必驰在今年一月份发布了第一代 AI 语音芯片 TAIHANG。关于思必驰芯片的功耗,朱澄宇在会后接受雷锋网采访时表示:“相比通用芯片,思必驰芯片能降低 5 到 10 倍的能源消耗。”
他在演讲中提到,思必驰芯片+算法的软硬结合方案将会给用户带来非常好的体验,不仅能够听得清和听得懂,还有很高的识别率和快速的反应,能够实现非常低的功耗。不仅如此,软硬结合的方案也具备多种接口,可以做很多扩展。更重要的是,与通用芯片相比,因为不需要移植,能够让产品更快上市。
据了解,思必驰第二代芯片将解决本地语音识别的问题,增加安全、声纹特性,会采取更深度的融合,从算法到基础 IP 都做专门的优化,达到更好的目的。再下一代芯片,会考虑多模态以及进行存储、工艺、封装的优化。
另外,朱澄宇还在采访中表示,思必驰芯片业务采用“芯片+算法”方案。他还说道,不担心思必驰芯片的落地,因为思必驰的芯片一开始就是照着落地来的,是看到了 AI 芯片的市场,清楚客户的需求而进行的研发。
雷锋网了解到,思必驰的芯片当前已经有在洽谈的合作伙伴。
目前,深聪智能(雷锋网注:深聪智能是思必驰与中芯国际下属投资公司中芯聚源成立的合资公司)第一代自研芯片已经量产,这是否意味着思必驰会减少 AI 语音芯片的购买?朱澄宇对雷锋网表示,尽管目前思必驰已经自研芯片,但并不会减少对其它芯片的购买。他提到:“市场是需要共同开拓的,思必驰做芯片的目的不是为了竞争,而是看到芯片市场方向。”对于首次推出芯片,他表示想要覆盖尽可能多的用户群,尝试尽可能多的领域,且今后会推出更多版本,更加精准定位市场。
最后,关于芯片的后续发展,朱澄宇在采访中表示,深聪智能依然会根据实际需求以及算法能力,脚踏实地一步步往前走,慢慢定义下一代芯片,在算法上进行优化,把效果做得更好,能耗更低。
另外,他还表示,目前深聪智能依然以思必驰的芯片为主,但同时,深聪智能是一家开放的公司,关于与其它算法公司的合作,深聪智能也将持开放态度。
以下是朱澄宇在 CCF-GAIR 大会上的演讲内容,雷锋网对其进行了不改变原意的编辑整理:
很高兴有机会跟大家分享思必驰以及思必驰下属公司深聪对 AI 芯片的想法,也分享一下我们目前的成果,我这边的题目是《端侧专用芯片-- AI 算法的理想载体》。
现在已经到了人机语音交互与 IoT 时代,我们应该怎么走?先看一下人机语音交互,我以前一直是做芯片的,做了二十多年。做人机语音交互,特别是做 IoT 的芯片,其实是第一回。从传统的角度来说,做芯片习惯问带宽有多少,人讲话要从芯片带宽的角度来说是很低很低的,大概只有几 bit,这是很低的频率。
为什么这个东西这么重要?我们可以看到,人与人的交互不光是你字面上讲的几句话,很多时候还包括深层次的含义。如果从人机语音交互整个过程来看,首先要听得清,因为会有各种各样的场景,比如说有很多的噪声、有很多人同时在讲话,所以要知道你关注的对象在讲什么,先听清楚;二是要听明白、听得懂讲什么;三是理解它的意义。
很多时候,我们讲话有表情,而且还有其他的含义在里面。在人与人交流、机器与人交流的时候也要有合理的识别,还要用合适的方式可以表达出来,因为人跟人、人跟机器语音方面的交互不是一个来回,而是多轮次的交流。用人的声音表达出来,人机领域的交互还是非常广泛的。最近十多年来人机语音交互取得了很大的进展,很大程度也受益于 AI 技术的发展,特别是这几年,人机语音交互逐渐走向成熟。
今天上午演讲嘉宾也讲到,未来十年是 IoT、AIoT 的时代,基本上平常看到的、使用的物件都会联网。早上我听到一个嘉宾说,平均一个人有一百多样东西受你控制。那么问题来了,那么多东西受我控制,我怎么控制它?比如说用手机控制,一百多样东西,我要翻半天,我还不一定找到我想要的东西。所以大家觉得语音是最自然的方式,可以对将来所有要控制的端侧器件控制最最自然的方式进行交互。
语音技术的演进和 IoT 时代的到来,这两个正好发生了有趣的碰撞,某种程度上可以说是一种天作之合,这两个技术必定是未来十年增长的亮点,特别是在芯片这块。呼应一下包教授(雷锋网注:中科院计算所包云岗)刚才讲的,我们也是看到软件定义芯片时代的来临。我们可以看到,AI 的技术离不开芯片的发展。
AI 在上世纪六十年代就已经开始提出,期间也经历了几起几落。在低潮的时候,我听说很多学校里的学生、教授都不好意思说自己是做 AI 的,因为大家觉得 AI 没有前途。随着芯片技术的发展,特别是摩尔定律,芯片的 Computing Power 以指数级的增加挽救了 AI,当然 AI 也不断有新的技术出来;两方面同时的演进让 AI 的技术逐渐可以开始落地、可以真正的应用。
刚才包教授提到了 ICC 的会,我每年也去,我也看到同样的趋势。以前在会里唱主角的都是传统芯片公司,英特尔、TI 等是会上的主角。近几年,我们看到主角慢慢在转换,除了传统的芯片公司,一类是包教授说的学校,另外一类就是互联网公司,包括 Google、Microsoft、亚马逊。随着 AI 的发展,不断有更多软件、算法公司进入芯片行业,为芯片行业带来新的活力。
这是思必驰以及深聪对于做芯片的看法。思必驰传统是一家算法公司,不断把算法移植到不同的芯片、不同的平台上,在移植的过程中有很多用起来不方便、不爽的地方。其实是看到了三个问题,如果用第三方通用的芯片:
算法不能形成闭环。有的时候算法跟芯片之间不能有非常好的默契,要么芯片觉得缺个角、要么内存不够,或者不得不选择更加高端的芯片,这样成本又会升高,会有这样的问题。
跟 AI 的数据不能形成闭环。如果没有闭环就不能形成生态,不利于把这块蛋糕做大。
市场。芯片公司对于最终的用户不是直接的用户,导致对市场的存在以及市场的预判就会差一点。不像软件公司、算法公司,因为是直接客户会有很多这方面的信息。
这些问题的存在驱使思必驰决定成立一家公司专门做芯片,这是思必驰和深聪的布局。思必驰是语音、算法全链路的布局,现在芯片进来以后,可以说把整个产业链全部打通,专注地利用算法做专用的芯片,把算法和芯片融合在一起,同时为客户带来最好的体验和最好的价值。我们也可以通过定制化的架构,逐渐取代第三方的通用架构,后面我也会讲到采用专用的架构在成本、功耗方面会带来很大的好处。
前面几位嘉宾也讲到,设计芯片随着代工厂、EDA 工具以及 IP 厂商的存在,现在门槛也在逐渐的降低,所以一旦芯片有好的架构、有好的定义,后面的执行相对来说难度没以前那么高。
在行业里,做芯片一般分为云端和边缘端侧,思必驰选择的是端侧。这边有一个图,我跟大家讲一下,最早大家知道电脑都是共用的计算资源,后来发展成为 PC。最近十几二十年,Mobile Computing 又放到云端,我们可以看到 2020 年之后趋势又慢慢会移到端侧。虽然大家一直在说云端、公有、共享,但从人的本性来说,这些共有、共享并不属于人的本性,人还是希望是本地化,公有和共享只是在资源不足情况下的权宜之计。
Computing Power 是很珍贵的,不可能个人拥有,随着摩尔定律的发展,可以逐渐发生改变。后来出现了 Mobile,因为它的供电、体积所限 Computing Power 不够,会逐渐发生改变。包教授讲到通过软硬结合的方法,里面还是有成百上千倍的空间,可以把 Computing Power 提高。端侧的容量大、另外是实施性好、可靠性强,这是我们看好的方向,也是我们做芯片的侧重点。
下面花点时间讲一下我们在这方面的芯片方案。就像前面讲到的,我们的芯片不仅是芯片,而是芯片+算法整合的方案。如果你们从我们公司买芯片,不光会买到芯片,里面也会内带思必驰的算法。
从用户的角度会看到有一个非常良好的体验;如果是语音交互的话,大家会关注能不能听得清,有噪声听不听得清,我们的方案在这方面都有非常好的表现。另外是听不听得懂,我们有很高的识别率和很快的反应,一叫它就能有反应。在你不希望跟他讲话的时候,他跟你讲话,这也是比较吓人的。
二是比较低的功耗。因为应用的场景不光是插电的,而且是 mobile 的,所以只有低功耗的芯片、低功耗的方案才能做到。外面的音响做不到低功耗,它是一直插电,摸起来还有点热,而我们的方案基本上可以做到用电池操作。
三是成本。我们芯片的成本和算法是匹配的,跟通用芯片相比也会有点优势。另外是时间成本,要开发具备语音交互的设备,我们的算法和芯片是集成在一起,不需要到系统上移植,可以比竞争对手更早地上市。
四是实用性。我们有多种的接口,还可以做很多的扩展,这是我们芯片+算法的方案,可以为大家带来良好的体验。我们的目标是让身边所有的设备都可以用语音进行交互,使用我们的方案就可以达到这个目的。
我们做芯片不是短期的赶时髦,我们也有长远的规划。我们的第一代芯片量产的同时也会有下一代、再下一代的规划。我们的角度更希望从能力的方面定义我们的芯片和方案。
第一代芯片,解决关键字和指令的识别。比如说你喊一声你好小乐,打开空调,他会做一些反应,这是第一代芯片的能力。刚才说到软硬融合,软件一直到硬件,某种程度是从左边到右边,它是整个一条链路,从最左边的语音算法开始,算法基本上是一堆共识,下一个是 C 代码,下面是芯片架构,是不是用 DSP,是不是用 ARM 的 CPU。再就是它的物理实现,下面就有基础 IP 存储、工艺、封装。第一代芯片主要是实现关键字和指令的识别,我们的语音融合方式也是比较浅。
第二代芯片,我们要解决本地语音识别、安全特征、声纹,我们会采取更深度的融合,从算法到基础 IP 都做专门的优化,达到更好的目的。更下一代芯片就是多模态,甚至我们也会考虑用到存储、工艺、封装的优化。
稍微花点时间讲一下对下面十年的展望,我们会看到什么?一方面是会有一些很美好的想象;另一方面,我们也会看到,AI 各方面的技术的应用场景也并不那么令人愉悦。以前我们假设科学技术的进步一定是给人类带来更美好的生活,现在我们到了这个十字路口,下面未必是这样,有可能在一些场景下带来一些负面作用。比如说,教室里每个人都会被监控的话,明年可能这家公司会推出一个 APP 将办公室也会变成可监控的;或是后年推出一个东西,会议室也变成这样。我想,这不是我们想要的东西。
上个月国家出台了新一代人工智能治理原则,希望大家做的时候关注这一块。我们作为研发者、使用者要有高度的社会责任和自律意识,大家上下班一天很辛苦,回家的时候也可以想想我做的事到底让人类的生活更加美好、更加方便,还是我做的事情骚扰别人,让别人更难受。最后,还是希望大家多思考,做对的事情,就像父母说“明知道不对的事情不要做”,努力捍卫人类的一点尊严。
我就讲到这里,谢谢!