编者按:Misa,中文名祝铭明,前阿里巴巴 M 工作室领头人,负责深度学习,视觉和自然语言处理的研发,2014年离职创立人工智能企业Rokid(若琪)。10月12日,祝铭明作为云栖大会演讲嘉宾再次现身,宣布Rokid将与阿里云携手合作,共同推出全栈语音开放平台,为业界提供一站式语音解决方案,打造AI时代开放平台的新标配。此消息一出引起内业广泛关注,国内语音方案提供商科大讯飞的股票也一度暴跌。
以下内容为祝铭明演讲内容,雷锋网进行了编辑:
谢谢大家,三年我们都没有参加云栖大会,外界说我们一直在憋大招。在演讲之前我先说一句话,我们没有被收购,但仍然能够跟阿里一起做出非常精彩的东西;今天的演讲我希望大家更多地站在这一次我们发布之后给整个产业带来什么样的变革做一些思考。
我们是一家不知名的小公司,所以先简单做一下介绍。Rokid在2014年成立之初就在中美两地都设立了实验室,在北京有一个实验室专门从事人工智能的算法方面的研究;在美国有一个实验室从事一些新技术的探索和研究。在创业公司里边,能够在两地设立专门的研究团队是比较少见的。在两个实验室,我们有数十名年轻的科学家,非常有创意,非常有才华,一直在从事很多领域的研究,包括语音技术、信号处理、计算机视觉、电子工程、材料等诸多方面的研究。
在一家创业型公司,单位密度有这么多的科学家,这在中国是比较罕见的。
Rokid的数百名工程师在不断努力地将科学研究成果转换成用户能看得到、摸得到、接触得到的技术、工程及产品,这是我们的一大特点。
同时,不仅仅止步于研究和工程,我们还有非常顶级的设计团队,产品设计、产品定义、交互、材料、工业设计,我们的团队一直在做。刚才主持人也提到了我们成立之后几乎每年都拿奖,相信我们还会继续拿奖。CES组委会的一位朋友说你们再拿奖就可以拿“终身荣誉奖”了。
另外我们不仅仅是在技术层面,Rokid想要做的事情是将最好的层面,最边界的技术用在老百姓看得到的产品上,所以我们不断地向市场推出新的产品。我们每一年会给出新产品的体验,有数万用户参与与Rokid的互动,这种互动的价值在本质上是怎样能够找到(好技术),因为产品与技术之间的鸿沟很大,你怎样能够找到很好的技术用在正确的方向上,怎样传递技术的发展趋势以及科技对生活的改变到底是怎样的,这产生了一种交互,我们一直在摸索。
我们的团队有几十个博士,大部分人都在自己的专业领域沉淀十年以上,包括语音、信号以及一整套全栈的基础研究。
另外,在Rokid成立的这三年我们就做一件事情,从软件到算法到硬件到产品,整个的端对端的打磨,我们不仅仅是简单地提供某一解决方案或整个方案里边的某几个环节,我们要做的是内容和服务,最后一直走到用户终端体验上,我们要做端对端的打磨,这样才能做出非常体验极致的产品,这是我们一直保持的宗旨。
做了这么多,我们的产品现在也已经上市两代了,销量也非常不错,我们的用户反馈也非常地好。AI技术有一个特点,这个特点是什么?当你打造完一个产品以后,如果一家公司做端对端的细节打磨会沉淀出一个全栈的技术能力,这个能力一定是过剩的。因为AI时代有一个特点,无法像手机时代一样以单一的产品形态去赢得整个战场。所以当一家公司不可能分散各种精力去做不同产品的时候,你要具备全栈能力的话要怎么办?我们有三年的积累,以及我们对于用户体验的理解和细化,我们将这种能力在今天通过阿里云的大平台分享给整个产业,所以这也是很多人意料之外的。Rokid是一家专注做产品的公司,今天为何会来这里跟大家沟通,而且我们选择阿里云的IOT专场。我相信大家一定会很好奇,其实大家不用好奇,Rokid在成立的第一天,就与阿里云在紧密地合作,我自己也是从阿里云出来的。我们的高性能计算等很多服务都已经跑在了阿里云的云计算上,在这方面我们已经打磨了整整三年的时间了。
在这个月我们宣布一个重要的合作,阿里云和Rokid携手向智能产业致敬,我们会形成比较好的合作。接下来向大家展示我们的一个产品,这是针对工程师、合作伙伴和一些科技爱好者的,包括你是企业的合作者或是一些感兴趣的个人爱好者。如果做一个产品,以Rokid的风格来讲一定要做到极致,做到漂亮,很少有工程师和开发者做出非常漂亮的产品,大家认为开发者就应忍受零乱的线路,丑陋的开发板以及极其难用的开发环境,其实不然,我们要给大家极致的体验。
我们会将自己的整个语音智能解决方案分享给整个产业,那么它跟其他人的智能解决方案有何不同?
其实非常简单,我们就将我们在产品上这么多年打磨的能力分享给所有人,定位成一个ALL-IN-ONE全栈语音智能方案,也就是说除了之前硬件软件以及端上的体验,我们还包括云端的内容跟阿里云合作,整个IOT都会打包在这个方案里边给到大家。这么多的内容给到大家,它会是一个什么样的东西?就长成这样(下图)。上面是一个LED灯的指示,有12个LED灯可以指示方向和状态,我们有两颗、四颗跟六颗麦克风,都集成在此。
整个解决方案包括通信、技术、蓝牙、GPU、CPU以及麦克风阵列、信号处理、整套算法,还包括跟云端的合作,跟IOT设备的互联互通。接下来我们会详细地讲到我们在这方面的努力。
一个3.5毫米的音频输出,传统的耳机输出,这是接口。这么小的设备里边可以接MicroHDMI显示输出,直接接电视接显示。Type-C电源调试,还可以对外输出充电。
所以我们就以这样的极致之美向工程师致敬,在座的各位都是IOT方面的专家,大家可以认真想象一下用这样的产品可以做什么。
我们的合作伙伴的开发板,开发板可以用在一些交互比较复杂和丰富的产品上,电视、车载等任何比较有想象力的产品上。
用这样的开发板开发会是一种什么样的场景?你有一台笔记本,可以进行USB充电,接上耳机,所有的东西都在了。
我们对产品的定义是精简、漂亮、强劲、完整,这是一个完整的开发套件。在座的各位,你们可以不买Rokid产品,你们也可以不买任何其他的语音产品,如果你们用这个方案,也可以打造完全属于自己的产品。如果大家不愿意做更多的变化,那么加一个外壳就可以了。
它的成本不能公布,但我可以告诉大家,一定是非常亲民的价格。我们Rokid不会做非常低价格的产品,这是我们的定位,但我们并不排斥我们的合作伙伴去做一些更亲民价格的产品,将自己的能力分享出去,这是我们的宗旨。
说到这里,工程师“最强的大脑”、“最好的语音方案”、“最完整的方案”都在这里了,你可以将它放进去。工程师基本上就用这个在开发和享受的,甚至有爱好者拿这个东西,把他家里传统的普通音箱变成了智能音箱,虽然没有买我们的产品,但享受这份开心就够了。这是我们对于开发套件的理解。
这种开发套件对有些人还不够用,不用担心,我们还有有很多自己的设备和规划,未来我们要做玩具,要做机器人,还要做很多东西,没关系,我们也有考虑。
这是我们的一个扩展板,有一些特殊按钮的操作,它有GPIO口,还有红外遥控接收,还有USB2.0的扩展口。当然,我们还有Type-C。这是最基本的开发套件,它可以装在你的口袋里带走,这么漂亮的开发套件之外,我们还有扩展板,这个套件大小是一样的,这三样足够大家去做想要做的事情,我们能够做好自己的1到2个产品就是非常不易了,所以我们也会专注在自己的产品方向,专注于做极致体验的产品,但我们也会将这种能力全面开放给大家。
在软件之上,语音和语义大家比较关心,Rokid会将什么样的能力开放给整个业界?集成了麦阵技术、信息分析处理、语音识别、语音合成、语义理解、自定义唤醒词等功能,这个月底这些功能就会跟大家见面,每一个用户不需要训练,就可以进行直接地定义。也就是说这个产品,已经不需要必须喊若琪激活,用户想要叫它什么就可以叫什么,我家里已经改成“二丫头”或“四姨太”了。声纹识别可以让你认识家里的每一个人,个性化语音合成,当你用一个人的声音3到5分钟,训练的时候这台设备就可以完全适应。还有一个技术是语种识别,当你跟它讲中文,它就跟你讲中文;当你跟它讲英文,它就跟你讲英文,不需要重新配置和重启。包括大家对于自己的特定场景的自然语言的一些对话,可以做医疗、咨询、客服、餐饮等任何方面的东西,我们会提供这样的引擎给大家。所有的东西都全面开放。
所以,Rokid有什么,你们就有什么。这个开发套件的整套方案将和Rokid共享整个平台,我们产品具备的能力第一天就同步出来。
今天我们不仅仅有这些基本的东西,还有内容和服务,如果大家有兴趣还可以挑选很多内容和服务。这里边也列出来了一些,音乐、有声书、儿童故事、新闻、IOT、实时翻译、购物和支付、天气、医疗、时间日历、行事历、闹钟、汇率、外卖、快递等。最近美国实验室最新做了一个成果,完全支持无限制对话的语言游戏,购买我们的产品升级以后就可以玩游戏《狼人杀》,可以进行主持,还可以做小孩的数学教学活动,这都是突破当前语音和语义能力的无限制多人对话的技术,这种技术都会提供给大家,就在这个套件里边。
我们是一家不知名小公司,但我们对接了很多合作伙伴。IOT我可以拍胸脯说是今天大家能看到的接得最广的一家公司,大家可以看到阿里小智、小米、Lifesmart、Broadink,以及正在洽谈的合作伙伴,我们的产品已经具备了这些能力。
大家在想拿这个套件做什么?是不是变成了Rokid的一个方案输出商,或只是你们的一个生产商?其实我们不希望做成这样,既然是开放,我们就用真正开放的心态去做这件事情,所以我们定义成全栈开放。
在端上,语音的结构和麦阵与性能是直接相关的,这些东西有很多公司要花一年甚至两年的时间才能够调优,今天我连ME、EE都会用到它。包括AI端上计算(信号处理、自定义唤醒、噪音、回声消除等)都会在架构上完成。我们最近跟国芯合作,把激活、降噪、自身音源消除这些算法集成到一块dsp芯片中,用来降低功耗和节省成本。在端上打磨我们的产品,从硬件芯片开始整合我们的AI技术。在保证计算能力的情况下,可以尽量地制造出更贴近老百姓价格的产品。
所有的设计都是开放的,如果你觉得Rokid不够好,你觉得自己的能力够强,也可以将它换掉,我们会把所有的东西向大家开放。
当然,这些能力还不足够好,所以在端之外还有一个语音的概念。包括AI的计算服务,语音识别、语义世界、语种识别等诸多的语音的计算,我们全部会在这儿公开。这里有两套方案,一套是阿里自己的DST人工智能方案,一套是Rokid的方案。如果你有本事也可以换掉,因为这些都是开放的。包括我们的游戏、音乐、有声读物、新闻、天气等智慧的东西都会向大家开放。第三方的内容和服务也会有,我们有完整的全栈的开放,所有的东西都不会被绑死。
在座的各位如果有自己的诉求,要做自己的内容,自己的服务以及自己的APP,要做自己垂直领域的东西,完全以这个开放价格去进行定义。
70%操作系统和框架代码,100%的EE和ME设计全部免费。所以这是我们希望给产业带来的一个不一样的概念。
为什么要做这件事情?很简单,智能不是一个可以卖的东西。
我们有智能手机、智能电视、智能汽车、智能音箱、智能行李箱、智能沙发、智能马桶、智能灯泡;其实,在未来将没有这些名字。未来只会回归到电视、行李箱、手机、音箱,智能将会是无所不在的东西,你没有必要去强调这个概念。我希望在座的各位以及整个产业都参与进来,我们跟阿里一起来讲未来的世界,将智能化的世界快速发展起来。这次会议放出一个信号出来,在今天以后,整个产业会进入一个新的布局,如果你只拥有单一的云技术,你只有一些判断的技术,可能在未来并不会特别轻松。大家还是更多地让产业里的每一个合作伙伴专注在给用户提供更好的产品、更好的服务以及更好的体验,真正去改变这个世界,而不需要花时间去想我怎么设计电路,怎么做语音识别,怎么去找到这一堆去进行集成、调试、调优再推向市场,这会耽误很长的时间。我相信在座各位的聪明才智将花在如何设计和定义更好的产品,如何将它们卖出去,这是很大的要求,供大家思考。
我们并不限定它的应用能力,这些都可以做,这远远不止,任何事情都会有智能,如果你愿意,也许你明天就能做到,这就是这一次对大家带来的新的东西。
当然,我们也会开放我们的平台,我不想生产硬件,也不想生产终端产品,但我们有软件开发能力。我们会提供这样的开发者社区,你可以把自己的内容放进去,如果在座的各位已经生产了100类产品,有1000万人,但上面的内容和应用会比较少的话,如果各位看重未来,愿意为这样的智能产品去开发这样的内容和应用,大家可以应用这样的平台。这个平台也是分享给整个产业的,所以你一旦进这个APP,不仅仅是给Rokid,都可以自然获得。除非你不愿意,除非合作者说不行,所以大家可以去定制整个的产品能力。
最后,愿智能与大家同在。