5月17日,科大讯飞在深圳举办了名为「AI·飞无界」的新品发布会。三年前,科大讯飞首次将AIUI推向市场,去年AIUI开放平台的发布,那么今年的AIUI3.0将有哪些值得期待的革新?另外,发布会上还发布了魔飞2.0、AIoT、iFLY OS,其中的免费厚礼到底是什么?
科大讯飞消费者BG执行总裁于继栋
科大讯飞消费者BG执行总裁于继栋在发布会上首先回顾了讯飞开放平台以及AIUI发展的历程,他表示,从2011年讯飞开放平台开放之后我们经历了很长的发展阶段。从具体的数据看,2013年开放平台开发者注册数为3.9万,2015年达到12.1万,2017年有51.2万,到了2018年5月16日,开发者注册数量已经达到了80万人。当然开放平台以及AIUI平台都是全领域覆盖,涵盖教育、通讯、机器人、购物等。于继栋同时透露,科大讯飞AI的合作伙伴已经超过5万。
从开发者的阵营来看,移动端开发者的增长的数量占比最大,其中包括微信小程序以及其他外部API和Java小程序调用的快速增长。另外,Windows以及Linux阵营的开发者的快速增加分别代表着办公场景和智能硬件领域AI正在逐渐落地。
于继栋还分享了一组数据,目前,每天在讯飞开放平台上产生的语音交互次数超过45亿次,交互次数比较多的前几大应用是,移动端超过40亿次,音响超过4000万次,电视超过2600万次,车载超过2000万次,商用机器人超过300万次。
科大讯飞开放平台的AI功能
AIUI 3.0 :三大革新
不过,即便AIUI已经有大量的开发者和用户,但于继栋表示:“自2015年AIUI正式发布以来,我们看到无数开发者为追求真正优秀的产品、最真实自然的人机交互、零失误的语音识别而奋斗。为了更好地为开发者赋能,我们将这些追求纳入心愿单,在AIUI3.0中带来了三大革新。”
革新1:半监督优化
半监督优化能够通过系统分析产品日志,了解各种热门说法并推荐给开发者,并由分析产品日志和聚类算法推荐用户想要的其它技能,帮助开发者不断改进产品和提升效率。
同时,对于说法的回复,允许开发者有多种处理方式,如使用系统推荐的技能,如闲聊技能进行回答,自己定义业务进行回答,或者接入广告进行推荐。
AIUI3.0 开放式交互
革新2:开放式对话
在语音交互中,封闭式对话以机器为中心,易于控制,但是交互自然度低,开放式对话以人为中心,更接近自然的交流方式,同时语义消歧的难度也更大。
AIUI3.0能够做到开放式交互,让交互更贴近自然,并且不断地演进和优化效果,这也是AIUI3.0的一大优势。
革新3:全链路打通&动态词汇
要听懂用户,语义理解能力和语音识别准确度两手都要硬。
AIUI打通了语音识别、语义理解以及语音合成全链路个性化网络,提高各类场景下的理解能力和识别率;同时拥有基于场景动态词汇技术,让用户说出所看到内容都能被准确识别,达到所见即所说。
当然,AIUI3.0除了上述功能外,还有自定义问答、自定义技能、对话托管、云函数、可嵌入开发者WiFi soc的二麦在线交互模块等特性。AIUI平台的技能也已经达到了120多个,内容超过60种。
因此,基于AIUI 3.0 集成的语音唤醒、语音识别、语义理解、语音合成、IoT 等核心技术,优化的技能平台,整合硬件、SDK、WebAPI、芯片、小程序等接入平台,科大讯飞构成了一张丰富的系统架构全景图。
魔飞(MORFEI ):增加2个新功能
魔飞是科大讯飞在2017年6月发布的一款麦克风成品开发方案,魔飞1.0的双环八麦购行解决了传统拾音设备只能放在桌面上的问题,通过与AIUI配合,提供了快速开发的能力,科大讯飞也已经通过魔飞1.0与许多开发者共同探索了很多家居的产品。
不过,魔飞的产品经理涂康宏表示,魔飞1.0之后,我们发现有一些地方还有待提升,如回声消除。今年上半年我们大幅优化了回声消除和蓝牙回踩,使它的效果在原有的基础上提升了100%,另外通过优化整个系统架构,使系统变得更加稳定,功耗也降低了50%。
魔飞2.0
当然,除了已有功能的优化,魔飞2.0还增加了分布式和能量跟随两个创新功能。
分布式能力:过去,用户对多台设备进行唤醒时,命令执行会引发多台设备同时被唤醒的尴尬局面。现在,多台设备在同一个局域网和账户号下,喊出「魔飞魔飞」唤醒词时,所有在局域网内的设备会进行唤醒分值计算,离用户最近的那一台设备优先响应用户唤醒。
能量跟随能力:过去,设备被唤醒之后麦克风阵列会根据声源的位置指定一个固定的波束方向,除非用户再次唤醒设备,否则波束方向不会改变。现在,波束可以根据用户的位置和声源地移动,动态的调整播出方向,给用户带来更自然的交互体验。
涂康宏还表示,魔飞2.0超越了固定的硬件形态的局限,软核化使其可以安装在各类硬件设备中,能巧妙融入起居环境中。
所以魔飞2.0开放了全链路,开放音频、文本、语义、合成四种接口。还有声纹唤醒接口的开放,让魔飞能在唤醒后瞬间知道用户身份,使开发者可以快速调用声纹信息,围绕用户搭建个性化场景推荐。
发布会的现场,科大讯飞还举办了一场语音技能开发的挑战,4 位开发者用了大概1小时的时间分别完成了程序员字典、我唱你猜、新电影推荐、会场抽奖的技能开发,并通过现场配置好的魔飞麦克风,现场也成功演示和验证。
AIoT:实现更多智能IoT设备的互联互通
数据显示,2014年到2018年终端设备的数量正急速增长,2018年硬件终端规模将达到19亿,其中手机端占比约92%,8%预示着智能硬件时代的到来。但智能不仅是交互的升级,还是万物相互连接产生的巨大能量。为了满足开发者对智能设备间互通互联的期待,讯飞智能物联云AIoT也由此诞生。
讯飞智能物联云AIoT
据雷锋网了解,讯飞智能物联云AIoT有云及雾两大能力:
云能力提供开放、聚合、智能的云服务平台。
雾能力是通过雾计算使整体系统不受网络波动的影响,响应时间快;这种分布式的能力能充分利用设备原有空闲的计算资源,降低系统成本。
这两大能力被整合到 PaaS 级的开发平台里,为开发者提供AI接口和开放设备连接,创建个性化智能场景。开发者既可以从第三方云端接入AIoT,也可以设备直连。
现场,讯飞的团队也通过厨房的场景,为大家展示了基于讯飞智能物联云AIoT的设备互联互通和多模态人机交互的能力。
iFLY OS:一份免费的厚礼
新品发布的最后,于继栋向大家展示了一份“厚礼”——系统级解决方案iFLYOS。iFLYOS 整合了讯飞语音唤醒、语音识别、语音合成、语义理解这四大基础技术能力并免费开放给开发者,并且整合了 1300 万首咪咕高清音乐、20 万部海豚有声内容、以及 3 万部院线大片。
系统级解决方案
另外,iFLYOS 还提供了 API 开放接口、开源了端代码、兼容亚马逊 AVS 可以让亚马逊设备快速接入讯飞方便开发者的开发。
不过,由于iFLYOS在发布会现场于继栋才公布开启内测,所以这个系统级解决方案的更多细节还等待科大讯飞的逐步公开,雷锋网也将为你持续关注。
新的100项AI能力正在开放
于继栋发布完四款新品之后,在深圳28℃的夜晚,科大讯飞执行总裁胡郁却穿着西装站上台做了题为《赋能开发者 创造新时代》的分享。对此,他解释道:“2010年我们讯飞开放平台刚刚成立,在那年的发布会上我穿的就是这套西装。可能很多小伙伴也发现了,这套西装的扣子和袖口已经磨损,但没有关系,正是因为那些过往的历史时刻,才成就了我们的今天。”
科大讯飞执行总裁胡郁
对于为何看好语音技术,胡郁表示,90% 信息输出依靠语音,80% 信息输入依靠视觉,人与机器之间的交互也通过人的语音语言和机器的显示屏形成一个循环。因此他坚信基于视觉呈现的语音交互技术是未来的发展方向。他还举了一些例子,如跑步等移动场景人们佩戴耳机的无视觉呈现的语音交互;车载环境对着后视镜的弱视觉呈现的语音交互;还有家庭环境在电视、投影等屏幕前的强视觉呈现的语音交互等。
基于视觉呈现的语音交互技术是未来的发展方向
胡郁回顾了科大讯飞的发展历程,也提到了突显核心技术对于企业长久发展的重要性。说到这里,他表示,很长一段时间科大讯飞的盈利能力遭到外界的质疑,其中很重要的一个原因就是科大讯飞每年在开发者平台和核心技术上的投入是上亿级的。他指出,2017 年科大讯飞的技术投入占总营收比重高达 61.61%,技术开发团队的人数增长率则高达 56.04%,均大幅高于 2016 年。
胡郁在发布会上还表示科大讯飞开放平台将在2018年度内开放新的100项AI能力,打造AI全领域开放平台。
科大讯飞AIUI智能硬件合作伙伴数量加速增长
小结
科大讯飞此次的「AI·飞无界」新品发布会带来了四款新品,从软件开发平台AIUI3.0、硬件麦克风成品开发方案魔飞2.0到讯飞智能物联云AIoT再到系统级解决方案iFLY OS,从软件到硬件,从单品到系统,科大讯飞基于其核心技术为开发者准备好了一整套的解决方案。
这对于开发者而言,门槛以及成本的降低无疑具有巨大的吸引力,特别是在有了iFLY OS之后,能让更多的开发者让创意变成产品。而AIoT能解决困扰物联网发展的智能设备之间互联互通难题,这无论是对AI落地还是IoT的发展而言都是积极的消息。科大讯飞也能与开发者共建一个更大的语音技术生态。
至于科大讯飞此次为何将AIUI的发布会选在深圳而不是北京,雷锋网认为其中的原因是深圳具有相对完备的硬件产业链,也有大量的智能硬件开发者,发布会展示区搭载科大讯飞语音技术的多个机器人展商就来自深圳,这意味着科大讯飞很看好语音技术在智能安防、智能家居、智能机器人、可穿戴等智能硬件中的普及,也希望通过与深圳的开发者共同推动AI的落地。
现在关注“雷锋网”微信公众号(leiphone-sz),回复关键词【2018】,随机抽送价值 3999 元的参会门票 3 张
相关文章: