这个年代,动不动就有人谈论人工智能,就有创业者跳出来说要做智能机器人,但结果却只是纸上谈兵,不了了之。小智音箱CEO何永对于AI的理解有着自己的看法,人工智能最终的落地是在人机交互上面,而目前人机交互最直接的方式应该是语音识别,语音交互的方式既接地气,人人都能接受,又能实实在在的解决实际问题。
能听又能说,能想还会做的机器人是聚熵智能最想做出的产品,何永带领的聚熵团队将第一代产品与音乐做了深度结合,注入了很多机器人属性的东西在里面,虽然看上去就像一个普通的音箱,但它却具备了能与人进行语音沟通的能力,能完成用户下达的各类语音控制,甚至还能通过控制红外模块去遥控家中的家电。
关于CEO何永,小智“超级音箱”的“奶爸",谁能想到他之前是在中科院搞基因工程的,做生物信息学研究,据他本人介绍就是在人工智能的技术上,利用计算机的手段与技术去研究分析人体的DNA。至于为什么现在又开始做智能硬件,一方面是因为他大学所读的专业确实计算机,自己对这块饶有兴趣,另外就是基于对未来的判断,他觉得未来有两块领域会很有发展,一块是人工智能,一块是纳米医学。而医学门槛太高,目前没什么可能。
“可能5年前10年前,人工智能这个概念就喊得很嗨了,实际上的话,在08、09年之前,这个领域发展很慢,它只是最近这几年发展非常快。我推断在未来5到10年,人工智能能在很多领域能够给大家的生活的带来实质性的变化。”
何永:其实这个产品一开始不叫“音箱”,应该叫“机器人”。但是因为它和音乐结合了,所以我们就把它叫“音箱”,当然这并不代表我们以后的产品还会是音箱的形式出现。此前还做过一款软件产品(智能360),现在也还在做,为什么既做软件还要去做硬件呢?因为我们觉得做硬件可以让软件更好的落地。
考虑做硬件是我们分析了很多家电产品,像电视、空调、路由器等很多东西,最后还是选择了音箱作为载体,因为音箱具有了几个特征,能很好的结合人工智能。
首先,家庭里面需要与语音结合的产品并不多,比如说空调,电视,这类产品是有必要的。但是路由器就没有必要,平时放在拐角处,语音接收不方便,也不便于移动。还有灯、插座开关,也可以结合语音,但是运用起来很简单,不能真正把人工智能的东西运用起来。所以我们分析了很产品之后,发现只有音箱是最合适的。
何永:首先,语音可以很好地提升用户体验,以前音箱是用手机控制播放,现在可以跟它说话就能播放,这个体验就已经提升了。
第二个,它是真的带有人工智能的价值在里面,因为音箱不像开关,开灯、关灯两个操作就没了。音箱的交互可以有很多种形式,比如点歌时,你可以和它说“来首周杰伦的歌”、“来首青花瓷”、“来个钢琴曲”等等,可以有很多种说法,这样就可以把人工智能的真正价值,也就是我们公司的价值体现出来。
最后,音箱本身能说话。比如说灯的交互只有两种,但是它不能说话,所以你无法知道你说的话它是不是很好地执行了。但如果我和小智说“把卧室的空调打开”,它就会跟你反馈说“好的,已经给你打开了”,所以产品本身能说话可以解决很多问题。
基于这三点我们选择了音箱为载体去做这些事情,但不代表我们只能做音箱,我们给产品注入了许多的机器人的属性:你可以直接和它对话交流,和它聊天,它也可以算“1+1+1=?”,小孩可以问它百科知识。
雷锋网:语音交互难点在哪?
何永:做语音交互没有想象中的那么简单,里面有很多问题需要解决:
第一个麦克控制链技术,我们做的是远场交互,手机上的语音识别技术虽然很成熟但其实属于近场识别,拿到三五米远可能就完全不能用。
第二就是基于麦克风的降噪,这里要考虑到如何把环境噪声去掉,再把人声放大。
第三就是当放音乐的时候怎么去进行语音控制,这里面有个很大的问题叫回音对焦,就是说设备播放音乐的时候,人声很容易被掩盖,这个时候改如何去进行语音识别,是个技术难题。
第四就是唤醒机制,远距离对话首先要唤醒设备。原来的唤醒技术误唤醒率高,平时无意中说出来的话可能就是触发词,就会误触发机器人说话,所以这也是个问题。
第五个就是远场的语音识别,不仅是识别,还包括了对语调进行训练,不是手机上简单的语音识别。
第六个就是语义的理解。同样做智能语音识别,与小i机器人不同的是,我们做2C,他们做2B。他们的技术用于企业客服,数据是有限的。但是随着人工智能的发展,数据反而会越重要,相同的技术用于不同的领域,起到的结果是完全不一样的。
何永:为什么做语音智能音箱就我们一家呢?因为从技术到最后的产品实现这中间要经过很多环节,它不是简单地把东西往里塞,里面有很多东西需要验证。
把技术与产品结合需要一个非常长的时期,一般要三到五年的时间,主要有4个环节:第一个,技术本身的理论验证,然后到技术的工程实现,然后第三个就是和产品结合,第四个集成产品。
何永:对于传统的音箱来说,音质和外观最重要,但对智能产品来说,这两个是基础,还有第三个与第四个:交互体验与音乐源。我觉得交互体验是在这几点中最重要的,我们一代的价格是399,所以我们的音质也不和市面上1000以上的音箱去比,这里可以说明下的是,低价位的音响设备对普通消费者来说音质存在的细微差异基本听不出来,只有更高价位的音箱和专业的听音师才能听出差异。即便如此,还是不排除我们第二代的产品会在这个价格的基础上做到更好的音质。
何永希望能利用小智超级音箱来连接智能硬件,通过语音能够控制家里的一切家电。人工智能与音箱的结合,可以认为是何永对人工智能布局智能家庭的一次尝试,他想要做的可能还远不止于此。
比如最后谈到了智能机器人Pepper的时候,何永认为Pepper更多是做企业服务,而未来他们的方向会是家庭服务,他也甚至指出了这里面存在亟待解决的两个难点:第一点,真正的智能化,第二点就是硬件本身能做的事情的成本降低了。
小智,做的不仅是超级音箱,他可能还有更大的“阴谋”。
小智招贤纳士,求贤若渴,欢迎有志之士简历猛砸邮件:hrd@360iii.com。
雷锋网先锋志(公众号:vangzine)致力于发掘更多产品和技术创新驱动的创业项目。如果你也在创业,如果你也认同产品和技术是改变世界的中坚力量,欢迎通过我们向业界介绍自己。联系方式:startup@leiphone.com,24小时内会收到我们的回复。