今年3月份,雷锋网《舍弃冯诺依曼架构突破内存墙瓶颈的AI芯片,即将轰动市场?》一文介绍了解决AI芯片内存墙挑战的多种路径以及探境科技采用的创新方法。距离文章发布不到十个月之后,也是探境首款AI语音芯片量产不到一年之后,探境科技CEO鲁勇本周宣布探境的语音识别方案实现百万级出货。
百万级出货,只是衡量一款使用成熟制程工艺成功的最小出货量级,但对于AI芯片来说却意义重大。此前我们已经多次强调,对于AI芯片初创公司而言,设计出芯片只是成功的开始,能否大规模落地才更为关键。
如今,无论是巨头还是初创公司,大都为AI芯片难落地的苦恼。显然,探境科技量产不到一年的音旋风(Voitist)611 AI语音芯片出货就达百万级值得关注,他们取得这一成绩的策略和方法或许也值得参考和借鉴。
探境科技CEO鲁勇
推翻冯诺依曼架构
3月份的文章已经介绍了探境科技设计出的非冯诺依曼架构的计算架构——存储构SFA(Storage First Architecture)。SFA架构解决内存墙挑战的方法比较独特,以存储调度为核心的计算架构,数据在存储之间的搬移过程之中就完成了计算,计算对于数据来说只是一种演变。
当时,鲁勇对于SFA架构进一步的解释是,存储是我们SFA架构优先的出发点,去考虑数据在搬移过程中做计算,也就是由数据带动计算而非由算子带动数据。与通常计算的先有计算指令然后提供数据相反,SFA架构是先有数据,然后再把算子交给它。
探境科技SFA架构
由于没有详尽的说明,SFA也有被误解为最近几年讨论很多的存内计算(In-Memory Computing),鲁勇近日再次接受雷锋网采访时首先明确,SFA不是存内计算。我们说SFA不是冯诺依曼架构,指的是SFA不是以计算带动存储。不过,SFA架构采用的是标准单元库设计,没有改变底层的工艺。
SFA架构解决内存墙挑战的核心是,既然深度学习算法需要的卷积运算的乘法计算次数不能减少,那就想办法把数据在存储器和运算单元之间的搬运次数降低,达到提升算力、降低功耗和解决内存带宽限制的目的。
“SFA架构实现的方法是通过硬件、架构调度、数据调度管理等创新。实验数据表明,SFA架构所采用的各种微观和宏观调度算法,比较’类CPU架构‘采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。”鲁勇表示。
除了高能效比,SFA架构还带来了通用和易用的优势。鲁勇说:“我们的芯片是首款通用型AI芯片,可以支持所有已知的神经网络,对数据类型也没有限制,对常见的稀疏数据也可以实现自适应支持。”
还有非常重要的一点,将AI模型从云端迁移到终端,使用探境的芯片不需要重新训练。鲁勇表示:“我们提供的工具链可以给零基础的客户使用,不仅在算法从云端到终端迁移的时候不需要重新训练,节省时间。还能保证模型从浮点到定点进行量化之后,精度几乎没有变化。”
他透露,“我们有一套从特别的量化技术,硬件上提供一些比较冗余的信息,保证即使量化为8比特也不会丢失信息。同时借助AI、非线性的一套算法,通过软硬结合的方式,甚至可以做到量化到4比特,模型都不需要重新训练。”
鲁勇所说的精度几乎没有变化,指的是量化后精度有千分之几的变化。比如从浮点16位时的95.7%的精度量化为定点八位后精度变为95.3%。
因此,基于SFA架构的探境AI芯片采用28nm的工艺能效就超过4TOPS/W,数据访问降低10倍到100倍,存储子系统功耗降低10倍以上。
鲁勇还透露,SFA架构的图像芯片已经成功流片,图像AI芯片的核心指标IPS/W全球第一,达到了800 IPS/W。
数据显示,目前市面上的AI图像芯片这一指标大都没有超过100 IPS/W。
算法挖掘架构优势
当然,优秀的架构必须很好地融合算法,才能最大化硬件的优势。特别是AI时代,越来越多人意识到软硬一体的重要性。探境在算法上也有其独特的降噪和识别算法。语音识别大致可以分为四个过程,语音信号采集、语音信号处理、语音识别、获得结果。以家居这个AI语音落地较多的场景为例,具有信噪比(信号与噪声的比例)比较低,会有不可预见的噪声以及多个声源等挑战。
从语音识别的过程来看,想要获得满意的结果,首先需要的是降噪算法。探境科技联合创始人 软件研发副总裁李同治介绍:“我们的降噪算法基于深度学习,不仅可以处理常见的稳态噪声,对一些非稳态的噪声和突发性的噪声也可以很好地处理。为了验证这套算法识别的有效性,我们将一批信噪比在3dB左右的语音数据送到一家知名互联网公司的云端识别引擎进行测试,结果显示降噪后比降噪前的识别率能够提升30%以上。”
30%是个什么概念?根据李同治播放的音频,使用探境的AI降噪算法,能够有效地过滤风声、雨滴声这些噪音。
降噪后的下一步是识别,在语音识别中,探境采用的是其称为HONN的新型高计算强度神经网络。李同治透露,HONN将计算机视觉中的一些经验迁移到语音识别中。HONN增加了卷积的操作次数,减少了传统DNN/TDNN算法中全连接的次数。
对比传统的DNN算法,HONN特点在于算法的参数大概是传统DNN算法的1/5,更少的参数意味着只需要更少存储面积,也就相当于更低的芯片成本。虽然参数更少,但HONN单帧对算力的需求超过几百兆OPs,DNN仅为个位数。
最终结果显示,在信噪比大于10dB和5-10dB的环境中,HONN命令词识别准确率的提升分别为2%和10%。
在实际的场景测试中,HONN使用单麦克风效果也十分显著。但语音识别的场景还有更加苛刻的场景,比如扫地机器运行中产生的声音,或者控制客厅或厨房中家电设备时距离较远语音信号快速衰减,这时候就需要使用麦克风阵列。
传统的麦克风阵列有三个缺点,一个是声源定位依赖单麦克风,远场时唤醒率低影响使用体验;另一个是降噪算法和识别模型不适配;还有就是对多个麦克风以及电容等元器件一致性要求非常高,无形提高了整个系统的物料成本;最后,当干扰声源与目标声源方向接近时,这套流程也无能为力。
“为了解决这些问题,我们提出了基于FCSP(频域复数子空间投影)的端到端AI双麦新算法,把增强和识别一体化,进行端到端的识别流程。在这个识别流程中,我们放弃了使用传统的数字信号处理算法来做语音增强,而是用一套基础于深度学习的AI算法做信号增强。处理算法的参数和神经网络一起训练,通过整体优化降低最后的识别错误率。“李同治还进一步指出。
“我们的唤醒识别全部依赖增强后的信号,不会出现信号增强依赖于单麦唤醒的情况。并且在训练的过程中,还加入了注意力模型和注意力机制,这样干扰源和信号源接近的时候也能处理得很好。”
这是前比较前沿的方法,国外的亚马逊、谷歌也在采用端到端的方法做增强和识别的一体化处理。根据探境给出的数据,亚马逊采用的是基于可学习的空间滤波方法,在信噪比低于5dB时,单字识别错误率相对降低15%。谷歌使用的方法是频域因子分解模型,单字识别错误率相对降低16%。探境的频域复数子空间投影命令词识别错误率相对降低20%。
采用这样的方法就意味着可以用更少的麦克风实现更好的效果,谷歌表示,使用端到端的处理算法后其双麦的识别率可以达到了传统算法7麦克风阵列的识别率。
李同治表示,之所以探境能用更复杂的算法实现更好的效果,除了我们有强大的算法研究实力,同样重要的是有高算力的SFA架构芯片完美地制程这套算法和框架。
基于升级的双麦克风算法,探境也对音旋风611进行了升级,推出了音旋风612语音识别方案,对麦克风及配套电路的要求更低,高噪声环境的识别率更高。
快速落地的秘密
至此,探境AI芯片能够快速落地的秘密也就清晰了。最底层,探境进行芯片架构进行的创新,打破AI芯片内存墙的限制。当然,SFA架构除了带来更高能效比、更低功耗,通用性让其不仅可以用于AI语音,也适用于AI视觉处理。根据鲁勇的说法,SFA架构也能用于云端的训练和推理。
不过,客户并不关注芯片的架构创新,他们更关注成本及易用性。探境独特的量化技术可以节省迁移成本,软件平台可以降低开发者的使用门槛,这让芯片成为了易于使用的方案。
但要最终打动用户,解决用户痛点才是决定因素。这方面,探境所做的是在降噪、识别算法中也采用深度学习,基于SFA架构带来的高算力,用模型参数更少但对算力要求更高的AI模型,实现用两个麦克风阵列达到4个甚至7个麦克风阵列的效果。
通过软硬一体的优化,用成本、易用性、效果提升、系统易集成带来的优势,最终打动用户。
当然,除了技术,市场策略也非常关键。探境的SFA架构可以用于AI视觉,并且探境成立之时是AI视觉更火热的时候,但鲁勇并没有选择安防市场,而是首先进入更容易落地和产生营收的AI语音市场,用更高的算力融合更更好的算法,让产品具有更强的竞争力。
同时,针对语音市场还布局了低功耗、主流、旗舰产品,能够全面满足市场需求。为满足客户不同的需求,既可以单独提供芯片或者算法,也能够提供全栈的方案。未来还将推出针对图像市场的8XX系列芯片。
为进一步拓展市场,探境近日也和国内知名电子行业分销商世强先进科技有限公司以及致力于智能语音控制与交互技术研究、创意产品设计和生产销售的深圳阿凡达智控有限公司也达成了合作。
那么,接下来的问题是,首款AI芯片量产不到一年出货就达到百万级,已经有30个合作伙伴的探境科技,2020年语音方案出货能否达到千万级?在AI视觉市场是否也能快速落地?雷锋网
相关文章: