雷锋网注:【 图片来源:IEEE 所有者:iStockphoto 】
自2017年以来,研究人员一直使用AI神经网络来帮助设计更好更快的AI神经网络。
迄今为止,这种应用在很大程度上是一种学术追求,主要是因为这种方法需要数万个GPU hours。然而,下个月,麻省理工学院(MIT)的研究团队将展示所谓的“神经架构搜索”算法,该算法可以将AI优化AI的过程加快240倍或者更多。
优化后的AI速度更快,精准度更高。而这个新算法的出现将助力优化后的AI广泛应用于图像识别算法和其他相关应用。
MIT电子工程和计算机科学的助教Song Han表示:“我们团队在模型大小、推理延迟、准确性和模型容量等多个方面做出了权衡。”他还补充说:“这些因素组成了一个巨大的设计空间。以前,人们都在设计基于人类启发的神经网络。而新算法试图将这种劳动密集型的、基于人类启发的方式转变为一个基于学习的、基于AI的设计方式。就像AI可以学习下棋一样,AI也可以学习设计一个神经网络。”
就像在围棋和国际象棋中获胜的AI程序教给大师们新策略一样,AI优化AI这一新的探索为设计AI神经网络提供了全新的方法。此类神经网络被称为卷积神经网络(CNN),MIT团队研究的新算法促进了这种神经网络的发展。CNN通常作为图像识别程序的神经网络。除此之外,它在自然语言处理和药物发现等领域也有所应用。
MIT的Han指出,一旦他们团队的算法建立起最优的CNN,得到系统分类图像的速度很可能是其他神经架构搜索构建的AI的1.8倍。
Han说,团队能够以如此惊人的速度精确定位最优的CNN设计,有三个重要的想法:
第一、他们减少了运行神经架构搜索的GPU内存负载。一般来说,标准的神经结构搜索可以同时检查网络中神经层之间所有可能的连接。然而,Han的团队每次只在GPU的内存中保存一条路径。这个技巧可以在仅使用十分之一内存空间的情况下,对参数空间进行完整的搜索,从而使他们的搜索覆盖更多的网络配置,而不会耗尽芯片上的空间。
第二、从已丢弃的神经网络搜索中删除整个路径,这明显加快了神经网络搜索的速度。
第三、让神经网络搜索意识到AI系统可能正在运行的硬件的延迟时间——无论是CPU还是GPU加速的移动平台系统。
Han说,令人惊讶的是,关于一些图像识别神经网络的传统观点是错误的。在某种意义上,AI网络设计师在设计主要运行在GPU系统上的网络时,他们的想法仍然停留在CPU时代。
CNN在其图像识别算法中使用过滤器,这些算法是由3×3、5×5或7×7像素组成的正方形网格。一般来说,7x7的过滤器很少见,因为人们认为,运行更多的3x3过滤器比运行单个7x7过滤器更快。
然而,Han说,经过AI优化的AI使用了相当数量的7x7过滤器。他还表示,这是当今大多数AI计算中GPU占主导地位的原因。“目前,我们已经发现GPU上运行7x7更简单,因为GPU有很大的并行度,”Han补充道,“而且调用一个大型内核比调用几个小型内核更有效。”
在谈到他的团队的算法时,Han说:“它为人类工程师未来设计神经网络提供了良好的反馈。”然而,这并不意味着AI能够构建更强大的版本。
雷锋网注:本文作者 Mark Anderson,文章编译自IEEE
雷锋网注:【封面图片来源:网站名IEEE,所有者:iStockphoto】