编者按:本来作者Evan Ackerman,来源IEEE Spectrum, 由雷锋网独家编译,未经许可不可转载!
佐治亚理工大学音乐科技中心(The Georgia Tech Center for Music Technology)由佐治亚理工大学音乐学院教授Gil Weinberg创立,一直以来,它以机器人音乐创作而闻名于世。其开发出的AI和机器人可创作出令人惊叹的音乐作品,极富创造力和专业精神。
Shimon便是乔治亚音乐科技中心的音乐家之一,它是一只四臂机器人,会弹奏木琴,并能实时分析音乐,配合人类演奏。不过,虽然Shimon的才华有目共睹,但在此之前,它只会弹奏人类已经写好的乐谱。现在,Shimon已经能够运用深度学习来即兴独立创作乐曲了。更加值得一提的是,其创作出的乐曲节奏明晰,相当和谐,让人惊叹。如果你有幸听过Shimon的处女原创作品,你会发现它颇具古典爵士的风味。
Shimon的开发者是Mason Bretan,他是佐治亚理工学院音乐技术中心的一名博士研究生,主攻音乐机器人方向,他致力于将“机器即兴演奏、路径规划、身体认知”的功能最大化。旋律和和弦由四种基础旋律组合而成,其通过神经网络谱写。该神经网络接受过成熟的训练,已经吸收了将近5000首完整歌曲(包括贝多芬、披头士乐队、Lady Gaga、Miles Davis和John Coltrane),以及200万种乐旨、重复乐段、小乐句和其他的基础音乐元素。
当Bretan运用了一个节奏更快的基础旋律,Shimon则创作出了一首截然不同的音乐,风格更加明快。Shimon的第二首原创音乐便诞生了。
需要指出的是,Shimon既没有将不同的音乐单位机械地结合在一起,也没有使用某种随意的音乐生成器,而是运用深度神经网络谱写出乐曲,这就是Shimon的特别之处。事实上,Shimon所谱写的每一首音乐,都是其机器学习的成果。它能概括和弦和和声,并像人类一样从大局出发,将重点放在乐曲的整体结构上,而不是思考一段谱写一段,简单机械地拼凑出下一部分的内容。
Bretan把它叫做“高层次的音乐语义学”。目前来看,Shimon的音乐已经达到了“以假乱真”的境界,我们已经无法判断出它出自机器人之手。Weinberg用“优美、振奋人心、独特”来形容Shimon的音乐,我们非常赞同他的评价:它的音乐整体性和和谐度非常高,同时别具一格。
为了了解更多的细节,我们通过email与Bretan和Weinberg进行了交流:
IEEE Spectrum:你们先前上传了Shimon的演奏视频,那么,你们是不是特意选取了Shimon的优秀作品上传,而稍微逊色的作品,则没有上传呢?
Gil Weinberg:
视频中的音乐是Shimon运用深度学习创作的头两首曲子,我们并没有特意选择。这两首曲子是Shimon学习的成果,它所学习到的内容让它拥有了一个特定的数据库。你可以想象一下,如果我们让它学习的是其他的基础旋律,那Shimon谱写出来的曲子将会截然不同。
IEEE Spectrum:如果你们只让Shimon学习一种类型的音乐(比如古典音乐,甚至某位特定作曲家或流派的古典音乐),那Shimon所创作的音乐是不是就能够可以具有辨识度呢?如果是,可以到达何种程度呢?
Weinberg:
Shimon的音乐和它的训练内容息息相关,因此,如果我们只训练它吸收一位作曲家(或一种特定音乐流派)的作品,那么它创作出的音乐风格将和此位作曲家(或此种音乐流派)非常一致,具有辨识度。不过,影响其作品的还有另外一个重要参数,那就是我们给予它的基础音乐参数,它能让Shimon的音乐形成自己的风格。
IEEE Spectrum:为什么你训练Shimon同时吸收乐旨、重复乐段、小乐句和其他的基础音乐元素,和完整乐曲?它是如何将这微观和宏观的两者融合在一起的?
Mason Bretan:
我们想让神经网络学习重要的结构概念。我们学习写故事,首先必须理解词、句、段等结构概念。音乐创作也一样,我们需要理解乐旨、重复乐段、小乐句、乐章等结构概念。我们鼓励Shimon学习这些音乐概念,但我们并不是直截了当地告诉它“这是乐旨、这是完整乐曲、这是小乐句”,而是动态地训练神经网络,让它能够重新排列组合基础音乐单位,在前一个或多个小节的基础上预测出下一个小节的内容。
IEEE Spectrum:您能详细地描述下Shimon创作原创音乐的过程吗?
Bretan:
首先,它需要学习音乐小片段,比如单个或多个节拍,这个步骤叫做“神经嵌入”,这是最重要的一步。在语言习得中,你也许听说过"词语矢量(word2ve或word to vector)”。何为“词语矢量”?通俗来说,就是让神经网络学习词语概念(比如“好”、“很好”、“愉快”、“精彩”等表达相同语义的词)。音乐创作中也有一个与此类似的过程,神经网络需要学习音乐小片段,并需知晓携带这些片段的载体。
第二步,它需要学习音乐小片段的排列方式,并作出预测。我们需要训练神经网络在已有的音乐小节的基础上,预测出下一个小节。确切来说,这和一般的机器人强化学习不太一样。一般来说,机器人要解决问题,学习的是一系列分离的动作。但Shimon的学习方式则是持续的,它连续不断地预测排列方式,一直处于参数更新的状态之中。举个例子,如果给出一个排列组合“1, 2, 1, 2, 1, 2, 1” ,并让Shimon预测数字“2”,那么在训练过程中,其预测的结果离“2”越远,其更新参数的强度就越大。因此,只要开始训练,Shimon就处于预测状态之中。这样连续不断下去,最终一首曲子便作成了。
IEEE Spectrum:Shimon有自己的创作风格吗?它创作的音乐和人类创作的音乐有何不同?
Weinberg:
机器人音乐创作的基本原理就是结合人类欣赏热爱的音乐(运用机器听觉和机器学习)和新的音乐演奏和思考方式(运用人类不使用的算法)。深度学习架构旨在捕捉被人类使用的音乐概念和模式。我们可以在原有的算法上加上以机器为基础的数学排列,这样一来,便能生成新奇的音乐。因此,Shimon的音乐听起来“优美、振奋人心、而独特”。
IEEE Spectrum: 除了音乐创作,这种学习和即兴创作技术还有什么其他的实际应用吗?
Weinberg:
我们正在将之运用在LSTM(长短时记忆)网络和单位选择方法上,这两种方法类似于“即兴创作”,都可以应用于语言建模和语言生成领域。
IEEE Spectrum:那么,你们接下来的计划是什么?
Weinberg:
现在,我们已经开始计划运用深度学习来让机器人学习人类的音乐表演方式,而不仅仅是学习符号记法。这样一来,机器人不仅能学习音乐符号,也能通过控制微型计时、接合、声调等参数,掌握演奏音乐的方式,因此,其创作的音乐会更丰富、让人印象更加深刻。
Bretan:
接下来我的重点将转到机器人与人类的差别中来。Shimon有四只手臂,那么相比于两只手臂、十根手指的人类,其创作的音乐有何不同?四肢手臂又是如何影响音乐创作的呢?这个问题,我们还有待研究。
Via: IEEE Spectrum