纵观人工智能领域当下战局,无论是国外的微软、谷歌、亚马逊,还是国内的BAT,都很注重自己的人工智能操作系统或人工智能引擎的开发、迭代,人工智能引擎也越来越多被应用到诸如消费电子、媒体影音、工业设计等领域。
其中,微软小冰作为微软在人工智能领域的重点培养对象,也已经走过五个年头,并在文本、语音、视觉这已知的三大技术领域小有所成,今年微软对外更多在讲的是微软小冰的绘画模型(画家小冰),甚至为小冰在中央美术学院办了“个人”画展。雷锋网此前也就微软小冰的绘画模型的相关技术问题与微软(亚洲)互联网工程院副院长、微软小冰全球产品线负责人李笛进行了深度交流(参见雷锋网此前报道《微软李笛:为什么说画家小冰是最艰难的一次养成?》),也窥探了些许微软小冰的研发及商用进程和思路。
8月15日,第七代微软小冰发布会在北京召开,会上微软官方公布了第七代微软小冰技术框架的能力升级,主要公布了Dual AI、AI Creation、新技术突破、新框架发布,以及商业化进展五个方面的最新进展。
发布会上,首先登台的是微软全球资深副总裁、微软(亚洲)互联网工程院院长王永东,王永东首先强调,微软发布的内容都是已经上线的产品和合作。
其次,王永东抛出了开场甜点:微软小冰与阅文集团合作,在学习了《全职高手》原著的文字,重建了小说中的世界观和知识体系,并基于此进行了扩展和补充后,并通过建立知识图谱创造了五位主人公的在线实体。据官方表示,这样的在线实体也具有AI模型所具有的在交互中不断迭代的能力。
基于此,微软官方也表示,微软小冰与阅文集团的合作内容已经扩大到100部作品主人公。
这也被王永东称为有史以来最大规模将小说中人物进行赋能的计划。
随后上台的全球执行副总裁、微软人工智能事业部及微软全球研究院负责人沈向洋进行了此次微软小冰关键技术能力发布,沈向洋首先回顾了微软小冰的技术迭代及思考过程:
第一代,微软小冰是基于文本、基于搜索简单的对话能力,当时主要在思考人工智能是走“爆款硬件”,还是走“技术框架”的道路;
第二代,我们认识到小冰需要有更多落地场景需要学习;
第三代,我们认识到小冰需要有不同的感官,需要加入语音、机器视觉的相关技术;
第四代,我们认识到知识图谱的重要性,只有通过知识图谱才能做更多IQ方面的尝试;
第五代,这一代是我们的一个转折点,我们开始做深层次模型、全双工、人工智能创造的相关思考及工作;
第六代,框架逐渐成熟;
第七代,今天发布的是第七代,这也将会有更强劲的质的飞跃。
沈向洋将小冰及其框架的具体发展过程比喻成森林和树木的一个关系:人工智能向前走需要一个框架,这个框架就是一片广阔的土地,在这片土地上可以有森林,小冰只是这片森林中的一棵大树。这棵大树主要是为了验证这一框架的可行性,之后将会是技术赋能。
对于小冰的发展,沈向洋认为主要经历了关键三步:
第一步,做这样小冰的人工智能,迅速融入各类环境,能够为大家接受;
第二步,迅速获得用户喜爱,可以和用户进行交流;
第三步,持续迭代和演化,持续的发展能力。
此外,据沈向洋介绍,目前已经有4.5亿台第三方智能硬件搭载微软小冰。
发布会上,微软首先介绍的是Dual AI的生态扩展。
微软小冰产品负责人彭爽介绍称,这一框架是一个半开放的生态。此外,微软小冰除去此前公布的融入华为、小米的智能手机及智能音箱等产品中,扩展到小米有屏幕音箱上以外,具体有以下几点生态边界扩展:
在智能手机方面,此次进一步有vivo和OPPO两大品牌加入,这也使得微软小冰在国内集齐了智能手机领域华为、小米、vivo、OPPO四大头部品牌;
在社交网络系统方面,微软小冰在日本与LINE平台进行合作,在国内与QQ不断合作,发布会上官宣,小冰已进入3000万个QQ群。此外,微软小冰进一步宣布与微信合作,具体与腾讯小微展开两方面合作:
第一,与微信AI小微就对话开方平台能力进行合作;
第二,与微信AI涉及的智能硬件产品上展开合作。
内容咨询平台方面,除网易、新浪外,再次与今日头条合作,可以为人类发布内容留言,与人类进行交互。
电视电台方面,截止上个月末,微软小冰已经覆盖中国及日本50家电台/电视台,69档节目,累计已参与播出时长为6908小时,今年生产时长是去年的2.05倍。
在此过程中,沈向洋总结时特别强调,微软小冰从交互到交流也将是其不断发展的一个方向。
去年7月微软成立了小冰工作室,小冰首席科学家宋睿华将小冰工作室定义为一个系统性地对人类创造力建模的人工智能平台。在发布会上,宋睿华也进一步公布了小冰工作室的最新动态,而这样的最新动态也主要是基于文本、语音、视觉三方面技术能力的拓展。
在演唱模型方面,“微软小冰在拥有越来越多接近人类嗓音的能力后,逐渐向技巧和风格化迈进。”现场,微软官方现场编号为F10的微软小冰以「民谣+戏曲」风格的声音演示了晓月老板的《少年弦》,以「音乐剧+High C」演示了周杰伦的牛仔很忙。
微软小冰的人工智能的创造能力可以复制,一个模型学会后,多个模型可以复制该能力。
宋睿华介绍,人工智能创造更接近内容生产角色,满足未来高度定制化的用户需求。
文本及视觉能力方面,据宋睿华在发布会上介绍称,中信出版社将出版小冰的第一部绘画作品集。
我们希望将人工智能创造上升到内容生产领域,这也是我们看到的未来时代发展趋势。
宋睿华在大会上进一步解释,未来需要定制化的内容,但是由于人类创作者难以实现高并发性,从内容生产源头做高度定制化不现实,人工智能有可能是解决这一矛盾的唯一方案。
微软的人工智能创造模型来源于其小冰工作室的「AI Creation模型库」,基于此实现在人力不参与的情况下实现高并发内容的创造和分发。
据微软官方表示,目前微软已经实现儿童故事生产线,并交付给当当云阅读,为联通沃音乐平台交付了作词作曲生产线,与中国纺织工业联合会共同搭建了服装纹样设计生产线并在发布会上正式公布上线。
宋睿华在发布会上特别强调了儿童故事生产线,“微软小冰以「文本+声音+视觉+实体搜索」技术能力为基础构建了「可交互有声绘本」,只要上传文本就可以生成类似剧本的有声绘本。”
在介绍微软小冰新技术能力突破时,小冰技术负责人周力首先上台表示,“我们不仅仅是为了打造一个微软小冰这样一个少女模型,而更在于其背后技术框架的能力提升。”
当AI在对话过程中处在平等或主导的地位时,人类反而能够获得更丰富的信息,人机对话也更有价值,这其中EQ起到关键作用。
第一,在核心对话引擎上,微软小冰的对话引擎此次实现了“平等对话”向“主导对话”方向的跨越,主要表现为第七代微软小冰已经可以预先筹划未来对话,以在各种场合中主导对话走向。
如下图所示,当小冰在第四轮开启主导对话能力时,亮粉色的标记为小冰尝试主导对话,可以预先判断整个对话未来的若干走向,根据人类真实反映引导进入不同对话分支。第四轮到第十五轮整个对话过程由AI主导,“这也使得直男从最初不会聊天,到之后可以获得更多有用信息”。
这一能力被微软应用到在线零售场景中,官方表示,拥有主导对话在线推荐能力的在线零售场景的应用中,实现了零投诉的推销。
第二,在全双工语音交互技术上,继电话、智能音箱后,微软进一步将其拓展到汽车应用领域。
通过车载设备,我们已经在一些车型上测试,同时希望可以在5G普及后,提升微软小冰全双工在汽车上的落地普及。
第三,去年微软小冰多模态感官的Demo如今已经完成公开测试。微软小冰多模态感官是一种融合了全双工语音、实时视觉与核心对话引擎的交互感官。今年2月通过安卓手机上的APP在日本邀请媒体进行了测试。
微软(亚洲)互联网工程院副院长、小冰团队总负责人李笛上台介绍称,Avatar Framework是小冰今年最大的一个飞跃。
首先,李笛解释了微软对人工智能的理解:对于人工智能诸如助理的定义可能会比较粗糙,微软将其定义为AI beings,目前主要包括四类角色:
助理,从属于某个特定人类,帮助人类实现某种用途或价值;
替身,某个特定人类授权其代为完成相应工作;
参与者,小冰在QQ群里作为参与者的出现,这类应用不从属于某个特定人类,而是作为参与者与人类进行交互;
创造者,不直接与人类进行交互,而是通过AI衍生物与人类交互。
Avatar Framework被微软定义为一个可以孵化各种AI beings的通用架构。简言之,Avatar Framework提供的是一套工具包,此次公布的首个工具包版本关键信息如下:
该工具包与微软小冰框架同源,可构建具有完整情感计算能力的人工智能助手、社交对话机器人、人工智能内容创作和IP人物角色等;
该工具包包含对话、声音、视觉、观点、技能、知识及创造力等丰富工具,并可驱动兼容的3D人物模型进行实时交互;
在本次发布前,微软已通过Avatar Framework框架赋能软银Pepper等数十个第三方客户AI,以及微软小冰自身。本次发布会宣布了微软与阅文集团针对100部小说主人公IP的合作;
本次发布的Avatar Framework V1版本是面向全部合作伙伴及客户的版本。面向个人使用者的版本预计将于2020年春季发布。
据官方介绍,Profile工具是Avatar Framework的基础,通过Profile构建一个AI being的人格主要分为三步:
第一步,填入76项基础信息,微软官方还特别强调,这一步骤支持通过批量上传文本信息,自动分析文本内容的知识图谱,从中抽取基本信息;
第二步,设置27项性格特征参数,例如这一阶段如果将严肃程度调得很低,将自信程度调得很高,就可能打造出比较受小朋友欢迎的智能助理;
原型是一切的基础,性格是原型的关键,这主要是因为一个AI being的性格参数决定了其创造、提供服务时候态度及倾向。
第三步,设置AI being喜欢或讨厌的话题类型和客观事物。
以上三步完成AI being的人格定义后,后续所有工具会在Profile中得到初始数据,训练结果也会反馈影响到初始数据值。
随后通过对话工具、声音工具、视觉工具实现相应能力设置。此外,可以通过输入兼容的3D模型,可以形成可视模型,具体3D模型兼容性要求如下图左图所示:
用微软此次发布的工具驱动3D模型主要分为四步:使用推荐3D模型或导入新的3D模型,设计宏观动作风格,设计标志性动作,设置面部表情的丰富度。具体信息设置完成后,还可以根据此前人设定义自动匹配相关参数,此外还可以手动调整相关参数。
去年开始进行商业化,经过一年的发展,微软人工智能创造及商业事业部总经理、小冰团队商业负责人徐元春在发布会上揭秘了当下进程。
微软小冰的商业模式到底是什么样呢?
据微软官方表示,目前微软小冰已落地的商业客户覆盖金融、零售、汽车、地产、纺织等十个领域,客户包括万科、万得资讯、万事利、中国联通等。
徐元春在发布会上也举例进行了说明:
资讯领域,去年微软利用AI Creation文本生成技术,帮助万得进行沪深两市上市企业的公告摘要,目前这个系统已经准确和稳定的运行超过21个月,从最开始面向机构投资者的长摘要拓展到面向个人投资者的短摘要,覆盖了从系统服务到应用服务的全方位领域;
金融领域,我们和合作伙伴一起开发了金融电台产品,通过这个产品,可以让摘要和财经信息即时、高质量、24小时不间断的通过语音输出给机构投资者和个人用户;
知识产权领域,我们和青岛出版社合作,利用语音合成技术,通过版权的双向授权,开发了全新系列的儿童读物《小红马》;
纺织领域,我们和中国纺织信息中心、国家纺织品开发中心推出了面向中小型纺织企业的AI设计平台,这个设计平台集成了流行趋势预测、大数据、AI设计模块,能够完整的满足一个中小型企业在AI设计领域全部的技术诉求;
音乐领域,我们与联通沃音乐的合作,通过允许沃音乐在平台层面集成我们的AI作词、作曲、编曲,以及其它音乐生成的能力,同时结合运营商的能力和海量的音乐数据库,以及其他合作伙伴模块,共同打造了完整和独立的音乐平台,这个音乐平台可以为几亿用户同时提供100%的音乐定制内容生产的能力。
人工智能进程中,技术进入迭代期、商业化探索仍在继续
从第七代微软小冰的能力更新,雷锋网也看到,微软小冰在技术上已经覆盖了当下可见的文本、语音、视觉三方面,此次发布更多强调的是能力的迭代升级、合作厂商的进一步拓展、架构的开放应用,以及人工智能的商业化探索与进程。
人工智能似乎离我们很远,我们走在城市街道上仍难以看到网上盛传的配送机器人,多数人家中也没有新闻中看到的高逼格的智能家居系统,当下的人机交互方式仍以触屏为主;人工智能似乎又离我们很近,你听到的电台主持人可能已经是人工智能系统,您看到的即时新闻也有可能是人工智能系统所生产,人工智能也逐渐渗透到城市监控、工业生产、教育体系等你可能还不曾关注的领域。
一切都未必如期而至,但一切都在进程中。
相关文章: