雷锋网 AI 科技评论按:2018 中国计算机大会(CNCC2018)于 10 月 25-27 日在杭州国际博览中心举办,会议由中国计算机学会(CCF)主办,杭州市萧山区人民政府、浙江大学承办,浙江工业大学、浙江工商大学、杭州电子科技大学协办。
今年的大会主题是「大数据推动数字经济(Big Data Drives the Digital Economy)」,CNCC 邀请到近 400 位国内外计算机领域知名专家、企业家到会演讲。大会第二日上午,字节跳动副总裁、字节跳动人工智能实验室主任马维英带来题为《人工智能赋能内容创作和交流》的报告。
在报告中,马维英回顾了内容分发、内容理解和内容创作等多个方面的技术变革历程。虽然随着 IT 技术 大潮的发展,这些领域都有自己的变化,但人工智能技术在这些方面也都有越来越多的参与,越来越成为强大、好用的人类的助手。未来,人工智能相关技术也将会成为人与人之间互相联系、人与整个社会建立联系的重要基础设施。
雷锋网 AI 科技评论根据现场速记整理马维英的报告内容如下。
马维英:
大家好,我是字节跳动人工智能实验室的负责人马维英,很荣幸今天能来到CNCC跟在座各位分享一些我们对人工智能的思考,人工智能的发展及应用现状 。
回溯人类历史的长河,人与人之间交流、信息的创造和传播都是人类社会和人类文明诞生的基础。而在几千年之后的当下,如何用更智能的方式表达和传播文字、图片、语音、音乐、视频,是否还会诞生前所未见的新的内容的形式,我们又如何用人工智能赋予每个人新的能力,这些都值得我们去思考和探索。
我们可以看到整个人类的历史在不同阶段使用不同的技术去传递和连接人与信息,有过多次技术变革。在早期,人与人之间的沟通是在纸上书写,中国人发明了造纸术、印刷术。
到后来网站、网页让纸张消失,成为了我们的数字图书馆,我们开始使用搜索引擎,一键便可以直达自己的所需。而到了移动互联网时代,纸张消失得愈加明显,人类可以随时随地用智能手机接触他所需要的信息。同时人与人思想交换也更便捷,人与人之间、作者与读者之间可以随时交流,还能组成社群,大家一起学习,一起创作。
随着人工智能技术的发展,整个人类的创作交流将变得越来越智能——更加个性化、社交化和无所不在化。万物互联的时代到来之后,人类可以随时随地获取到他们想要的信息。创作的门槛也不断拓宽,从机构媒体,到自媒体,再到现在每个人都能够创作,人类社会的信息生产和交流到今天进入到一个新的时代。
人工智能可以根据大量数据样本进行训练学习,无论文字、图片、视频还是直播,都是AI不断挖掘的材料。我们预测在未来超级智能时代到来的时候,人可以帮机器学习,在交互过程中提供给机器更多的样本,而机器会通过学习变得越来越智能,回过头来可以帮助人类更好地交流。
2012年,字节跳动的重要产品今日头条诞生。它颠覆了搜索引擎,建立了全新的人与信息的连接方式。我们用分布式的学习理解人的特征、内容的特征,用最核心的排序算法技术,让千人千面成为可能。在这个时代,我们重新定义了内容分发,用个性化精准推荐的方式,让用户能够随时随地得到他所需的信息。
今天我们连接人和信息主要有四种管道。首先是推荐,推荐是相对被动的分发,像助理一样观察人类的行为,他爱看什么、在什么时候看、怎么看。搜索在今天也仍然重要,它是一种主动获取行为。还有新一代的语音交互助理,通过语言理解和语音识别,帮助人找寻他所需要的信息,帮助他完成任务。最后,今天的很多信息都在像朋友圈这样的社交圈子里传播,社群和社交也是一种传播的管道。
今天我们看到这四种方式都可以使用人工智能再往前推进,所以我今天的演讲就会谈到当今以及人工智能未来如何更多更好地赋能。
在过去一两年时间里面,大家如果注意的话,会发现短视频已经成为一种在世界范围内最受欢迎的信息生产与消费形式。尤其大量的年轻一代喜欢用短视频来表达他们自己,分享他们的故事和经验,与他们的亲人朋友交流。
视频是需要编解码的,视频的上传和下载需要很大的带宽。过去我们在这个领域走了十几年,到今天大范围视频内容的上传和下载已经不是问题了。接下来5G时代的到来会为我们视频内容的创作和消费提供更多的网络便利。
今天短视频成为一个内容形态的爆发点,因为它不需要带一个非常庞大的、昂贵的设备,手机上有非常智能的编辑工具。特别是计算机视觉、智能语音赋予了每个人更强的创作能力。在过去一年半,短视频在全球范围内都有快速的增长。节跳动旗下短视频产品的代表抖音也风靡全球今年一季度,抖音下载量超越Facebook、Youtube、Instagram等,成为全球下载量最高的iPhone应用。我给大家看一个视频,可以让大家更多地了解这个产品本身到底是什么样的形式。
抖音这个产品背后有非常多的 AI 技术。比如,抖音是一个开放共享的平台,内容审核方面的挑战是非常大的。我们一直用人工智能辅助审核,过滤理解这些视频内容,进行版权识别。到现在,我们的平台上,每天有庞大数量的短视频内容被创作出来。我们的机器学习模型上线之后,也在持续不断迭代完善。
我们也希望在视频内容领域做出更好的搜索。视频的搜索需要对视频的内容有更好的理解,包括动作的理解、物体的检测跟踪,还有视频里的环境识别。我们也希望针对每一个视频,AI都能理解它的情感和情绪。一个人看完视频之后会有什么样的情绪反应呢?如果会让人产生不适的负面感受,那是否就需要考虑这个视频是否适合分发给某些用户。任何一个新的视频上来的时候,我们需要预测它会被什么样的人群喜欢,哪些人更希望看到。
通过人脸识别还有关键点的检测,我们可以做出很多创意滤镜和特效,这些也是抖音制胜的关键原因之一。
我还在微软的时候,微软有一款产品 Kinect,就是放在电视机的前面,它能够检测你人体的关键点。而今天我们已经能够把这样的技术延伸到了手机上。在手机上经过模型分析,我们可以为你生成一系列的舞蹈姿势动作,根据用户的舞蹈模仿表现系统会给出评分。这就是去年大受欢迎的抖音“尬舞机”。
爱美之心,人皆有之。现在很多的女孩子希望在镜头前面看起来更加的美、腿更长、腰更瘦,现在不仅自拍能实现这样的效果,拍视频也可以办得到。
除了应用于短视频产品,字节跳动的人工智能技术还通过我们的多款产品赋能信息创作与交流的各个环节。
比如我们16年就研发出获得过吴文俊人工智能科学技术奖的xiaomingbot写作机器人。相比于人类作者,小明的效率和产量高,2秒就能成稿,每场比赛赛后发稿,2年内生成12万粉丝和10亿阅读。过去头条平台上许多体育播报是由小明写的,他每天读很多内容,综合网上文字描述理解和图片例子和视频理解能够自动生成一个内容,分发给对某一类信息感兴趣的读者。
我们可以现场给大家演示一下小明是如何写稿的。
画面中的这场比赛是日本和比利时在2018年世界杯中的比赛。小明会首先根据出场球员生成文字,然后追踪定位关键节点人物的行为动作,侦测这个球员在场上的位置,他只要一转身,我们就可以识别出来,可以知道他们在场上的活动,他是否进球,裁判判哪个球员违规。之后小明还能对视频内容能做进一步的理解,生成更好的摘要,还可以选出最好的一张图作为封面。它可以进一步把内容直接用机器翻译,翻成葡萄语、英语、法语等,再分发给世界各国的用户。
前面有提到AI辅助内容审核,这是一个非常重要的问题。在我们平台上有 600 多个机器学习模型,自动能够来理解和识别内容,帮助我们节省人工成本。它是一个人机交互的闭环,我们的审核人员也是我们的标注人员,用标注好的数据训练模型再反过来帮助他们来审核,目前已经为公司节省了超过十万的审核人力。
看这个人工智能驱动信息平台的示意图,我们不但要在中间做好内容分发,更好地推荐信息、帮助用户搜索,实现更好人机交互体验,我们也用AI去帮助用户更好地生产内容、提升信息消费体验。
连接人跟信息是一个人类社会的基础设施。在这个设施的运作过程中,我们能够利用大数据、丰富应用的场景、我们大量的活跃用户,去不断完善和迭代,进一步赋能。
和历次工业革命一样,我们如今迈入人工智能时代,是人类社会了不起的进步。而技术的进步最终是服务于人类的。我们钻研技术不仅是钻研技术本身,更重要的是研究如何用它来解决人类社会的难题。
我们将人工智能结合产品功能积极服务于公益,两年半时间成功寻回7254名走失者的“头条寻人”,这是一个典型的运用人工智能促进信息效率,进而服务公益的产品机制:结合智能推荐和地理推送技术,以走失者走失地为圆心,根据走失者行走速度等信息进行数据分析和计算,预估出可能的走失范围,在此范围内推送寻人信息,实现每条寻人信息的精准地理范围覆盖和人群触达,从而大大提高寻人成功率。9月底我们还将这套机制与视频载体结合,上线了“抖音寻人”,运用自动生成视频技术,一条文字版的寻人信息,不到10秒钟,即可自动生成为一条抖音寻人视频。
字节跳动还用AI技术还助力教育扶贫,“益童乐园”贵州起航,“乡村AI教师”全面建成,我们希望让贫困地区的孩子也接受到良好的教育。
基于前面提到的种种尝试与努力,字节跳动的愿景也正在逐步实现——建设全球创作与交流平台。公司成立至今六年以来,我们的产品和服务已经覆盖150多个国家、75个语种,在40多个国家和地区位居应用商店总榜前列。而这背后,正是科技和创新在推动全球化的发展,我们拥有的人工智能技术是字节跳动全球化取得当前进展的关键。未来,字节跳动也将继续基于我们自身丰富多样的移动端产品应用场景和全球的活跃用户,持续积累,潜心钻研,和在座各位一起不断地改善和推进我们的核心技术,为中国人工智能的发展贡献一份力量!
谢谢大家!
更多 CNCC 2018 精彩报道,请继续关注雷锋网 AI 科技评论。