雷锋网按:截至当前,首届「全国人工智能大赛」已经步入了复赛阶段。在初赛的「AI+4K HDR」赛项中,大赛评委采用了视频评价的行业标准评价指标 PSNR、SSIM、VMAF 等进行了综合打分;最终在 1.5 K 次有效提交中,选出了前 100 支晋级队伍。
其中,由一名在读研究生和一名算法工程师组成的团队「Webbzhou」,荣获了初赛中「AI+4K HDR」赛项季军。赛后,雷锋网针对晋级作品中的算法、预处理、后处理、工程设计等创新思路与该团队负责人进行了探讨,并将这些有益于开发者实践操作的内容整理如下。
「AI+4K HDR」赛项官网:
https://www.kesci.com/home/competition/5d84728ab1468c002ca1825a
雷锋网:可以向我们简单介绍一下你们的团队吗?在本次大赛中,团队内的分工是怎样的呢?
Webbzhou:我们的团队共有 2 名成员,一名是福州大学物信学院在读研究生,而另一名是福建帝视信息科技有限公司的算法工程师。在这次大赛中,我们既有各自的分工,也有共同的合作;分工内容主要体现在两部分,其中一人负责数据处理,另一人负责算法设计;合作部分则是共同完成算法的实现。
雷锋网:是什么原因使你们组成了「混搭」团队,来参加「全国人工智能大赛」呢?
Webbzhou:从比赛规模可以看出,该比赛是目前国内最顶级的人工智能赛事之一。因此,一方面,我们希望能够通过参加此次比赛结识该领域中志同道合的朋友;另一方面,在参赛过程中还能进一步了解到该领域的前沿实况,并且在实践中充分锻炼自身的能力。
雷锋网:既然选择了这样的组队方式,那团队在本次竞赛中是否有更强的优势呢?
Webbzhou:正是凭借福州大学和福建帝视信息科技有限公司这样一种校企联合、产学结合的方式,我们团队在本次参赛中获得了技术和创新上的巨大优势。
在这样的条件下,借助学校研究资源,我们则能够获得丰富的理论基础;而借助公司平台,我们能够了解相关行业技术的最新发展动向以及实践经验。这在整个参赛过程中,都为团队提供了一定的优势。
雷锋网:在整个赛题筹备过程中,团队都做了哪些准备工作呢?
Webbzhou:我们研究方向主要是图像/视频增强与超分,因此我们在赛前阅读大量的图像/视频处理文献,而正是这些文献给了我们之后的很多思路和灵感。
而在拿到数据后,我们对数据进行了抽帧、切分、清洗。然后再经过方案设计、讨论,到具体的实验设计与分析。最终,充分考虑到权衡资源和指标/主观效果的问题之后,我们做出了选择 SISR 方案的决定。
雷锋网:针对 AI+4K HDR 赛项,团队是如何解读该赛题的呢?
Webbzhou:从 AI+4K HDR 的题面来看,它包含了三个关键词,这三个关键词一一对应于
AI 计算机视觉近年来凭借深度学习的发展已遍地开花,在画质增强技术方面有了极大的进展,如 RCAN/ESRGAN/EDVR 等针对图像视频的超分模型一次次刷新指标的天花板。
4K 目前的视频规格已经从高清转向了 4K。4K 视频的拍摄、存储、传输的代价都是十分高昂的,如果能在终端将高清甚至是标清的视频以无损画质的技术转为 4K,那意味着可以在编码传输过程中节省大量的带宽成本,因此超分具有巨大的潜在商业价值。
HDR 而 HDR 可以提供更多的动态范围和图像细节,因此近年来 SDR 2 HDR 也成为高画质视频图像中必不可少的一个技术环节。
因此综上所述,结合当下亟需解决的问题而言,我们对赛题的解读则是利用 AI 画质增强技术,将标高清 SDR 视频尽可能无损地转换到 4K HDR 视频。
雷锋网:面对当前的 AI+4K HDR 形势,你们认为可以从哪些方面实现改进与突破呢?
Webbzhou:从目前看来,NAS(网络结构搜索)可能会是今后发展潜力较大的一方向,它可以通过定向搜索提高网络神经网络性能并降低功耗,加快 AI+4K HDR 的服务端乃至终端的部署。
另外,有监督向半监督或无监督方向的转变也可能会是之后的发展趋势。这样的改变能够将真实场景低清数据分布转向非成对的高清数据分布,不仅可直接利用互联网海量真实数据且不引入人为退化方法的干扰,而且还可以使真实场景落地算法具有更强的多样性、鲁棒性。
雷锋网:针对该赛道的比赛,团队的在实际设计中都做了哪些尝试?
Webbzhou:鉴于初赛的主要任务是去噪和超分,我们尝试了两种方案。包括:先去噪后超分,去噪和超分 end-to-end 联合训练。
但最后的实验表明,两者所达到的效果差距不大。因此,我们最终选用了更简单便捷的 end-to-end 方案。
雷锋网:在作品的设计与后处理方面,你们的核心思路是什么呢?
Webbzhou:初赛中,我们所面临的主要问题在于数据量过大、抽取的视频帧较多,尤其是在读取 4K 的图片时,会占用大量 IO,同时也会影响到解码的速度。
因此我们将抽取到的帧进行了数据切分。我们将这些数据切成了很多小块,这样处理之后能够大大加速训练时的读取时间。
同时,考虑到计算资源和精度问题,我们采用了 SISR 的方法来进行处理。当然,平衡主观质量和评价指标也是一大问题,在实际操作中,我们则是通过大量的实验,最终采用了主观质量和评价指标一致良好的数据方案。
雷锋网:除了 AI+4K HDR 相关技术,参赛作品中还用到了哪些值得其它团队借鉴的技术吗?
Webbzhou:初赛阶段,我们主要采用传统 CV 和 AI 结合的方案,这样的方案能够提高 AI 的可解释性,更便于理解。
而在训练网络过程中,我们采用到了一些常用的技巧,比如:验证集评估指标及输出可视化,监视训练过程让训练朝着我们的目标方向前,经过调优的初始化及优化策略等方法。
雷锋网:在你看来,团队的获奖作品都有哪些创新点呢?
Webbzhou:初赛阶段我们采用对 SISR 中的 RIRB 及 RRDB 模型进行了相应的优化,在计算力一定的情况下,提升了评价指标。同时,针对赛题的评价指标,我们修正了现有的 loss 使得效果明显提升。
而从算法优化来看,我们主要的创新是在 loss 设计部分。在整个比赛过程中,我们一直都认为解决好一个问题的关键在于抓住问题的本质;而这 loss 部分恰好就是一个好的优化目标。这一目标最终所体现在作品中的效果,甚至比采用好的优化算法要更为关键。
雷锋网:如果参赛选手要想在赛事中取得优秀的成绩,有哪些要点值得选手们参考呢?
Webbzhou:我们认为首先要善于发现问题和解决问题。初赛中,我们通过抽样观看视频,发现数据中很多干扰的数据,因此我们对数据进行了清洗。其次,作为参赛选手,需要有对实验结果认真分析和思考总结的能力,要善于从大量文献中找到可行解并进行优化。
雷锋网:在比赛中是否有目前遇到无法解决的问题?你认为目前突破该技术难点的关键在哪呢?
Webbzhou:对于超分任务,低清图的高频信息损失比较严重。我们认为在主观效果提升方面,GAN 进行适量调整可能是一个突破口。
雷锋网:能否结合团队每位成员的参赛经历和我们谈谈参加比赛对于个人成长有哪些帮助?你认为这一比赛对开发者最大的锻炼体现在哪里?
Webbzhou:在初赛过程中,虽然命题只包含降噪和超分任务,但视频退化比学术领域研究甚至实际生活的内容要复杂很多,它涉及到了更多噪声的融合,因此这给了我们一个很好的锻炼机会,让我们能够接触到更加复杂的场景问题,丰富了我们的阅历。
在这个过程中,我们在分析问题和解决问题方面有了很大的进步,也能更好的将理论转化为实践输出,而且在团队合作上,也有了更好的交流沟通能力。除此之外,大赛也帮助我们更精准的发现自身不足,使得我们在今后的学习和工作中,能够更有效的提高自身的能力。
更多信息,关注大赛官网:
雷锋网