雷锋网 AI 研习社按,在 CVPR 2018 机器学习图像压缩挑战赛(CLIC)上,图鸭科技压缩团队获得压缩算法 MOS 和 MS-SSIM 值第一名的成绩,这是中国企业在该赛事上取得的最高名次。(图鸭科技凭借在 CLIC 中 MOS 和 MS-SSIM 指标第一,在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中增加 10 分。)
CVPR 作为计算机视觉领域的全球顶级会议,其一直关注计算机视觉领域的发展,为了促进计算机视觉领域图片压缩的发展,Google 联合 twitter、Netflix 等联合赞助了机器学习图像压缩挑战赛(CLIC)。本次挑战赛中有来自全球各地的图片压缩团队,主要从 PSNR、MOS、MS-SSIM 这三个业界通用的图像质量评估(Image Quality Assessment,IQA)标准和解码速度(评分较高的队伍里解码速度最快)四个方面进行评比。
赛后,图鸭科技图片压缩团队提交了自己关于深度学习图片压缩方向的论文,他们为雷锋网 AI 研习社撰写了关于这篇论文的独家解读。
摘要:
最近机器学习的方法被广泛应用到有损图像压缩设计中,基于自编码网络的算法取得了非常好的算法性能。一个典型的基于神经网络的图像压缩框架包括:自编码网络结构、量化、先验概率模型、码率估计和率-失真优化等几个模块。本文中我们提出了一种可用于低码率图像压缩,并可进行端到端优化的图像压缩框架。在验证集和测试集上的实验结果均表明,当使用主观测评标准作为损失函数,在 MS-SSIM 和 MOS 等主观性能指标上能取得最优的性能。
问题建模:
自编码网络的作用是将数据从图像空间 x 转换到数据编码空间 y,它包含一个编码器 fe 和解码器 fd。编码器的作用是将图像像素值 x 转换为压缩变量 。然后通过量化函数,生成离散向量。然后使用算术编码等熵编码技术将量化后的离散数据进行无损压缩,然后压缩后的比特流被用于传输。在接收端,接收到比特流后,然后使用解码器从量化后的变量中重建出原图,码率可用熵的结构进行建模。我们可使用先验分布对进行估计。可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。在压缩模型中,失真 D 能用均方误差 进行表示,或使用如 MS-SSIM 之类的主观失真进行计算。对码率和失真进行加权的损失函数用以对自编码压缩算法进行端到端的优化。在整个系统中,对先验模型和量化的联合优化是设计高效压缩算法最需要考虑的技术。
方法介绍:
(1) 编码器和解码器
我们的压缩自编码网络使用了如图 1 所示的非对称结构,它包括卷积和非线性单元等模块。
图 1:编码器和解码器结构示意图
(2) 量化:
在训练过程中,使用加性均匀噪声设计量化器,表示方式为,其中是随机噪声。其中变量
的熵能用变量的熵进行估计,因此在测量过程中,我们能使用 作为量化操作。这样一种方式下,也能对码率进行准确的估计。
(3) 先验概率和码率估计
自然图像的数据分布一般被认为是符合高斯分布,所以我们用零均值,方差表示为的拉普拉斯分布
,对特征的概率分布进行建模,概率的公式如下所示:
其中设计了一个自编码网络对方差进行学习,自编码网络的结构如图 2 所示
图 2:用于方差超参数学习的自编码网络
压缩表示作为超参数自编码网络的输入,对标准差分布进行学习。在超参自编码网络中,变量 Z 的学习公式表示为,然后使用如上介绍的方式进行量化,量化公式为,然后被量化后的表示可作为附加变量进行传输。
图 3:后处理算法结构示意图
(4) 后处理
低码率压缩算法重建图最显著的缺点是存在伪影,并且很多纹理细节会丢失。为了改进在低码率条件下重建图的质量,我们设计一个有效的后处理模块,后处理模块的具体细节如图 3 所示。
(5) 优化码率控制
率-失真优化是很多算法,如 HEVC 算法或 JPEG2000 算法中经常使用的策略。考虑到码字约束,我们构建了一个进行码率有效分配的优化算法,目的是在码率约束的条件下,为每张图选择最优的模型。每张图的最优配置,通过优化以下的优化问题进行选择。
(6) 实验结果
我们的方法参加了 CVPR 2018 CLIC 图像压缩挑战赛,在相应的验证集和测试集上的结果如表 1 所示。我们的算法 tucodecTNGcnn4p 取得了 MS-SSIM 和 MOS 两项指标排名第一,算法 tucodecTNG 取得了 PSNR 指标排名第二的成绩。在验证集和测试集上的实验结果如表 1 所示。
表 1:在验证集和测试集上的实验结果