计算机视觉 || 基于深度学习的图像美学评分（文末送书）-技术圈

1 图像美学基础

1.1 美学的定义

牛津高阶英语词典将美学定义为：“concerned with beauty and art and the understanding of beautiful things, and made in an artistic way and beautiful to look at。”

所谓图像美学，其实就是研究视觉感知美的度量，又可称为计算机美学，对应的英文描述包括computer aesthetics，photo aesthetics等。

图像美学与图像的颜色、光影、构图、虚实等因素密不可分，并与图像的语义内容也很相关。鉴于美学的抽象性和主观性，即使专业摄影师也难以说明哪些特征对图像的美学质量影响更大。虽然美学难以描述，但摄影师们仍然总结出了一些通用的摄影规则和技术来调整图像的颜色、光照、构图、景深等因素来获得更具有视觉吸引力的图像，也就是美学质量更高的图像。

1.2 图像美学的应用

图像美学质量评价在许多应用中显示出了越来越重要的作用，如图像检索、照片增强、相册管理等。

(1) 图像检索

当前图像搜索引擎根据用户的查询检索到大量的相关结果，然而位于前面的搜索结果有时候不具有视觉吸引力。在这种情况下，用户需要浏览更多结果以找到与检索内容相关又具有视觉吸引力的结果，尤其是在摄影网站。

(2) 自动照片增强

用户进行后期编辑如果想要得到更具视觉吸引力的图像，通常需要有一定的摄影和美学知识。对普通用户来说，他们往往不清楚哪些元素需要修改以及如何修改它们才能使图像更具吸引力。在这种情况下，自动增强图像美学质量的自动照片编辑工具是非常有用的。一个常见的实现方法是在两个图像编辑操作之间进行迭代并评估美学质量，直到选择最好的。

(3) 照片筛选以及相册管理

个人照片数量激增产生了一个问题：手动管理大量照片会很耗时，因此开发自动有效的照片选择和管理工具是很有必要的。一般人选择照片的过程会依据美学标准进行，因此美学质量评价在其中有着重要的作用。

由此可见，图像美学质量评价算法已经渗透到了人们生活的各个方面。

2 美学问题与数据集

接下来我们来讲述如何研究美学这个问题，包括数据集以及不同的研究维度。

2.1 美学数据集

由于美学的主观性较强，创建一个带有主观美学标签的数据集难度是很大的，但图像美学质量评价基准数据集的构建是该方向研究的关键前提条件。

下面介绍几个常用的图像美学数据集。

(1) The CUHK-Photo Quality (CUHK-PQ)

这个数据集包含从 DPChallenge.com 上收集的 17690 张图片，每张图片都有8-10个人为其标注为高质量或低质量的标签，图片被分组成 7 个场景类别，即“动物”“植物”“静物”“建筑”“风景”“人物”和“夜景”。

CUHK-PQ数据集里高质量的图片是从专业的摄影网上获取，而低质量的图片则是由在校学生提供。

(2) The Photo.Net dataset

PN数据集包含20278张图片，图片均来自于社交网络https://www.photo.net/。每张图片由社交网络的在线用户进行评分，评分范围从 0 到 7，7 为最美观的照片，每张图片均有两个及以上的用户对其进行评分。

(3) The Aesthetic Visual Analysis (AVA) dataset

AVA数据集包含255000张图片，这些照片是http://DPChallenge.com上获取的。每张图片由78~549名评分者得分，分数范围为1到10，平均分作为每张图片的真值标签。

数据集作者根据每张图片的本文信息，为每张图片都标注了1至2个语义标签。整个数据集总共有66种文本形式的语义标签。出现频率较高的语义标签有：Nature，Black and White，Landscape，still-life等。

AVA数据集中的图片还做了摄影属性标注，一共有14个摄影属性，分别是Complementary Colors ( 补色 ), Duotones ( 双色调 ), High Dynamic Range ( 高对比度 ), Image Grain ( 纹理图 ), Light on White ( 亮白 ), Long Exposure ( 长曝光 ), Macro ( 微距 ), Motion Blur ( 运动模糊 ), Negative Image ( 负片 ), Rule of Thirds ( 三分法 ), Shallow DOF ( 浅景深 ), Silhouettes ( 剪影 ), Soft Focus ( 软焦 ), Vanishing Point ( 消失点 )。

下图为AVA数据集中的示例图像（绿色框内平均分大于5的图像，红色框内为平均分小于5的图像，两个框内右边的图像都是平均分在5左右的）及图像数量分布。

(4) The Aesthetic and Attributes DataBase (AADB)

AADB是 2016 年 Adobe 整理的数据集，可以说是 AVA 数据集的一个补充。该数据集有 10000张图像 , 其中 8500 张图像用于训练，500 张图像用于验证，1000 张图像用于测试。标注者有 5 个人，最终的结果取5个人的平均值，除了标注美学分数外，也标注了11个属性，分别是：balancing elemen(t 是否有平衡元素)，content(是否有好的内容)，color harmony(颜色和谐性)，depth of field(是否浅景深)，lighting(是否有好的用光)，motion blur(是否运动模糊)，object emphasis(前景是否突出)，rule of thirds(是否使用三分法)，vivid color(丰富的颜色)，repetition(有没有重复模式)，symmetry(是否有对称性)，下图是一些示意图。

(5) AVA-Reviews

2018 年复旦大学的 Wang 等人利用 AVA 数据集构建了 AVA-Reviews 数据集，包含了 AVA数据集中的 4 万幅图像，每幅图像跟随了 6 条语言评论，该文献利用 CNN 与循环神经网络(recurrent neural network，RNN)相结合的神经网络结构同时预测图像的美学分类与语言评论。

2.2 美学的研究维度

美学的研究可以是分类问题，回归问题，以及排序问题。

最简单的情况下，美学评估被看做二分类问题，即将图像分为“高美学质量”和“低美学质量”，然后使用分类器进行学习。

如下图第一排依次为高质量的动物图，植物图，建筑图，风光图，夜景图，第二排为低质量的动物图，植物图，建筑图，风光图，夜景图。

美学分类问题

虽然分类问题比较简单，但我们更理想的目标是让计算机像人类一样预测美学分数。在一些应用中，需要按照美学分数将图像排序，这时候我们需要得到更精细的美学得分而不是美学质量的粗粒度分类。

以 5 分为满分，‘◆’表示得一分，下图展示了美学评分的案例。

美学回归问题

判断单张图片的美学类别或者美学分数是比较困难的，训练出来的模型也容易过拟合，然而比较两张图片的相对美学，即一张图是否比另一张图更加好看，这更加简单，也更加符合人类的常识。

美学排序问题

3 美学评估方法

接下来我们主要从传统的方法和深度学习方法两个维度来介绍美学评估方法。

3.1 传统方法

对于传统方法，我们介绍其中具有代表性的两个特征，分别是颜色特征，构图特征等。

(1) 颜色特征

出色的摄影作品通常色调都非常简洁和谐，这样可以突出主要对象，而业余人士拍摄的照片通常看起来混乱，基于此研究人员提出过颜色和谐性等特征。另外摄影中色调常遵循单一色调、互补色，相邻色等原理，如下图。

因此可以采用平均颜色，颜色直方图等作为特征。

(2) 构图特征

除了颜色和光照会影响图像的吸引力，对象的位置及其空间相互关系在图像的美学质量中也起着重要作用。专业的摄影师有着丰富的构图知识和技术。若保持对象的完整形状，只是改变其空间位置，图像的美学质量也会有很大变化。很多构图特征都是受摄影规则启发，如黄金分割法则、视觉平衡等，其中最广泛使用的是三分构图法则。

上图展示的是一幅符合三分构图法的图片，图中三条白线均匀将图像划分为三份，四个角则是交叉点，满足三份构图法的图中最重要的主体会接近三条白线或者 4 个角，所以我们可以用主体偏离位置来作为构图特征。

由于传统的特征提取方法受限于专家知识和特征的表达能力，甚至有一些摄影知识难以用数学来描述，当前更好的做法是基于深度学习技术从数据集中自动学习美学相关特征。

3.2 深度学习方法

在前面我们给大家介绍过，美学评估问题可以作为分类问题，回归问题，排序问题来进行研究，下面我们分别对这三类模型的发展进行简单介绍。

(1) 分类模型

分类模型可以直接采用通用的图像分类任务模型，由于美学数据集较小，可以采用预训练的方式。

另外，还可以使用模型本身的多尺度信息，即融合不同层，不同感受野大小的特征来获取全局和局部的特征，这在图像分割模型 UNet 和目标检测模型 SSD 中被证明可以有效改进模型的学习能力。

为了获得更好的结果，Lu 等人提出了 RAPID 模型[1]，它们将全局和局部 CNN 堆叠在一起形成双列CNN(DCNN)，分别输入全图和局部图。全局图有利于捕捉主体信息，而局部图有利于捕捉局部细节。

而在 DMA-net(Deep Multi-Patch Aggregation Network) [2]中作者更进一步，将来自多个随机采样的图像块被送入包含 4 个卷积层和 3 个全连接层的单路卷积神经网络。为了组合来自采样图像块的特征输出，设计了一个统计聚集结构 (odderless multi-patch aggregation), 在这个结构中使用了最小，最大，中值和平均池化方法对 CNN 的特征进行聚合，最后输出 Softmax 概率到分类层。

此外为了避免缩放变形，Mai 等人[3]借鉴 SPPNet 中的自适应空间池化技术，在最后的卷积层之后，使用了多路不同感受野大小的固定长度的输出，不仅有效地编码了多尺度图像信息，还可以在训练和测试时适应任意大小的输入。

基于分类的模型所处理的任务简单，不过因为数据标注中的差异以及数据量的问题，模型容易产生过拟合。

(2) 回归模型

一个基本的回归模型与上述的分类模型结构一致，只是标签和预测结果值由美学分类类别换成了具体的分数值，优化目标由交叉熵损失换成了欧式距离等损失。

另一方面，预测一个具体的美学分数很容易过拟合，因为不同人的标注结果有很大差异。在 AVA 数据集中，一张图像的标注结果由多个人完成，因此标注结果是一个分布，而不是单一的值，下面两张图的平均分数相同，但是分布有较大差异。

基于这个特点，谷歌的研究团队提出了 NIMA 系统[4]，它预测美学的分数分布概率，分数值从 1 到 10。

后续研究者也按照类似的思路去研究该问题，其基本结构流程图如下：

(3) 排序模型

前面说过判断单张图片的美学类别或者美学分数是比较困难的，然而比较两张图片的相对美学相对容易，因此排序模型[5]也是一种研究美学的方案，基本结构如下：

其中基础网络在美学数据集上预训练并进行微调，使用欧式距离作为优化目标损失，预测结果是分数。然后Siamese 网络对每个采样图像对的损失进行排序。

以上就是美学评估的基本模型，关于更多美学模型的解读，读者可以阅读 Deng Yubin 等人在 2017 年撰写的图像美学评估综述，《Image Aesthetic Assessment:An Experimental Survey》[6]，以及学术界和工业界近年来的发展。

当前美学评分还面临着一些难题。

(1) 美学的主观性决定了图像美学质量评价是一个非常具有挑战性的任务。到目前为止，在图像美学评估方面涌现出了很多具有竞争力的模型，但是这个领域的研究状况还远未达到饱和。人工设计的美学特征很难被量化，也不够全面。深度学习方法具有强大的自动特征学习能力，成为现阶段图像美学质量评价的主流方法，但是如何学习到对适应各种风格的模型仍然是一个挑战。

(2) 将深度学习方法应用于图像美学质量评价面临的挑战还包括图像美学真值标签的模糊性以及如何从有限的辅助信息中学习特定类别的图像美学。图像美学评估需要具有更丰富注释的、规模更大的数据库，其中每个图像最好由具有不同背景的、数量更多的用户标记。这样一个庞大而又多样化的数据集将有大大推动未来图像美学质量评价模型的学习。

(3) 人的审美终究是有差异的，如何学习到个性化的审美也是一个必须解决的问题。

[1] Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[C]. acm multimedia, 2014: 457-466.

[2] L u X, Lin Z, Shen X, et al. Deep Multi-patch Aggregation Network for Image Style, Aesthetics, and Quality Estimation[C]. international conference on computer vision, 2015: 990-998.

[3] M ai L, Jin H, Liu F, et al. Composition-Preserving Deep Photo Aesthetics Assessment[C]. computer vision and pattern recognition, 2016: 497-506.

[4] T alebi H, Milanfar P. Nima: Neural image assessment[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3998-4011.

[5] Kong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J].

european conference on computer vision, 2016: 662-679.

[6] D eng Y, Loy C C, Tang X. Image aesthetic assessment: An experimental survey[J]. IEEE Signal Processing Magazine, 2017, 34(4): 80-106.

总结

美学评估仍然是一个比较开放且或许永远没有标准答案的问题，但仍然有不少研究者对其保持着热情，因为让计算机能够像人一样理解美是一件非常有意思的事情。

最后，有三AI关于计算摄影与深度学习的新书《深度学习之摄影图像处理》已经正式上市了，本书内容涉及摄影学、计算机视觉、深度学习3个领域，系统地介绍了计算机视觉在图像质量和摄影学各个领域的核心算法和应用，包括传统的图像处理算法和深度学习核心算法。本书理论知识体系完备，同时提供大量实例，供读者实战演练。本书融合摄影学和计算机视觉的内容，覆盖面非常广。

本书既可以作为核心算法教程用于学习理论知识，也可以作为工程参考手册用于查阅相关技术。有三AI联合机器学习实验室，特意送三本《深度学习之摄影图像处理》以及三副有三AI深度学习扑克牌。

本文留言点赞数前三的朋友将分别获得一本《深度学习之摄影图像处理》和一副深度学习扑克牌。想要的读者抓紧时间留言，截止到下周一（26号）晚10点。