One paper is accepted by TPAMI

Posted by exped1230 on 2023-06-01

Affective Image Content Analysis: Two Decades Review and New Perspectives

Sicheng Zhao, Xingxu Yao, Jufeng Yang, Guoli Jia, Guiguang Ding, Tat-Seng Chua, Bjorn W. Schuller, Kurt Keutzer

图像情感分析综述

论文 | 中文版 | demo


论文摘要

图像可以传递丰富的语义,引导观看者产生多样的情感。近年来,随着视觉数据规模爆发式增长以及情感智能计算快速发展,情感图像内容分析 (AICA) 吸引了广泛的关注。本文全面回顾过去二十年情感图像内容分析领域的进展,尤其是针对情感鸿沟、认知主观性、标签噪声和缺失等挑战提出的先进方法。首先,我们介绍该领域广泛使用的情感表示模型,之后通过对标签噪声和数据集偏差的定量比较,对数据集进行分析和评估。接下来,我们总结、比较了三个方面的代表性工作:(1) 情感特征提取方法,包括手工特征和深度特征;(2) 情感识别、个性化情感预测、情感分布学习、噪声数据和少样本数据的学习方法;(3) 基于情感图像内容分析的应用。最后,我们讨论了目前研究存在的问题及有价值的潜在研究方向,如图像内容和上下文的理解、群体的情感聚类、观看者与图像的互动等。


图像情感分析的主要目标和挑战

主要目标:输入一幅图像,情感图像内容分析的主要目标是(1)识别图像对特定的观看者或大多数人会引导出的情感(心理学中,可以用不同的模型表示情感);(2)分析图像的哪种刺激会引起对应的情感(例如具体的物体或者颜色组合);(3)将识别的情感应用到现实中的各种应用中,更好地实现情感智能。

图1 情感鸿沟示例。(a) 概览: 通常情况下提取的低层次特征难以很好地表示高层的情感。(b) 例子: 第一对图像有一个相似的对象(玫瑰),但引起不同的情感,而第二对图像显示完全不同的内容(汽车和房子),却引起类似的情感。

现阶段主要挑战:(1) 情感鸿沟。与计算机视觉中的语义鸿沟相似,情感鸿沟是情感图像内容分析的一个主要挑战。情感鸿沟可以被定义为“图像特征与用户感知信号所产生的情感状态之间缺乏一致性”, 图 1 给出了情感鸿沟的例子。为了弥合情感鸿沟,很多研究者通过提取有判别力的特征,来更好地辨别不同情感之间的差异。例如 Gabor、Gist、艺术元素、艺术原理、以及形容词-名词对(ANPs)等手工提取的特征,以及卷积神经网络、区域等深度特征。假设不同观看者对同一副图像感知的情感相同,多数情感图像内容分析方法为图像赋予一个大众化(平均)的情绪类别。这个任务可以被看作传统的单标签学习问题。如图 2 所示,除了提取视觉特征外,结合可用的背景信息同样有助于情感图像内容分析任务。同一幅图像在不同的上下文可能引导出不同的情感。图 2 (a),如果我们只看到小孩,我们可能通过他的表情感受到好奇;然而结合图像背景可以看出,小孩吹蜡烛庆祝生日,我们则更有可能感到开心。在图 2 (b)中我们看到一个排球运动员在哭泣,我们可能会感到伤心;但是如果有一条关于图像的评论,“最终,我们在 10 年后,赢了!”,我们,尤其是排球队的粉丝,更可能感到激动。

图2 上下文信息在 AICA 中也起着重要的作用。(a) 包含详细场景信息的图像与不包含的图像引起不同的情感(好奇与开心)。(b) 文本背景同样可以影响一幅图像感知到的情感(悲伤与激动)。

(2)认知主观性。由于文化背景、个性、社会经历等个人和环境因素,不同的观看者对同一幅图像,可能感受到完全不同的情感。例如图 3(a), 看到代表“黑暗中的光”的图像时,喜欢观察自然现象的观看者可能会激动,害怕雷雨的观看者则可能恐惧。这个现象就是认知主观性问题。由于变量的高度主观性,单一情绪难以表示不同观看者的不同反应,简单地预测大众化情绪类别是不够的。为了解决主观性的问题,我们可以设计两类情感图像内容分析任务:对每个观看者,我们可以预测个性化的情感;对每幅图像,我们可以赋予多个情感的标签。针对后一个任务,我们可以使用多标签的学习方法将一幅图像与多个情绪标签联系起来。然而,不同情绪标签的重要性或程度实际上是不一样的。因此旨在学习每一种情绪描述图像程度的情感分布学习可能更加有效。

图3 认知主观性的阐述。原始图像 (a) 上传至 Flickr, 不同的观看者可能有不同的情感体验。(b) 情感标签是基于这些观众的评论,使用斜体的关键词获得的。

(3)标签噪声和缺失。最近一些关于情感图像内容学习的深度学习方法,尤其是卷积神经网络,取得了很好的结果。但是,训练这些模型需要非常昂贵、费时间的大规模标记数据。一方面,真实情感标签的标注存在明显的不一致性。另一方面,
对于一些艺术作品,只有专家才有能力提供可信的标签。在现实的应用中,很多时候只有少量,甚至完全没有经过标注的情感数据,这种情况下的情感分析是非常值得研究的。无监督与弱监督学习、少样本学习与零样本学习,是有效解决这个问题的两个可能方向。一个可能的解决方案是使用没有数量限制的,带有元数据的网络数据。然而这些标记通常伴随着缺失和噪声等问题。一幅图像可能会与无关的、或者相关性很低的标记建立联系。目前主要的挑战是如何更好地利用噪声标记的图像进行学习。基于图像和文本的语义关系为视觉表示添加约束是一个很直接的解决方向。首先用无监督或半监督的方式学习文本的模型和编码,接下来对关键词降噪,可以帮助“清理”标签噪声。

图4 领域偏移示例阐述. (a) 来自 Artphoto 的图像和来自FI 的图像有不同的风格: 艺术风格 vs 现实风格。(b) 结果显示,采用 ArtPhoto 和 FI 数据集,训练数据集与测试数据集不同,训练结束后微调 ResNet-101的情况下,情感分类性能 (%) 显著降低。

此外,如果我们在一个域(例如抽象画)中有足够的标记数据,我们如何将当前域上训练好的模型有效地迁移到另一个无标注或稀疏标注的抽象画数据域上呢?如图 4 所示,由于存在域偏移以及数据集偏差,直接迁移通常导致较差的性能。具体来说,Panda 等人将情感图像内容分析中的数据集偏差分为两类。一类是正向的集合偏差,是源域中每种情绪类别(愉快)的视觉概念缺乏多样性导致的。模型基于这些数据学习时,可以很容易地记忆所有数据的特点,因此失去了在目标域上的泛化能力。另一类是负向的集合偏差。源域中的数据,不能很好地反映现实中遇到的对应类别数据的特点,例如一些目标域的负样本与源域中的正样本是混淆的。因此,学到的分类器会过拟合,域自适应和域泛化可能会有助于解决这个问题。


发展简史

在情感计算这个词普及之前,就已经有一些早期的相关工作了。1978 年,一个测试演讲者讲话情感的分析器申请了专利,1990 年出现一些科技论文,生成带有情感的讲话内容,1992 年使用神经网络进行人脸表情识别。

自从 Minskey 提出智能机器识别情感的问题后,情感相关的研究工作吸引了越来越多的关注,例如情感智能的定义。1997 年,Picard 首次提出情感计算的概念:“情感计算是与情感相关,来源于情感或能够对情感施加影响的计算”。这里列出发展历程中一些有影响力的事件:IEEE和 AAAI 在 2005 年首次举办情感计算与智能交互国际会议(ACII);2007 年成立情感计算发展协会 (AAAC,原本称为HUMAINE 协会);2009 年首次在 InterSpeech 举办公开的“情感挑战”;2010 年 IEEE 情感计算汇刊 (TAFFC) 成立;2011年举办第一届国际视听情感挑战与研讨会 (AVEC);2014 年在 ACM MM 上提出多媒体数据的情感与社会信号专题,2018年举办第一届亚洲情感计算与智能只能会议 (ACII Asia) 等。

图5 广义的情感计算(蓝色,上方)和情感图像内容分析(红色,下方)发展的里程碑。

情感图像内容分析 (AICA) 在心理学和行为学的研究基础上出现,例如 International Affective Picture System(IAPS),研究视觉刺激与情感之间的关联。早期识别情感的一种方法是使用低层次的全局 Wiccest 和 Gabor特征。之后,出现一些具有代表性的手工特征算子,例如低层次艺术元素、中等层次的艺术规则、高层次的形容词名词对 (ANPs)。2014 年,出现将大规模数据集上预训练的卷积网络参数进行迁移的方法。为了解决主观性的挑战,提出个性化情感预测和情感分布学习两类方法。最近几年,域适应和零样本学习旨在解决标签缺失问题。图 5 总结了在情感计算和情感图像内容分析发展过程中,具有代表性的里程碑事件。