One paper is accepted by ECCV 2022

Posted by exped1230 on 2022-07-09

S2-VER: Semi-supervised Visual Emotion Recognition

Guoli Jia, Jufeng Yang

半监督情绪识别算法

论文 | 代码 | demo


论文摘要

视觉情感识别(VER)在各种应用中发挥着重要作用,受到研究人员越来越多的关注。由于情感的模糊性,很难标注一个可靠的大规模数据集。一种解决方案是使用半监督学习(SSL)方法训练模型,它从未标注的数据中逐步选择高置信度样本,以帮助优化模型。然而,在VER任务中直接使用现有的SSL算法具有两方面挑战。第一,与物体识别相比,在VER任务中为无标签数据生成的伪标签的准确率有明显下降。第二,预测中的最大概率很难达到固定阈值,这导致可以利用的无标签样本很少。这两者都会导致模型次优的性能。为了解决这些问题,我们提出了S2-VER,这是VER的第一个SSL算法,它由两个部分组成。第一个部分是可靠的情绪标签学习模块,旨在提高伪标签的准确率。具体,它通过计算情感原型和样本特征之间的相似度来生成平滑标签。第二个部分是模糊感知的自适应阈值调整模块,其旨在利用更多的无标签样本。我们的策略使用信息熵来衡量平滑标签的模糊程度,然后自适应地调整阈值,选择高置信度的无标签样本。在六个公共数据集上进行的大量实验表明,我们提出的S2-VER与最先进的方法相比表现良好。


论文动机

在过去的几十年里,很多研究工作促进了VER的发展。然而,这些方法大多以全监督的方式训练网络,这需要大量的标注数据。构建这样的数据集非常耗时。另外,由于文化背景和性格的多样性,不同的观众可能会对同一图像产生不同的情绪。观看者甚至可能对一张图像产生多种情绪,即模糊性。因此,与物体识别相比,为VER标注一个可靠的大规模数据集更具挑战。在本文中,我们探索利用基于伪标记的半监督学习(SSL)算法来解决这个问题。一方面,在SSL算法的帮助下,可以显著降低标注的成本。另一方面,算法使用高置信度样本来训练模型,这减轻了不可靠样本的影响。我们认为这是一个很有前途的方向来解决视觉情感标注困难的问题。

图1 由于情感模糊性导致的视觉情感数据集FI与物体识别数据集CIFAR数据集训练FixMatch的差异。

SSL旨在通过设计一种利用无标签数据的算法来满足对有标签数据的需求。作为一种代表性方法,FixMatch从弱增强的无标签实例中选择高置信度预测,然后将其用作强增强实例的伪标签。为了探索FixMatch在VER中的性能,我们在FI和CIFAR-10上进行了比较实验。具体,在这两个数据集上,我们从每个类中采样100个有标签样本和1000个无标签样本,以训练具有相同设置的ResNet50,结果如图1(a)所示。首先,当最大概率为0.95时,与CIFAR-10相比,FI上伪标签的准确率有大幅度下降。在训练过程中,由于VER的模糊性,伪标签的累积错误导致了确认偏差,这是SSL中常见的问题。其次,只有少数样本具有较高的最大概率。如图1(b)所示,与CIFAR-10中对图像的一个独热标签不同,主要情绪的概率可能受到其他情绪的影响。因此,达到阈值的样本数量很小,这限制了模型的性能。


为了解决这些问题,我们提出了S2-VER,这是第一个半监督VER算法,它由两个部分组成。首先,可靠情绪标签学习模块采用标签平滑来提高伪标签的准确率。标签平滑已被证明可以隐式校准模型,从而使置信度与其预测的准确性更加一致。受此启发,我们为情感图像生成平滑标签。具体来说,我们计算特征和情感原型之间的相似性。为了捕捉情绪之间的关联,平滑标签与情绪关联矩阵相乘。此外,由于平滑标签的质量取决于特征质量,我们引入了连续对比学习模块来获得情感上有区分的表示方法。其次,我们提出了一种模糊感知自适应的阈值策略,旨在利用更多情感上高置信度的无标签样本。对于每个样本,该策略通过信息熵和情绪的极性线索来衡量平滑标签的模糊性。基于该策略,S2-VER可以自适应地调整阈值,利用更多的高置信度无标签数据。

图2 S2-VER网络的流程图。

与SOTA方法比较的结果如表1所示。SSL算法是根据它们是否使用强增强来划分的。总体而言,SSL算法优于情绪识别模型。这表明,利用大量无标签数据的SSL算法有助于情绪识别。通常,SSL算法强制弱增强锚和强增强实例之间的一致性,从而获得更好的性能。此外,我们将S2-VER与SOTA方法进行了比较。S2-VER在不同设置的FI上提高了约3%。在SE30K8和LDL上,S2-VER的表现也优于代表性方法。

表1 S2-VER与SOTA方法对比的实验结果。