One paper is accepted by ACM MM 2022

Posted by exped1230 on 2022-06-30

EASE: Robust Facial Expression Recognition via Emotion Ambiguity-SEnsitive Cooperative Network

Lijuan Wang*, Guoli Jia*, Ning Jiang, Haiying Wu, Jufeng Yang

感知情绪模糊性的鲁棒人脸表情识别方法

论文 | 中文版 | demo


论文摘要

人脸表情识别(FER)在现实世界有非常广泛的应用。然而,在户外收集的大规模FER数据集通常包含噪声。更重要的是,由于情绪的模糊性,带有多种情绪的人脸图像很难与噪声标签的人脸图像区分开。因此,训练一个用于FER的鲁棒模型是具有挑战性的。为了解决这一问题,我们提出了包含两个模块的情感模糊性敏感的协同网络(EASE)。首先,模糊性敏感学习模块将训练样本分为三组。两种网络中损失较小的样本被认为是干净样本,而损失较大的样本是有噪声的。注意,对于一个网络与另一个网络不一致的冲突样本,我们使用情绪的极性线索来区分模糊情绪样本和带有噪声标签的样本。针对这些样本,我们利用KL散度来优化网络,使其能够关注非主要情绪。EASE的第二个模块旨在增强协同网络的多样性。随着训练论数的迭代,协同网络将趋于一致。我们根据特征之间的相关性构造惩罚项,这有助于网络从图像中学习不同的表示。在6个主流的人脸表情数据集上进行的大量实验表明,EASE优于目前最先进的方法。


论文动机

最近,研究人员构建了更接近现实场景的数据集。然而,与在实验室收集的明显具有不同情绪的样本不同,使用非实验室的数据训练模型带来了两个挑战。首先,这些数据集可能包含大量噪声标签。对于现实世界的FER数据集,由于各种原因,如遮挡和低质量拍摄,错误的标注广泛存在。其次,由于情感的模糊性,真实世界的人脸图像可能会包含多种情感。这些样本同样有较大的损失值,因此网络很难区分有用的模糊样本和影响模型性能的噪声标签样本。

图1 RAF-DB数据集中的图片,可以分为干净样本,噪声样本,表情模糊样本。注意,这里噪声样本指由于遮挡、图片质量过低引起的本身就难以看出人脸表情的图像。

我们从两个方面对FER方法进一步改进。首先,之前的工作忽略了模糊样本和带有噪声标签的样本之间的差异。损失值是找到有噪声标签的最重要线索之一。也就是说,深度神经网络会先记住干净的数据,然后再记住有噪声的数据,因此带有噪声标签的数据通常会有很大的损失。对于表情模糊的人脸图像,受其他情绪的限制,预测往往具有更平滑的分布,也有很大的损失。因此,很难将模糊样本与“真实”噪声数据区分开来。请注意,现实世界中存在许多携带模糊情绪的人脸图像,因此在训练阶段使用这些样本进行学习以增强模型的鲁棒性至关重要。其次,可以采用一些更有效的方法来提高模型的鲁棒性。协同网络已被证明更适合于有噪声的数据集。由于两个网络的学习能力不同,关注的视角也不同,因此它们可以协同检测由噪声标签引起的不同类型的错误。

图2 EASE网络的流程图。

我们将EASE与最先进的方法进行比较。1) 我们提出的方法在六个数据集上实现了最佳性能。在CK+上,我们提出的方法实现了98.92%的分类准确率,与DSAN相同。在RAF-DB和AffectNet等现实场景数据集上,EASE的准确率分别达到89.56%和61.82%,比其他方法至少高出1%以上。2) 与标签噪声方法相比,EASE在六个数据集上有明显的改进。尽管DivideMix采用半监督算法将噪声标签替换为伪标签,但这种策略也会导致确认偏差。具体来说,确认偏差意味着在训练过程中会积累不正确的伪标签,并最终限制模型的性能。与DivideMix不同,EASE从冲突样本中选择模糊样本,并进一步采用KL发散来训练网络。因此,在AffectNet上,EASE的准确率比DivideMix高3.81%。3)与FER方法相比,EASE在处理现实场景的数据集时考虑了情绪的模糊性。SCN是一种具有代表性的FER方法,它利用自注意力衡量表情的不确定性,是一种有效的方法。EASE利用极性线索进一步选择歧义样本,并采用KL散度来关注情绪模糊性。因此,我们提出的EASE在六个数据集上实现了最佳性能。

表1 EASE与SOTA方法对比的实验结果。