One paper is accepted by Signal Processing Magazine

Posted by exped1230 on 2023-06-01

Emotion Recognition From Multiple Modalities: Fundamentals and methodologies

Sicheng Zhao, Guoli Jia, Jufeng Yang, Guiguang Ding, Kurt Keutzer

多模态情感识别:原理和方法

论文 | 中文版 | demo


情感线索

情感模态根据其来源分为两类,一类是从人的身体变化感知情感(显性情感线索),另一类是受外部数字媒体的刺激而产生情感(隐性情感刺激)。其中,显性情感线索有人脸表情、眼球运动、语言、行为、步态、脑电图等,这些都能通过观察人体直接记录和收集。隐性情感刺激物则包括文本、音频、图像和视频等。我们使用这些数据类型来存储信息和知识,并在数字设备之间传输它们。通过这种方式,情感可能被隐性地唤起。虽然不能保证某一特定模态所表达的情感的有效性,但同时考虑多种模态仍可显著提升可靠性和鲁棒性。


显性情感线索

人脸表情是一个或多个人脸区域/单元的孤立运动或运动组合。人们普遍认为,人脸表情可以携带丰富的情感线索,人脸表情被认为是传达人类情感状态和意图的最自然、最有力的信号之一。人脸表情也是一种
在人之间传达社会信息的非语言交流形式。

我们可以通过观察一个人的眼球运动来推断他/她的感受。眼睛常常被看作是情感的重要线索。眼球运动信号可以很容易地通过眼动仪收集,并已被广泛用于人机交互研究。

语音是传递情感的重要模态。说话者通过使用不同语调、声音大小和节奏来表达他们的意图,如询问或声明。具体来说,当人们交谈或喃喃自语时就会透露出情感。

作为人类肢体语言的一个重要部分,行为也传递了大量的情感信息。例如,将紧握的拳头推到空中,通常被视作表达胜利或欣喜的姿势。

与行为类似,情感可以从一个人的步态,即他们的行走方式中感知到。心理学文献证明,可以通过观察被试者的走路姿态 (包括大踏步、上半身大幅吸气等) 来识别被试者的情感。身体运动(如行走速度)在感知不同情感方面也起着重要作用。与悲伤和满足等低激活度情感相比,愤怒和兴奋等高激活度情感与快速运动更相关。

最后,脑电图 (EEG) 作为代表性的心理信号,是记录大脑情感活动的另一种重要方法。与上述其他显性线索相比,无论非侵入式地放置电极,还是使用侵入式的皮质脑电图,EEG 信号的采集都更加困难和不自然。

图1 情感模态:显性情感线索(上)和隐性情感刺激(下)。

隐性情感线索

文本是记录人类自然语言的一种形式,它可以隐含情感信息。文本有不同层次的语言结构,包括单词、句子、段落和文章,现有工作对这些成分都有很好的研究;许多算法已被开发出来用于将文本分割成小块。然后,在公开字典(如 SentiWordNet)的帮助下可以识别每个语言片段的情感属性,并推断文本所唤起的情感。

数字音频信号是声音的表示,通常使用一系列二进制数字来存储和传输。音频信号可以直接合成,也可以来自于传感器,如麦克风或乐器。显性情感线索中的语音主要关注可被翻译成自然语言的人类声音信息,与此不同的是,音频范围更广,包括任何声音,如音乐或鸟鸣。

图像是彩色点在空间上的分布。众所周知,“一图胜千言”。心理学已经证明,人类的情感可以由图像唤起。网上爆炸式的图片分享和对场景的强大描述能力使图像成为关键的情感刺激物,吸引了大量研究者。

视频同时包含多种模态,如视觉信息、音频和文本信息。这意味着可以利用时间、空间和多通道表示来识别视频中的情感。


情感计算任务

情感分类

在情感分类任务中,假设一个实例只能属于一种或固定数量的情感类别,目标是发现数据空间中的类别边界或类别分布。目前的工作主要集中在人工设计多模态特征编码器和分类器,或以端到端方式应用深度神经网络。

对于单标签学习(SLL)问题,MER 为每个样本分配一个单一的情感标签。然而,相较于单一的代表性情感,情感更可能由来自不同区域或序列的不同情感成分混合而成。同时,不同的人对同一刺激可能有不同的情感反应,这是由性格等多种因素造成的。因此,多标签学习(MLL)被用来研究一个实例关联多个情感标签的问题。实际应用中,MLL 不能很好地解决某些标签重要性分布不同的问题,针对此提出了标签分布学习(LDL)。LDL 覆盖一定数量的标签,用来代表每种情感标签描述实例的程度。

情感回归

情感回归任务的目的是学习一个能有效地将实例与笛卡尔空间中的连续情感值联系起来的映射函数。最常见的 MER 回归任务旨在为源数据预测维度空间的值。为了处理情感固有的主观性特征,研究人员提出预测情感的连续概率分布,这些分布在维度的愉悦度-激活度(VA)空间中表示。具体来说,VA 情感标签可以用高斯混合模型(GMM)表示,然后情感分布预测可以被形式化地定义为一个参数学习问题。

情感检测

原始数据不一定携带情感,或者只有部分片段数据携带情感,因此研究者提出情感检测任务,找出源数据的具体哪部分存在何种情感。例如,Yelp 上的餐厅评论可能是:“这个地方离我工作的地方很近,能步行到达对我来说是一个巨大的优势!食物方面,它几乎和我去过的每个地方都一样,所以没有什么可说的。我不得不说,这里的客户服务很不到位。”总体评价得分是三颗星,满分是五颗星。这篇评论包含不同的情感和态度:第一句是积极的,第二句是中性的,最后一句是消极的。因此对于系统来说,检测哪个句子对应哪种情感至关重要。另一个例子是图像中的情感区域检测。

情感检索

如何根据人类的感知来搜索情感内容是另一项有意义的任务。现有的框架首先检测查询和候选数据源中的局部兴趣块或序列。然后,通过判断两个块或序列之间的距离是否小于给定的阈值来发现所有的匹配对。查询和每个候选数据之间的相似度得分被看作匹配的程度,随后根据相似度得分对该查询的候选数据进行排序。虽然情感检索系统对于从庞大的数据库中获取具有所需情感的在线内容很有效,但抽象和主观的特点同样使得这项任务富有挑战且难以评估。


多模态情感识别的挑战

情感鸿沟

情感鸿沟是 MER 的一个主要挑战,它衡量所提取的特征和感知到的高级情感间的不一致性。情感鸿沟比那些客观的多媒体分析任务存在的语义鸿沟更有挑战性。即使语义鸿沟已经被解决,情感鸿沟可能仍然存在。例如,盛开的玫瑰和凋谢的玫瑰都包含玫瑰,但却能唤起不同的情感。对于同一个句子,不同的语音语调可能对应完全不同的情感。提取具有区分性的高级特征,特别是与情感有关的特征,可以帮助弥补情感上的差距。其中存在的主要困难之一是如何评估提取的特征是否与情感有关。

认知主观性

由于许多个人、环境和心理因素的影响(如文化背景、个性和社会环境),不同的人对同一刺激可能有不同的情感反应。即使情感相同,生理和心理变化也会有很大差异。例如,ASCERTAIN 数据集中的 36 个视频被 58 个被试者标记为 7 个不同的价值和唤醒尺度中的至少 4 个。这清楚地表明,部分被试者对同一刺激物有相反的情感反应。以一段有暴风雨和雷声的短视频为例,有些人可能因为从未见过这种极端天气而感到敬畏,有些人可能因为巨大的雷声而感到恐惧,有些人可能因为捕捉到这种罕见的场景而感到兴奋,而有些人可能因为不得不取消旅行计划而感到悲伤等等。

即使是同样的情感(如兴奋),也会有不同的反应(如人脸表情、步态、行为和语言)。对于主观性带来的挑战,一个直接的解决方案是为每位个体学习个性化的MER 模型。从刺激的角度来看,当有一定数量的被试者参与时,情感的分布也可以预测。除了刺激的内容和直接的生理心理变化外,建立综合考虑上述个人、环境和心理因素的模型也有助于提高 MER 任务的性能。

数据缺失

由于数据收集过程中存在许多不可避免的因素(如传感器设备故障),特定模态的信息可能会被破坏,从而导致数据缺失或不完整。数据缺失是实际应用中 MER任务的一个常见现象。例如,对于显性情感线索,脑电图传感器可能会记录到有噪声的信号,甚至无法记录到任何信号;摄像机在夜间无法捕捉到清晰的人脸表情。对于隐性情感刺激,用户可能会发布一条只包含图片(没有文字)的推文;某些视频的音频通道没有明显变化。最简单的特征融合方法(即早期融合)在这种情况下是不起作用的,因为在没有捕获到信号时,我们无法提取任何特征。设计能处理数据缺失的有效融合方法是一种被广泛采用的策略。

跨模态不一致性

同一样本的不同模态可能相互冲突,表达不同的情感。例如,人脸表情和语言很容易被抑制或隐藏以逃避检测,但由中枢神经系统控制的 EEG 信号可以反映人类无意识的身体变化。当人们在社交媒体上发布推文时,图像与文字在语义上没有关联的情况非常普遍。在这种情况下,我们希望高效的 MER 方法能自动评估哪些模态更可靠,例如能为各模态分配相应权重。

跨模态失衡

在一些 MER 的应用中,不同的模态可能对诱发情感有不同程度的贡献。例如,在线新闻在我们的日常生活中扮演着重要的角色,除了了解读者的偏好,预测他们的情感反应在各种应用中都有很大的价值(比如投放个性化广告)。但一篇在线新闻通常有着不平衡的文字和图片,即文章的长度可能很长,包含很多详细信息,但文章中只有一两张插图。更大的潜在问题是,新闻编辑可能会为情感明显的文章选择中性的插图。

标签噪声和缺失

现有的 MER 方法,尤其是基于深度学习的方法,需要大规模的标注数据进行训练。但是在实际应用中,标注情感不仅成本过高、耗时过长,而且标注结果也高度不一致。这导致了拥有大量的数据,却只有很少甚至没有情感标签的问题。随着情感需求的日益多样化和细粒度,可能某些情感类别有足够的训练数据,其他情感类别却没有。一个替代人工标注的解决方案是利用社交推文的标签或关键词作为情感标签,但这种标签是不完整的、有噪音的。因此,设计有效的无监督/弱监督学习算法和少/零样本学习可以提供潜在的解决方案。

同时,我们可能在某个领域有足够的有标签情感数据(如合成人脸表情和语音),问题随之变成了如何有效地将在有标签源域上训练好的 MER 模型迁移到另一个无标签的目标域。当使用直接迁移时,领域漂移会导致明显的性能衰减。多模态领域自适应和领域泛化可以缓解领域偏移。包括多个源域在内的实际情况也应该被考虑在内。