One paper is accepted by CVPR 2023

Posted by exped1230 on 2023-02-28

DIP: Dual Incongruity Perceiving Network for Sarcasm Detection

Changsong Wen*, Guoli Jia*, Jufeng Yang

面向反讽检测的双重对立性感知网络

论文 | 代码 | demo


论文摘要

讽刺意味着字面意思与实际态度相反。考虑到图像文本数据的普遍性和互补性,我们研究了多模态讽刺检测的任务。与其他多模态任务不同,对于讽刺数据,心理学理论表明,一对图像和文本之间存在内在的不一致性。为了解决这个问题,我们提出了一个由两个分支组成的双重不一致感知(DIP)网络,从事实和情感层面挖掘讽刺信息。对于事实方面,我们引入了一种信道重加权策略来获得语义上有区别的嵌入,并利用高斯分布来对不一致性引起的不确定相关性进行建模。该分布是根据存储在内存库中的最新数据生成的,可以自适应地对讽刺数据和非讽刺数据之间的语义相似性差异进行建模。对于情感方面,我们利用具有共享参数的连体层来学习跨模态情感信息。此外,我们使用极性值来构建小批量的关系图,这形成了获取情感嵌入的连续对比损失。大量实验表明,我们提出的方法与最先进的方法相比表现良好。


论文动机

多模态讽刺检测与常规多模态任务相比,其挑战来自两个方面。首先,该任务旨在从数据中检测隐含意图,这增加了学习的难度。与物体识别相比,讽刺数据表达的态度通常隐藏在客观内容中,很难被识别。幸运的是,语言学理论表明,不一致性是讽刺检测的一个重要而有效的因素,这激发了研究人员自动提取积极和消极的种子。另一个挑战在于,现有多模态学习方法关注图像和文本内容中的相似信息,但这一规则不适用于发现反讽检测,因为反讽检测更关注局部区间的对立性。

图1 反讽数据在事实和情感层面的验证实验结果图,即DIP方法的动机。

为了解决这个问题,我们关注多模态反讽数据的模态间不协调。讽刺在心理学、社会学和神经生物学等各个领域都是一个长期存在的话题。研究人员观察到当字面意思与观察到的事实出乎意料地形成对比时会导致反讽。这个过程被定义为反事实推理。此外,脑科学研究发现,情感是另一个重要因素,对难区分的反讽数据尤其有效。根据这些理论工作,我们利用语义关联和情感极性来验证讽刺数据集中的不一致性。为此我们做了图1的验证实验,在事实层面上,讽刺数据的不一致性明显大于非讽刺数据,尤其是在平均值方面。同时,这种现象也存在于数据在情感层面的分析。


我们提出了一个双重不一致感知(DIP)网络,该网络由语义强化分布(SID)建模和孪生情感对比(SSC)学习模块组成,如图2所示。在SID中,基于语义关联,通过自适应策略来区分样本。具体来说,我们分别保持讽刺样本和非讽刺样本的高斯分布,并利用它们产生的概率对不一致性进行建模。由于分布取决于提取的嵌入,我们引入了一种按通道重新加权策略来学习与讽刺有关的表示。在SSC中,情感不协调是通过图像-文本对之间的极性差异来感知的。为了有效地将情感信息引入网络,我们使用了两个连体层来传输情感词典的知识,即SenticNet。此外,在极性强度的帮助下,提出了连续对比学习来增强情感表征。总的来说,在SID和SSC中,功能和情感信息被强化,并被用来明确计算MSD的不一致性。

图2 DIP网络的流程图。

DIP方法与其他反讽识别方法对比的实验结果如表1所示。我们可以有两方面观察:1) DIP明显优于单模SOTA方法。得益于多模态数据的互补信息,与视觉和文本SOTA方法相比,DIP的准确性分别提高了21.76%和5.74%。一方面,与仅使用图像模态数据相比,检测高语义文本中表达的讽刺相对更有效。另一方面,图像作为表达讽刺的重要单元,可以显著提高多模态反讽识别的性能。2) 与多模态SOTA方法相比,DIP在三骨干实现中的精度分别提高了2.28%、1.18%和2.04%。对于二分类平均精度,DIP与SOTA方法相比至少提高了4.13%。这一结果表明DIP特别善于识别讽刺性数据。此外,我们的宏观平均指标也具有竞争力(至少提高了1.44%),证明DIP在区分讽刺和非讽刺数据方面都是有效的。此外,与以前隐式建模不一致性的方法相比,DIP在准确性上提高了2%以上。因此,我们提出的明确建模事实和情感不协调的方法对多模态反讽检测更有效。

表1 DIP与SOTA方法对比的实验结果。