情境感知注意力网络在视频情感识别中的应用

摘要

从面部表情识别人类情绪受到图像质量和面部姿态扭曲的影响，传统的视频情绪识别方法往往忽略这一点。另一方面，上下文信息还可以提供不同程度的额外线索，进一步提高识别精度。本文首先构建了一个包含7类人类情感的视频数据集，命名为视频中的人类情感(HEIV)。利用HEIV数据集，我们训练了一个上下文感知注意力网络(CAAN)来识别人类情感。该网络由两个子网络组成，分别处理人脸信息和上下文信息。融合来自面部表情和上下文线索的特征来表示视频帧的情绪，然后通过注意力网络来生成情绪评分。然后，将所有帧的情绪特征根据它们的情绪得分进行聚合。实验结果表明，该方法在HEIV数据集上是有效的。

1.简介

在日常生活中，评估一个人的情绪状态是很重要的。这种感知和预测人们反应的能力是必要的。1］．特别是，这种情绪识别挑战具有广泛的应用。例如，情感识别平台可用于智能安防上识别潜在的可疑人员。视频推荐服务可以将用户的兴趣与视频情感相匹配，政府板块可以更好地了解人们对热点事件或新政策的反应。因此，人类情感识别作为一个新的研究领域受到了越来越多的关注。

人脸包含丰富的情感线索。Chu等人。[2]提出了一种基于面部动作编码系统的人类情感识别方法，该系统通过面部一系列特定位置的动作(动作单元)对面部表情进行编码。动作单元可以通过从人脸图像中提取的几何特征和外观特征来识别[3.］．近年来，随着卷积神经网络(convolutional neural networks, CNNs)的发展，研究者试图通过cnn进一步提高情绪识别的性能[4］．Barrett等人使用cnn来识别动作单元和面部情绪。这些研究主要集中在面部情绪识别上。然而，上下文信息也可以为识别情绪提供额外的线索。例如，人们在婚礼上通常很高兴，而在葬礼上通常很悲伤。当结合上下文时，可以进一步提高识别精度。以前的研究已经证明了情境在情绪感知中的重要性[5］．在某些情况下，当我们从更广阔的角度分析而不是只关注一个人的脸时，我们更容易判断一个人的感受。Kosti等人[6]建立了一个情境中的情绪数据库，并表明当人与整个场景联合分析时，情绪识别的准确性提高了。陈等人。[7]利用上下文线索，包括事件、对象和视频情感识别的场景，来提高表现。但是，这些方法对不同帧的特征一视同仁，没有考虑这些帧所包含的情感信息的差异。尽管基于情境感知的视频情感识别的研究已经取得了很大的进展，但它仍然面临着两大挑战:(1）人脸和上下文信息的结合。人脸特征与其上下文信息相关联。然而，传统的视频情感识别往往是分别计算图像的人脸特征和上下文特征的最大值或平均值，然后将这两种模式的特征进行融合，缺乏人脸特征的有机融合，以及同一图像的上下文线索。同一图像上的人脸特征及其上下文特征不能有效地集成。如图所示1(a)，当我们试图估计图像序列中人物的情绪时，上下文信息很难提供有效的情绪特征。例如，很难通过上下文信息来确定图像序列中的人是在戏弄还是被狗攻击。然而，当我们在图像中结合人脸和上下文信息时，比单独使用人脸信息更容易判断人的情绪为愤怒。类似的详细估计可以在图中进行1(b)。（2）不同形象的情感差异。视频中的每一帧都包含一定的情感信息，这些信息可以相互补充。最常用的方法是将所有帧的情感特征最大化/平均化。然而，由于面部大小、姿势、视角和上下文信息的不同，同一个视频的不同图像可能包含不同的情感信息。作为一个例子，让我们试着估计图中这些人的情绪2．在图2(a)，我们可以更大概率地识别出正确图像的情绪是喜悦。也就是说，正确的图像包含更多的情感线索。在图的其他图像中也可以进行类似的详细估计方法2．同样，包括周围环境和人体在内的情境信息也可以提供不同的情感信息。因此，如何解决不同图像之间的情感差异问题是视频情感识别的重要挑战。

(一)

(b)

(一)

(b)

(c)

(d)

为了克服上述两个挑战，受注意机制的启发[8，9]，我们提出了一种上下文感知注意力网络(CAAN)，该网络对包含较少情感信息的框架具有鲁棒性，同时利用其他框架提供的丰富情感线索。首先，CAAN使用两个子网络分别提取人脸特征和背景特征，并将同一图像上的这两个特征融合起来代表图像的情感。与文学相似[6]，我们将整个图像作为输入，并提取全局特征，以提供必要的上下文支持。然后，注意力网络将图像特征作为输入，生成图像的情感评分。最后，将一个视频中所有图像的情绪特征根据其情绪评分进行聚合，从而生成该视频的最终情绪表征。

此外，现有的视频情感识别数据集，如视频情感数据集[10]和Ekman情绪数据集[11]，主要关注视频内容带给观众的心理感受，很多视频中没有人，无法有效地评价视频中的人的情感。因此，本文基于视频情感数据集，构建了一个视频中的人类情感(HEIV)数据集[10，11然后从网络上下载一些视频。HEIV数据集包含1012个视频，视频中的人类情绪根据心理学家Ekman和Friesen定义的情绪类别以及中性情绪类别进行了注释。此外，一些视频也被中性标注。我们将在章节中详细描述它3.．在HEIV数据集上对CAAN网络的性能进行了评估。它将顶级匹配率提高了2.22%。

本文的主要贡献总结如下。我们构建了一个由1012个标注视频组成的HEIV数据集，该数据集主要关注视频中的人类情感，而不是现有视频情感识别数据集中视频内容给观众带来的心理感受。这对于设计良好的视频情感识别模型具有重要意义。CAAN可以为每一帧自动生成情绪分数，从而更好地表征不同视频帧中情绪信息的差异。评价了不同注意机制权重函数的作用，为基于注意的计算模型的设计提供了参考。

本文的其余部分组织如下。在下一节中，我们将讨论基于视频的情感识别的相关工作。部分3.描述建议的数据集。部分4介绍了拟议的CAAN。部分5给出实验结果。部分6最后对论文进行了总结，并提出了今后的工作方向。

2.1.面部情绪识别

人脸是计算机视觉研究人员最常用的识别人们情绪状态的刺激。面部动作编码系统使用一组特定的面部局部动作来编码面部表情[2］．它处理的是接近正面姿势的图像[3.］．然而，面部图像可以从多个角度拍摄，或者人们在被记录时可能会改变姿势。一些处理多视角情感识别的工作已经被提出。塔里克等人[12]使用来自多个视图的数据学习了单个分类器。CSGPR [13模型执行了视图归一化，其中来自不同姿势的特征被组合在一起。然而，这些方法并不是不同视图之间的模型关系。Eleftheriadis等人提出了一种判别共享高斯过程潜变量模型，用于从多个视图学习面部表情的判别共享流形[3.］．与现有的多视角面部情绪识别不同，本文主要解决视频中不同面部姿态的情绪识别问题。还有一些情绪识别作品使用了面部以外的其他线索。例如，Nicolaou等人。14]认为肩膀的位置是面部特征的额外信息，以识别情绪。

2.2.从视频中识别情绪

有一些早期的工作是通过视听特征来识别情感的(例如，[15- - - - - -18])。王等。[15他利用视听特征识别了36部好莱坞电影中的情感。Irie等人[16]提取视听特征，并将其与隐马尔可夫动态模型相结合。视听特征融合采用决策级融合和特征级融合[17］．但是，他们只使用简单的多模态特征融合，没有考虑多模态特征之间的潜在关系，外观特征是低级别的特征。辛格等人。[19]提出了一种基于视觉序列中面部动作编码系统共现行为选择关键帧的改进TOPSIS (similarity to ideal solution)顺序偏好技术。王等。[20.]提出了两阶段多任务学习框架下的两级注意。首先，对相应区域的特征进行自动提取和增强。其次，基于自关注的双向RNN充分利用了不同层次之间的关系特征;王等。[21定义了一种多模态域自适应方法来获取模态之间的相互作用。

本文通过使用不同的CNN结构和不同的CNN特征层来评估情绪识别的性能[11］．Nicolaou等人[14]融合了面部表情、肩部姿势和音频线索来识别情绪。Vielzeuf等人[22]提出了一种分层方法，在不同的层次上融合分数和特征。它可以保留不同层次的信息，但还没有考虑视频中多模态数据之间的潜在联系。薛等。[23]提出了一种贝叶斯非参数多模态数据建模框架来学习视频中的情绪，但该框架并不能反映视频中情绪表达的时间演化。Kahou等人[24]使用CNN和RNN对视频的动态表达进行建模，结果表明，该方法的性能优于帧的特征融合。论文通过RNN对面部特征的时间演化进行建模[25］．张等。[26]构造核函数，将CNN特征转换为内核化特征。徐等。[27]进行概念选择，研究高级概念特征与情绪之间的关系。本文不仅考虑了不同面部特征的情感融合，还考虑了视频帧情感信息量的差异。

3.人类情感数据集

我们基于视频情感数据集构建了人类情感数据集[10，11]和从网上下载的影片。视频情感数据集中的每个视频都更长，每个视频中包含多个人类剪辑。主要关注视频内容带给观众的心理感受。我们从视频情感数据集中的视频中截取人类片段，并对视频中人类的情感进行标注。我们还从YouTube上下载了短视频剪辑。该数据库总共包含1012个视频，使用607个视频的训练集和405个视频的测试集。数字3.显示了来自HEIV数据集的每个情感类别的示例帧。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

3.1.视频注释

HEIV数据集由10名注释人员手动注释:5名男性和5名女性。中性和六种情绪类别，包括“愤怒”、“厌恶”、“恐惧”、“喜悦”、“悲伤”和“惊讶”，由心理学家埃克曼和弗里森定义。28被考虑。为了保证标注的质量，标注员对一些来自现有视频情感识别数据集的带有情感标签的视频片段进行了练习。经过学习和实践，我们请注释员对我们的HEIV数据集进行注释。当我们播放一个有标记的人的视频时，我们让注释者选择一个适合该视频的情感类别。每个标注者独立标注情感，选择标注者最多的视频的情感目录作为该视频的情感标签。此外，还标注了视频中人物的性别(男性/女性)和年龄范围(儿童，青少年，成人)。

3.2.数据库统计

在1012个注释视频中，64%为男性，36%为女性。他们的年龄分布如下:10%是儿童，11%是青少年，79%是成年人。表格1显示每个类别的视频数量。


类别	愤怒	厌恶	恐惧	快乐	中性	悲伤	惊喜

数量	103	105	121	207	125	158	197

4.情境感知注意力网络

在我们的工作中，我们专注于提高情绪识别的准确性。人类情感识别的主要挑战是面部尺度、姿势、视角和不同程度的上下文信息的差异。我们的目标是通过上下文感知注意力网络(CAAN)来解决这个问题，该网络融合了面部和上下文情绪特征，并由注意力网络生成融合特征的情绪分数。将所有图像的融合特征及其情感分数进行聚合，从而实现视频中的人类情感预测。

我们建议的框架如图所示4．该体系结构由三个主要模块组成:两个情感特征提取模块和一个注意力融合模块。人脸特征提取模块以人脸区域为输入，提取人脸情感特征。上下文提取模块将整个框架作为输入，提取全局特征以提供必要的上下文信息。最后，第三个模块是注意力融合网络，该网络以人脸和上下文信息的融合特征为输入。它由两个分支组成。第一个分支是一个微小的CNN网络，它以融合特征为输入，生成帧的情感特征。另一个分支也是一个小型CNN网络，用于为每一帧生成情绪评分。然后，将帧的情感特征及其情感得分进行聚合，最终生成视频中人类的情感表征。

4.1.情感特征提取

脸是人类表达情感的主要部位。以往对情绪识别的研究主要集中在面部表情方面。然而，语境在情感识别中起着重要的作用，当语境信息被纳入时，可以进一步提高识别的准确性。为了联合分析人脸和背景特征，识别视频中丰富的人类情感信息，分别提取人脸和背景情感特征，然后融合。必威2490同时，通过注意机制判断融合特征的重要性。本节描述了面部和上下文情感特征的提取。

在情感特征提取阶段，分别使用人脸特征提取模块和上下文特征提取模块提取人脸信息和上下文信息。给你一个视频其中K是视频的总帧数而且是我-th视频帧，人脸首先从视频帧中提取，使用faster-rcnn [29]在WIDER人脸数据集上训练[30.］．然后，将视频中检测到的人脸大小调整为224 × 224。让n为视频中人脸的帧数。视频中的人脸可以表示为，在哪里人脸是从哪里提取的．vg - face模型在vg - face数据集上训练[31]作为初始化来提取面部情绪特征。在情绪识别数据集上进行训练，得到面部情绪特征提取器。本文利用HEIV数据集训练人脸特征提取器和上下文特征提取器。HEIV主要用于视频中的人类情感识别，视频中的大多数图像都包含人脸。VGG-Face使用人脸图像作为训练样本，并根据图像所属的情感类别进行监督。经过训练的VGG-Face可以提取不同图像的情感特征。因此，给定一个图像序列，通过人脸特征提取器的前向传播操作，提取出fc6特征作为每张图像的面部情感特征。让为F的fc6层特征，其中fc6层的特点是什么．为了在同一图像上融合人脸和上下文信息，只能在图像序列中包含人脸是本文所选择的。VGG网络[32]作为上下文特征提取器。在ImageNet数据集上进行预训练[33]，然后在HEIV情绪识别数据集上进行训练。以包含人脸的整个图像为训练样本，以视频的情感类别为监督信号。经过训练的VGG可以提取不同图像的场景、环境和背景的上下文情感特征。必威2490因此，给定一个图像序列，通过上下文特征提取器的前向传播操作，将fc6特征提取为每张图像的上下文情感特征。让的fc6层特征，在哪里上下文信息是．将得到的面部特征和上下文特征输入注意力融合网络进行有效融合，进一步提高视频情绪识别的准确性。

4.2.注意力融合网络

对于一个视频剪辑，现在我们有了两个高级语义特征．这两个特征从不同的角度表征了视频的人性，不同视频帧所包含的情感信息量也存在差异。为了将人脸图像序列和背景图像序列的特征融合为统一的特征表示，可以分别对人脸特征序列和背景特征序列进行融合，然后对人脸融合特征和背景融合特征进行融合。然而，这将在同一图像中将面部特征与其上下文隔离开来。人脸与同一幅图像的语境密切相关，其情感特征可以相辅相成，更全面地反映一个人在图像中的情绪。此外，传统的平均池化或最大池化特征融合方法难以有效挖掘不同图像特征之间的互补性，不能反映不同图像之间的情感差异。因此，本文提出了一种注意力融合网络，有效地融合人脸和背景的图像特征序列。它可以量化不同视频帧之间的情感差异，并将人脸图像序列和背景图像序列的特征根据其重要性进行融合，得到统一的特征表示。

更准确地说，灵感来自[7]，我们首先将所有图像的人脸和上下文特征转换到一个高级空间(人脸和上下文特征为1024个神经元)，然后融合每张图像的人脸和上下文特征。因此，可以保留其独特的性质，并提高辨别能力。由于这些特征是从不同的视频帧中提取的，具有不同的辨别能力，因此我们使用一种注意力融合机制来融合这些特征，该机制能够对情感信息较差的帧具有鲁棒性，同时利用其他视频帧提供的丰富的情感信息。我们的基本思路是每个情绪特征在聚合时都可以有一个情绪得分，然后根据情绪得分对情绪特征进行聚合。为此，情感特征通过两个分支传递，然后聚合在一起。第一个分支称为融合特征生成部分，提取更高层次的融合情感特征，另一个分支称为情感得分生成部分，预测每个融合特征的情感得分。然后，根据情绪分数对视频帧的特征进行汇总。

由于人脸特征和背景特征是在相同的帧中提取的，表现的是不同的情绪，所以融合特征生成部分首先使用2048个神经元的融合层进行融合，吸收所有的信息，从而得到一个共享的表征，具体表现为: 在哪里第i个视频帧的融合特征和是一个融合函数。

融合特性将馈送到两个分支网络。第一个分支名为融合，它生成子网络，用于生成更高级别的融合特征，它可以用全连接层表示。

得到的高级融合特征通过全连接层，生成情绪预测向量。该分支由softmax-loss监督，它优化了每个图像特征的概率。

另一个分支是情绪评分生成子网络，用于为每个图像的融合特征生成情绪评分。我们依靠注意力机制来获得情绪评分。它的职责是首先分析视频帧中包含的情感信息的数量，然后生成一个情感评分，用于赋予特征尽可能多的情感信息。我们使用更高层次的融合特性表示每个图像的融合特征，其对应的情绪评分可以使用只有一个单元格的全连接层计算，标记为1CF，在哪里而且是情绪评分生成部分需要学习的参数。同理，情绪评分也可以由两个或三个连续的全连接层生成，分别签名为2CF和3CF。在实验部分5，我们将比较这些不同加权函数的效果。

将融合特征进行聚合，得到视频V的情感特征表示情绪得分在所有的图像中。可以表示为: 在哪里视频的情感特征是什么．它由三重损失监督[34]，使类内样本的方差和视频情绪表征的判别最小化。

5.实验

5.1.权重函数的作用

在本小节中，我们分析了情绪评分生成部分的不同权重函数对情绪识别性能的影响。首先，通过人脸特征提取部分和上下文特征收缩部分提取人脸和上下文特征的fc6层特征。人脸和上下文信息的fc6特征首先通过1024个神经元的全连接层，然后融合。融合特征被馈送到两个分支:一个用于生成更高级别的融合特征，另一个用于生成情感评分。这两个分支将被聚合以生成视频的最终情感表示。我们考虑三个不同的注意力网络权重函数，1CF, 2CF和3CF，如章节所述4.2．

我们还分别以人脸信息和上下文信息作为输入，用注意网络给出了评价结果。对于人脸或上下文信息，网络从pool5层特征开始分为两个分支。第一个分支通过预训练的vgg人脸或vgg16模型提取人脸或情境特征，另一个分支以人脸或情境信息的中间特征为输入，对每个人脸或情境特征进行情绪评分。然后，将面部或上下文的情绪特征及其情绪得分进行汇总，生成最终的面部或上下文的情绪表征。与注意力融合网络类似，情绪评分可以由一个或两个或三个卷积层和一个只有一个单元格的全连接层计算，该层也分别签名为1CF、2CF和3CF。表格2显示了在HEIV数据集上使用注意力网络中不同权重函数进行情绪识别的准确性。


层	融合特征准确率(%)	上下文特征准确率(%)	面部特征准确率(%)

1足球俱乐部	50.37	42.72	48.89
2足球俱乐部	51.11	43.46	44.44
3足球俱乐部	51.85	43.95	47.90

如表所示2，我们观察到在情绪评分生成部分，不同权重函数的识别准确率是不同的，这意味着注意机制在这种情况下可以有效发挥作用。我们还观察到，3CF在融合情感特征和上下文信息方面略优于2FC和1FC，而1CF在人脸特征方面略优于2FC和3FC。从这三种情绪特征的准确性可以推断，注意力网络越深，情绪得分越高，但当注意力网络超过一定程度时，情绪得分越低。在后续所有实验中，我们都默认使用融合特征和情境特征情绪评分生成部分的3CF权重函数和面部情绪评分生成部分的1CF权重函数。

5.2.注意机制效应与特征融合

在本小节中，我们评估了注意力机制和特征融合的性能。为了验证我们的注意力机制和特征融合的有效性，我们实施了以下三种平均聚合基线方法:

表面平均聚合(FAA)。利用VGG-Face提取所有人脸的fc6层特征。这些特征通过平均池聚合，然后通过两个连续的全连接层传递，并由softmax-loss监督。

平均总量(CAA)．VGG16提取所有上下文图像的fc6层特征。这些特征由平均池聚合，然后通过两个连续的全连接层传递，并由softmax-loss监督。

融合特征平均聚合(FFAA)。分别用vggg - face和vgg16提取所有人脸和背景图像的fc6层特征。这两个特征首先通过1024个神经元的全连接层，然后融合。融合特征通过两个连续的全连接层，并由softmax-loss监督。

表格3.显示了使用注意机制和上述三种平均聚合方法(FAA、CAA和FFAA)进行情绪识别的准确性。如表所示3.，在HEIV数据集上，注意机制比FAA、CAA和FFAA分别提高了5.43%、2.22%和4.94%的top-1情绪识别准确率。我们还注意到，在注意力机制上，特征融合比面部特征和背景特征分别提高了3.45%和5.18%的top-1情绪识别准确率，在聚集和特征融合上，比面部特征和背景特征分别提高了2.96%和7.9%的top-1情绪识别准确率。基于这些实验，我们可以推断出注意力融合网络在HEIV数据集上优于平均聚合方法，特征融合在HEIV数据集上优于单个人脸或上下文特征。


方法	平均聚合正确率(%)	注意准确率(%)

脸	43.46	48.89
上下文	41.73	43.95
融合	46.91	51.85

5.3.CAAN的可视化

为了使CAAN可视化，图中显示了测试集中的一些图像序列及其对应的情绪分数5．如图所示5，不同图像的情绪得分不同，这是由于他们的面部姿势和上下文信息的差异。一些图像含有丰富的人脸情感线索和上下文信息，如3^{理查德·道金斯}图中图像5(b)和图中的第5幅图像5(f);因此，CAAN会给这些图像更高的情感分数。相反，有些图像在人脸和上下文信息上的情感线索较少，如1^圣图中图像5(a)及7^th图中图像5(e)， CAAN给予这些图像较低的情绪分数。

(一)

(b)

(c)

(d)

(e)

(f)

5.4.与技术水平的比较

我们还比较了最近文献中最先进的性能。为了验证我们的CAAN方法的有效性，我们在HEIV数据集上与以下最先进的方法进行了比较。

5.4.1.引起网络

QAN [8]和注意力簇[9]是两个基于注意力的网络。QAN是HEIV数据集上以视频图像为输入的质量网络，注意力聚类是HEIV数据集上以人脸和上下文fc6层特征为输入的多模态注意力网络。

5.4.2.特征融合网络

近期文献[6，7，24，29]采用多模态特征融合网络。在HEIV数据集上实现了人脸和上下文两种模式。

表格4给出了不同方法检测HEIV的准确率(%)。如表所示4，我们的上下文感知注意力融合网络在HEIV数据集上获得了2.22%的性能提升。我们还注意到，仅以视频帧作为输入的QAN性能低于融合特征。通过注意机制，注意集群的表现[9以人脸和语境两种模式作为输入，比没有注意机制的特征融合要高。请注意，我们的CAAN获得了优异的性能，原因有两个:首先，注意机制对包含较少情感信息的帧具有鲁棒性，同时使用其他帧提供的丰富情感线索。其次，我们的特征融合既利用了人脸特征和上下文信息，又保留了它们各自的特性。基于这些实验，CAAN在HEIV数据集上优于最先进的结果。CAAN网络的改进证明了CAAN处理不同情感信息视频的能力。


方法	结果(%)

质量感知网络[8］	43.95
范等。[25］	45.68
Vielzeuf等人[22］	45.93
陈等人。[7］	46.17
Kosti等人[6］	46.42
注意力群[9］	49.63
我们的	51.85

5.5.混淆矩阵

为了分析不同情绪类别的识别精度，我们给出了HEIV上CAAN识别精度的混淆矩阵，如表所示5．纵向为真实标签，横向为各情感类别的识别准确率。我们观察到惊讶、恐惧和厌恶被很好地识别出来，而愤怒、中性和快乐有更多的假阳性。我们推断，这是因为愤怒和喜悦更强调心理活动，其行为表达相对较低。我们还注意到30.59%的快乐被认为是惊喜。我们推断，这是因为有些人同时拥有喜悦和惊奇的感觉，很难确定哪种情绪占主导地位。我们还观察到，快乐不被认为是厌恶，中性不被认为是悲伤。这是因为这两种情绪类别的表达方式截然不同。


预测的标签
正确的标签	愤怒	厌恶	恐惧	快乐	中性	悲伤	惊喜

愤怒	38.10	9.52	14.29	4.76	16.67	4.76	11.90
厌恶	2.33	55.81	11.63	4.65	2.33	16.28	6.98
恐惧	2.13	4.26	57.45	2.13	8.51	19.15	6.38
快乐	1.18	0	8.24	47.06	9.41	3.53	30.59
中性	12.24	8.16	6.12	18.37	42.86	0	12.24
悲伤	1.64	11.48	14.75	8.20	1.64	54.10	8.20
惊喜	1.28	1.28	8.97	8.97	8.97	7.69	62.82

5.6.结果Ekman-6和VideoEmotion-8

在本节中，我们对Ekman-6进行了实验[35]和VideoEmotion-8 [10]数据集，以进一步评估我们的方法的有效性。

Ekman-6数据集包含1637个视频，它使用了819个视频的训练集和818个视频的测试集。根据Ekman的理论，由10名注释员手工标注[28在六个基本的人类情感类别上，每个类别至少221个视频。

VideoEmotion-8数据集包含从YouTube和Flickr收集的1101个视频。视频的平均时长为107秒。根据[提供的训练/测试分割进行实验10次10］．

表格6给出了不同方法在Ekman-6和VideoEmotion-8数据集上的最高准确度(%)。如表所示6，我们的上下文感知注意力融合网络在Ekman-6和VideoEmotion-8数据集上分别获得1.83%和1.68的性能增益。结果表明，我们的方法在Ekman-6和VideoEmotion-8数据集上都达到了最先进的结果。


方法	埃克曼	VideoEmotion-8

情境中的情绪[7］	51.8	50.6
徐等。[11］	50.4	46.7
核化特征[26］	54.4	49.7
概念选择[27］	54.40	50.82
我们的	56.23	52.5

6.结论及未来工作

本文首先构建了包含7类人类情感的视频数据集，命名为视频中的人类情感(human emotion In the video, HEIV)。利用HEIV数据集，我们训练了一个上下文感知注意力网络(CAAN)来识别人类情感。CAAN由三个模块组成。使用两个情感特征提取模块分别提取人脸特征和上下文特征。注意力融合网络融合了这两个特征，并为每个融合特征生成一个情绪评分。然后，将融合的情感特征根据其情感得分进行聚合，最终生成视频的情感表征。对CAAN网络的性能进行了评价，结果表明该网络在HEIV数据集上能取得很好的效果。

虽然我们的方法在视频情感识别中取得了很好的效果，但是由于人类情感表达的多样性，人类的情感可以通过身体的多个部位来表达。在未来的工作中，我们将进一步结合人体部分语义，以获得更好的识别性能。

数据可用性

HEIV可通过接触获得liuxiaodongxht@qq.com．

利益冲突

作者宣称他们没有利益冲突。

致谢

本文由河南省科技厅科技研究项目(182102310919)和河南省教委基金(21A520006)资助。

参考文献

K. Byoung，“基于视觉信息的面部情绪识别的简要回顾，”传感器，第18卷，no。2，页401-420,2018。视图:出版商的网站|谷歌学者
W.-S。Chu, F. De la Torre和J. F. Cohn，“个性化面部表情分析的选择性传输机”，模式分析与机器智能汇刊，第39卷，no。3，页529-545,2017。视图:出版商的网站|谷歌学者
S. Eleftheriadis, O. Rudovic和M. Pantic，“多视图和视图不变面部表情识别的判别共享高斯过程”，IEEE图像处理汇刊，第24卷，no。1，页189-204,2015。视图:出版商的网站|谷歌学者
C. Szegedy, W. Liu, Y. Jia等人，“深入卷积”，在IEEE计算机视觉与模式识别会议论文集，页1-9，波士顿，马萨诸塞州，美国，2015年6月。视图:出版商的网站|谷歌学者
L. F. Barrett, B. Mesquita和M. Gendron，《情感知觉中的情境》心理科学的最新发展方向，第20卷，no。5, pp. 286-290, 2011。视图:出版商的网站|谷歌学者
R. Kosti, J. M. Alvarez, A. Recasens等人，“语境中的情感识别”，在IEEE计算机视觉与模式识别会议论文集，页1960-1968，檀香山，HI，美国，2017年7月。视图:出版商的网站|谷歌学者
C. Chen, Z. Wu，和Y. G. Jiang，“语境中的情感:深度语义特征融合的视频情感识别”，ACM多媒体会议， vol. 16, pp. 127-131, 2016。视图:出版商的网站|谷歌学者
刘宇军，颜俊杰，欧阳伟，“集对集识别的质量感知网络”，见IEEE计算机视觉与模式识别会议论文集，页4694-4703，檀香山，HI，美国，2017年7月。视图:出版商的网站|谷歌学者
X. Long, C. Gan, G. D. Melo等人，“注意力集群:纯基于注意力的局部特征集成的视频分类”，在IEEE计算机视觉与模式识别会议论文集，页7834-7843，檀香山，HI，美国，2017年7月。视图:出版商的网站|谷歌学者
Y.-G。Jiang, B. Xu和X. Xue，“在用户生成的视频中预测情绪”，在第28届AAAI人工智能会议记录，第73-79页，Québec，加拿大，2014年7月。视图:谷歌学者
许斌，傅永勇，杨永刚。Jiang, B. Li和L. Sigal，“带有转移深度特征编码的视频情感识别”，在2016年ACM多媒体检索国际会议论文集，第15-22页，美国纽约，2016年6月。视图:出版商的网站|谷歌学者
U. Tariq, J. Yang，和T. S. Huang，“基于稀疏编码特征的多视图面部表情识别分析”，在计算机视觉学报，ECCV 2012。欧洲计算机视觉研讨会与演示，第578-588页，意大利佛罗伦萨，2012年10月。视图:出版商的网站|谷歌学者
O. Rudovic, M. Pantic和I. Patras，“姿态不变面部表情识别的耦合高斯过程”，模式分析与机器智能汇刊，第35卷，no。6, pp. 1357-1369, 2013。视图:出版商的网站|谷歌学者
M. A. Nicolaou, H. Gunes和M. Pantic，“从价价唤醒空间的多种线索和模式持续预测自发情绪”，IEEE情感计算汇刊，第2卷，no。2, pp. 92-105, 2011。视图:出版商的网站|谷歌学者
王海林，郑丽芳，《电影中的情感理解》IEEE视频技术电路与系统汇刊，第16卷，no。6, pp. 689-704, 2006。视图:出版商的网站|谷歌学者
G. Irie, T. Satou, A. Kojima, T. Yamasaki, K. Aizawa，“实现电影情感场景分类的情感视听词和潜在主题驱动模型”IEEE多媒体汇刊，第12卷，no。6, pp. 523-535, 2010。视图:出版商的网站|谷歌学者
徐敏，徐成，何欣，金金生，罗少生，芮玉玉，“唤醒和效价维度的层次情感内容分析”，信号处理第93卷，no。8，页2140-2150,2014。视图:出版商的网站|谷歌学者
R. M. A. Teixeira, T. Yamasaki和K. Aizawa，“通过低级视听特征确定视频剪辑的情感内容”多媒体工具及应用第61卷，no。1，页21-49,2012。视图:出版商的网站|谷歌学者
L. Singh, S. Singh和N. Aggarwal，“音频视频人类情感识别中峰值帧选择的改进TOPSIS方法，”多媒体工具及应用，第78卷，no。5, pp. 6277-6308, 2019。视图:出版商的网站|谷歌学者
王晓霞，彭敏，潘磊，闵海华，J.春华，R. Fuji，“基于两阶段多任务学习的面部情绪识别方法”，视觉传达与图像表示杂志，第62卷，no。7，页217 - 225,2019。视图:出版商的网站|谷歌学者
Y. Wang, J. Wu和H. Keiichiro，“基于视频的情感识别的多注意力融合网络”，在2019年多式联运国际会议记录， 2019年10月，中国苏州，页595-601。视图:出版商的网站|谷歌学者
V. Vielzeuf, S. Pateux和F. Jurie，“野外视频情感分类的时间多模态融合”，在第19届ACM多模式交互国际会议论文集，第569-576页，美国纽约，2017年11月。视图:出版商的网站|谷歌学者
J. Xue, Z. Luo, K. Eguchi, T. Takiguchi和T. Omoto，“用于视频情感识别的贝叶斯非参数多模态数据建模框架”，在IEEE多媒体与博览会国际会议论文集，页601-606，中国香港，2017年7月。视图:出版商的网站|谷歌学者
S. E. Kahou, V. Michalski, K. Konda等人，“视频中情绪识别的循环神经网络”，在ACM国际多式交互会议论文集，第467-474页，西雅图，华盛顿州，美国，2015年11月。视图:谷歌学者
范立强，刘云杰，“基于时空网络的视频情感识别”，2017，http://arxiv.org/abs/1704.00570．视图:谷歌学者
H. Zhang和M. Xu，“基于核化特征的用户生成视频中的情感识别”，IEEE多媒体汇刊，第20卷，no。10，页2824-2835,2018。视图:出版商的网站|谷歌学者
徐波，郑勇，叶宏等，“基于概念选择的视频运动识别”，在IEEE多媒体与博览会国际会议论文集2019年7月，中国上海，第406-411页。视图:谷歌学者
P. Ekman和W. V. Friesen，“面部和情绪在不同文化中的常量”，人格与社会心理学杂志，第17卷，no。2，第124-129页，1971。视图:出版商的网站|谷歌学者
S. Ren, K. He, R. Girshick等人，“更快的R-CNN:面向区域建议网络的实时目标检测”，在神经信息处理系统国际会议论文集，第91-99页，加拿大蒙特利尔，2015年12月。视图:出版商的网站|谷歌学者
杨世阳，罗平，陈c.l.，和唐欣，“更宽的脸:人脸检测基准”，在IEEE计算机视觉与模式识别会议论文集，页5525-5533,2016年6月，美国拉斯维加斯。视图:出版商的网站|谷歌学者
o.m. Parkhi, A. Vedaldi和A. Zisserman，“深度人脸识别”，见英国机器视觉会议论文集，第1-12页，英国斯旺西，2015年9月。视图:出版商的网站|谷歌学者
K. Simonyan和A. Zisserman，“用于大规模图像识别的非常深度卷积网络”，2014年，http://arxiv.org/abs/1409.1556．视图:谷歌学者
O. Russakovsky, J. Deng, H. Su等人，“ImageNet大规模视觉识别挑战，”国际计算机视觉杂志，第115卷，no。3，页211-252,2014。视图:出版商的网站|谷歌学者
F. Schroff, D. Kalenichenko和P. James，“Facenet:人脸识别和聚类的统一嵌入”，在IEEE计算机视觉与模式识别会议论文集，页815-823，波士顿，马萨诸塞州，美国，2015年6月。视图:出版商的网站|谷歌学者
许斌，傅永勇，杨永刚。Jiang, B. Li和L. Sigal，“视频情感识别、归因和总结中的异构知识转移”，IEEE情感计算汇刊，第9卷，no。2，页255-270,2018。视图:出版商的网站|谷歌学者

多媒体的进展