投稿问答最小化  关闭

万维书刊APP下载

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

2022/11/7 13:49:47  阅读:139 发布者:

以下文章来源于阿里巴巴文娱技术 ,作者阿里巴巴文娱技术

本文内容出自阿里文娱AI大脑北斗星团队,研究成果已发表在ACMMM 2022

论文名:Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis

作者:张杰、赵寅、钱凯

背景

三流的导演拍故事,一流的导演拍情绪。纵观古往今外,经典的高分电影之所以经久不衰,无一不是因为引发了观众心理上的共情。尤其是在快节奏、高压力的现代生活中,观众观看影视剧的主要目的就是为了寻求情感上的满足与释放。因此,综合视听语言等因素,搭建一条合适的“情感线”是电影成功的关键。那么,如果我们可以在电影上线之前,提前预测电影对于观众的情感效应,刻画出这条“情感线”,对于电影的评估定级、剪辑优化等方面无疑有着巨大的帮助。为此,我们展开了电影情感效应预测方面的研究工作。

简介

电影情感效应分析旨在预测观众在观看电影时所产生的情感,其在电影内容理解、高潮检测、质量评估、情感多媒体检索等方面有着重要的应用。在情感计算领域,情感的标签可以分为两种:1是离散的情感标签,如开心、伤心等等;2是连续的情感模型,如使用最多的二维VA情感模型(如图1所示),其中Valence代表的是情感的正负,Arousal代表的是情感的强度,两者的取值均在-11之间。相比于离散的标签,连续的情感模型可以更细致全面地描述情感的各个维度,在学术界和工业界有着更加广泛的应用。因此,我们采用了VA情感模型,主要目标就是根据影视剧的内容,预测观众的VA情感。

1 VA情感模型

要正确地预测观众的情感,上下文信息十分关键,同样的一段场景在不同的情景下可能会产生不同的情感效应,比如同样一段打斗的画面,在犯罪剧中是令人紧张的,在喜剧中则可能是幽默风趣的。因此,有效地建模上下文信息对于电影的情感效应预测至关重要。

为了建模上下文信息,最常用的经典模型可以分为两种:循环神经网络(如LSTM[1]等)和Transformer[2]。然而,在面对电影这种动辄几千秒的长序列时,这些时序模型存在着一定的缺陷:

a. 循环神经网络的记忆能力有限,难以建模长时依赖

b. 循环神经网络采用的BPTT的更新方式存在梯度消失和爆炸的问题,此外其需要存储大量的中间变量,不适用于特别长的序列

c. Transformer的计算量随着时序的增加呈平方级增加,同样不适用于特别长的序列

受限于常用时序模型的这些缺陷,目前大部分的方案都是将电影切分成小片段,然后独立地去预测每个片段的情感。然而这种方式忽略了片段之间的联系,无法建模长时序的上下文信息,对于正确理解电影内容、判断电影情感的整体走势有着一定的阻碍。

为了解决这些问题,我们提出了基于强化学习的记忆网络,其核心在于利用记忆模块存储历史信息,并利用强化学习得到记忆模块的更新策略。如图2所示,我们方法存在以下优势:

a. 通过记忆模块提升了模型的记忆能力

b. 利用强化学习的时序差分法,减小了计算量和存储量,避免了梯度消失和爆炸的问题

c. 利用强化学习中的价值网络和策略网络,有效捕捉长时序依赖

2 基于强化学习的记忆网络优势示意图

为了验证我们方法的有效性,我们在多种任务的多个数据集上进行了实验,结果均达到了SOTA

下面我们将对所提方案展开详细的介绍。

方案

模型的整体框架如图3所示:给定一个电影,我们将其划分成连续的片段,对于一个电影片段,我们提取多模态特征,并将这些特征编码成向量表征。然后向量表征和历史记忆信息组成状态输入到策略网络μ中去,产生一系列的动作,这些动作会用来选择性的更新记忆模块中的内容。然后基于更新后的记忆模块mt和向量表征,作出最终的预测。预测结果的误差会作为奖励,指导价值网络Q学习未来的期望奖励,价值网络则会用来指导策略网络学习长时序依赖。

3 模型整体框架

下面我们将对模型中的特征提取模块、基于强化学习的记忆网络部分、以及模型训练相关的内容进行详细的介绍。

特征提取

为了得到富含情感信息的表征,我们提取了5种模态的特征:利用VGGish[3]提取音频特征;利用背景音乐情感模型提取bgm情感特征;利用在Places365[4]上预训练的VGG16[5]提取场景特征;利用OpenPose[6]的主干部分提取人物姿态特征;利用在RAF[7]上预训练的Xception[8]提取人物表情特征。我们将这些模态的特征在时间维度上对齐并做concat操作,然后利用LSTM来融合时序信息,并取最后一个时间步的隐藏状态作为电影片段的向量表征。

K代表的是每个电影片段的帧数,M代表的是模态的总数, ∈ 代表的是提取的第m个模态的特征,[]代表的是concat操作,代表的是取LSTM最后一个时间步的隐藏状态。

基于强化学习

的记忆网络

基于特征提取部分得到的电影片段的向量表征,我们利用记忆模块和基于强化学习的更新策略来捕获长期依赖。

记忆模块

记忆模块是一个可读可写的矩阵∈,用来存储历史信息以增强模型的记忆能力,其中N代表的是记忆的个数,d代表的是记忆的维度。在电影的起始时刻,记忆模块的内容会被初始化为可学习的变量,随着电影的进行,记忆模块中的内容会在更新策略的控制下逐步更新。

为了利用更新后的记忆模块得到最终的预测结果,在时刻t,我们计算得到片段表征和更新后记忆模块的每个记忆之间的相似度,并利用这个相似度对记忆模块的内容进行加权求和,然后在经过一个全连接层得到最终的预测结果。

其中, (n)代表的是第n个记忆的权重,=softmax(FC([,]))

θ

代表的是预测相关的参数。

基于强化学习的更新策略

不同于传统记忆网络中的写操作,我们设计了一个基于强化学习的更新策略来更新记忆模块的内容,以便在更新过程中可以更有效地考虑长时依赖性。由于我们设计的动作空间是连续的,我们采用了深度确定性策略梯度算法(DDPG[9]),其包含的基本元素如下:

状态

状态中需要包含决策所需要的全部信息,这里我们将电影片段的向量表征和记忆模块的历史信息定义为状态st={,}

动作和策略网络

参考NTM[10]中的写操作,我们将动作设计成了4部分={, , , }:∈代表的是每个记忆需要更新的程度;∈决定每个记忆中需要被遗弃的部分;∈代表的是新输入的内容;∈代表的是新内容中需要被保存的部分。基于这些动作,记忆模块的更新过程如下式所示:

其中1代表的是全1的矩阵。为了得到这些动作,我们设计了相应的策略网络=μ(

θ

μ

)

奖励和价值网络

因为我们的任务是回归任务,我们把奖励定义为=mae(,)。对于分类任务,可以采用预测与真值的对数似然作为奖励。为了预测未来的期望奖励,我们设计了相应的价值网络。不同于传统的动作价值网络,我们采用了后状态[11]价值网络Q()(如图4所示),其中后状态为={,}。与动作价值网络相比,后状态价值网络的输入空间大幅减小,训练效率更高更稳定。

4 价值网络结构

模型训练

为了保证模型训练的稳定性,我们针对性的设计了目标函数和探索策略。

目标函数

我们遵循DDPG的算法流程,迭代地更新价值网络和策略网络,价值网络的目标函数如下所示:

其中λ代表的是奖励衰减因子。由上式可知,价值网络Q的目标值+

λ

(,T(,μ()))的计算会用到价值网络本身,这会导致训练的不稳定性。因此,遵循DDPG中的方法,我们设计了目标价值网络Q′和目标策略网络μ′,他们的结构和对应的价值网络和策略网络一致,权重的更新采用的是滑动均值的方式:

θ

μ

=

τ

θ

μ

+(1−τ)

θ

μ

。由此,价值网络的最终目标值为:+λ_Q(,T(,μ′()))

原始的策略网络的目标函数为:

θ

μ

Q(,T(,μ())),为了同时更新策略网络部分和结果预测部分,我们对目标函数向前展开了一个时间步,最终的策略网络和预测部分的目标函数如下所示:

θ

μ

θ

(+λQ(,T(,μ())))在训练过程中,两个目标函数迭代的进行更新。

探索策略

为了进一步保证训练的稳定性,防止模型陷入到局部最优或者完全不收敛的窘境,我们针对动作设计了相应的探索策略,具体如下所示:

其中N(0,0.05)代表的是均值为0,方差为0.05的高斯噪声,clip(x,a,b)代表的是把x裁剪到[],代表的是标准化因子。

结果

SOTA对比

为了验证我们方法的有效性,我们在多种任务的多个数据集上展开了实验,比如电影情感预测任务的LIRIS-ACCEDE[11]数据集、音乐情感预测的PMemo[12]数据集、视频摘要的Tvsum[13]Summe[14]数据集,实验结果相比于SOTA方法均有大幅的提升。

1 LIRIS-ACCEDE数据集结果对比

2 PMemo数据集结果对比

3 TvsumSumme数据集结果对比

消融实验

记忆模块尺寸的影响

为了捕获长期依赖,足够的记忆容量至关重要。为此,我们针对记忆模块的尺寸展开了实验。如图5所示,随着记忆模块尺寸的增加,模型的效果逐步提升,当记忆容量增加到一定程度时,模型效果趋于稳定,甚至会由于过拟合而有所下降。在我们的实验中,在记忆模块的尺寸为10时,模型效果最好。

5 记忆模块尺寸实验结果

强化学习的有效性

为了验证强化学习的有效性,我们设计了2个基础方法进行对比实验:1)利用记忆网络,对每个电影片段独立的进行预测。2)利用TBPTT算法对记忆网络进行优化。如表4所示,基于强化学习的方法取得了最好的效果。

4 不同方法实验结果

记忆模块更新过程的可视化

我们对记忆模块的更新过程进行了可视化,具体如图6所示。图(a)的横轴为时间维度,纵轴代表不同的记忆位置,颜色的深浅代表记忆更新的程度。图(b)是图(a)中第7个记忆的更新程度同情感标签valence的对比曲线,可以证实记忆模块中存储的是情感相关的特征。

6 记忆模块更新过程

不同模态数据的重要性

我们针对不同的模态组合进行了实验,如表5所示,就单模态而言,视觉元素中的场景模态最为有效。综合所有模态可以保证情感信息的完备性,取得了最好的效果。

5 模态实验

实例分析

我们给出了模型在测试集的几部影片上的预测结果,如图7所示,可以看到,我们模型的预测结果不仅在局部的变化趋势上与真值接近,在全局的变化趋势上也与真值一致,这充分表明了我们的方法在建模长时信息方面的有效性。

7 模型在LIRIS-ACCEDE测试集上的预测结果

未来工作

在以后的工作中,我们期望展开以下的探索:1.尝试其他强化学习算法。2.从模态融合入手,设计更有效地模态融合策略。3.把我们的方法应用到其他任务上去,如动作检测等等。

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com