以下文章来源于阿里巴巴文娱技术 ,作者阿里巴巴文娱技术
本文内容出自阿里文娱AI大脑北斗星团队,研究成果已发表在ACMMM 2022
论文名:Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis
作者:张杰、赵寅、钱凯
背景
三流的导演拍故事,一流的导演拍情绪。纵观古往今外,经典的高分电影之所以经久不衰,无一不是因为引发了观众心理上的共情。尤其是在快节奏、高压力的现代生活中,观众观看影视剧的主要目的就是为了寻求情感上的满足与释放。因此,综合视听语言等因素,搭建一条合适的“情感线”是电影成功的关键。那么,如果我们可以在电影上线之前,提前预测电影对于观众的情感效应,刻画出这条“情感线”,对于电影的评估定级、剪辑优化等方面无疑有着巨大的帮助。为此,我们展开了电影情感效应预测方面的研究工作。
简介
电影情感效应分析旨在预测观众在观看电影时所产生的情感,其在电影内容理解、高潮检测、质量评估、情感多媒体检索等方面有着重要的应用。在情感计算领域,情感的标签可以分为两种:1是离散的情感标签,如开心、伤心等等;2是连续的情感模型,如使用最多的二维VA情感模型(如图1所示),其中Valence代表的是情感的正负,Arousal代表的是情感的强度,两者的取值均在-1到1之间。相比于离散的标签,连续的情感模型可以更细致全面地描述情感的各个维度,在学术界和工业界有着更加广泛的应用。因此,我们采用了VA情感模型,主要目标就是根据影视剧的内容,预测观众的VA情感。
图1 VA情感模型
要正确地预测观众的情感,上下文信息十分关键,同样的一段场景在不同的情景下可能会产生不同的情感效应,比如同样一段打斗的画面,在犯罪剧中是令人紧张的,在喜剧中则可能是幽默风趣的。因此,有效地建模上下文信息对于电影的情感效应预测至关重要。
为了建模上下文信息,最常用的经典模型可以分为两种:循环神经网络(如LSTM[1]等)和Transformer[2]。然而,在面对电影这种动辄几千秒的长序列时,这些时序模型存在着一定的缺陷:
a. 循环神经网络的记忆能力有限,难以建模长时依赖
b. 循环神经网络采用的BPTT的更新方式存在梯度消失和爆炸的问题,此外其需要存储大量的中间变量,不适用于特别长的序列
c. Transformer的计算量随着时序的增加呈平方级增加,同样不适用于特别长的序列
受限于常用时序模型的这些缺陷,目前大部分的方案都是将电影切分成小片段,然后独立地去预测每个片段的情感。然而这种方式忽略了片段之间的联系,无法建模长时序的上下文信息,对于正确理解电影内容、判断电影情感的整体走势有着一定的阻碍。
为了解决这些问题,我们提出了基于强化学习的记忆网络,其核心在于利用记忆模块存储历史信息,并利用强化学习得到记忆模块的更新策略。如图2所示,我们方法存在以下优势:
a. 通过记忆模块提升了模型的记忆能力
b. 利用强化学习的时序差分法,减小了计算量和存储量,避免了梯度消失和爆炸的问题
c. 利用强化学习中的价值网络和策略网络,有效捕捉长时序依赖
图2 基于强化学习的记忆网络优势示意图
为了验证我们方法的有效性,我们在多种任务的多个数据集上进行了实验,结果均达到了SOTA。
下面我们将对所提方案展开详细的介绍。
方案
模型的整体框架如图3所示:给定一个电影,我们将其划分成连续的片段,对于一个电影片段,我们提取多模态特征,并将这些特征编码成向量表征。然后向量表征和历史记忆信息组成状态输入到策略网络μ中去,产生一系列的动作,这些动作会用来选择性的更新记忆模块中的内容。然后基于更新后的记忆模块mt和向量表征,作出最终的预测。预测结果的误差会作为奖励,指导价值网络Q学习未来的期望奖励,价值网络则会用来指导策略网络学习长时序依赖。
图3 模型整体框架
下面我们将对模型中的特征提取模块、基于强化学习的记忆网络部分、以及模型训练相关的内容进行详细的介绍。
特征提取
为了得到富含情感信息的表征,我们提取了5种模态的特征:利用VGGish[3]提取音频特征;利用背景音乐情感模型提取bgm情感特征;利用在Places365[4]上预训练的VGG16[5]提取场景特征;利用OpenPose[6]的主干部分提取人物姿态特征;利用在RAF[7]上预训练的Xception[8]提取人物表情特征。我们将这些模态的特征在时间维度上对齐并做concat操作,然后利用LSTM来融合时序信息,并取最后一个时间步的隐藏状态作为电影片段的向量表征。
K代表的是每个电影片段的帧数,M代表的是模态的总数, ∈ 代表的是提取的第m个模态的特征,[⋯]代表的是concat操作,代表的是取LSTM最后一个时间步的隐藏状态。
基于强化学习
的记忆网络
基于特征提取部分得到的电影片段的向量表征,我们利用记忆模块和基于强化学习的更新策略来捕获长期依赖。
记忆模块
记忆模块是一个可读可写的矩阵∈,用来存储历史信息以增强模型的记忆能力,其中N代表的是记忆的个数,d代表的是记忆的维度。在电影的起始时刻,记忆模块的内容会被初始化为可学习的变量,随着电影的进行,记忆模块中的内容会在更新策略的控制下逐步更新。
为了利用更新后的记忆模块得到最终的预测结果,在时刻t,我们计算得到片段表征和更新后记忆模块的每个记忆之间的相似度,并利用这个相似度对记忆模块的内容进行加权求和,然后在经过一个全连接层得到最终的预测结果。
其中, (n)代表的是第n个记忆的权重,=softmax(FC([,])),
θ
代表的是预测相关的参数。
基于强化学习的更新策略
不同于传统记忆网络中的写操作,我们设计了一个基于强化学习的更新策略来更新记忆模块的内容,以便在更新过程中可以更有效地考虑长时依赖性。由于我们设计的动作空间是连续的,我们采用了深度确定性策略梯度算法(DDPG[9]),其包含的基本元素如下:
状态
状态中需要包含决策所需要的全部信息,这里我们将电影片段的向量表征和记忆模块的历史信息定义为状态st={,}
动作和策略网络
参考NTM[10]中的写操作,我们将动作设计成了4部分={, , , }:∈代表的是每个记忆需要更新的程度;∈决定每个记忆中需要被遗弃的部分;∈代表的是新输入的内容;∈代表的是新内容中需要被保存的部分。基于这些动作,记忆模块的更新过程如下式所示:
其中1代表的是全1的矩阵。为了得到这些动作,我们设计了相应的策略网络=μ(∣
θ
μ
)
奖励和价值网络
因为我们的任务是回归任务,我们把奖励定义为=−mae(,)。对于分类任务,可以采用预测与真值的对数似然作为奖励。为了预测未来的期望奖励,我们设计了相应的价值网络。不同于传统的动作价值网络,我们采用了后状态[11]价值网络Q()(如图4所示),其中后状态为={,}。与动作价值网络相比,后状态价值网络的输入空间大幅减小,训练效率更高更稳定。
图4 价值网络结构
模型训练
为了保证模型训练的稳定性,我们针对性的设计了目标函数和探索策略。
目标函数
我们遵循DDPG的算法流程,迭代地更新价值网络和策略网络,价值网络的目标函数如下所示:
其中λ代表的是奖励衰减因子。由上式可知,价值网络Q的目标值+
λ
(,T(,μ()))的计算会用到价值网络本身,这会导致训练的不稳定性。因此,遵循DDPG中的方法,我们设计了目标价值网络Q′和目标策略网络μ′,他们的结构和对应的价值网络和策略网络一致,权重的更新采用的是滑动均值的方式:
θ
μ
=
τ
θ
μ
+(1−τ)
θ
μ
。由此,价值网络的最终目标值为:+λ_Q′(,T(,μ′()))。
原始的策略网络的目标函数为:
θ
μ
Q(,T(,μ())),为了同时更新策略网络部分和结果预测部分,我们对目标函数向前展开了一个时间步,最终的策略网络和预测部分的目标函数如下所示:
θ
μ
θ
(+λQ(,T(,μ())))在训练过程中,两个目标函数迭代的进行更新。
探索策略
为了进一步保证训练的稳定性,防止模型陷入到局部最优或者完全不收敛的窘境,我们针对动作设计了相应的探索策略,具体如下所示:
其中N(0,0.05)代表的是均值为0,方差为0.05的高斯噪声,clip(x,a,b)代表的是把x裁剪到[],代表的是标准化因子。
结果
SOTA对比
为了验证我们方法的有效性,我们在多种任务的多个数据集上展开了实验,比如电影情感预测任务的LIRIS-ACCEDE[11]数据集、音乐情感预测的PMemo[12]数据集、视频摘要的Tvsum[13]和Summe[14]数据集,实验结果相比于SOTA方法均有大幅的提升。
表1 LIRIS-ACCEDE数据集结果对比
表2 PMemo数据集结果对比
表3 Tvsum和Summe数据集结果对比
消融实验
记忆模块尺寸的影响
为了捕获长期依赖,足够的记忆容量至关重要。为此,我们针对记忆模块的尺寸展开了实验。如图5所示,随着记忆模块尺寸的增加,模型的效果逐步提升,当记忆容量增加到一定程度时,模型效果趋于稳定,甚至会由于过拟合而有所下降。在我们的实验中,在记忆模块的尺寸为10时,模型效果最好。
图5 记忆模块尺寸实验结果
强化学习的有效性
为了验证强化学习的有效性,我们设计了2个基础方法进行对比实验:1)利用记忆网络,对每个电影片段独立的进行预测。2)利用TBPTT算法对记忆网络进行优化。如表4所示,基于强化学习的方法取得了最好的效果。
表4 不同方法实验结果
记忆模块更新过程的可视化
我们对记忆模块的更新过程进行了可视化,具体如图6所示。图(a)的横轴为时间维度,纵轴代表不同的记忆位置,颜色的深浅代表记忆更新的程度。图(b)是图(a)中第7个记忆的更新程度同情感标签valence的对比曲线,可以证实记忆模块中存储的是情感相关的特征。
图6 记忆模块更新过程
不同模态数据的重要性
我们针对不同的模态组合进行了实验,如表5所示,就单模态而言,视觉元素中的场景模态最为有效。综合所有模态可以保证情感信息的完备性,取得了最好的效果。
表5 模态实验
实例分析
我们给出了模型在测试集的几部影片上的预测结果,如图7所示,可以看到,我们模型的预测结果不仅在局部的变化趋势上与真值接近,在全局的变化趋势上也与真值一致,这充分表明了我们的方法在建模长时信息方面的有效性。
图7 模型在LIRIS-ACCEDE测试集上的预测结果
未来工作
在以后的工作中,我们期望展开以下的探索:1.尝试其他强化学习算法。2.从模态融合入手,设计更有效地模态融合策略。3.把我们的方法应用到其他任务上去,如动作检测等等。
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!