以下文章来源于北邮 GAMMA Lab ,作者钱浩
题目: FwSeqBlock: 一种在序列建模中增强行为表征的方法
会议: CIKM 2022
论文解读者:钱浩
1 背景
在推荐系统中,对用户兴趣表征的建模已经成为极为关键的环节。在当前的主流工作中,用户兴趣表征(user interest representation)的获取主要是通过对用户历史行为表征(user behavior representation)聚合(aggregation)而得到的[DIN, DIEN, CAN, Bert4Rec, CSAN]。相较于聚合方法这一类的研究,本文重点研究了如何获得高质量用户历史行为表征,从而更好地增益后续的聚合过程产出准确地用户兴趣表征。
在本文中,我们提出了用户行为表征的计算模块FwSeqBlock,该模块利用field memory unit设计引入了用户历史行为表征与待推荐目标item表征间的乘法运算。根据待推荐item表征的不同,这样的设计能够动态地从用户历史行为序列中识别关键特征并且滤除不相关的噪声特征。实验表明,FwSeqBlock能够在item特征数量持续增加的情况下获得稳定的指标增益。同时FwSeqBlock具有可插拔的特点,能够无负担地与目前主流SOTA序列推荐模型结合并且获得正向的指标增益。
2 算法方案
问题定义
首先令表示用户画像,表示待推荐商品特征。其次,用户的历史反馈行为(如:点击)按照发生的时间正向排序后记作 = [,..,,..,],其中L为最大的用户行为序列长度。本文研究的建模目标为学习一个预估函数对候选集中待推荐商品进行打分排序,为模型结构中的可训练参数。本文优化以下Logloss损失函数,同时通过增加L2正则项稳定训练过程:
其中表示所有训练样本集合, 为控制正则项强度的超参数。
模型结构
图1. FwSeqBlock模型结构图
输入层
输入层定义了输入特征和Embedding过程。如问题定义中所述,输入特征分别由用户画像,商品特征与用户历史反馈行为特征构成。为了有效的存储和计算,稀疏的 one-hot 编码输入特征通过嵌入过程投影到低维密集表示中,如下所示:
其中, , 分别是用户画像,商品特征与用户第l个历史行为的低维投影表征。需要注意的是,在输入层中商品特征与历史行为共享相同的参数。
FwSeqBlock
在当前工业界的序列建模应用中,对于用户历史行为表征的聚合主要采用pooling或者shallow transformation方法。本研究认为以上方案并不能很好的建模行为表征中不同细粒度特征间的关系(如购买品牌与购买时间),从而导致最终的用户兴趣表征的质量较为平庸。以非参数的pooling方法为例,对有限长度的历史行为序列做sum pooling容易持续引入不相关的噪声历史表征,而mean pooling则容易过度平滑关键的历史行为,均会导致最终的用户兴趣表征质量下降。
为了解决以上问题,FwSeqBlock提出利用参数化的field memory矩阵来显式的刻画不同细粒度特征之间的重要性。具体地讲,首先我们将商品特征与历史行为表征表示成以下field-wise形式:
其中维度,为自定义超参数。为了捕捉用户历史行为与待推荐商品特征之间的交互,我们引入field memory矩阵显式地学习不同field间的联系,其计算过程如下:
其中为element-wise product。在学习过程中,field memory矩阵可以认为是一个全局kernel,根据待推荐商品表征的不同,可以学习并记录用户历史行为表征中关键的模式。在预测推理时,则将待推荐商品的表征转化为关键模式的indicator function,使其能够soft-select用户历史行为表征中相关的关键特征。最终,给定待推荐商品表征,能够较好地刻画行为表征中每个field的重要性。
接着,我们引入field-wise attention机制动态地聚合单个用户历史行为中重要的表征:
其中是可训练的投影矩阵,是非线性激活函数softmax。在上述attention计算中,筛选出重要性强的field并且能够减弱不相关field对最终用户行为表征的贡献。同时,计算中的element-wise product引入了multiplicative计算,能够较为有效地刻画field特征之间复杂的交互表征。
最后,我们借鉴了Skip Connection和Layer Normalization的方法,目标是使训练过程更加顺畅同时避免过拟合的风险,计算如下:
在计算获得后,我们将其维度重新转换至,以便后续的序列操作。
经过以上讨论,FwSeqBlock聚焦于用户历史行为表征的生成中,具有可插拔的特点,因此可以很方便的与目前SOTA序列建模模型相结合。
3 实验结果
在本节中,我们在Alibaba和Taobao的公开数据集和我们的业务数据上测试增加FwSeqBlock相对于基准SOTA方法的效果。Alibaba和Taobao数据集中,每个用户行为中分别有6个和7个特征(如:ID,类别,品牌等)。我们的业务数据中,存在17个特征包括了ID,品牌,行为发生时的城市、时间、温度等时空相关的环境特征。最终的评价指标上,我们选择了AUC与Logloss。
整体效果
如下表所示,在基准方法中增加FwSeqBlock模块后,所有方法均能获得一致的指标提升。具体指标上,在Taobao数据集(6个特征)中,FwSeqBlock能够带来0.49%~0.94%的AUC增益;在业务数据(17个特征)中,FwSeqBlock能够获得更加显著的离线指标AUC增益。我们认为这样的实验结果能够充分证明FwSeqBlock在用户历史行为表征建模中的有效性。
相比GRU4Rec、Caser、DIN、Bert4Rec这样专注于聚合用户行为表征的序列建模方法,在增加FwSeqBlock后AUC指标提升在0.49~1.69%。因此,我们认为在聚合方法的研究之外,关注行为表征的质量也非常关键。
相比CSAN,CAN这样上线文信息相关的模型,FwSeqBlock的引入仍可以带来一定的提升,证明了对用户历史行为做field-wise建模的有效性。
表1. 模型整体实验效果表
消融实验
在消融实验中,我们在业务数据中着重测试了FwSeqBlock在历史行为表征生成时的性能。实验中,我们的对比方法选型分别为:
Mean pooling (CSAN)
Sum pooling (CSAN)
Concatenation (Bert4Rec, DIN, DIEN)
Co-Action (CAN)
实验方案上,我们向不同的对比选型中逐一增加待推荐商品与历史行为的特征(从单独的ID到17个全部特征)。结果如下图所示,可以看到FwSeqBlock的性能一致地超越了所有的对比方法:
随着特征数量的不断增加FwSeqBlock的效果能够稳定地正向增长,其他的对比方案则容易受到噪声的干扰或难以捕捉关键的特征,导致最终用户行为表征恶化。
如模型结构中讨论,非参数化的sum pooling引入的噪声使得其表现非常不稳定,同时mean pooling也难以处理数量不断增加的特征,导致其表现始终落后FwSeqBlock方法。
Concatenation方法本质上additive的,过往的许多研究已经证明additive方法较难捕捉高阶的特征交互。相反,FwSeqBlock引入了multiplicative方法,使得其相比于concat方法能够取得更显著的信息增益。
Co-Action方法尽管能够在特征不断增加中获得一致性的提升,但是其效果仍然逊色与FwSeqBlock方法。可能的原因在于co-action embedding强调通过记忆不同的特征组合,而FwSeqBlock则强调通过参数矩阵对特征交互关系进行泛化。
图2. 消融实验效果图
我们在下图中将参数矩阵的数值进行了可视化,其中越明亮的方块代表数值越大,即不同特征之间的相关性越高。简单观察,我们可以看到类别特征与时间特征更加相关,相反其与空间相关的特征表现相对独立。我们可以认为参数矩阵的学习确实能够动态地分辨不同上下文特征对用户历史行为表征的贡献,最终产出更高准确性的用户兴趣表征,总而增益下游的预估任务。
图3. 参数可视化图
线上A/B实验
我们在2021/7~2021/8部署了Bert4Rec with FwSeqBlock实验,相比基线单独的Bert4Rec模型,增加FwSeqBlock后线上PV点击率相对提升4.46%并全量部署。
4 总结
在这项工作中,我们提出了FwSeqBlock模块,用于在序列推荐建模中能够更准确地生成用户历史行为表征。我们通过实验验证了FwSeqBlock能够在商品与历史行为特征持续增加中获得一致性的提升,同时FwSeqBlock模块在加入SOTA序列推荐模型后能取得良好的应用效果。
5 引用
[1] Qingyao Ai, Keping Bi, Jiafeng Guo, and W. Bruce Croft. 2018. Learning a Deep Listwise Context Model for Ranking Refinement. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2018). [1] Lei Jimmy Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. 2016. Layer Normaliza- tion. CoRR abs/1607.06450 (2016). arXiv:1607.06450
[2] Alex Beutel,Paul Covington,Sagar Jain,Can Xu,Jia Li,Vince Gatto, and Ed H. Chi. 2018. Latent Cross: Making Use of Context in Recurrent Recommender Systems. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (Marina Del Rey, CA, USA) (WSDM ’18). Association for Computing Machinery, New York, NY, USA, 46–54.
[3] Qiwei Chen, Huan Zhao, Wei Li, Pipei Huang, and Wenwu Ou. 2019. Behavior Sequence Transformer for E-Commerce Recommendation in Alibaba. , Article 12 (2019), 4 pages
[4] Junyoung Chung, Caglar Gulcehre, Kyung Hyun Cho, and Yoshua Bengio.2014. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv:1412.3555 (2014).
[5] Tom Fawcett. 2006. An introduction to ROC analysis. Pattern Recognition Letters 27, 8 (2006), 861–874.
[6] Yufei Feng, Fuyu Lv, Weichen Shen, Menghan Wang, Fei Sun, Yu Zhu, and Keping Yang. 2019. Deep Session Interest Network for Click-through Rate Prediction. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (Macao, China) (IJCAI’19). AAAI Press, 2301–2307.
[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In 2016 IEEE Conference on Computer Vision and PatternRecognition(CVPR).770–778.
[8] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, and Domonkos Tikk. Session-based Recommendations with Recurrent Neural Networks. arXiv:1511.06939 (2016).
[9] Xiaowen Huang, Shengsheng Qian, Quan Fang, Jitao Sang, and Changsheng Xu. 2018. CSAN: Contextual Self-Attention Network for User Sequential Recommen- dation. In Proceedings of the 26th ACM International Conference on Multimedia (MM ’18). 447–455.
[10] Qi Pi, Weijie Bian, Guorui Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD 2019, Anchorage, AK, USA, August 4-8, 2019, Ankur Teredesai, Vipin Kumar, Ying Li, Rómer Rosales, Evimaria Terzi, and George Karypis(Eds.).ACM,2671–2679.
[11] Qi Pi, Guorui Zhou, Yujing Zhang, Zhe Wang, Lejian Ren,Ying Fan, Xiaoqiang Zhu, and Kun Gai. 2020. Search-Based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction. In Proceedings of the 29th ACM International Conference on Information Knowledge Management (Virtual Event, Ireland) (CIKM ’20). Association for Computing Machinery, New York, NY, USA, 2685–2692.
[12] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2014. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. J. Mach. Learn. Res. 15, 1, 1929–1958.
[13] Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, and Peng Jiang. 2019. BERT4Rec: Sequential Recommendation with Bidirectional En- coder Representations from Transformer. In Proceedings of the 28th ACM In- ternational Conference on Information and Knowledge Management (CIKM ’19). Association for Computing Machinery, New York, NY, USA, 1441–1450.
[14] Jiaxi Tang and Ke Wang. 2018. Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM ’18). 565–573.
[15] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. [n. d.]. Attention is All you Need. In Advances in Neural Information Processing Systems. Curran Associates, Inc.
[16] Kai Zhang, Hao Qian, Qing Cui, Qi Liu, Longfei Li, Jun Zhou, Jianhui Ma, and Enhong Chen. 2021. Multi-Interactive Attention Network for Fine-Grained Feature Learning in CTR Prediction. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining (Virtual Event, Israel) (WSDM ’21). Association for Computing Machinery, New York, NY, USA, 984–992.
[17] Guorui Zhou, Weijie Bian, Kailun Wu, Lejian Ren, Qi Pi, Yujing Zhang, Can Xiao, Xiang-Rong Sheng, Na Mou, Xinchen Luo, Chi Zhang, Xianjie Qiao, Shiming Xiang, Kun Gai, Xiaoqiang Zhu, and Jian Xu. 2020. CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction. arXiv: 2011.05625 (2020).
[18] Guorui Zhou, Na Mou,Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep Interest Evolution Network for Click-Through Rate Prediction. Proceedings of the AAAI Conference on Artificial Intelligence 33, 01, 5941–5948.
[19] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu,XiaoMa,Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep Interest Network for Click- Through Rate Prediction. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery Data Mining (London, United Kingdom) (KDD ’18). Association for Computing Machinery, New York, NY, USA, 1059–1068.
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!