admin 管理员组文章数量: 887032
快手
一、背景
用户和物品产生交互,不光源于用户的兴趣,还可能是因为从众。如果直接通过历史交互序列对用户兴趣进行建模, 所得到的特征向量中用户的兴趣和从众纠缠在一起,对于训练集和测试集中数据不同分布(none-iid)的情况,模型的性能会非常差,以下图为例(源自DICE-2021):
如果用图中的数据去预测图片形状,因为在训练集中的数据存在一定特性(正方形:蓝色,体积大;三角形:绿色、体积小;圆:橘色、体积中等),那么模型可能“偷懒”,只学习颜色和体积特征属性,显然在测试集上的效果非常差。只有从外形,颜色,大小,三个角度分开建模的模型才能取得好的效果。本文提出的就是这样一种对特征进行解耦的方法,所谓解耦就是对历史交互进行建模,得到多个特征向量,每个向量只建模一种属性,使得向量更存粹。
二、贡献
- 我们提出了一个通用框架,通过直接基于观测数据的对比学习来学习解纠缠的因果嵌入。样本增广为不同原因和长尾物品提供了充足样本,这可以有效的处理数据稀疏性问题,此外该框架可以应用于任何基础模型中。
- 在两个真实数据集上做了大量实验,结果证明我们提出的DCCL模型相较于SOTA性能上有了很大的提升。
三、方法
3.1 因果图
用户与物品产生交互的原因有很多,这里只关注两个主要的:兴趣和从众。解耦表征主要有以下优势:一,从交互生成的角度出发,针对不同的原因准确地模拟用户的个性化偏好。二、因果建模可以得到更鲁棒的模型,具有更强的泛化能力。
3.2 对比学习
符号解释:
, :解耦后的用户的兴趣嵌入和从众嵌入。
,:解耦后的物品的内容特征嵌入和流行度特征嵌入。
本文认为用户u的交互项均为正样本,其他用户的交互项为负样本,故可组成正对:, 负对:,其中为正样本i的内容特征嵌入,其他符号类似,不再一一说明。
we regard the interacted items of user 𝑢 are all positive samples and the items from other users are regarded as negative samples for user 𝑢。
论文运用BPR作为损失,训练两个embedding向量,增大正对之间的点积,缩小负对之间的点积(感兴趣程度)。
1、u对i的兴趣向量对比损失:
2、 u对i的从众向量对比损失:
总损失:
注意:需选取流行度比正样本流行度低的作为负样本。原因可自己分析一下很好理解。
:物品i的流行度。与用户交互的次数 / 所有物品交互的总次数。引入流行度,建立特征向量和流行度之间关系。
本文标签: 快手
版权声明:本文标题:快手 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/free/1698933748h319712.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论