SASREC 精读笔记

生成式召回的早期尝试 —— SASREC 精读笔记

文章链接：https://arxiv.org/pdf/1808.09781
机构：UCSD
发布时间：2018
Copyright (c) Wang-Luning. All Rights Reserved.

SASRec（Self-Attentive Sequential Recommendation，2018）利用Transformer来高效地捕捉完整历史序列中的重要依赖信息。其将用户行为序列视为一个句子来处理，自动学习序列中每个物品与序列中其他物品的相关性，然后基于这些相关性预测用户下一个可能交互的物品。

$\bold M\in\mathcal R^{|\mathcal I|\times d}$ $S^u$ $\bold M_{s_i}$ $s_i$ $n$ $n$ $\bold E\in\mathbb R^{n\times d}$ $\bold E_i=\bold M_{s_i}$ $\bold P\in\mathcal R^{n\times d}$ $\bold{\hat E}$ ：

\begin{array}{r} \hat{E} = [\begin{array}{c} M_{s_{1}} + P_{1} \\ M_{s_{2}} + P_{2} \\ \dots \\ M_{s_{n}} + P_{n} \end{array}] \end{array}

$t$ $\bold F_t$ $t$ $\bold F_t$ $i$ $\bold M_i$ 的内积（这里复用了输入侧的embedding）：

r_{i, t} = F_{t} M_{i}^{T}

$o_t$ $t$ $\bold F_t$ $r_{o_t,t}$ $r_{j,t}$ $S^u$ 每个位置的loss并将它们进行累加得到总loss：

L = - \sum_{S^{u} \in S} \sum_{t \in [1, 2, \dots, n]} [\log (σ (r_{o_{t}, t})) + \sum_{j \notin S^{u}} \log (1 - σ (r_{j, t}))]

$\bold F_t$ $r_{u,i,t}=(\bold U_u+\bold F_t)\bold M_i^T$ ，从而显式地引入用户本身的信息，但实验发现效果并没带来提升，可能是因为模型已经考虑了用户所有的行为，不再需要用户本身的额外信息。

综上可见，SASRec本质上是把Transformer当做了一个序列建模工具，相当于双塔模型中的用户塔，通过建模用户的历史行为序列，来抽象出表征用户兴趣的向量，而做召回时仍然使用的ANN策略，使用用户向量和物品向量做匹配。如果要从生成式的视角来看的话，也可以看做模型生成的是“下一个物品的表征向量”（因为学习目标就是让生成的向量和ground truth物品向量尽可能相似），因此这么看的话勉强也可以称作“生成式召回”，但这和后边TIGER那种真的直接生成下一个物品的SID的范式是不同的，因为无论如何它还是需要传统的ANN来召回物品。