SIM 精读笔记

超长序列建模 —— SIM 精读笔记

文章链接：https://arxiv.org/pdf/2006.05639
机构：阿里
发布时间：2020
Copyright (c) Wang-Luning. All Rights Reserved.

SIM（Search-based Interest Model，2020）致力于建模超长的用户历史行为序列。其分为两个级连部分，首先从完整的长行为序列（>10000）中筛选出与当前候选目标相关的行为，去除序列中绝大部分噪声，然后再对筛选后的子行为序列（~100）进行深度学习建模，使用类似DIN的方法用attention模块来达成候选物品和历史物品的交互，最终抽象出来的表征用于预测CTR等指标。其参考了DIN中关于针对候选物品来选取序列中有用信息的思想，并设计了一种更高效的从用户行为序列中提取有用信息的方法。

具体而言，首先使用一个“通用搜索单元”（General Search Unit, GSU）来使用候选物品产生的query从原始的长行为序列中提取相关信息，从而过滤掉噪声，获得筛选后和候选物品强相关的子序列SBS（Sub user Behavior Sequence）。然后，使用“精确搜索单元”（Exact Search Unit, ESU）来建模候选物品和SBS之间的精确关系。

GSU模块：
$B=[b_1,b_2,\cdots,b_T]$ $b_i$ $i$ $r_i$ $B^*$ 。可以使用hard search或soft search这两种对于相关性分数的建模方式：
- Hard search：
  $r_{i} = S i g n (C_{i} = C_{a})$
  $C_i,C_a$ $b_i$ 和候选物品所属的类别。这种做法是无参数的，其对于线上服务比较友好。
- Soft search：
  $r_{i} = (W_{b} e_{i}) \cdot (W_{a} e_{a})^{T}$
  $b_t$ $\mathbf e_i$ $\mathbf E=[\mathbf e_1,\cdots,\mathbf e_T]$ $\mathbf e_a$ $W_b,W_a$ 对二者变换后求内积即可得到各个历史物品和候选物品之间的关联度分数。
  这里的计算是一个MIPS（Maximum Inner Product Search）问题，给定候选物品向量（的变换结果），想要快速找到和它内积最大的那些历史物品向量，也即用内积表示相关性。它和最近邻搜索有相似之处，如果所有向量模长相等则等价于最近邻搜索。可以使用ALSH等方法高效搜索。
  $\mathbf U_r=\sum_{i=1}^T r_i\mathbf e_i$ $\mathbf e_a$ 连接后送入一个MLP来预测CTR。
ESU模块：
$B^*$ 后，进一步将其输入一个基于attention的模型来建模。
$\mathbf D=[\Delta_1,\cdots,\Delta_K]$ $B^*$ $\mathbf D$ $\mathbf E=[\mathbf e_1^*,\cdots,\mathbf e_K^*]$ $\mathbf E_t=[\mathbf e_1^t,\cdots,\mathbf e_K^t]$ $\mathbf e_j^*,\mathbf e_j^t$ $\mathbf z_j=\text{concat}(\mathbf e_j^*,\mathbf e_j^t)$ 。
然后再使用多头attention模块来捕捉候选物品和每个历史行为之间的注意力分数：
$\begin{matrix} {att}_{s c o r e}^{i} = softmax (W_{a i} e_{a} \cdot W_{b i} z_{b}) \\ {head}_{i} = {att}_{s c o r e}^{i} z_{b} \end{matrix}$
$\mathbf e_a$ 作为query，将SBS序列中的物品当做key, value $\text{softmax}(QK^T)V$ $i$ $\mathbf{head}_i$ $\mathbf U_{lt}=\text{concat}(\mathbf{head}_1,\cdots,\mathbf{head}_q)$ ，并将其送入MLP做CTR预测。
可见，其思路本质和DIN一致，使用候选物品对于历史序列中的相关物品做完attention后得到它和历史兴趣的相关性，抽象出来的用户历史表征即可拿来预测CTR。这种做法也被称为target attention。

GSU和ESU模块最终会在CELoss下进行联合训练（若采用hard search则去掉GSU项）：

L = α L_{G S U} + β L_{E S U}