tmp

TIGER

文章链接：https://arxiv.org/pdf/2305.05065
机构：Google
发布时间：2023
Copyright (c) Wang-Luning. All Rights Reserved.

在传统推荐系统中，物品通常只使用孤立的、无语义的ID来表示，但这样缺乏物品本身的语义信息，使得模型难以直接理解物品间的内在联系（例如两个不同型号的运动鞋本质上高度相似），只能通过用户历史序列中海量的共现数据间接学习，效率低下。另外，在冷启动中模型难以推荐训练集中没出现过的物品，因为学习时词汇表里根本就没有这些新物品的ID。

TIGER（Transformer Index for GEnerative Recommenders, 2023）试图改进物品的表示方式，其将每个物品都表示为由一组code（码字）表示的Semantic ID（SID），从而能够涵盖物品内在的语义信息。这样即使某新商品未在训练中见过，也能够基于其语义特征进行合理的推荐。通过引入语义ID，模型不仅能够在相似物品间共享知识，还能用更紧凑的方式表示庞大的物品库。用户历史交互商品生成的码字序列可以进一步输入到天然适应离散输入的transformer中，然后自回归地直接预测下一个物品的SID，然后通过查表来找到其对应的物品即可。

这打破了双塔召回中使用user query向量通过ANN检索最相似的物品向量的范式，实现了在推理时直接端到端预测下一个召回目标。本质上，TIGER将transformer参数本身当成了用于召回的索引，而不是显式地构建一个ANN索引来储存所有物品向量。

例如下图中，用户历史中的两个鞋子的SID分别为(5, 23, 55), (5, 25, 78)，将它们拼起来(5,23,55,5,25,78)输入到transformer后，依次预测输出5,25,55，也即预测下一个商品的SID为(5,25,55)，查表可得其对应ID为64的那个商品，则可以将其返回作为下一个推荐结果。

$\bold x$ ，然后将其输入RQ-VAE来构建SID：

相比于VQ-VAE只使用一个code来表示输入在latent space中的信息，RQ-VAE通过逐层残差量化来为输入生成一系列细粒度、层次化的code，使得一个输入在latent space中的信息被编码为一组多个层次化的code，从而在不需要维护一个巨大codebook的情况下，指数级扩展表示能力（每一层提供一个code，多层的code排列组合可以形成极其丰富的表示，同时每层只需维护一个不算太大的codebook）。

$\bold z$ $\bold r_0=\bold z$ $m$ $d\in\{0,1,\cdots,m-1\}$ $\mathcal C_d$ $d$ $\bold r_d$ $c_d$ ：

c_{d} = \arg min_{k} | | r_{d} - e_{k} | |^{2}, e_{k} \in C_{d}

$\bold r_d$ $\bold e_{c_d}$ 之间的差距，并将其作为下一层的输入残差：

r_{d + 1} = r_{d} - e_{c_{d}}

$c_d$ $m$ $(c_0,c_1,\cdots,c_{m-1})$ $(7,1,4)$

也即，第一层是寻找和输入latent表征最近的code，第二层是寻找和第一层残差最近的code，第三层是寻找离第二层的残差（第一层的残差的残差）最近的code......
实践中输入embedding维数为768，RQ-VAE中选取了3层codebook，每层的codebook大小都是256，每个code的维数都是32。

$\hat{\bold z}=\sum_{d=0}^{m-1}\bold e_{c_i}$ $\bold x$ 。其loss函数和VQ-VAE基本一致，也是由重建损失和量化损失构成，其中量化损失为所有中间层的量化损失之和：

\begin{aligned} L & = L_{r e c o n} + L_{r q v a e} \\ = | | x - \hat{x} | |^{2} + \sum_{d = 0}^{m - 1} (| | s g [r_{i}] - e_{c_{i}} | |^{2} + β | | r_{i} - s g [e_{c_{i}}] | |^{2}) \end{aligned}

训好后的模型encoder+quantizer即可为每个物品生成SID，然后构造item-SID和SID-item查找表，以便推理时将预测出来的下一个SID映射回其对应的物品。

$(c_0,c_1,\cdots,c_{m-1})$ $n$ 物品的SID后，将它们连接起来形成一个长序列作为transformer的输入（实际上输入的是这些SID对应的那些code向量）：

\begin{matrix} ((c_{1, 0}, . . ., c_{1, m - 1}), (c_{2, 0}, . . ., c_{2, m - 1}), . . ., (c_{n, 0}, . . ., c_{n, m - 1})) \\ ⇓ \\ (c_{1, 0}, . . ., c_{1, m - 1}, c_{2, 0}, . . ., c_{2, m - 1}, . . ., c_{n, 0}, . . ., c_{n, m - 1}) \end{matrix}

$(c_{n+1,0},\cdots, c_{n+1,m-1})$

预测出来SID后，通过查找表来找到对应的item返回，作为召回结果。

其他细节：

$(12,24,52,0)$ $(12,24,52,1)$
为了避免码本坍塌（绝大多数输入被映射成相同的几个SID，使得码本使用率极不均衡），对codebook使用基于KMeans的初始化。
$\{\bold z(\bold x_i)\}_i$ $K$ $K$ 个聚类中心，用这些聚类中心当作第一层codebook中每个code的初始值。第二层的codebook初始化也即使用第一层的残差（实际上也即latent向量和第一层最近聚类中心的距离）再做KMeans，依次类推初始化所有层。这样可以让codebook在训练一开始就已经覆盖了latent space的分布特点，使得其能有效覆盖空间，不会因为随机初始化导致很多code因为用不到而collapse。
如果下一个生成的SID未对应查找表中任何一个物品，则可以使用某些策略找到最接近的item
除了SID tokens之外，还设置了2000个user-specific tokens，使用hashing trick将原始user id映射到这2000个之一，并将这个user token放在输入的SID序列之前，从而提高模型的个性化推荐能力。