GenRank 精读笔记

生成式排序 —— 小红书 GenRank 精读笔记

文章链接：https://arxiv.org/pdf/2505.04180
机构：小红书
发布时间：2025.05
Copyright (c) Wang-Luning. All Rights Reserved.

GenRank致力于实现高效训练与推理的生成式排序架构，其参考了HSTU中ranking部分的范式，关键创新点包括动作导向的序列组织方法（专注于预测每个位置上的动作）和位置与时间的新编码策略。

具体而言，小红书短视频场景下存在3种特征：

类别特征：user id、item id、用户历史行为、tags等
数值特征：用户年龄、物品发布时间、作者粉丝数量等
冻结的embeddings：视频多模态embedding、基于图的作者embedding等

将数值特征通过设置一些阈值界限来离散化为类别特征，然后所有类别特征再被编码为低维embeddings。视频内容多模态embedding等由预训练模型提供，它们作为附加信息来提供一些先验知识。每个用户的历史序列长度不超过480。

针对生成式范式可能带来收益点的机制，文章通过实验证明：HSTU中计算loss时针对序列中action位置的mask，以及auto regressive的attn mask，都对于模型表现具有明显正向影响。另外，文章证明训练样本的组织形式（point-wise地把每个曝光都当成一个独立的训练样本or把连续的几次内容相似的曝光打包成一个训练样本使得特征更稳定）对于生成式范式的有效性影响不大，主要收益还是来源于模型架构。

在传统的序列建模中通常是“item-oriented”的，也即序列中罗列的是用户历史交互过的物品，而没有对于用户对于这些物品的action的感知。HSTU是首个把action作为一种新模态的token加入到序列中的，其把items和actions交错地放入一个序列中，从而能够让模型预测下一个item（用于召回）或下一个action（用于排序），如下左图所示：

然而，HSTU这种将item和action交错放入一个序列的做法会使得序列长度翻倍，导致带来巨大的计算开销。因此，鉴于本文关心的是排序部分，也即预测下一个action，GenRank不再把item和action交叠形成一个序列，而是把items当成一种辅助的位置信息，构建一个纯由actions组成的序列，学习预测和每个item关联的action，也即“action-oriented”的组织形式。这样可以在输入历史信息一致的情况下比HSTU的输入序列长度减半，大幅提升计算效率。

$x_1,\cdots,x_N$ $x_i$ $a_i$ $a_1,\cdots,a_N$ $t_1,\cdots,t_N$ $x_k$ $a_k$ $p(a_k|x_1,a_1,\cdots,x_{k-1},a_{k-1},x_k)$ $x_1,a_1,\cdots,x_k$ $a_k$ ，并不是说真正的输入序列也是像HSTU这样交错构造的）。

$[x_1,\cdots,x_N]$ $[a_1,\cdots,a_N]$ $[e_1,\cdots,e_N]$ $e_i$ $\varphi(x_i)$ $\phi(a_i)$ $e_i=\varphi(x_i)+\phi(a_i)$ $\varphi,\phi$ $x_j$ $e_j=\phi(x_j)+M$ $M$ 是mask action embedding。

在推理时，为了提高效率可以一次把多个候选items依次连接到一个历史序列末尾并行推理，这样能够在一次推理后就得到各个候选物品的预测action。为了确保候选items之间不存在信息泄露，除了普通的auto regressive mask以外，还要额外加candidate mask来屏蔽各个候选items之间的信息交互。如下图右所示，假设存在1个历史序列item和2个候选items，则虽然候选item1在序列中处于候选item2之前，但也要屏蔽候选item2对它的关注。这样就可以使得预测结果完全等价于分别把各个候选item单独连接到序列末尾时的预测结果。

进一步，考虑位置和时间信息的编码。HSTU中通过在attention score后加一个可学习的bias来编码位置和时间信息，然而这种设计会使得bias项的I/O操作随序列长度二次增长，开销过大。因此，本文设计了一种I/O开销随序列长度线性增长的时间与位置编码策略：

$E_{pe,i}=\Omega_{pe}(i)$ 。推理时同一个序列后边接的多个候选items的位置编码保持一致，使得它们的预测结果都等价于单独把每个物品接到序列末尾时。
$E_{ri,i}$ ，使得同一个group中的items的这一项相同。
$E_{rt,i}$ 用来捕捉用户与每个物品交互的时间和上一个request的时间之间的差值，从而反映用户的活跃程度

综上可见，GenRank的模型输入是由总共5种embedding加和而成的，能够在最小化训练开销的情况下引入位置和时间信息：

e_{i}^{(p, t)} = φ (x_{i}) + ϕ (a_{i}) + E_{p e, i} + E_{r i, i} + E_{r t, i}

另外，为了能够在时间和位置信息之间也有交互，还引入了ALiBi作为attention中的相对位置与时间偏置。其会惩罚距离较远的qk pairs，作者认为这更符合用户兴趣建模的模式