生成式排序 —— 小红书 GenRank 精读笔记

文章链接:https://arxiv.org/pdf/2505.04180

机构:小红书

发布时间:2025.05

Copyright (c) Wang-Luning. All Rights Reserved.

GenRank致力于实现高效训练与推理的生成式排序架构,其参考了HSTU中ranking部分的范式,关键创新点包括动作导向的序列组织方法(专注于预测每个位置上的动作)位置与时间的新编码策略

具体而言,小红书短视频场景下存在3种特征:

将数值特征通过设置一些阈值界限来离散化为类别特征,然后所有类别特征再被编码为低维embeddings。视频内容多模态embedding等由预训练模型提供,它们作为附加信息来提供一些先验知识。每个用户的历史序列长度不超过480。

 

针对生成式范式可能带来收益点的机制,文章通过实验证明:HSTU中计算loss时针对序列中action位置的mask,以及auto regressive的attn mask,都对于模型表现具有明显正向影响。另外,文章证明训练样本的组织形式(point-wise地把每个曝光都当成一个独立的训练样本or把连续的几次内容相似的曝光打包成一个训练样本使得特征更稳定)对于生成式范式的有效性影响不大,主要收益还是来源于模型架构。

 

在传统的序列建模中通常是“item-oriented”的,也即序列中罗列的是用户历史交互过的物品,而没有对于用户对于这些物品的action的感知。HSTU是首个把action作为一种新模态的token加入到序列中的,其把items和actions交错地放入一个序列中,从而能够让模型预测下一个item(用于召回)或下一个action(用于排序),如下左图所示:

image-20260204161029428

然而,HSTU这种将item和action交错放入一个序列的做法会使得序列长度翻倍,导致带来巨大的计算开销。因此,鉴于本文关心的是排序部分,也即预测下一个action,GenRank不再把item和action交叠形成一个序列,而是把items当成一种辅助的位置信息,构建一个纯由actions组成的序列,学习预测和每个item关联的action,也即“action-oriented”的组织形式。这样可以在输入历史信息一致的情况下比HSTU的输入序列长度减半,大幅提升计算效率。

具体而言,设用户历史交互物品序列为x1,,xN,用户对于每个物品xi采取的关联action为ai,这样就得到了action序列a1,,aN,以及它们发生的时间t1,,tN。模型的任务是预测对于每个位置的候选物品xk用户可能采取的action ak是什么,也即学习如何预测分布p(ak|x1,a1,,xk1,ak1,xk)(这里的条件仅指的是要以x1,a1,,xk这些东西作为条件去预测ak,并不是说真正的输入序列也是像HSTU这样交错构造的)。

为了实现动作导向的生成式排序,如上图右所示,将item序列[x1,,xN]和action序列[a1,,aN]按位置对齐加到一起变成一个序列[e1,,eN],每个位置的输入token ei就是该位置的item embedding φ(xi)和action embedding ϕ(ai)的加和:ei=φ(xi)+ϕ(ai),其中φ,ϕ为item和action的embedding模块。任务是预测下一个候选item对应的action是什么,设某个位置的候选item是xj,则它的输入token为ej=ϕ(xj)+M,其中M是mask action embedding。

在推理时,为了提高效率可以一次把多个候选items依次连接到一个历史序列末尾并行推理,这样能够在一次推理后就得到各个候选物品的预测action。为了确保候选items之间不存在信息泄露,除了普通的auto regressive mask以外,还要额外加candidate mask来屏蔽各个候选items之间的信息交互。如下图右所示,假设存在1个历史序列item和2个候选items,则虽然候选item1在序列中处于候选item2之前,但也要屏蔽候选item2对它的关注。这样就可以使得预测结果完全等价于分别把各个候选item单独连接到序列末尾时的预测结果。

image-20260204164105082

 

进一步,考虑位置和时间信息的编码。HSTU中通过在attention score后加一个可学习的bias来编码位置和时间信息,然而这种设计会使得bias项的I/O操作随序列长度二次增长,开销过大。因此,本文设计了一种I/O开销随序列长度线性增长的时间与位置编码策略:

综上可见,GenRank的模型输入是由总共5种embedding加和而成的,能够在最小化训练开销的情况下引入位置和时间信息:

ei(p,t)=φ(xi)+ϕ(ai)+Epe,i+Eri,i+Ert,i

image-20260204164208910

另外,为了能够在时间和位置信息之间也有交互,还引入了ALiBi作为attention中的相对位置与时间偏置。其会惩罚距离较远的qk pairs,作者认为这更符合用户兴趣建模的模式