文章链接:https://arxiv.org/pdf/2505.04180
机构:小红书
发布时间:2025.05
Copyright (c) Wang-Luning. All Rights Reserved.
GenRank致力于实现高效训练与推理的生成式排序架构,其参考了HSTU中ranking部分的范式,关键创新点包括动作导向的序列组织方法(专注于预测每个位置上的动作)和位置与时间的新编码策略。
具体而言,小红书短视频场景下存在3种特征:
将数值特征通过设置一些阈值界限来离散化为类别特征,然后所有类别特征再被编码为低维embeddings。视频内容多模态embedding等由预训练模型提供,它们作为附加信息来提供一些先验知识。每个用户的历史序列长度不超过480。
针对生成式范式可能带来收益点的机制,文章通过实验证明:HSTU中计算loss时针对序列中action位置的mask,以及auto regressive的attn mask,都对于模型表现具有明显正向影响。另外,文章证明训练样本的组织形式(point-wise地把每个曝光都当成一个独立的训练样本or把连续的几次内容相似的曝光打包成一个训练样本使得特征更稳定)对于生成式范式的有效性影响不大,主要收益还是来源于模型架构。
在传统的序列建模中通常是“item-oriented”的,也即序列中罗列的是用户历史交互过的物品,而没有对于用户对于这些物品的action的感知。HSTU是首个把action作为一种新模态的token加入到序列中的,其把items和actions交错地放入一个序列中,从而能够让模型预测下一个item(用于召回)或下一个action(用于排序),如下左图所示:
然而,HSTU这种将item和action交错放入一个序列的做法会使得序列长度翻倍,导致带来巨大的计算开销。因此,鉴于本文关心的是排序部分,也即预测下一个action,GenRank不再把item和action交叠形成一个序列,而是把items当成一种辅助的位置信息,构建一个纯由actions组成的序列,学习预测和每个item关联的action,也即“action-oriented”的组织形式。这样可以在输入历史信息一致的情况下比HSTU的输入序列长度减半,大幅提升计算效率。
具体而言,设用户历史交互物品序列为
为了实现动作导向的生成式排序,如上图右所示,将item序列
在推理时,为了提高效率可以一次把多个候选items依次连接到一个历史序列末尾并行推理,这样能够在一次推理后就得到各个候选物品的预测action。为了确保候选items之间不存在信息泄露,除了普通的auto regressive mask以外,还要额外加candidate mask来屏蔽各个候选items之间的信息交互。如下图右所示,假设存在1个历史序列item和2个候选items,则虽然候选item1在序列中处于候选item2之前,但也要屏蔽候选item2对它的关注。这样就可以使得预测结果完全等价于分别把各个候选item单独连接到序列末尾时的预测结果。
进一步,考虑位置和时间信息的编码。HSTU中通过在attention score后加一个可学习的bias来编码位置和时间信息,然而这种设计会使得bias项的I/O操作随序列长度二次增长,开销过大。因此,本文设计了一种I/O开销随序列长度线性增长的时间与位置编码策略:
综上可见,GenRank的模型输入是由总共5种embedding加和而成的,能够在最小化训练开销的情况下引入位置和时间信息:
另外,为了能够在时间和位置信息之间也有交互,还引入了ALiBi作为attention中的相对位置与时间偏置。其会惩罚距离较远的qk pairs,作者认为这更符合用户兴趣建模的模式