STCA 精读笔记

超长序列建模 —— STCA 精读笔记

文章链接：https://arxiv.org/pdf/2511.06077
机构：字节（抖音）
发布时间：2025.11
Copyright (c) Wang-Luning. All Rights Reserved.

工业中普遍采用两阶段的策略来处理长用户历史序列：先筛选出一些和目标物品类似的历史交互物品，然后再在这个筛选后的短序列上进行建模。这样虽然高效，但难以实现端到端优化，可能丢失重要信息。

实验证明在推荐系统中通常序列越长效果越好，可以看成推荐领域的scaling law，因此如果想真正实现推荐大模型的scaling的话，长序列是不可或缺的部分

为了在低训练开销和推理开销下实现10000量级的用户历史序列建模，本文主要提出了3点优化：

提出SCTA（Stacked Target-to-History Cross Attention）模块来进行从目标物品到历史序列的target attention，使用交叉注意力替代历史序列内部的自注意力，从而将注意力复杂度从二次降低到线性。
提出RLB（Request Level Batching）策略来使得同一个用户的多个目标物品（甚至多次request）共享一套用户表征，使得用户表征只需要计算一次
采用长度外推训练策略，训练时平均长度2k，推理时外推到10k，从而避免长序列训练带来的开销

$L$ $\mathcal H=\{(v_i,a_i)\}_{i=1}^L$ $v_j,a_j$ $j$ $t$ $x_j\in\mathbb R^d$ $(v_j,a_j)$ $x_t\in\mathbb R^d$ $t$ $X=[x_1,\cdots,x_L]$ $x_t$ $\hat y\in[0,1]$ ，这里选用完播率作为预测对象。

STCA：

在排序任务中，目标物品到各个历史行为的直接交互是最重要的，而历史行为序列中的各项之间的交互相对来说没那么重要。因此，为了避免注意力的二次复杂度，舍弃了显式的历史序列内部交互，只使用一个单query的从目标到历史的交叉注意力。

$M$ $X$ $x_t$ 通过一个SwiGLUFFN+LN层，分别用于为本层后续的交叉注意力产生KV张量和query向量：

\begin{matrix} {\tilde{X}}^{(1)} = LN ({SwiGLUFFN}^{(1)} (X)) \in R^{L \times d} \\ q^{(1)} = LN ({SwiGLUFFN}^{(1)} (x_{t})) \in R^{d} \end{matrix}

$W_K^{(1)},W_V^{(1)}$ $\tilde X^{(1)}$ $q^{(1)}$ $W_O^{(1)}$ $o^{(1)}\in\mathbb R^d$ ，它代表了该层中目标物品和历史交互后的抽象结果。

$i$ $\tilde X$ $X$ $q^{(i)}$ $x_t$ $o^{(i)}$ 连接后再通过一个可学习映射融合变换得到的（可见Q是随着层数变深会被不断更新）：

\begin{matrix} {\tilde{X}}^{(i)} = LN ({SwiGLUFFN}^{(i)} (X)) \in R^{L \times d} \\ q^{(i)} = {SwiGLUFFN}^{(i)} ([o^{(1)} | | \dots | | o^{(i - 1)} | | x_{t}] W_{C}^{(i)}) \in R^{d} \end{matrix}

$||$ $o^{(n)}$ $q^{(i+1)}$ 。

$O(L)$ ，相当于decoding阶段的计算量

$z$ ：

z = SwiGLUFFN ([o^{(1)} | | \dots | | o^{(M)} | | x_{t}] W_{Z}) \in R^{d}

$z$ $\{u_k\}_{k=1}^K$ $\{c_l\}_{l=1}^C$ $\mathcal X_{mix}$ ，然后将其送入RankMixer模块获得最终预测输出：

\begin{matrix} h = RankMixer (X_{m i x}) \\ \hat{y} = sigmoid (w^{T} h + b) \end{matrix}

Request Level Batching（RLB）：

在排序任务中通常需要给多个目标物品打分，如果一次次单独推理的话会导致长历史序列不断重复地从CPU传输到GPU，还要重复encode，造成了系统上的效率低下。

$X$ $\tilde X^{(i)}$ $q$ ，这样就不需要重复进行它的生成了。

短序列训练，长序列推理：

在Beta分布中采样训练长度，并截取数据集中最近的该长度的序列用于训练。