OneRec Tech Report 精读笔记

端到端生成式推荐 —— OneRec Technical Report 精读笔记

文章链接：https://arxiv.org/pdf/2506.13695
机构：快手
发布时间：2025.06
参考文献：
https://zhuanlan.zhihu.com/p/1927386141486735715
Copyright (c) Wang-Luning. All Rights Reserved.

OneRec Technical Report在模型架构、RL机制、系统优化等方面提供了更详细的细节，且在很多方面相比于原始的OneRec进行了方法优化。

传统级联系统存在的问题：

算力碎片化：级联系统的计算效率很低，快手系统中在线服务时超过50%的资源浪费在了通信和存储上，而没有用到计算上，MFU仅为个位数，而LLM的MFU能达到约40%-50%。
目标冲突：如何定义“好”的推荐结果是没有标准答案的，会导致如下冲突：
- 多个目标下的冲突：快手系统中存在上百个相互竞争的目标，包括了用户、创作者、平台生态等多方的利益。
- 多个stage之间的建模目标冲突：不同stage的模型结构和大小不同，例如精排阶段的效果会受制于召回的结果。因此统一的优化目标和模型结构能够提升系统整体的连贯性。
其目前的结构难以应用当前LLM领域的scaling、RLHF等先进技术。

OneRec实现了端到端的简单结构，可以针对一个最终目标进行直接优化。其通过优化计算效率并减少不必要的通信和存储开销达到了20%多的MFU。其还通过设计更好的RL策略来进一步提升了实践中的效果。

SID的构建：

过往工作如TIGER仅基于物品的多模态特征embedding来构造SID，只关注了内容本身，忽略了物品之间的协同信号，难以利用视频间的共现信息来鼓励协同意义上类似的视频的SID变得类似。因此OneRec中通过将视频的多模态特征和协同信号进行集成，不仅使得内容类似的视频生成类似的SID，还会鼓励在协同意义上类似的视频生成类似的SID，从而采用RQ-KMeans来生成高质量的层次化SID。

具体而言，将在协同意义上类似的（具有强共现信息的）item pairs的多模态表征进行对齐训练，从而使得共现的视频的多模态表征能够尽可能类似，从而使得它们后续生成的SID也能尽可能接近。构建视频多模态表征、构建共现pair、对齐pair中两个视频的表征的过程如下：

多模态表征的构建：
$N_M=1280$ $d_t=512$ $\mathbf M\in \mathbb R^{N_M\times d_t}$ 。
$N_c=4$ $N_{\tilde M}=4$ $\mathbf Q^{(i)}\in\mathbb R^{N_{\tilde M}\times d_t}$ $\mathbf M$ 中的信息：
$\begin{matrix} Q^{(i + 1)} = CrossAttn (Q^{(i)}, M, M) \\ Q^{(i + 1)} = FFN (RMSNorm (Q^{(i + 1)})) \\ i \in {1, 2, \dots, N_{c}} \end{matrix}$
$\textbf M$ $\mathbf Q$ 则随着层数增加不断抽象，并在每层中都提取一遍多模态tokens中的信息。
$\mathbf{\tilde{M}}\in\mathbb R^{N_{\tilde M}\times d_t}$
Item Pairs的构建：
$\mathcal D_{pair}$ ：
- 通过user-to-item召回来构建：对于每个用户，取其一个点击过的正样本，并将其和用户最新正向行为序列中在协同意义上最接近的样本进行配对
- 通过item-to-item召回来构建：将具有较高协同相似度分数的items进行配对，例如使用Swing分数

Item-Pair中的视频的表征的对齐训练：
$(i,j)$ $\mathbf {\tilde M}_i,\mathbf{\tilde M}_j$ 尽可能相似，因此可以使用一个item-to-item的对比学习loss来对齐：
$L_{I 2 I} = - \frac{1}{| B |} \sum_{(i, j) \in B} \log \frac{\exp (sim ({\tilde{M}}_{i}, {\tilde{M}}_{j}) / τ)}{\sum_{(i^{'}, j^{'}) \in B} \exp (sim ({\tilde{M}}_{i}, {\tilde{M}}_{j^{'}}) / τ)}$
$\mathcal B$ $\mathcal D_{pair}$ $\tau$ $\text{sim}(\cdot,\cdot)$ 为相似度函数。上式也即希望尽可能拉近同一个pair中两个视频的表征的距离，同时拉远它们和batch中其他视频的表征的距离。
另外，为了保持内容理解能力，避免生成的表征只关心协同信息而忽略了表征中对于内容信息本身的理解，还额外对于视频标题文字做了一个NTP loss，使用LLaMA3模型作为decoder：
$L_{c a p t i o n_g e n} = - \sum_{k} \log P (t^{k + 1} | [t^{1}, \dots, t^{k}])$
$t^k$ $k$ $\mathbf{\tilde M}$ ，而不仅仅是前边的caption text tokens，也即是基于多模态tokens和前边的text tokens来预测生成下一个text token的，相当于看到的是文本与视频内容的联合信息。

$\mathbf{\tilde M}$ 不仅可以包含内容多模态信息，还隐式地包含了协同信息，协同意义上相似的视频的表征也会倾向于接近。然后将视频表征输入到RQ-KMeans中即可获得该视频的SID。

模型架构与输入特征工程：

OneRec采用Encoder-Decoder架构，Encoder负责捕捉并抽象出用户的历史行为模式，Decoder负责自回归地生成用户接下来可能喜欢的视频SID。

Encoder输入的用户行为序列包含了4种不同的embedding，用来从不同角度捕捉的用户历史交互模式：

用户静态特征（User Static Pathway）：
$\mathbf e_{uid},\mathbf e_{gender},\mathbf e_{age}\in\mathbb R^{64}$ $\mathbf h_u\in\mathbb R^{1\times d_{model}}$ ，作为用户画像的综合表征：
$\begin{matrix} f_{u} = [e_{u i d}, e_{g e n d e r}, e_{a g e}, \dots] \\ h_{u} = Dense (LeakyReLU (Dense (f_{u}))) \end{matrix}$
可见，用户画像特征在模型输入时用1个token来表征。
短期行为表征（Short term Pathway）：
$L_s=20$ 次用户交互的信息（和上文构建SID时只关注多模态内容信息不同，这里主要关注的是用户对它的行为表现），包括视频的标识信息（可以直接使用video id，也可以使用SID来包含多模态内容信息）、作者信息（aid）、tag、时间戳（ts）、播放时间（playtime）、视频时长（dur）、用户互动行为label（包括点赞、关注、转发、点踩、评论、进入作者主页等互动行为）。这些信息可以充分捕捉用户当前的偏好以及可能影响用户当前行为的语境信息。
$\mathbf e_{vid}^s\in\mathbb R^{d_{model}},\mathbf e_{aid}^s\in\mathbb R^{512},\mathbf e_{tag}^s,\mathbf e_{ts}^s,\cdots,\in\mathbb R^{128}$ $L_s$ $L_s$ $\mathbf h_s\in\mathbb R^{L_s\times d_{model}}$ ：
$\begin{matrix} f_{s} = [e_{v i d}^{s}, e_{a i d}^{s}, e_{t s}^{s}, \dots] \\ h_{s} = Dense (LeakyReLU (Dense (f_{s})) \end{matrix}$
$L_s=20$ 个tokens来表征，每个历史视频对应1个token。
正向反馈表征（Positive-feedback Pathway）：
$L_p=256$ $\mathbf h_p\in\mathbb R^{L_p\times d_{model}}$ 用于表征这些信息，在模型输入中对应256个tokens。
$\begin{matrix} f_{p} = [e_{v i d}^{p}, e_{a i d}^{p}, e_{t s}^{p}, \dots] \\ h_{p} = Dense (LeakyReLU (Dense (f_{p})) \end{matrix}$
终身行为表征（Lifelong Pathway）:
处理超长的用户历史交互序列（能达到10万个视频）。由于直接把每个视频当成一个token输入模型的话会使得输入序列过长，带来过大的attention开销，因此这里采用两阶段的层次化压缩策略来处理：
- 行为压缩：
  首先对于历史序列中全部视频根据多模态内容进行聚类，并为每个cluster选出一个“代表视频”。
  $|D|$ $\sqrt[3]{|D|}$ ），然后取各个视频在SID构建过程中使用Q-Former生成的多模态内容表征做KMeans聚类，然后选取每个cluster中距离其中心最近的视频，把它作为这个cluster的代表视频。
- 特征聚合：
  接下来构建每个cluster的代表性特征。对于vid、aid、label等稀疏类别特征，直接取该cluster的代表视频的特征。对于tag、timestamp、playtime、duration等连续特征，对cluster中所有特征的取值做平均。
至此得到了每个cluster的全部“代表特征”。
$L_l=2000$ 的长期历史序列，每个视频都使用它所在cluster的代表特征来替换其自己原先的特征：
$\begin{matrix} f_{l} = [e_{v i d}^{l}, e_{a i d}^{l}, e_{t s}^{l}, \dots] \\ v_{l} = Dense (LeakyReLU (Dense (f_{l})) \end{matrix}$
$\mathbf v_l\in\mathbb R^{L_l\times d_{model}}$ 。
$N_q=128$ $N_l=2$ Q-Former来压缩这个长期行为序列 $\mathbf v_l$ 做attention来提取关键信息：
$\begin{matrix} h_{l}^{(i + 1)} = CrossAttn (h_{l}^{(i)}, v_{l}, v_{l}) \\ h_{l}^{(i + 1)} = FFN (RMSNorm (h_{l}^{(i + 1)})) \end{matrix}$
$\mathbf h_l\in\mathbb R^{N_q\times d_{model}}$ ，可见它输入模型时总共只有128个tokens。

$\mathbf e_{pos}\in\mathbb R^{(1+L_s+L_p+N_q)\times d_{model}}$ ，即为Encoder的输入：

z^{(1)} = [h_{u}, h_{s}, h_{p}, h_{l}] + e_{p o s}

$\mathbf z_{enc}=\mathbf z^{(L_{enc}+1)}\in\mathbb R^{(1+L_s+L_p+N_q)\times d_{model}}$ 提供了对于用户行为的多层次全面表征，成为了后续decoder做预测生成的坚实基础。

另外，可以发现Encoder的输入并非SID，而是若干种embedding tokens构成的序列。这可能是因为Encoder的作用是充分捕捉历史信息而不是做生成，因此使用信息丰富的多层次embedding作为输入要比干巴巴的SID更好。而Decoder中则是基于SID做自回归生成的，它的输入和输出都是SID序列

point-wise $m$ $L_t$ $L_t=3$ ），则其NTP Loss为：

\begin{matrix} S_{m} = (s_{[B O S]}, s_{m}^{1}, s_{m}^{2}, \dots, s_{m}^{L_{t}}) \\ L_{N T P} = - \sum_{j = 0}^{L_{t} - 1} \log P (s_{m}^{j + 1} | [s_{[B O S]}, s_{m}^{1}, \dots, s_{m}^{j}]) \end{matrix}

基于强化学习的偏好对齐：

预训练过程本质上是通过NTP训练来拟合曝光样本的空间分布，拟合现有推荐系统的结果，难以突破现有推荐系统的上限。因此在后训练阶段引入RL来对齐用户偏好。

不同于原始OneRec采用DPO，这里使用真正的RL来微调模型，使用preference reward来对齐用户偏好信息。另外，引入format reward来确保生成结果尽可能合法（生成对应真实视频的SID），同时也引入了一些其他的工业场景奖励（如扶持新内容、打压营销号等）。

用户偏好对齐：
过往工作中通常将CTR、点赞、观看时间等指标通过加权直接组合成一个分数来作为目标。然而手动调节加权权重很困难，不仅不精准而且无法做到个性化，还可能导致不同目标间的冲突。
使用一个神经网络来学习个性化的偏好分数，称为P-Score $p$ ）和各个目标label的BCELoss的加权结果：
$\begin{matrix} L_{P-Score} = \sum_{x t r = {c t r, l v t r, l t r, \dots}} w^{x t r} L_{P-Score}^{x t r} \\ L_{P-Score}^{x t r} = - (y^{x t r} \log p + (1 - y^{x t r}) \log (1 - p)) \end{matrix}$
$w^{xtr}$ ，可以控制使得P-Score和各个目标值的接近程度，从而使得其对于各个目标的拟合度达到一个平衡。

$u$ $G$ $r_i$ ，优化目标在使用了ECPO（Early Clipped GRPO）：
$sg$ $\delta$ 为阈值超参数。
$A<0$ $\frac{\pi_\theta}{\pi_{old}}>1+\epsilon$ $\frac{\pi_\theta}{\pi_{old}} A$ 会产生一个特别大的负梯度来矫正），但这样很容易产生梯度爆炸。
$\frac{\pi_\theta}{\pi_{old}}>1+\epsilon$ $1+\epsilon$ $1+\epsilon+\delta$ $\delta$ $\delta$ $\delta=0.1$ 。
生成格式的奖励：
$32768^3$ ）可能远大于视频数量，这就导致可能产生不对应任何视频的SID，也即非法的SID。
$A>0$ $A<0$ （但合法）的视频SID则会使得模型调整其输出分布来减少低奖励结果的生成概率，导致它们的SID生成概率被大幅压低，甚至压缩到和非法SID相近的水平，使得模型难以区分非法和合法的SID。（这些视频只是不被喜欢，但它们的SID是合法SID，RL会导致它们的SID生成概率降低到甚至和非法SID生成概率差不多）
$G$ $K$ 个样本用于合法性RL学习，对于合法的样本设置其优势为1，非法样本设置优势为0（相当于丢弃它们）：
$\begin{matrix} A_{i} = {\begin{cases} 1, & o_{i} \in I_{l e g a l} \\ 0, & o_{i} \notin I_{l e g a l} \end{cases} \end{matrix}$
$A_i$ 。
工业场景奖励：
推荐结果不仅要考虑用户偏好，还要考虑社区建设、商业推广、新视频助力等其他因素。在传统DLRM中，会在多个级联组件中手动设置各种策略，导致整个系统很复杂且可能出现冲突问题等。在OneRec中则只需要设置一些和它们相关的奖励，并使用RL算法来对齐模型在这些方面的偏好即可。

另外，不同于原始OneRec中使用session-wise的打分，这里抛弃了session-wise的概念，使用point-to-point的方式，也即每次给一个单独的视频打分。

后训练：

在实践中，后训练阶段使用实时数据流进行流式训练，同时进行拒绝采样微调（Reject Sampling Fine-Tuning, RSFT）和RL：

RSFT指的是，排除掉播放时长最低的50%的曝光数据后，使用那些播放时长较高的曝光数据进行NTP loss的持续微调训练，从而捕捉用户的实时兴趣变化。该过程使用了减小的lr。
为了最大化计算资源利用，将RL生成样本的任务和训练任务解耦，使用一个外部推理服务专门用于做RL样本生成。从RSFT数据中选取1%的用户来进行RL，每个用户使用外部推理服务生成512个样本，并且使用奖励模型依次生成它们的reward，然后把数据返回给训练任务（来计算梯度并更新模型参数）。训练任务每1000步就将更新后的模型参数通过消息队列发送给外部推理服务。