OneRec 精读笔记

端到端生成式推荐 —— OneRec 精读笔记

文章链接：https://arxiv.org/pdf/2502.18965
机构：快手
发布时间：2025.02
Copyright (c) Wang-Luning. All Rights Reserved.

OneRec系列继承了Tiger使用SID直接预测下一个物品的范式，并通过RL等优化手段使得其生成效果更好，能够更接近端到端的目标效果。

传统的级联式推荐系统中，下游模块（例如ranking）的效果上限完全取决于上游模块（例如召回）给出的结果，这就限制了整个系统的能力上限：

OneRec致力于使用端到端的模型取代传统的级联推荐系统，而不仅仅满足于TIGER那种仅用于召回阶段的生成式模型。OneRec模型是Encoder-Decoder的架构，为了scale模型参数在decoder中使用了MoE，其输入用户历史行为序列并逐步解码出用户还可能感兴趣的新视频。为了避免逐个生成下一个视频导致还需要手工设计规则来重排组合这些生成结果，其抛弃了传统的单点的next-item prediction，使用session-wise list generation来生成一个list的高质量视频，让模型自己学习最优的session结构，从而端到端地模拟整个召回-精排-重排的过程，可以直接将生成的session推送给用户。另外，还引入了DPO来进一步增强生成结果的质量，使得模型能以更高概率生成用户偏好的session。

Prelim —— RQ-KMeans

RQ-KMeans本质上和TIGER中对于RQ-VAE的codebook的KMeans初始化过程类似。但RQ-VAE依赖于模型训练，其优化目标包括重建与量化损失，实践中还是容易导致码本坍塌问题（hourglass phenomenon，大部分SID集中于少量codes，其他codes几乎不会被用到）。

因此，OneRec等工作采用RQ-KMeans来构造SID，其同样采用逐层残差结构。只不过每层的codebook是直接通过训练数据做聚类得到的，而不是通过学习得出来的。

$i$ $\bold e_i\in\mathbb R^d$ $\bold r^1_i=\bold e_i$ $s_i^l$ $L$ 层后，将每层选取的code的id都收集并组合起来，即为该视频的SID：

\begin{matrix} s_{i}^{1} = \arg min_{k} | | r_{i}^{1} - c_{k}^{1} | |_{2}^{2}, r_{i}^{2} = r_{i}^{1} - c_{s_{i}^{1}}^{1} \\ s_{i}^{2} = \arg min_{k} | | r_{i}^{2} - c_{k}^{2} | |_{2}^{2}, r_{i}^{3} = r_{i}^{2} - c_{s_{i}^{2}}^{2} \\ ⋮ \\ s_{i}^{L} = \arg min_{k} | | r_{i}^{L} - c_{k}^{L} | |_{2}^{2} \\ ⇓ \\ S I D_{i} = (s_{i}^{1}, s_{i}^{2}, \dots, s_{i}^{L}) \end{matrix}

$l$ 层，使用Balanced K-means构造其codebook：

$K$ $C_l=\{c_1^l,\cdots,c_K^l\}$ $\mathcal V$ $w=|\mathcal V|/K$ 。
$\mathcal U=\mathcal V$ $k=1,\cdots,K$ 中的每个cluster执行操作：
- $\mathcal U$ $k$ $c_k^l$ $w$ $k$ $\mathcal V_k$
- $k$ $c_k^l\leftarrow\frac{1}{w}\sum_{r^l\in\mathcal V_k}r^l$
- $\mathcal U$ ，使得接下来的cluster只能从剩下的那些未分配点中选，确保每个点只属于一个cluster

$K$ $l$ 层的codebook：

C_{l} = {c_{1}^{l}, \dots, c_{K}^{l}}

RQ-KMeans构造出的SID通常分布更均匀，具有较强的区分性，码本坍塌问题更少，整体上更适合自回归生成任务。但不同物品的SID碰撞问题相对更多。

SID的构造：

$\mathcal H_u=\{v_1^h,\cdots,v_n^h\}$ $v$ $n$ $\mathcal S=\{v_1,\cdots,v_m\}$ $m$ $n=256$ $m=5$ 作为一个session的视频数量。

$v_i$ $e_i\in\mathbb R^d$ Balanced RQ-KMeans $(s_i^1,\cdots,s_i^L)$ $L=3$ $8192^3\approx 550B$ 种组合

Session-wise List Generation：

$m=5\sim10$ 个。一个session中的视频考虑了用户兴趣、连贯性、多样性等综合的因素，在传统级联系统中即为重排后的结果。一个高质量的session应满足如下条件：一个session中用户观看了的视频应至少5个、用户在该session中的总观看时长超过某个阈值、用户对于其中的视频进行了点赞等正向互动。

$\mathcal M$ 的目标可以写成：

S = M (H_{u})

$\mathcal H_u$ $n$ $\{v_1^h,\cdots,v_n^h\}$ 的SID表示：

H_{u} = {(s_{1}^{1}, \dots, s_{1}^{L}), \dots, (s_{n}^{1}, \dots, s_{n}^{L})}

$\mathcal S$ $m$ 个视频的SID表示：

S = {(s_{1}^{1}, \dots, s_{1}^{L}), \dots, (s_{m}^{1}, \dots, s_{m}^{L})}

$\mathcal H_u$ $\mathbf H$ ：

H = Encoder (H_{u})

$N_{MoE}=24$ $K_{MoE}=2$ 。

$s_{[BOS]}$ token来进行标识，得到训练时decoder的输入：

\bar{S} = {s_{[B O S]}, s_{1}^{1}, \dots, s_{1}^{L}, s_{[B O S]}, s_{2}^{1}, \dots, s_{2}^{L}, \dots, s_{[B O S]}, s_{m}^{1}, \dots, s_{m}^{L}}

训练的loss即为在这个输入序列上做NTP Loss，也即预测生成这个session。

推理时Encoder的输入是已知的用户历史序列，Decoder的输入是一个BOS token，来自回归地生成下一个session中的一系列视频的SID。

线上实验使用的是OneRec-1B模型

DPO偏好调整：

为了进一步加强模型生成高质量session的能力，在上一步预训练模型的基础上进一步使用DPO。

在NLP中，可以使用人类标注的偏好数据。然而在推荐系统中稀疏的用户与物品交互数据带来了挑战，没办法获得那么多直接由人类交互得到的偏好数据。因此首先需要训练一个奖励模型来预测用户对于一个session的偏好程度，从而代替DPO中通过人类标注来构造偏好数据的过程，自动化地构造大量的偏好数据用于DPO训练。

也即，这里训练的奖励模型的作用只是代替人类标注生成偏好数据，然后进一步拿这些偏好数据去做DPO，并不是直接作为RL的训练目标。DPO的目标是直接微调模型使得其以更大概率生成偏好的样本，而不是以生成能拿到更高奖励的样本作为直接目标（虽然最终优化结构也在某种程度上间接地达成了这个目标）。

考虑4种指标来反映用户对于一个session的偏好程度（奖励分数）：

swt：session watch time，用户观看这个session的总时长
vtr：view probability，用户观看这个session的概率
wtr：follow probability，用户关注session中视频作者的概率
ltr：like probability，用户点赞session中视频的概率

奖励模型的训练目标就是能够在给定用户和某个session时能够精准预测上述指标。奖励模型本质上类似于传统推荐中的精排模型——给定用户和候选session，输出该候选session的得分（类比于CTR等指标，只不过这里换成一些短视频相关的指标）。

$R(\mathcal u,\mathcal S)$ $r$ $u$ $\mathcal S=\{v_1,\cdots,v_m\}$ $v_i$ $\odot$ （例如对于用户行为做target attention）：

e_{i} = v_{i} ⊙ u

$h=\{e_1,\cdots,e_m\}$ 。

然后，通过一个自回归层来在session内部的各个视频间进行交互：

h_{f} = SelfAttention (h W_{s}^{Q}, h W_{s}^{K}, h W_{s}^{V})

$\text{Sum}(h_f)$ $\text{Tower}(\cdot)=\text{Sigmoid}(\text{MLP}(\cdot))$ ，分别预测上述4个指标分数：

\begin{matrix} {\hat{r}}^{s w t} = {Tower}^{s w t} (Sum (h_{f})) \\ {\hat{r}}^{v t r} = {Tower}^{v t r} (Sum (h_{f})) \\ {\hat{r}}^{w t r} = {Tower}^{w t r} (Sum (h_{f})) \\ {\hat{r}}^{l t r} = {Tower}^{l t r} (Sum (h_{f})) \end{matrix}

训练数据中的session是已知上述4个指标的ground truth真实label值的，因此可以使用BCELoss作为目标来使得奖励模型的预测结果和真实结果尽可能接近：

L_{R M} = - \sum_{x t r = s w t, v t r, w t r, l t r} (y^{x t r} \log ({\hat{r}}^{x t r}) + (1 - y^{x t r}) \log (1 - {\hat{r}}^{x t r}))

$R(u,\mathcal S)$ $\mathcal M_t$ $\mathcal M_t$ $u$ $\mathcal H_u$ $N$ $\mathcal S_u^w$ $\mathcal S_u^l$ $D_t^{pair}=(\mathcal S_u^w,\mathcal S_u^l,\mathcal H_u)$ 。然后即可将其用于模型的DPO优化：

L_{D P O} (S_{u}^{w}, S_{u}^{l} | H_{u}) = - \log σ (β \log \frac{M_{t + 1} (S_{u}^{w} | H_{u})}{M_{t} (S_{u}^{w} | H_{u})} - β \log \frac{M_{t + 1} (S_{u}^{l} | H_{u})}{M_{t} (S_{u}^{l} | H_{u})})

$t$ $\mathcal M_t$ $\mathcal M_{t+1},\mathcal M_{t+2},\cdots,\mathcal M_T$ $\pi_{old}$ ）生成偏好样本。