端到端生成式推荐 —— OneRec Technical Report 精读笔记

文章链接:https://arxiv.org/pdf/2506.13695

机构:快手

发布时间:2025.06

参考文献:

Copyright (c) Wang-Luning. All Rights Reserved.

OneRec Technical Report在模型架构、RL机制、系统优化等方面提供了更详细的细节,且在很多方面相比于原始的OneRec进行了方法优化。

 

传统级联系统存在的问题:

image-20260212131605631

OneRec实现了端到端的简单结构,可以针对一个最终目标进行直接优化。其通过优化计算效率并减少不必要的通信和存储开销达到了20%多的MFU。其还通过设计更好的RL策略来进一步提升了实践中的效果。

 

 

SID的构建:

过往工作如TIGER仅基于物品的多模态特征embedding来构造SID,只关注了内容本身,忽略了物品之间的协同信号,难以利用视频间的共现信息来鼓励协同意义上类似的视频的SID变得类似。因此OneRec中通过将视频的多模态特征和协同信号进行集成,不仅使得内容类似的视频生成类似的SID,还会鼓励在协同意义上类似的视频生成类似的SID,从而采用RQ-KMeans来生成高质量的层次化SID

image-20260212131910800

具体而言,将在协同意义上类似的(具有强共现信息的)item pairs的多模态表征进行对齐训练,从而使得共现的视频的多模态表征能够尽可能类似,从而使得它们后续生成的SID也能尽可能接近。构建视频多模态表征、构建共现pair、对齐pair中两个视频的表征的过程如下:

 

通过上述过程抽象和对齐训练后的视频表征M~不仅可以包含内容多模态信息,还隐式地包含了协同信息,协同意义上相似的视频的表征也会倾向于接近。然后将视频表征输入到RQ-KMeans中即可获得该视频的SID。

 

模型架构与输入特征工程:

OneRec采用Encoder-Decoder架构,Encoder负责捕捉并抽象出用户的历史行为模式,Decoder负责自回归地生成用户接下来可能喜欢的视频SID。

 

Encoder输入的用户行为序列包含了4种不同的embedding,用来从不同角度捕捉的用户历史交互模式:

最终,将上述4种embedding tokens堆叠成一个序列后,添加可学习位置编码eposR(1+Ls+Lp+Nq)×dmodel,即为Encoder的输入:

z(1)=[hu,hs,hp,hl]+epos

Encoder最后一层的输出zenc=z(Lenc+1)R(1+Ls+Lp+Nq)×dmodel提供了对于用户行为的多层次全面表征,成为了后续decoder做预测生成的坚实基础。

另外,可以发现Encoder的输入并非SID,而是若干种embedding tokens构成的序列。这可能是因为Encoder的作用是充分捕捉历史信息而不是做生成,因此使用信息丰富的多层次embedding作为输入要比干巴巴的SID更好。而Decoder中则是基于SID做自回归生成的,它的输入和输出都是SID序列

image-20260212161728311

 

Decoder采用了point-wise的生成策略,这一点和原始的OneRec使用session-wise生成的策略是不同的。每个视频的SID之前同样也会添加一个可学习的BOS token。训练时也是直接在一个video的sid上做自回归训练,而不是拿一个session作为一个序列进行训练。对于训练集中的视频m,设一个SID共含有Lt个code(这里取Lt=3),则其NTP Loss为:

Sm=(s[BOS],sm1,sm2,,smLt)LNTP=j=0Lt1logP(smj+1|[s[BOS],sm1,,smj])

 

基于强化学习的偏好对齐:

预训练过程本质上是通过NTP训练来拟合曝光样本的空间分布,拟合现有推荐系统的结果,难以突破现有推荐系统的上限。因此在后训练阶段引入RL来对齐用户偏好。

不同于原始OneRec采用DPO,这里使用真正的RL来微调模型,使用preference reward来对齐用户偏好信息。另外,引入format reward来确保生成结果尽可能合法(生成对应真实视频的SID),同时也引入了一些其他的工业场景奖励(如扶持新内容、打压营销号等)。

image-20260212163945199

另外,不同于原始OneRec中使用session-wise的打分,这里抛弃了session-wise的概念,使用point-to-point的方式,也即每次给一个单独的视频打分。

 

 

后训练:

在实践中,后训练阶段使用实时数据流进行流式训练,同时进行拒绝采样微调(Reject Sampling Fine-Tuning, RSFT)和RL:

image-20260213132714117