端到端生成式推荐 —— OneRec-Think 精读笔记

文章链接:https://arxiv.org/pdf/2510.11639

机构:快手

发布时间:2025.10

参考文献:

Copyright (c) Wang-Luning. All Rights Reserved.

OneRec等生成式推荐模型只能作为一个隐式的下一个物品预测器,而不具备LLM中的显式的reasoning能力如CoT等。因此,OneRec-Think将对话、推理、个性化推荐进行集成,让模型能够在文本空间内进行reasoning来深度分析用户当前的需求,并生成推荐视频的SID。

其训练阶段主要包含3个阶段:

另外,为了使得模型能够满足线上服务的延迟要求,还提出了"think-ahead"架构来在线上部署模型。

 

OneRec-Think在推理阶段的主要功能如下图所示:

注:LLM的输入和输出中仅有SID和text ID两种token,其中视频内容完全由SID表征,并不含有其他的多模态token。也即强迫模型学习SID和其对应的文字意义之间的关联,SID的作用就是被当做视频的多模态token。

image-20260214150619073

 

任务定义:

设视频的SID表示为:sv=(sv1,,svL),则用户长度为n的历史交互序列v1,,vn的SID表征为:Su=(sv1,,svn)

传统的GR模型的目标即为基于用户历史序列来预测下一个视频vn+1的SID:

svn+1P(|sv1,,svn;θ)

而将reasoning和推荐结合到一个autoregressive pass中之后,则首先基于用户历史交互序列(总结而成的文字prompt P(sv1,,svn))生成长度为M的文字reasoning序列τ=(r1,,rM),最后生成下一个视频的SID:

τP(|P(sv1,,svn);θ)svn+1P(|P(sv1,,svn),τ;θ)

模型训练

image-20260214150654738

 

 

线上部署中的Think-Ahead架构:

为了确保引入reasoning后整个系统依然能够满足线上服务的延时限制,Think-Ahead架构将模型推理分为两个阶段:

可见,OneRec-Think模型并不是直接在线上推理时对于每次request都进行复杂的推理,而是离线地在后台对用户历史进行深入推理,并“预先”猜出根据用户的历史他可能会对哪一类视频感兴趣,但最终的具体推荐决定权留给线上的普通OneRec模型。这种设计是因为Think模型拿到的用户历史并不是绝对实时的,这个历史序列可以用于分析用户的深层兴趣,但用户发起请求时的实时兴趣并不能完全根据这个更新不那么及时的历史序列来推测,因此最后还需要让完全实时的在线OneRec模型在Think模型划定的深层兴趣视频范围内,结合用户的当前兴趣决定最终推荐的视频。