生成式排序开山之作 —— Meta HSTU 精读笔记

文章链接:https://arxiv.org/pdf/2402.17152

机构:Meta

发布时间:2024.02

参考文献:

Copyright (c) Wang-Luning. All Rights Reserved.

传统深度学习推荐模型(DLRM)在计算上难以扩展,因此希望能引入万亿参数级别的大模型来更深层次理解用户行为。

在简单的物品ID序列基础上,HSTU试图给模型提供一个信息更丰富的序列,将用户属性、行为类型、时间等所有异构信息都融合成一个统一且更复杂的“事件流”作为输入,增强了模型对行为上下文的理解能力,也即深化对输入的理解

本文致力于解决如下3个在推荐系统中引入LLM的难点,从而实现scaling:

本文贡献:

注:“预测下一个物品”这种自回归生成式的范式只体现在训练阶段,用于得到更好的用户历史与偏好表征/用户表征和候选物品的特征交叉。而推理阶段用于召回、排序时都不是直接生成下一个物品,仍为利用模型产生的表征来进一步做ANN或做CTR预测等,并不是像TIGER那样真的直接预测下一个物品是什么。

因此,HSTU更像SASRec的加强版而不是TIGER,其并没有对于推理阶段的召回和排序结果产出提供范式级的革新。相比于SASRec仅将推荐序列视为由物品ID组成的序列,HSTU将推荐场景下的所有信息(用户画像、行为、物品、上下文等)都融入到序列中,极大丰富了模型的输入,且使用改进后的HSTU结构进行处理,从而实现对于用户行为的更深层次理解。

 

 

1、统一DLRM中的异质特征空间

在GR中,将sparse和dense特征都统一到一个时间序列中:

image-20260202135056274

 

2、将召回和排序任务重定义为序列直推任务

给定n个token的序列x0,x1,,xn1xiX)以及它们被观测到的时间t0,,tn1,序列直推变换(sequential transduction)任务将这个输入序列在mask序列m0,m1,,mn1mi{0,1})下映射为输出序列y1,,yn1yiX{})。mask序列主要是为了标记各个yi的含义,mi=1表示yi有定义(比如是用户交互了的正样本),mi=0表示yi未定义(比如是某个特征取值,不是正样本item)。这里的总词表X包含各种信息,如内容id、人口属性、内容类别等,对应了上文构建的异质序列中包含的包括历史交互物品和各种特征。

使用ΦiXc表示系统提供给用户的一个内容(例如一个图片、一个视频),XcX是总词表的子集,包含了所有的内容/item(排除掉那些特征token)。由于新内容时刻被创作出来,因此X,Xc是动态和非平稳(non-stationary)的。用户可以对Φi使用某个动作ai进行回应(例如点赞、跳过、看完视频、分享视频等),设用户总共给nc个内容有过动作回应。

 

 

 

综上可见,“预测下一个物品”这种自回归生成式的范式主要体现在训练阶段,用于得到更好的用户历史与偏好表征/用户表征和候选物品的特征交叉,而推理阶段用于召回、排序时都不是直接生成下一个物品,仍为利用模型产生的表征来进一步做ANN或做CTR预测等。

 

3、HSTU模块

HSTU模块是针对推荐情景改进后的一种transformer模块:

image-20260202230012281

设输入序列为X,则每个HSTU block中包括3部分:

 

工程优化部分:留坑,详见:https://agijuejin.feishu.cn/wiki/WbuuwuGO3iD9Z7kRb0bc3LFvnjg