统一序列建模与特征交叉 —— HyFormer 精读笔记

文章链接:https://arxiv.org/pdf/2601.12681

机构:字节

发布时间:2026.01

Copyright (c) Wang-Luning. All Rights Reserved.

HyFormer要解决的问题和OneTrans一样,其认为“先建模历史序列再将建模后的序列和其他非序列特征进行交互“这种两阶段的范式在表征能力和效率上都有不足,本质上是一种late-fusion、单向交互的模式(如:先将长用户历史序列使用如LONGER等query-based压缩器来进行信息压缩,然后再将带有压缩的序列信息的query通过特征交互模块如RankMixer进行和其他非序列特征的交互)。因此,其也致力于使用一个统一的类transformer模型来紧密地集成长序列建模和特征交叉,而不是把它们看成松散的分开的模块。

与OneTrans将序列tokens和非序列tokens汇总为一个统一序列不同,HyFormer逐层交替地进行Query Decoding和Query Boosting过程,前者用前层交叉更新后的表征实时生成当前层的Global tokens(初始层的是由非序列特征+序列信息meanpool汇总后产生的),作为Query来对历史序列产生的KV做attention,从而使得Query随着层数变深而语义愈发丰富,再进一步塑造序列表征,后者则通过token mixing来实现提取的序列信息和非序列特征的深度交互。可见,其并不是像LONGER等类target attention的方法那样一次性地用global信息作为query来提取历史序列信息,并用于后续的特征交互,而是在每层中都不断地重复在当前层生成Global tokens、提取序列信息、进行特征交叉的过程,从而使得序列建模和特征交叉部分存在双向的互动,逐步使得语义表征随着层数加深而变得更丰富。

 

设用户u的历史交互序列为S=[i1(u),,iK(u)],设该用户的非序列特征集合为u(如用户画像属性、语境信号、交叉特征等),设目标候选物品为v,则目标为预测该物品被互动的概率分数:P(y=1|S,u,v)[0,1]。目标函数使用BCELoss。

image-20260226092208396

在每个block中,主要可以分为Query generation、Query decoding、Query boosting三个部分:

 

另外,在实际场景中,用户行为通常被组织为多个异质的历史序列,例如一个视频观看序列、一个物品购买序列。像MTGR或OneTrans那样简单地将序列融合到一起会对效果产生比较差的影响,因此HyFormer中面对多序列时对它们单独进行处理,也即每个序列会独享自己的Q/K/V等。