MTGR 精读笔记

生成式排序 —— 美团 MTGR 精读笔记

文章链接：https://arxiv.org/pdf/2505.18654
机构：美团
发布时间：2025.05
Copyright (c) Wang-Luning. All Rights Reserved.

MTGR认为很多生成式推荐模型丢弃了传统DLRM中精心构建的交叉特征，即使能把参数scale上去也会损失性能。因此，MTGR在HSTU的基础上建模，其在输入中保留传统DLRM中丰富的特征和交叉特征，并在这个前提下进行scaling，从而结合DLRM和GR的优势。

另外，MTGR通过用户级别的压缩来提升训练和推理效率（像GenRank那样一次推理预测多个候选物品的CTR）。MTGR还提出了Group-Layer Normalization（GLN）来提升在不同语义空间内的编码效果（防止来自不同domain的tokens的尺度差距过大相互影响），还提出动态mask策略来避免时序信息和各个候选物品之间信息的泄露。

从下文中可见，MTGR的核心思想是把HSTU模型当成一个超强的序列建模器来优化排序问题，其重点关心丰富的输入特征的保持+使用HSTU架构来达到超大的模型参数量。和HSTU与GenRank不同，它没把action当成一种新模态token加到输入中，且只使用了如CTR loss等排序任务中的判别式loss来进行训练，没有使用NTP loss来让模型学习自回归地拟合下一个物品/action。
所以宏观来看它的输入特征体系和loss都和传统DLRM其实没什么区别，整个模型的训练优化目标都是围绕CTR等判别式任务设计和优化的。相比于生成式推荐模型来说它更像传统DLRM的扩展，比起GenRank等相对更保守。
"保留传统深度学习推荐模型（DLRM）丰富特征的同时，获得生成式架构的可扩展性优势"

传统DLRM排序场景的基本架构：

$K$ $K$ $\mathbb D=(\mathbb D_1,\cdots,\mathbb D_K)$ $i$ $i$ 个“样本”）可以写成：

D_{i} = [U, \vec{S}, \vec{R}, C_{i}, I_{i}]

其中：

$U=[U^1,\cdots,U^{N_U}]$ $U^I$ $N_U$ 表示用户画像特征数量
$\vec S=[S^1,\cdots.S^{N_S}]$ $N_S$ $S^i=[s^1,\cdots,s^{N_s}]$ $s^i$ 都是该物品的一个特征，例如物品ID、tag、平均CTR等。
$\vec R$ $\vec S$ $\vec S$ 中的是一样的。
$C=[C^1,\cdots,C^N_C]$ 包含了用户和候选物品之间的交叉特征，例如用户在该类物品上的CTR、该候选物品在用户处的曝光率等
$I=[I^1,\cdots,I^{N_I}]$ 包含了候选物品的特征，如物品id、tag、品牌等。它包含的是和用户无关的、候选物品本身的信息，可以在不同用户之间共享

$\mathbb D$ $U,C,I$ $K$ $K$ 个向量：

\begin{matrix} {Emb}_{U} \in R^{K \times d_{U}} \\ {Emb}_{C} \in R^{K \times d_{C}} \\ {Emb}_{I} \in R^{K \times d_{I}} \end{matrix}

$\vec S,\vec R$ $\vec S$ $\vec R$ $S^i$ $\text{Emb}_{S^i}\in\mathbb R^{d_S}$ $N_S$ $N_S$ 个向量：

\begin{matrix} {Emb}_{S} \in R^{N_{S} \times d_{S}} \\ {Emb}_{R} \in R^{N_{R} \times d_{R}} \end{matrix}

$\text{Emb}_I$ $\text{Emb}_S$ $\text{Feat}_S^i$ $\text{Emb}_S$ ：

{Feat}_{S} = Attention ({Emb}_{I}, {Emb}_{S}, {Emb}_{S}) \in R^{K \times D_{S}}

SIM中使用的target attention代替了处理历史交互序列的最原始的做法：将各个历史交互物品的embedding直接做加和或平均来得到表示历史的一个定长向量。这里通过attention来得到候选物品感知的历史交互信息表征向量。总之都是希望将不定长的历史交互序列信息压缩到一个定长向量中。

$K$ 个物品各自的总表征向量：

{Feat}_{D} = [{Emb}_{U}, {Feat}_{S}, {Feat}_{R}, {Emb}_{C}, {Emb}_{S}] \in R^{K \times (d_{U} + d_{S} + d_{C} + d_{I})}

这些总表征向量会被输入MLP进行特征交叉，从而进行CTR预测等任务。

每个“样本”都是独立处理的，也即用户和每个候选物品之间的关系都是单独建模的，不同候选物品之间不存在相互影响。因此，在传统DLRM中，每个样本都会被单独输入模型进行一次推理，总推理开销随候选物品数量增大而线性增长。

在传统DLRM下想要scale模型参数时，通常是在用户模块和交叉模块处进行scale，而这种scale具有明显的劣势：

用户模块会根据历史交互和用户画像等信息生成基于用户本身的表征，该部分scale后可以得到更好的用户表征，且由于用户表征可以在各个候选物品间共享，因此该部分的scale不会带来太多额外的推理开销，但只scale这部分并不能直接有益于用户和候选物品之间的特征交互。
交叉模块即为用于处理特征连接得到的总表征向量的MLP。由于该部分需要为每个候选物品都做一次推理，因此计算开销会随候选物品增加而线性增长，scale该部分会带来巨大的系统开销。

MTGR的数据组织形式和模型架构：

$C$ $I$ 的一部分：

D_{i} = [U, \vec{S}, \vec{R}, [C_{i}, I_{i}]]

$(U,\vec S,\vec R)$ $K$ 个候选物品来说，可以将它们的表征依次连接到用户表征上，从而把样本集合成一个输入张量：

D = [U, \vec{S}, \vec{R}, [C_{1}, I_{1}], \dots, [C_{K}, I_{K}]]

这样只要在交叉模块中设置合理的mask防止各个候选物品之间的信息泄露，即可做到一次推理给多个候选物品打分，从而大幅提升训练和推理效率。这部分和GenRank的处理思路是一样的。

$U$ $\vec S,\vec U$ $[C_i,I_i]$ 经过embedding连接和维数转换后转为1个token。将上述所有tokens构成一个token序列后即可输入HSTU模块进行处理：

从图中可见，MTGR训练的loss应该只有判别loss（如CTR loss），而不像GenRank和HSTU那样有NTP loss。也即MTGR并没有想拟合下一个token的概率分布，而是将HSTU架构当成了一个强大的序列建模器，通过判别性的优化目标来训练模型。

在具体模型架构上，MTGR提出了Group Layernorm和Dynamic Mask两种优化。

$(\gamma,\beta)$ 参数做layernorm的话，会使得结果非常不稳定（例如有的domain的token数值很大，如果把它们和其他尺度不同的tokens一起用来学习layernorm参数的话会使得均值也很大，导致那些数值较小的token在norm完后数值几乎消失）。因此Group Layernorm使得来自同一个domain的tokens共享一组layernorm参数，不同domain有一套自己的layernorm参数。这样就可以对不同token类型建立各自的尺度感知，避免参数被一种token模式主导，使得做attention时更稳健。

另外，MTGR并未直接使用causal mask，其针对各种token的特点设置了如下mask机制：

$U$ $\vec S$ 的tokens被视为静态tokens，也即“用户本身性质”，因此这些tokens对所有tokens都可见，它们之间全注意力，但它们无法看到后续的最近交互tokens和候选物品tokens。
（即使是历史交互序列的tokens之间也没有causal mask，因为这些行为相对比较久远，因此不认为它们代表了实时兴趣演化，而是当做用户本身性质的一部分）
$\vec R$ 是动态变化的，它会实时引入用户的新行为记录，可以表现用户当前的兴趣演化，因此该部分采用causal mask，也即较晚发生的token无法看到较早的token
各个候选物品token之间完全不可见，从而防止候选物品之间信息泄露。它们可以看到静态tokens和比它们发生时间更早的最近交互tokens

下图中，seq表示历史交互物品token，rt表示最近交互token，target表示候选物品token，数字越小表示发生越晚，例如rt1出现的比rt2更晚。可见，rt1可以看到rt1、rt2的信息，但rt2不能看到rt1的信息。设rt和target出现的时序顺序是：target3-rt2-target2-rt1-target1，可见各个target也只能看到比它们更早发生的rt tokens以及它们本身，但看不到其他候选物品tokens：