特征交叉 —— TokenMixer-Large 精读笔记

文章链接:https://arxiv.org/pdf/2602.06563

机构:字节

发布时间:2026.02

Copyright (c) Wang-Luning. All Rights Reserved.

本文为RankMixer团队推出的升级版RankMixer-v2,主要是针对原始的RankMixer存在的一些问题进行深入优化,从而将模型做的更大、更深,其分别在离线和在线场景下部署了15B和7B规模的模型。

 

TokenMixer尽管实现了效率和效果的平衡,成为了很多推荐系统的backbone,但其仍存在如下缺点:

 

特征的Tokenization

总体上和RankMixer类似,也是将特征进行分组后映射为维数相同的tokens。为了更好地捕捉全局信息,借鉴BERT中的[CLS] token,进一步设计了一个global token来聚合全局信息,它由所有特征的embedding连接后的大向量通过一个MLP映射后得到。这个global token会被连接到正常token序列的开头,从而形成模型输入X0RT×D

image-20260220161853034

模型结构:

其他改进:

在系统部署上,针对该模型的特性定制了MoE算子、token并行策略,以及使用了FP8 PTQ等。