特征交叉 —— WuKong 精读笔记

文章链接:https://arxiv.org/pdf/2403.02545

机构:Meta

发布时间:2024.09

参考文献:

Copyright (c) Wang-Luning. All Rights Reserved.

WuKong推出了一种由多层FM层堆叠成的模型结构,可以实现将浅层FM的交叉结果送入深层FM进一步交叉,从而使得交叉阶数不断增大,有效捕获复杂的高阶特征交互能力,并展现出推荐系统中的scaling law。

image-20260225150345163

将输入中稀疏/稠密特征通过embedding层,产生n个维数为d的dense embeddings X0Rn×d,然后输入到由若干个Wukong block堆叠成的特征交互模型中,随着层数加深逐步捕捉到更高阶的交互。每个block中含有2个并行部分:

然后将两部分的输出进行连接,再通过残差连接和norm后得到本block输出:

Xi+1=LN(concat(FMBi(Xi),LCBi(Xi))+Xi)

在这种设计下,第i层的输出结果中可以包含阶数12i的特征交互。可以通过数学归纳法证明:设第i层的输入包含阶数12i1的交互(第i=1层的输入没有交互,也即交互阶数为1,符合假设),而FM层在给定o1阶和o2阶的特征交互作为输入的情况下可以输出(o1+o2)阶的交互结果,因此第i层输出至少最高包含2i1+2i1=2i阶的交互结果。(多层FM堆叠可以使得将浅层FM交叉的结果再送入更深层FM做进一步交叉,从而使得交叉阶数不断增大)