LLM跨层信息传递优化:DeepSeek mHC & Kimi AttnRes解析
Published:
LLM沿宽度方向(Attention)的优化已十分充分,但沿深度方向则一直使用简单的残差连接来进行跨层信息传递。残差连接会直接将前层的信息不加筛选地传递到后层,使得深层输入的信息中包含大量无用噪声,可能对模型性能带来不好的影响。因此在2026上半年,DeepSeek和Kimi分别通过mHC和AttnRes来优化了跨层信息传递,使得有用的信息能更多地传递到深层,而无用的信息则受到抑制。
Published:
LLM沿宽度方向(Attention)的优化已十分充分,但沿深度方向则一直使用简单的残差连接来进行跨层信息传递。残差连接会直接将前层的信息不加筛选地传递到后层,使得深层输入的信息中包含大量无用噪声,可能对模型性能带来不好的影响。因此在2026上半年,DeepSeek和Kimi分别通过mHC和AttnRes来优化了跨层信息传递,使得有用的信息能更多地传递到深层,而无用的信息则受到抑制。
Published:
虽然MoE通过条件计算扩大了模型的容量,但Transformer本身并不具备原生的知识查表能力,其不得不通过计算来低效地模拟信息检索的过程。而语言建模任务本质上包含组合推理与知识检索两种任务,其中前者需要动态的计算,后者则是静态和刻板的(如命名实体和公式化的模式等),其可以使用N-gram这种无需昂贵计算就能有效捕捉局部依赖模式的方法进行知识检索,免去低级重复的推理。因此,DeepSeek提出一种称为Engram的条件记忆机制,作为和MoE互补的另一个稀疏维度。这种设计使得静态的知识可以通过Engram检索获得,无需引入昂贵计算,只需$O(1)$的查表操作,而动态推理则走MoE计算。
Published:
Nano-vLLM 为vLLM(v0)的简化版实现,其支持单节点多卡(TP)offline推理,并实现了prefix caching、paged attention、cuda graph优化等核心技术,非常适合入门大模型推理框架。以引擎的启动与初始化和请求的输入、处理、输出过程为脉络,这里记录了本人对于Nano-vLLM仓库中几乎全部代码的逐行手撕笔记,涵盖了其涉及的所有知识点。
Published:
标准注意力计算关于序列长度呈二次复杂度,在长文本情境下会给模型推理带来巨大开销。而二次复杂度的无法破除的本质原因在于,注意力计算中的softmax迫使必须先算QK再和V运算,而不能先算KV再和Q运算。线性注意力(Linear Attention)通过对标准注意力公式进行近似改写来使得后者可行,从而使得计算开销变成随序列长度线性增长。从另一个角度看,线性注意力本质上也是类似RNN或SSM模型,以recurrent的形式通过有限大小的记忆张量来压缩无限的历史信息,而不像标准注意力下KV Cache随上下文长度线性增长。因此,线性注意力可以从根本上解决注意力二次复杂度的问题,但由于其本质上是用有限空间压缩无限记忆,因此算法性能不一定能赶上标准注意力。目前Qwen3-Next等模型通常以混合注意力的形式来穿插线性注意力层和标准注意力层,从而在算法和系统性能之间达到一个平衡。
Published:
在以往的精排系统中,序列建模(对于用户历史序列的处理)和特征交叉模块通常是分开的:序列建模是将用户历史序列处理成目标物品感知的表征,例如使用DIN、DIEN、SIM、Longer等来通过target attention思想提取序列中的重要信息;特征交叉是学习非序列特征(如用户画像特征、目标物品特征、上下文特征等)和历史序列特征之间的高阶交叉,例如使用FM、WuKong、RankMixer等进行特征交叉。这种“先建模历史序列再将建模后的序列和其他非序列特征进行交互“的两阶段范式在表征能力、优化难度和系统效率上都有不足。因此,OneTrans等工作希望通过一个单一的模型来统一进行序列建模和特征交叉,从而打破序列特征和非序列特征在模型结构上的隔离。
Published:
生成式召回(Generative Retrieval)指的是利用生成式模型直接“预测/生成”用户可能感兴趣的候选项,而不是依赖传统的向量检索或基于特征匹配的召回机制。
Published:
生成式排序(Generative Ranking)是一类借助生成式模型思想来解决排序问题的推荐策略,它通常在训练阶段采用“预测下一个行为”等生成式任务作为目标之一,结合传统的目标如CTR分数预测等,在训练阶段让模型学会预测“用户针对给定目标物品会有什么反应”。在推理阶段则本实际上还是一个分数预测器,本质上可以理解为利用Transformer架构建模用户历史并和目标物品做交叉,从而在深刻理解用户兴趣的情况下作出预测,和传统DLRM在推理阶段的表现其实差不多。
Published:
长序列建模(Long-Sequence Modeling)旨在有效捕捉用户的长短期兴趣与行为演化模式,突破传统短序列方法对历史行为长度的限制。一般的推荐模型仅能建模长度为几百的用户行为序列,面对长度上万甚至数十万的长期行为序列时计算开销通常难以接受。长序列建模相关工作则通过各种策略在计算效率和用户兴趣捕捉精读之间达到平衡,从而能够处理长达数万的“用户终身行为序列”。
Published:
特征交叉(Feature Crossing)是精排模型的核心部件之一,其通过实现不同特征之间的高阶交叉来捕捉复杂的用户兴趣模式,已有多年的研究历史。随着LLM领域对于scaling law等验证,特征交叉领域近年来也出现了一些致力于实现模型scaling的工作。相比于生成式精排强调范式由判别式到生成式的转变,这部分工作仍保持了传统精排模型的判别式目标,同时通过设计更好的模型架构等方式来成功扩大模型规模到大模型量级,证明在传统判别式范式下仍然能够吃到scaling的红利。
Published:
端到端生成式推荐(End-to-End Generative Recommendation)试图将召回、排序甚至重排统一为一个整体生成过程。该范式不再显式区分多阶段 pipeline,而是通过统一的序列建模与端到端训练目标,让模型在一个框架内同时学习候选选择与排序决策,从而减少阶段割裂带来的误差传递问题,并为大规模预训练与 Scaling 提供更自然的技术路径。
Published:
多模态大模型(Multimodal LLMs)可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态,输出也可以是多种模态,中间以LLM作为核心大脑进行信息处理。
Published:
长文本情境下,大模型面临了来自算法侧和系统侧的双重挑战:文本过长时不仅会导致模型生成质量下降,还会导致推理成本急剧增加。这里针对这两个方面的挑战进行了分析,以及记录了一些常见的算法侧优化方法。
Published:
相比于传统的小型神经网络,大模型中存在Attention Sink和Outliers等独特的现象,它们的存在会给低比特量化等模型优化过程带来额外的挑战,并且也可能损害模型的算法性能。这里浅记一下对于它们产生机制的理解,以及消除它们的一些常见方法。
Published:
投机解码(Speculative Decoding,SD)是一种无损的大模型推理加速技术。在普通的decoding过程中,模型每轮推理只处理一个token的计算,却每次都需要拿到所有历史上下文的kv cache来做attention,导致存在巨大的访存瓶颈。而SD则在decoding阶段也让模型能一次并行处理多个token,从而大幅提升计算访存比,提高了硬件计算利用率。同时在理论上可以保证其输出结果无损,在合适的配置下可以拿到“免费”的加速。