Posts by Tags

AI-Infra

Nano-vLLM代码手撕笔记

28 minute read

Published:

Nano-vLLM 为vLLM(v0)的简化版实现,其支持单节点多卡(TP)offline推理,并实现了prefix caching、paged attention、cuda graph优化等核心技术,非常适合入门大模型推理框架。以引擎的启动与初始化和请求的输入、处理、输出过程为脉络,这里对于Nano-vLLM仓库中几乎全部代码进行了逐行手撕。

世界模型

世界模型浅析:JEPA架构的基本思路

less than 1 minute read

Published:

无论是LLM还是Diffusion,这些生成模型本质上都是在基于统计概率来拟合世界中的每一个token/pixel,但它们可能只是在统计意义上进行“续写”,而不是真正理解了世界运行的物理规律,例如“杯子被摔了会碎”、“有人碰杯子会碰倒”等。LeCun认为真正的智能并不是能预测下一个token/pixel,而是能理解世界如何演化(“如果我这样做,世界会发生什么”)。其提出的JEPA架构通过预测“抽象后的未来状态”而不是预测token/pixel本身,来使得模型学习高层次的世界演化规律,相当于一个“脑内物理引擎”。

多模态

多模态大模型——论文精读笔记合集

less than 1 minute read

Published:

多模态大模型(Multimodal LLMs)可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态,输出也可以是多种模态,中间以LLM作为核心大脑进行信息处理。

大模型

LLM跨层信息传递优化:DeepSeek mHC & Kimi AttnRes解析

less than 1 minute read

Published:

LLM沿宽度方向(Attention)的优化已十分充分,但沿深度方向则一直使用简单的残差连接来进行跨层信息传递。残差连接会直接将前层的信息不加筛选地传递到后层,使得深层输入的信息中包含大量无用噪声,可能对模型性能带来不好的影响。因此在2026上半年,DeepSeek和Kimi分别通过mHC和AttnRes来优化了跨层信息传递,使得有用的信息能更多地传递到深层,而无用的信息则受到抑制。

LLM知识记忆:DeepSeek Engram解析

less than 1 minute read

Published:

虽然MoE通过条件计算扩大了模型的容量,但Transformer本身并不具备原生的知识查表能力,其不得不通过计算来低效地模拟信息检索的过程。而语言建模任务本质上包含组合推理与知识检索两种任务,其中前者需要动态的计算,后者则是静态和刻板的(如命名实体和公式化的模式等),其可以使用N-gram这种无需昂贵计算就能有效捕捉局部依赖模式的方法进行知识检索,免去低级重复的推理。因此,DeepSeek提出一种称为Engram的条件记忆机制,作为和MoE互补的另一个稀疏维度。这种设计使得静态的知识可以通过Engram检索获得,无需引入昂贵计算,只需$O(1)$的查表操作,而动态推理则走MoE计算。

LLM注意力优化:稀疏注意力

1 minute read

Published:

在长文本情境下,对全部历史token做注意力会带来巨大的计算和访存开销,稀疏注意力(Sparse Attention)则通过让每个query有选择地仅和部分最相关的kv做注意力计算,来大幅减小实际计算量。从DeepSeek NSA,DSA到到DSV4中的CSA,HCA,稀疏注意力几乎已成为超长文本模型的标配,且其基本技术思路也存在诸多共性,包括KV块级压缩、基于相关度分数的top-k选择性注意力、粗细粒度结合的层次化注意力等。稀疏注意力也可以和全注意力、线性注意力等进行结合,通过interleave的方式在模型中交替放置,来实现混合注意力。

LLM注意力优化:线性注意力

1 minute read

Published:

标准注意力计算关于序列长度呈二次复杂度,在长文本情境下会给模型推理带来巨大开销。而二次复杂度的无法破除的本质原因在于,注意力计算中的softmax迫使必须先算QK再和V运算,而不能先算KV再和Q运算。线性注意力(Linear Attention)通过对标准注意力公式进行近似改写来使得后者可行,从而使得计算开销变成随序列长度线性增长。从另一个角度看,线性注意力本质上也是类似RNN或SSM模型,以recurrent的形式通过有限大小的记忆张量来压缩无限的历史信息,而不像标准注意力下KV Cache随上下文长度线性增长。因此,线性注意力可以从根本上解决注意力二次复杂度的问题,但由于其本质上是用有限空间压缩无限记忆,因此算法性能不一定能赶上标准注意力。目前Qwen3-Next等模型通常以混合注意力的形式来穿插线性注意力层和标准注意力层,从而在算法和系统性能之间达到一个平衡。

Nano-vLLM代码手撕笔记

28 minute read

Published:

Nano-vLLM 为vLLM(v0)的简化版实现,其支持单节点多卡(TP)offline推理,并实现了prefix caching、paged attention、cuda graph优化等核心技术,非常适合入门大模型推理框架。以引擎的启动与初始化和请求的输入、处理、输出过程为脉络,这里对于Nano-vLLM仓库中几乎全部代码进行了逐行手撕。

多模态大模型——论文精读笔记合集

less than 1 minute read

Published:

多模态大模型(Multimodal LLMs)可以处理文本、图像、音频等多种模态的信息。广义的多模态模型可以输入多种模态,输出也可以是多种模态,中间以LLM作为核心大脑进行信息处理。

大模型强化学习:从稀疏奖励到稠密奖励

less than 1 minute read

Published:

在大模型后训练的RL过程中,通常由奖励模型或基于规则的奖励机制来给出奖励信号,但这种机制通常只能作用于模型生成的一个完整的序列上,给整个响应打一个单一的标量分数,这就导致无法给每个生成的token提供具体的奖励值,模型只能知道这个生成结果总体上怎么样,而难以知道生成的每一步的好坏,提高了其学习长推理链的难度。为了解决奖励稀疏化的问题,近两年出现了如PRM(过程奖励模型)、OPD(在线蒸馏)等相关优化方法来实现稠密奖励,它们致力于实现给生成的每个step甚至每个token都打出具体的分数,从而让模型更细粒度地学习复杂的推理流程。

大模型位置编码与长文本:算法侧与系统侧优化

less than 1 minute read

Published:

长文本情境下,大模型面临了来自算法侧和系统侧的双重挑战:文本过长时不仅会导致模型生成质量下降,还会导致推理成本急剧增加。这里针对这两个方面的挑战进行了分析,以及记录了一些常见的算法侧优化方法。

大模型中的Attention Sink与Outliers的产生机制与消除

less than 1 minute read

Published:

相比于传统的小型神经网络,大模型中存在Attention Sink和Outliers等独特的现象,它们的存在会给低比特量化等模型优化过程带来额外的挑战,并且也可能损害模型的算法性能。这里浅记一下对于它们产生机制的理解,以及消除它们的一些常见方法。

DeepSeek MoE:从v1到v3的演进

less than 1 minute read

Published:

MoE(Mixture-of-Expert)是现代大模型的标配结构,其将传统Transformer中的单一FFN层替换为router+多个expert的组合,在推理时为每个token动态分配特定的几个expert,可以在不显著增大推理开销的前提下大幅提升模型的参数量,使得其容纳的知识更多,从而提升模型算法性能。然而MoE的动态路由机制使得其在多卡训练场景下存在负载均衡和集合通信开销等的挑战。DeepSeek系列的模型在架构层面一直致力于在算法和系统层面优化MoE,使之具备愈发成熟的实用价值。这里简单记录DeepSeek MoE从DSv1到DSv3的主要演进。

DeepSeek MLA学习笔记

less than 1 minute read

Published:

MLA(Multi-Head Latent Attention)是DeepSeek V2中提出的一种KV Cache压缩技术。不同于以往大多数方法致力于在token数量维度压缩KV Cache,MLA通过大幅缩减KV所需的通道数量来实现压缩效果,并通过一些算法和系统优化来削减额外的推理开销和兼容RoPE位置编码,从而使得模型decoding过程中针对KV Cache的访存压力大幅减小,有利于减少显存压力和提升推理速度。

Speculative Decoding推理加速入门笔记

less than 1 minute read

Published:

投机解码(Speculative Decoding,SD)是一种无损的大模型推理加速技术。在普通的decoding过程中,模型每轮推理只处理一个token的计算,却每次都需要拿到所有历史上下文的kv cache来做attention,导致存在巨大的访存瓶颈。而SD则在decoding阶段也让模型能一次并行处理多个token,从而大幅提升计算访存比,提高了硬件计算利用率。同时在理论上可以保证其输出结果无损,在合适的配置下可以拿到“免费”的加速。

强化学习

大模型强化学习:从稀疏奖励到稠密奖励

less than 1 minute read

Published:

在大模型后训练的RL过程中,通常由奖励模型或基于规则的奖励机制来给出奖励信号,但这种机制通常只能作用于模型生成的一个完整的序列上,给整个响应打一个单一的标量分数,这就导致无法给每个生成的token提供具体的奖励值,模型只能知道这个生成结果总体上怎么样,而难以知道生成的每一步的好坏,提高了其学习长推理链的难度。为了解决奖励稀疏化的问题,近两年出现了如PRM(过程奖励模型)、OPD(在线蒸馏)等相关优化方法来实现稠密奖励,它们致力于实现给生成的每个step甚至每个token都打出具体的分数,从而让模型更细粒度地学习复杂的推理流程。

推理优化

Speculative Decoding推理加速入门笔记

less than 1 minute read

Published:

投机解码(Speculative Decoding,SD)是一种无损的大模型推理加速技术。在普通的decoding过程中,模型每轮推理只处理一个token的计算,却每次都需要拿到所有历史上下文的kv cache来做attention,导致存在巨大的访存瓶颈。而SD则在decoding阶段也让模型能一次并行处理多个token,从而大幅提升计算访存比,提高了硬件计算利用率。同时在理论上可以保证其输出结果无损,在合适的配置下可以拿到“免费”的加速。

推荐系统

推荐大模型——论文精读笔记合集

less than 1 minute read

Published:

千亿参数级别的大模型已在NLP和CV领域验证了有效性,而大多数推荐系统仍停留在小模型多级漏斗范式下,其收益正在明显见顶。因此,一些研究试图将大模型领域的成功经验迁移到推荐系统中,从而构建更高效和智能的下一代推荐系统。其中,以TIGER、OneRec等为代表的工作借鉴了大模型的自回归生成范式,将推荐系统的工作逻辑由“判定候选物品的分数”升级为“直接生成下一个要推荐的物品”,从而实现了生成式召回,生成式排序,甚至端到端的生成式推荐系统。另外,RankMixer、OneTrans等工作则重点尝试将大模型的scaling law迁移到传统推荐范式下,从而优化特征交叉、序列建模等精排组件,并进一步探索在大参数模型下统一特征交叉与序列建模等可能。

秋招

26秋招总结——有些弯路本可以避免

less than 1 minute read

Published:

作为一名决定回国找工作的美硕留子,秋招于我而言注定是一场充满焦虑的孤军奋战。网上相关的经验帖早已多如牛毛,但经过五十多场面试后仍不免感慨“绝知此事要躬行”。回望这段经历,如果有些事情可以早些知道,很多弯路或许可以避免,很多焦虑或许本不必存在。基于我在半年多的时间里摸索出来的规则与经验,希望能在这里写一个针对秋招的全面指南,为打破信息差做一点微小的贡献。

26秋招总结——LeetCode高频刷题笔记

less than 1 minute read

Published:

这里是我针对26届秋招面试中常见的LeetCode题目的手写刷题笔记。其中包含了Hot100中的所有题目和我在面试中遇到的一些其他题目,涵盖了校招面试中可能涉及的绝大多数考点。题解大部分是DeepSeek给出的,力求使用最通用、最清晰易懂的解法。另外,也简单记录了一些在使用类ACM平台进行机考时的注意事项。

PDF下载链接:LeetCode刷题笔记 By Luning Wang

该份笔记仅供学习参考使用,请勿用于商业用途。

长文本

大模型位置编码与长文本:算法侧与系统侧优化

less than 1 minute read

Published:

长文本情境下,大模型面临了来自算法侧和系统侧的双重挑战:文本过长时不仅会导致模型生成质量下降,还会导致推理成本急剧增加。这里针对这两个方面的挑战进行了分析,以及记录了一些常见的算法侧优化方法。