26秋招总结——LeetCode高频刷题笔记

26秋招总结——有些弯路本可以避免

less than 1 minute read

Published: June 10, 2026

作为一名决定回国找工作的美硕留子，秋招于我而言注定是一场充满焦虑的孤军奋战。网上相关的经验帖早已多如牛毛，但经过五十多场面试后仍不免感慨“绝知此事要躬行”。回望这段经历，如果有些事情可以早些知道，很多弯路或许可以避免，很多焦虑或许本不必存在。基于我在半年多的时间里摸索出来的规则与经验，希望能在这里写一个针对秋招的全面指南，为打破信息差做一点微小的贡献。

LLM跨层信息传递优化：DeepSeek mHC & Kimi AttnRes解析

1 minute read

Published: April 01, 2026

LLM沿宽度方向（Attention）的优化已十分充分，但沿深度方向则一直使用简单的残差连接来进行跨层信息传递。残差连接会直接将前层的信息不加筛选地传递到后层，使得深层输入的信息中包含大量无用噪声，可能对模型性能带来不好的影响。因此在2026上半年，DeepSeek和Kimi分别通过mHC和AttnRes来优化了跨层信息传递，使得有用的信息能更多地传递到深层，而无用的信息则受到抑制。

LLM知识记忆：DeepSeek Engram解析

less than 1 minute read

Published: April 01, 2026

虽然MoE通过条件计算扩大了模型的容量，但Transformer本身并不具备原生的知识查表能力，其不得不通过计算来低效地模拟信息检索的过程。而语言建模任务本质上包含组合推理与知识检索两种任务，其中前者需要动态的计算，后者则是静态和刻板的（如命名实体和公式化的模式等），其可以使用N-gram这种无需昂贵计算就能有效捕捉局部依赖模式的方法进行知识检索，免去低级重复的推理。因此，DeepSeek提出一种称为Engram的条件记忆机制，作为和MoE互补的另一个稀疏维度。这种设计使得静态的知识可以通过Engram检索获得，无需引入昂贵计算，只需$O(1)$的查表操作，而动态推理则走MoE计算。

LLM注意力优化：稀疏注意力

1 minute read

Published: March 05, 2026

在长文本情境下，对全部历史token做注意力会带来巨大的计算和访存开销，稀疏注意力（Sparse Attention）则通过让每个query有选择地仅和部分最相关的kv做注意力计算，来大幅减小实际计算量。从DeepSeek NSA,DSA到到DSV4中的CSA,HCA，稀疏注意力几乎已成为超长文本模型的标配，且其基本技术思路也存在诸多共性，包括KV块级压缩、基于相关度分数的top-k选择性注意力、粗细粒度结合的层次化注意力等。稀疏注意力也可以和全注意力、线性注意力等进行结合，通过interleave的方式在模型中交替放置，来实现混合注意力。

Luning Wang

26秋招总结——LeetCode高频刷题笔记

Share on

You May Also Enjoy

26秋招总结——有些弯路本可以避免

LLM跨层信息传递优化：DeepSeek mHC & Kimi AttnRes解析

LLM知识记忆：DeepSeek Engram解析

LLM注意力优化：稀疏注意力