给技术人的 AI 避坑阅读指南:很多写代码的朋友想转 AI,首选是读《Attention is all you need》,结果被满屏公式劝退……
这就像刚学会 CRUD,就直接去读 Spanner 的分布式事务论文。
方向没错,但顺序错了。
[彩虹]AI 不是数学神迹,是工程演进史
大模型的底层逻辑,其实非常“工程化”,沿着 存储 → 传输 → 优化 的路径一步步走来的:
1. 存储:怎么把语言变成机器能懂的东西?先看 Word2Vec、Seq2Seq。搞明白:词怎么变成向量?序列怎么翻译?上下文怎么被压缩?
2. 传输:Transformer 到底解决了啥?不是为了炫技,是为了解决 RNN 的串行瓶颈和长距离依赖。Attention 本质是:用并行计算 + 全局权重,取代递归。
3. 优化:为什么现在才爆发?
- FlashAttention:别被名字吓到,核心是硬件 I/O 优化——利用 SRAM 和 HBM 的速度差,减少访存。
- PagedAttention(vLLM):说白了就是操作系统里的虚拟内存分页,只不过挪到了 KV Cache 上。
你看,全是经典的计算机工程问题,不是凭空冒出来的数学魔法。
[彩虹]推荐的“技术人友好”阅读路线
阶段 重点 目标
入门 Word2Vec、Seq2Seq、RNN/LSTM 理解“语言 → 向量 → 预测”的基本范式
核心 Transformer 架构、Positional Encoding 搞懂 Attention 的计算图和数据流
进阶 FlashAttention、PagedAttention、KV Cache 从“能跑”到“跑得快”的工程优化
实战 亲手推导反向传播(Backprop) 在纸上把梯度算一遍,比看十篇论文管用
[彩虹]避坑原则
1. 跳过为发论文而堆砌的数学公式很多公式是为了“显得严谨”,不是“必须理解”。
2. 顺着痛点演进读每个新技术都是为了解决前一个技术的瓶颈。
3. 动手比看书重要把一个小模型(比如 1B 参数)的训练和推理流程跑通,比读 10 篇 SOTA 论文更有用。
[碰拳]一句话总结:
AI 不是玄学,是用经典工程手段解决规模问题的结果。
别被 Attention 吓住,顺着技术脉络走,你会发现:大模型底层,全是老熟人。
📎 原文:x点com/BenjDicken/status/2061812426417295678
