Transformer 为何称霸

旧模型做不到的事：不必等待

到现在，你已经能手工读懂一个 Transformer 模块了。那它为什么会赢？最大的原因几乎是机械性的，与“智能”关系不大：Transformer 一次性读入整段序列。而循环网络要先处理第 1 个词，再第 2 个、第 3 个——每一步都得等上一步。这种依赖链在纸面上没问题，却扼住了 2010 年代最关键的那项资源：GPU——一种只有在成千上万次计算并排进行时才能尽情飞驰的芯片。

自注意力没有这种链条。每个 token 在一次大矩阵乘法里看遍其它所有 token，于是整句话——乃至整页文字——都被并行处理。这意味着 Transformer 把一项漫长、空转、按部就班的任务，变成了一大批 GPU 能一口吞下的运算。这套架构不只是契合硬件；它契合的是*整个领域当时正拼命打造的*那种硬件。让人们敢把 Transformer 做到前所未有规模的，与其说是某个巧妙想法，不如说是训练速度。

“Attention is all you need”——这标题究竟在主张什么

2017 年那篇 Attention Is All You Need 的标题故意带点调皮。它真正的主张同时既窄又大胆：你可以把循环与卷积彻底扔掉，只留注意力加上简单的前馈层，机器翻译反而做得更好。多年来人们一直把注意力*附加*在循环模型上当帮手。这篇论文的妙招，是让注意力成为整座承重结构——也就是你如今从零件搭起来的那个 Transformer。

不过对这标题要诚实些，因为这个领域很少诚实。“你只需要它”在 2017 年那个翻译基准上是成立的；它*不是*自然法则。Transformer 仍然需要位置编码（光靠注意力是分不清顺序的），仍然需要归一化和残差连接才能训得起来，也仍然把大量原始容量寄托在前馈模块上。这句口号流传开来，是因为它朗朗上口，而非因为注意力真是唯一的配料。

规模与迁移：把它推成庞然大物的两台引擎

一个训练得快的架构，只有在“越做大越划算”时才真正重要——而 Transformer 在这点上撞了大运，少有设计这般幸运。研究者发现了缩放定律：在跨越许多数量级的范围内，随着参数、数据、算力的增加，损失会平滑而可预测地下降。在测试过的区间里没有断崖，也没有明显天花板。这把一场研究豪赌变得更像工程：多花十倍算力，就能拿到可量化地更好的模型。钱能买来能力，钱便涌了进来。

第二台引擎是迁移。你不必为每个任务各训一个模型，而是先在浩如烟海的无标注文本上做一次预训练，学到通用结构，然后再便宜地微调，甚至只用提示就能应付每件具体活儿。这正是前几级台阶里的迁移学习思想，但 Transformer 把它放大到惊人：一个大基础模型成了可复用的底座，翻译、摘要、写代码、聊天通吃。所谓大语言模型正是如此——单个预训练好的 Transformer，被压去干上千种活。

专家混合：养一个巨脑，每次只用一小片

缩放定律说越大越好，但越大也意味着每个 token 都得为每个参数买单——成本暴涨。专家混合（MoE）是个机灵的躲闪法。你把一个大前馈模块换成比如 64 个较小的“专家”模块，再加一个小小的路由器，它为每个 token 只挑其中 2 个来运行。模型可以*拥有*海量参数，但任何单个 token 只*激活*其中一小撮。

# one MoE feed-forward layer, per token
scores  = router(token)              # how well each expert fits this token
top2    = argtop(scores, k=2)        # pick the 2 best experts
out = 0
for e in top2:                       # run ONLY those 2, not all 64
    out += softmax(scores)[e] * expert[e](token)
# total params: 64 experts. compute paid: 2 experts.

路由器把每个 token 送往与它最匹配的专家；对该 token 而言，模型的大部分都在闲置。

好处是实打实的：你把总知识量（参数规模）与每 token 的推理成本解耦了。但诚实地说，代价也是实打实的。那些专家即便大多闲着也得全部驻留在显存里，所以 MoE 很吃内存，部署也更棘手。路由可能崩塌成少数几个专家霸占所有 token，需要平衡技巧来纠偏。MoE 是个扩规模的*技巧*，不是智能上的飞跃——它以更友好的算力账单换来更大的模型，仅此而已，没有更神秘的东西。

诚实的取舍——以及为何“称霸”不等于“永远赢家”

现在说说营销略过的部分。自注意力让每个 token 与其它每个 token 两两比较，所以成本随序列长度的*平方*增长。上下文长度翻一倍，计算量就翻四倍。正是这个平方瓶颈，让长文档变得昂贵，也让一个小行当——FlashAttention、稀疏与线性注意力等变体——专门为压低这成本而存在。这套架构的标志性优势“一次看遍全局”，同时也是它标志性的开销。

还有两条诚实的局限。Transformer 极其耗数据、耗算力；那张以美元与能耗计的账单，绝不是脚注。而作为语言模型，它们预测的是貌似合理的下一个 token——并没有内置的求真保证，这正是为什么幻觉（流畅而自信的胡说）是结构性的，而非一个能打补丁修掉的 bug。所谓的涌现能力——似乎在规模够大时骤然出现的本领——令人兴奋，却也存争议：其中一些，一旦你更仔细地度量，就收敛成了平滑而不足为奇的曲线。

那它究竟为何称霸？不是因为它是终极或最聪明的设计，而是因为它够并行，能大规模训练；够通用，能处处迁移；又够幸运，扩规模一直划算。请留意它越出文本的触角：同一个模块如今驱动着处理图像的视觉 Transformer，还有音频、蛋白质结构等等。这份通用性才是真正的头条。会不会有某种在长上下文上更快的东西最终取而代之，仍是开放问题——“称霸”是一个时代的快照，而非永恒的定论。