旧模型做不到的事:不必等待
到现在,你已经能手工读懂一个 Transformer 模块了。那它为什么会赢?最大的原因几乎是机械性的,与“智能”关系不大:Transformer 一次性读入整段序列。而循环网络要先处理第 1 个词,再第 2 个、第 3 个——每一步都得等上一步。这种依赖链在纸面上没问题,却扼住了 2010 年代最关键的那项资源:GPU——一种只有在成千上万次计算并排进行时才能尽情飞驰的芯片。
自注意力没有这种链条。每个 token 在一次大矩阵乘法里看遍其它所有 token,于是整句话——乃至整页文字——都被并行处理。这意味着 Transformer 把一项漫长、空转、按部就班的任务,变成了一大批 GPU 能一口吞下的运算。这套架构不只是契合硬件;它契合的是*整个领域当时正拼命打造的*那种硬件。让人们敢把 Transformer 做到前所未有规模的,与其说是某个巧妙想法,不如说是训练速度。
“Attention is all you need”——这标题究竟在主张什么
2017 年那篇 Attention Is All You Need 的标题故意带点调皮。它真正的主张同时既窄又大胆:你可以把循环与卷积彻底扔掉,只留注意力加上简单的前馈层,机器翻译反而做得更好。多年来人们一直把注意力*附加*在循环模型上当帮手。这篇论文的妙招,是让注意力成为整座承重结构——也就是你如今从零件搭起来的那个 Transformer。
不过对这标题要诚实些,因为这个领域很少诚实。“你只需要它”在 2017 年那个翻译基准上是成立的;它*不是*自然法则。Transformer 仍然需要位置编码(光靠注意力是分不清顺序的),仍然需要归一化和残差连接才能训得起来,也仍然把大量原始容量寄托在前馈模块上。这句口号流传开来,是因为它朗朗上口,而非因为注意力真是唯一的配料。
规模与迁移:把它推成庞然大物的两台引擎
一个训练得快的架构,只有在“越做大越划算”时才真正重要——而 Transformer 在这点上撞了大运,少有设计这般幸运。研究者发现了缩放定律:在跨越许多数量级的范围内,随着参数、数据、算力的增加,损失会平滑而可预测地下降。在测试过的区间里没有断崖,也没有明显天花板。这把一场研究豪赌变得更像工程:多花十倍算力,就能拿到可量化地更好的模型。钱能买来能力,钱便涌了进来。
第二台引擎是迁移。你不必为每个任务各训一个模型,而是先在浩如烟海的无标注文本上做一次预训练,学到通用结构,然后再便宜地微调,甚至只用提示就能应付每件具体活儿。这正是前几级台阶里的迁移学习思想,但 Transformer 把它放大到惊人:一个大基础模型成了可复用的底座,翻译、摘要、写代码、聊天通吃。所谓大语言模型正是如此——单个预训练好的 Transformer,被压去干上千种活。
专家混合:养一个巨脑,每次只用一小片
缩放定律说越大越好,但越大也意味着每个 token 都得为每个参数买单——成本暴涨。专家混合(MoE)是个机灵的躲闪法。你把一个大前馈模块换成比如 64 个较小的“专家”模块,再加一个小小的路由器,它为每个 token 只挑其中 2 个来运行。模型可以*拥有*海量参数,但任何单个 token 只*激活*其中一小撮。
# one MoE feed-forward layer, per token
scores = router(token) # how well each expert fits this token
top2 = argtop(scores, k=2) # pick the 2 best experts
out = 0
for e in top2: # run ONLY those 2, not all 64
out += softmax(scores)[e] * expert[e](token)
# total params: 64 experts. compute paid: 2 experts.好处是实打实的:你把总知识量(参数规模)与每 token 的推理成本解耦了。但诚实地说,代价也是实打实的。那些专家即便大多闲着也得全部驻留在显存里,所以 MoE 很吃内存,部署也更棘手。路由可能崩塌成少数几个专家霸占所有 token,需要平衡技巧来纠偏。MoE 是个扩规模的*技巧*,不是智能上的飞跃——它以更友好的算力账单换来更大的模型,仅此而已,没有更神秘的东西。
诚实的取舍——以及为何“称霸”不等于“永远赢家”
现在说说营销略过的部分。自注意力让每个 token 与其它每个 token 两两比较,所以成本随序列长度的*平方*增长。上下文长度翻一倍,计算量就翻四倍。正是这个平方瓶颈,让长文档变得昂贵,也让一个小行当——FlashAttention、稀疏与线性注意力等变体——专门为压低这成本而存在。这套架构的标志性优势“一次看遍全局”,同时也是它标志性的开销。
还有两条诚实的局限。Transformer 极其耗数据、耗算力;那张以美元与能耗计的账单,绝不是脚注。而作为语言模型,它们预测的是貌似合理的下一个 token——并没有内置的求真保证,这正是为什么幻觉(流畅而自信的胡说)是结构性的,而非一个能打补丁修掉的 bug。所谓的涌现能力——似乎在规模够大时骤然出现的本领——令人兴奋,却也存争议:其中一些,一旦你更仔细地度量,就收敛成了平滑而不足为奇的曲线。
那它究竟为何称霸?不是因为它是终极或最聪明的设计,而是因为它够并行,能大规模训练;够通用,能处处迁移;又够幸运,扩规模一直划算。请留意它越出文本的触角:同一个模块如今驱动着处理图像的视觉 Transformer,还有音频、蛋白质结构等等。这份通用性才是真正的头条。会不会有某种在长上下文上更快的东西最终取而代之,仍是开放问题——“称霸”是一个时代的快照,而非永恒的定论。