在函数空间中求最优

从最佳的数到最佳的曲线

在第一卷中，你学会了寻找普通函数 f(x) 在何处取最大或最小值：求导数，令 f'(x) = 0，再读出那些特殊的输入。答案始终是一个数——峰顶或谷底所在的那个 x。变分法提出了一个更大胆的问题。如果我们要选择的根本不是一个数，而是一整个形状——一条从某点延伸到另一点的完整曲线 y(x)——又会怎样？一条悬挂的链子应取什么形状？小珠沿哪条路径下滑最快？这里的未知量是一个函数，而舞台是无穷维的。

把整个函数变成单个数的机器称为泛函。可以把它看成函数的函数：你输入一整条曲线 y(x)，它返回一个数——曲线的长度、下滑的时间、储存的能量。典型的泛函形如 J[y] = 从 a 到 b 对 L(x, y, y') dx 积分，其中被积函数 L 在每一点都依赖于位置 x、高度 y(x) 以及斜率 y'(x)。方括号 J[y] 是有意为之的提醒：输入是一个函数，而不是一个数。

扰动曲线：第一变分

当候选者是一整条曲线时，我们究竟如何定义极大或极小？借用第一卷的精神。要检验数 x0 是否使 f 取极小，你曾推动它：f(x0 + h)，问值是否上升。要检验曲线 y(x) 是否使 J 取极小，我们就推动整条曲线。取一个小小的「扰动」eta(x)——任何在两端点都为零的光滑函数，使得变形后的曲线仍从该出发、在该结束的地方出发与结束——然后考察这一族 y(x) + epsilon eta(x)。当旋钮 epsilon 离开零时，曲线随之弯曲；问题是 J 是否上升。

一旦扰动 eta 固定下来，J[y + epsilon eta] 就只是单个数 epsilon 的普通函数。我们又回到了第一卷的地盘！记它为 Phi(epsilon) = J[y + epsilon eta]。若原曲线 y 要成为极小，则 epsilon = 0 必须是 Phi 的普通极小值，于是普通导数 dPhi/d epsilon 在 epsilon = 0 处必须为零。这个导数有个名字：第一变分，记作 delta J。它所扮演的角色，恰恰就是 f'(x0) 对单个数所扮演的角色——它是泛函沿扰动方向的斜率。

对整条曲线而言「驻定」意味着什么

关键的转折在此。对单个数，f'(x0) = 0 是一个条件。但第一变分必须对每一个容许的扰动 eta 同时为零——变形曲线的方式有无穷多种，真正的极小值必须胜过所有这些方式。令 delta J = 0 并用分部积分（变分法的主力工具，从第一卷回想起来）来计算它，便把这一要求化为一个积分：从 a 到 b 对 [ partial L / partial y - d/dx ( partial L / partial y' ) ] eta(x) dx 积分 = 0，且对每一个在两端为零的 eta 都必须成立。

接下来是一小段虽小却决定性的逻辑，即变分法基本引理：若一个连续量乘以每一个可能的 eta 后积分总为零，则该量本身必处处为零。这一直觉诚实而简单——倘若方括号中的表达式在某一小段上为正，我们便可选一个恰好在那里、而别处都不鼓起的 eta，使积分为正，矛盾。于是方括号必在每一点为零，从而给出著名的欧拉-拉格朗日方程。

Euler-Lagrange equation:

  d  ( partial L )    partial L
  -- ( -------- )  -  --------  =  0
  dx ( partial y')    partial y

for a functional   J[y] = integral_a^b  L(x, y, y') dx

欧拉-拉格朗日方程：最优曲线在每一点都必须满足的一个微分方程。

解读方程，以及它并不保证什么

请注意刚才发生了什么。条件 delta J = 0 本是关于无穷多个扰动的陈述，却坍缩成关于未知曲线 y(x) 的一个普通微分方程——通常是二阶的。无穷变成了有限。如今求解变分问题成了熟悉的任务：积分那个微分方程，再用两个端点值 y(a) 与 y(b) 定下两个积分常数。一旦写下欧拉-拉格朗日方程，第二卷全部的微分方程方法立刻可用。

要诚实地说明这个方程保证了什么，正如第一卷对 f'(x) = 0 的诚实。欧拉-拉格朗日方程的解是一条驻定曲线：第一变分在那里为零。这对极小值是必要的，但并不充分。正如 f'(x) = 0 可能标记极大、极小或拐点，一条驻定曲线在函数空间中也可能是真正的极小者、极大者或鞍点——而真正的极小者还须通过一个二阶检验（相当于 f''(x) > 0）。更糟的是，极小值未必存在：某些泛函根本没有最小值，只是滑向一个没有任何实际曲线能达到的下确界。方程找出候选者；确认胜出者还需更多功夫。

由此打开的两个问题

一种方法的威力，最好在真实问题上去体会。看那条悬链：一条长度固定的柔软链子悬于两柱之间，安顿成使其重力势能最小的形状。把这能量写成泛函并应用欧拉-拉格朗日方程，得到的不是伽利略最初猜想的抛物线，而是双曲余弦 y = c cosh(x/c)——悬链线。这形状并非设计者的选择；它是「能量泛函取驻定值」这一要求所迫成的。

又或这门学科的奠基问题，最速降线：在一高点与一低点之间塑出一条钢丝，使小珠从静止出发、在重力下滑动，用时最短而到达。下滑时间是钢丝形状的泛函；欧拉-拉格朗日方程给出一条旋轮线——滚动车轮上一点所描出的曲线。引人注目的是，最快路径竟低于直线，以更长的路程换取早早获得的速度。当初驯服悬链的那同一套第一变分逻辑，也裁决了这场赛跑。

把你想优化的量写成泛函 J[y] = 对 L(x, y, y') dx 积分。
通过扰动 y -> y + epsilon eta（eta 在两端为零）构造第一变分，并要求 delta J = 0。
用基本引理把 delta J = 0 转化为欧拉-拉格朗日微分方程。
求解该方程，并用两个端点条件 y(a) 与 y(b) 定下其常数。