从最佳的数到最佳的曲线
在第一卷中,你学会了寻找普通函数 f(x) 在何处取最大或最小值:求导数,令 f'(x) = 0,再读出那些特殊的输入。答案始终是一个数——峰顶或谷底所在的那个 x。变分法提出了一个更大胆的问题。如果我们要选择的根本不是一个数,而是一整个形状——一条从某点延伸到另一点的完整曲线 y(x)——又会怎样?一条悬挂的链子应取什么形状?小珠沿哪条路径下滑最快?这里的未知量是一个函数,而舞台是无穷维的。
把整个函数变成单个数的机器称为泛函。可以把它看成函数的函数:你输入一整条曲线 y(x),它返回一个数——曲线的长度、下滑的时间、储存的能量。典型的泛函形如 J[y] = 从 a 到 b 对 L(x, y, y') dx 积分,其中被积函数 L 在每一点都依赖于位置 x、高度 y(x) 以及斜率 y'(x)。方括号 J[y] 是有意为之的提醒:输入是一个函数,而不是一个数。
扰动曲线:第一变分
当候选者是一整条曲线时,我们究竟如何定义极大或极小?借用第一卷的精神。要检验数 x0 是否使 f 取极小,你曾推动它:f(x0 + h),问值是否上升。要检验曲线 y(x) 是否使 J 取极小,我们就推动整条曲线。取一个小小的「扰动」eta(x)——任何在两端点都为零的光滑函数,使得变形后的曲线仍从该出发、在该结束的地方出发与结束——然后考察这一族 y(x) + epsilon eta(x)。当旋钮 epsilon 离开零时,曲线随之弯曲;问题是 J 是否上升。
一旦扰动 eta 固定下来,J[y + epsilon eta] 就只是单个数 epsilon 的普通函数。我们又回到了第一卷的地盘!记它为 Phi(epsilon) = J[y + epsilon eta]。若原曲线 y 要成为极小,则 epsilon = 0 必须是 Phi 的普通极小值,于是普通导数 dPhi/d epsilon 在 epsilon = 0 处必须为零。这个导数有个名字:第一变分,记作 delta J。它所扮演的角色,恰恰就是 f'(x0) 对单个数所扮演的角色——它是泛函沿扰动方向的斜率。
对整条曲线而言「驻定」意味着什么
关键的转折在此。对单个数,f'(x0) = 0 是一个条件。但第一变分必须对每一个容许的扰动 eta 同时为零——变形曲线的方式有无穷多种,真正的极小值必须胜过所有这些方式。令 delta J = 0 并用分部积分(变分法的主力工具,从第一卷回想起来)来计算它,便把这一要求化为一个积分:从 a 到 b 对 [ partial L / partial y - d/dx ( partial L / partial y' ) ] eta(x) dx 积分 = 0,且对每一个在两端为零的 eta 都必须成立。
接下来是一小段虽小却决定性的逻辑,即变分法基本引理:若一个连续量乘以每一个可能的 eta 后积分总为零,则该量本身必处处为零。这一直觉诚实而简单——倘若方括号中的表达式在某一小段上为正,我们便可选一个恰好在那里、而别处都不鼓起的 eta,使积分为正,矛盾。于是方括号必在每一点为零,从而给出著名的欧拉-拉格朗日方程。
Euler-Lagrange equation: d ( partial L ) partial L -- ( -------- ) - -------- = 0 dx ( partial y') partial y for a functional J[y] = integral_a^b L(x, y, y') dx
解读方程,以及它并不保证什么
请注意刚才发生了什么。条件 delta J = 0 本是关于无穷多个扰动的陈述,却坍缩成关于未知曲线 y(x) 的一个普通微分方程——通常是二阶的。无穷变成了有限。如今求解变分问题成了熟悉的任务:积分那个微分方程,再用两个端点值 y(a) 与 y(b) 定下两个积分常数。一旦写下欧拉-拉格朗日方程,第二卷全部的微分方程方法立刻可用。
要诚实地说明这个方程保证了什么,正如第一卷对 f'(x) = 0 的诚实。欧拉-拉格朗日方程的解是一条驻定曲线:第一变分在那里为零。这对极小值是必要的,但并不充分。正如 f'(x) = 0 可能标记极大、极小或拐点,一条驻定曲线在函数空间中也可能是真正的极小者、极大者或鞍点——而真正的极小者还须通过一个二阶检验(相当于 f''(x) > 0)。更糟的是,极小值未必存在:某些泛函根本没有最小值,只是滑向一个没有任何实际曲线能达到的下确界。方程找出候选者;确认胜出者还需更多功夫。
由此打开的两个问题
一种方法的威力,最好在真实问题上去体会。看那条悬链:一条长度固定的柔软链子悬于两柱之间,安顿成使其重力势能最小的形状。把这能量写成泛函并应用欧拉-拉格朗日方程,得到的不是伽利略最初猜想的抛物线,而是双曲余弦 y = c cosh(x/c)——悬链线。这形状并非设计者的选择;它是「能量泛函取驻定值」这一要求所迫成的。
又或这门学科的奠基问题,最速降线:在一高点与一低点之间塑出一条钢丝,使小珠从静止出发、在重力下滑动,用时最短而到达。下滑时间是钢丝形状的泛函;欧拉-拉格朗日方程给出一条旋轮线——滚动车轮上一点所描出的曲线。引人注目的是,最快路径竟低于直线,以更长的路程换取早早获得的速度。当初驯服悬链的那同一套第一变分逻辑,也裁决了这场赛跑。
- 把你想优化的量写成泛函 J[y] = 对 L(x, y, y') dx 积分。
- 通过扰动 y -> y + epsilon eta(eta 在两端为零)构造第一变分,并要求 delta J = 0。
- 用基本引理把 delta J = 0 转化为欧拉-拉格朗日微分方程。
- 求解该方程,并用两个端点条件 y(a) 与 y(b) 定下其常数。