链式法则与混合偏导数的相等

链式法则就是矩阵乘法

一旦导数是线性映射，多元链式法则就变得极为简洁：复合的导数即导数的复合。用矩阵语言说，g∘f 的雅可比矩阵是两个雅可比矩阵的乘积。这正是当初把全导数定义为线性映射的全部理由。

Chain rule:  if f differentiable at a, g differentiable at f(a), then

   D(g . f)(a) = Dg(f(a)) * Df(a)     (matrix product).

Entrywise, for h = g(f(x_1,...,x_n)) with f having components u_k:

   dh/dx_j = sum_k  (dg/du_k) * (du_k/dx_j).

Worked: z = g(u, v) with u = x^2 y, v = x + y. Then

   dz/dx = g_u * (2xy) + g_v * (1)
   dz/dy = g_u * (x^2) + g_v * (1).

As matrices, Df = [ 2xy   x^2 ;  1   1 ] and Dg = [ g_u  g_v ];
the row-times-matrix product reproduces both lines above.

链式法则即雅可比矩阵之积，再逐项展开。

高阶导数与混合偏导数

再对一个偏导数求导，便得到二阶高阶导数。有趣的是混合偏导数，即对不同变量求导。把所有二阶偏导数收进一个矩阵就得到海森矩阵，它是梯度的二阶类比。一个自然的疑问：求导的次序要紧吗——d/dx d/dy f 与 d/dy d/dx f 相等吗？

通常不要紧。克莱罗定理（又称施瓦茨定理）说：若混合偏导数 d/dx d/dy f 与 d/dy d/dx f 在 a 的某邻域内存在且连续，则它们在 a 处相等。 这就是为什么对任何良好的 C^2 函数，海森矩阵都是对称的。

次序确实要紧的时候

实用上，你遇到的每个光滑函数都是 C^2 或更好，因此可自由交换偏导次序。这个反例提醒我们：假设确实在起作用，并非吹毛求疵。