鏈式法則與混合偏導數的相等

鏈式法則就是矩陣乘法

一旦導數是線性映射，多元鏈式法則就變得極為簡潔：複合的導數即導數的複合。用矩陣語言說，g∘f 的雅可比矩陣是兩個雅可比矩陣的乘積。這正是當初把全導數定義為線性映射的全部理由。

Chain rule:  if f differentiable at a, g differentiable at f(a), then

   D(g . f)(a) = Dg(f(a)) * Df(a)     (matrix product).

Entrywise, for h = g(f(x_1,...,x_n)) with f having components u_k:

   dh/dx_j = sum_k  (dg/du_k) * (du_k/dx_j).

Worked: z = g(u, v) with u = x^2 y, v = x + y. Then

   dz/dx = g_u * (2xy) + g_v * (1)
   dz/dy = g_u * (x^2) + g_v * (1).

As matrices, Df = [ 2xy   x^2 ;  1   1 ] and Dg = [ g_u  g_v ];
the row-times-matrix product reproduces both lines above.

鏈式法則即雅可比矩陣之積，再逐項展開。

高階導數與混合偏導數

再對一個偏導數求導，便得到二階高階導數。有趣的是混合偏導數，即對不同變量求導。把所有二階偏導數收進一個矩陣就得到海森矩陣，它是梯度的二階類比。一個自然的疑問：求導的次序要緊嗎——d/dx d/dy f 與 d/dy d/dx f 相等嗎？

通常不要緊。克萊羅定理（又稱施瓦茨定理）說：若混合偏導數 d/dx d/dy f 與 d/dy d/dx f 在 a 的某鄰域內存在且連續，則它們在 a 處相等。 這就是為什麼對任何良好的 C^2 函數，海森矩陣都是對稱的。

次序確實要緊的時候

實用上，你遇到的每個光滑函數都是 C^2 或更好，因此可自由交換偏導次序。這個反例提醒我們：假設確實在起作用，並非吹毛求疵。