鏈式法則就是矩陣乘法
一旦導數是線性映射,多元鏈式法則就變得極為簡潔:複合的導數即導數的複合。用矩陣語言說,g∘f 的雅可比矩陣是兩個雅可比矩陣的乘積。這正是當初把全導數定義為線性映射的全部理由。
Chain rule: if f differentiable at a, g differentiable at f(a), then D(g . f)(a) = Dg(f(a)) * Df(a) (matrix product). Entrywise, for h = g(f(x_1,...,x_n)) with f having components u_k: dh/dx_j = sum_k (dg/du_k) * (du_k/dx_j). Worked: z = g(u, v) with u = x^2 y, v = x + y. Then dz/dx = g_u * (2xy) + g_v * (1) dz/dy = g_u * (x^2) + g_v * (1). As matrices, Df = [ 2xy x^2 ; 1 1 ] and Dg = [ g_u g_v ]; the row-times-matrix product reproduces both lines above.
高階導數與混合偏導數
再對一個偏導數求導,便得到二階高階導數。有趣的是混合偏導數,即對不同變量求導。把所有二階偏導數收進一個矩陣就得到海森矩陣,它是梯度的二階類比。一個自然的疑問:求導的次序要緊嗎——d/dx d/dy f 與 d/dy d/dx f 相等嗎?
通常不要緊。克萊羅定理(又稱施瓦茨定理)說:若混合偏導數 d/dx d/dy f 與 d/dy d/dx f 在 a 的某鄰域內存在且連續,則它們在 a 處相等。 這就是為什麼對任何良好的 C^2 函數,海森矩陣都是對稱的。
次序確實要緊的時候
實用上,你遇到的每個光滑函數都是 C^2 或更好,因此可自由交換偏導次序。這個反例提醒我們:假設確實在起作用,並非吹毛求疵。