回归就是投影
最小二乘回归拟合 y ≈ X b。由于 X b 只能落在 X 的列空间里,我们能做到的最好就是把 y 正交投影到该子空间上。令残差 y - X b 与每一列正交,便得到正规方程 X^T X b = X^T y。这正是第一卷的几何,如今戴上了数据科学的帽子。
卡尔曼滤波器:动力系统遇上最小二乘
把第 4 篇与第 5 篇融合。卡尔曼滤波器跟踪一个服从线性动力系统 x_{t+1} = A x_t + 噪声 的状态,而你只能看到带噪声的测量 z_t = H x_t + 噪声。每一步先用 A 推进状态来做预测,再朝新测量做一次最小二乘式的修正,权重取决于你对各信息源的信任程度。
- 预测:x_pred = A x_est,并按过程噪声放大不确定度(协方差)。
- 比较:残差 = z - H x_pred(测量有多出乎意料)。
- 修正:x_est = x_pred + K * 残差,其中卡尔曼增益 K 是最小二乘意义下最优的混合权重。
DFT 不过是一次基变换
离散傅里叶变换听起来像分析学,其实是纯粹的线性代数:它把信号改写到复正弦基下。DFT 矩阵 F 是(按比例缩放的)酉矩阵——它的各列标准正交——所以正变换与逆变换不过是同一次基变换的来与回,不丢失任何信息。
终极回报:四个问题,一套工具
退后一步看,整条主线就是三招在不同舞台上的演出。特征向量寻找稳态与稳定性——PageRank、马尔可夫链、动力系统。投影 / 低秩寻找最佳的简洁概括——PCA、回归、推荐系统、嵌入。基变换挑选让问题变简单的坐标——傅里叶、谱聚类、对角化。
这就是第二卷的全部承诺化为具体:你在第一门课上抽象证明过的那一小撮定理,正是搜索、推荐、网络、信号处理与控制背后运转着的引擎。把这套工具学一次;从此处处认得它。