1.3. 核岭回归

核岭回归（KRR）[M2012]将岭回归（带有 $\ell_2$ 范数正则化的线性最小二乘）和核组合了起来。因此它是在由对应核和数据所导出的空间中学习线性函数。对于非线性核，则对应于原始空间中的一个非线性函数。

KernelRidge学到的模型与支持向量回归（SVR）学到的模型有着相同的形式。然而两者用到的损失函数有所不同。KRR用的是平方误差损失函数，而SVR用到的是 $\epsilon$ -不敏感损失函数——当然，两者都结合了 $\ell_2$ 正则化。与SVR不同，KernelRidge可以使用闭合形式拟合，而且在中等大小的数据集上通常拟合更快。另一方面，KernelRidge学习到的模型是非稀疏的，因此在预测时会比SVR慢，因为后者在预测是对 $\epsilon>0$ 学习一个稀疏模型。

下图在一个人工构造的数据集上对KernelRidge和SVR进行了对比。其中，数据集通过如下方法构造：总的目标函数是一个正弦函数，而对每五个数据点会增加一个很强的噪声。图中给出了学习到的KernelRidge模型和SVR模型，两个模型的复杂度/正则度和RBF核函数的带宽都通过网格搜索进行了优化。两者学习到的曲线非常接近，然而拟合KernelRidge模型所花的时间大约只有拟合SVR模型所花时间的七分之一。但是，在对十万个目标值进行预测的时间这个指标上，SVR只用了KernelRidge所花时间的三分之一。原因是SVR学习到的是一个稀疏模型，只把100个训练点中大约三分之一的点作为支持向量。

下图比较了在不同大小训练集上拟合KernelRidge和SVR并使之预测所花的时间。在中等大小训练集（少于1000条数据）上KernelRidge的拟合要比SVR的快；然而在大数据集上SVR有更强的规模可扩展性。在预测时间这一方面，SVR总是比KernelRidge快，因为SVR学到的是稀疏模型。注意SVR的稀疏程度（以及由此产生的预测时间）依赖于参数 $\epsilon$ 和 $C$ ； $\epsilon=0$ 则学到的模型是密集模型。

参考文献

[M2012] Machine Learning: A Probabilistic Perspective. Murphy, K. P. - chapter 14.4.3, pp. 492-493, The MIT Press, 2012

核岭回归

1.3. 核岭回归

results matching ""

No results matching ""