1.3. 核岭回归
核岭回归(KRR)[M2012]将岭回归(带有范数正则化的线性最小二乘)和核组合了起来。因此它是在由对应核和数据所导出的空间中学习线性函数。对于非线性核,则对应于原始空间中的一个非线性函数。
KernelRidge
学到的模型与支持向量回归(SVR)学到的模型有着相同的形式。然而两者用到的损失函数有所不同。KRR用的是平方误差损失函数,而SVR用到的是-不敏感损失函数——当然,两者都结合了正则化。与SVR不同,KernelRidge
可以使用闭合形式拟合,而且在中等大小的数据集上通常拟合更快。另一方面,KernelRidge
学习到的模型是非稀疏的,因此在预测时会比SVR慢,因为后者在预测是对学习一个稀疏模型。
下图在一个人工构造的数据集上对KernelRidge
和SVR进行了对比。其中,数据集通过如下方法构造:总的目标函数是一个正弦函数,而对每五个数据点会增加一个很强的噪声。图中给出了学习到的KernelRidge
模型和SVR模型,两个模型的复杂度/正则度和RBF核函数的带宽都通过网格搜索进行了优化。两者学习到的曲线非常接近,然而拟合KernelRidge
模型所花的时间大约只有拟合SVR模型所花时间的七分之一。但是,在对十万个目标值进行预测的时间这个指标上,SVR只用了KernelRidge
所花时间的三分之一。原因是SVR学习到的是一个稀疏模型,只把100个训练点中大约三分之一的点作为支持向量。
下图比较了在不同大小训练集上拟合KernelRidge
和SVR并使之预测所花的时间。在中等大小训练集(少于1000条数据)上KernelRidge
的拟合要比SVR的快;然而在大数据集上SVR有更强的规模可扩展性。在预测时间这一方面,SVR总是比KernelRidge
快,因为SVR学到的是稀疏模型。注意SVR的稀疏程度(以及由此产生的预测时间)依赖于参数和;则学到的模型是密集模型。
参考文献
[M2012] Machine Learning: A Probabilistic Perspective. Murphy, K. P. - chapter 14.4.3, pp. 492-493, The MIT Press, 2012