1.5. 随机梯度下降
随机梯度下降(Stochastic Gradient Descent, SGD)是一种简单但非常有效的方法,可以用来对损失函数为凸函数的线性分类器(例如(线性)SVM和Logistic回归)做判别学习。尽管SGD在机器学习社区中已经有了很长一段时间的历史,但是它备受关注也就是最近这一段时间大规模机器学习兴起以后的事儿。
在文本分类和自然语言处理这些领域,机器学习的问题通常都是大规模且稀疏的,正是SGD的用武之地。由于数据是稀疏的,为这些问题构建的分类器很容易就会需要处理有数十万个样本,数十万个特征的问题。
随机梯度下降的优势在于
- 效率高
- 容易实现(有很多代码调优的机会)
而其劣势在于
- 需要很多超参数,例如正则化参数和迭代次数
- 对特征的数量变化很敏感