3.8 本章小结

本章学习了许多不同的用于解决线性和非线性问题的机器学习算法。如果关心可解释性,决策树就特别有吸引力。逻辑回归不仅是一种有用的在线随机梯度下降模型,而且还可以预测特定事件的概率。

虽然支持向量机是一种强大的线性模型,而且可以通过核技巧扩展到非线性问题,但必须调整许多参数才能做好预测。相比之下,像随机森林这样的集成方法不需要调整太多参数,而且不像决策树那样易过拟合,这使其成为许多实际问题领域具有吸引力的模型。KNN分类器通过惰性学习提供了另外一种分类方法,允许在没有任何模型训练的情况下进行预测,但预测所涉及的计算成本昂贵。

然而,比选择适当的学习算法更为重要的是训练数据集中的可用数据。如果没有翔实、无歧义的特征,任何算法都不可能做出好的预测。

我们将在下一章讨论数据预处理、特征选择和降维几个重要主题,这些是建立强大的机器学习模型所必需的。在第6章中,我们将会看到如何评价和比较模型的性能以及学习有用的技巧来微调不同的算法。


[1]The Lack of A Priori Distinctions Between Learning Algorithms, Wolpert, David H, Neural Computation 8.7(1996): 1341-1390.

[2]An Algorithm for Finding Best Matches in Logarithmic Expected Time, J. H. Friedman, J. L. Bentley, and R. A. Finkel, ACM transactions on mathematical software(TOMS), 3(3): 209-226, 1977.