总结
本章,你学习了许多不同的机器学习算法,用于解决线性和非线性问题。如果我们关注模型可解释性,决策树是很好的选择。逻辑斯蒂回归不但可以在在线学习场景下大展拳脚还能预测概率。虽然SVM能解决线性和非线性问题,但是它参数个数比较多,调参挺麻烦。集成算法包括随机森林则不需要调节过多的参数,也不会像决策树一样容易过拟合,这使得它很受欢迎。KNN通过懒惰学习进行分类,他不需要模型训练的过程但是在预测时的计算成本相对比较高。
然而,比选择合适的算法更重要的是训练集数据本身。如果数据的特征不够好,再好的算法也没用。
在下一章,我们会讨论预处理涉及到的内容。