上一节我们讲到了决策树这个算法,但是一棵决策树可能会存在过拟合的现象,而且对数据微小的变化也比较敏感,为了解决这些问题,我们可以通过多棵树的方式,也就是今天要介绍的随机森林。
随机森林算法也就是Random Forest,它是一种集成学习算法,所谓集成学习,就是通过多个能力比较弱的机器学习模型的预测结果来得到一个更好的预测结果。随机森林的这一种方式叫做Bagging,它是Bootstrap Aggregate的简写,就是通过自助采样(bootstrap sampling)生成多个训练子集,分别训练后把结果聚合起来。