随机森林

11月

11328 1

简介：随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想--集成思想的体现。

基本原理：设定训练集中的样本个数为N，然后通过有重置的重复多次抽样获得这N个样本，这样的抽样结果将作为我们生成决策树的训练集；如果有M个输入变量，每个节点都将随机选择m(m<M)个特定的变量，然后运用这m个变量来确定最佳的分裂点。在决策树的生成过程中，m的值是保持不变的；每棵决策树都最大可能地进行生长而不进行剪枝；通过对所有的决策树进行加总来预测新的数据（在分类时采用多数投票，在回归时采用平均）。

主要应用：分类、回归、缺失值与异常值处理等

相关案例：

随机森林Python实战_哔哩哔哩_bilibili
书籍《Random Forests with R》