简介:随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。
基本原理:设定训练集中的样本个数为N,然后通过有重置的重复多次抽样获得这N个样本,这样的抽样结果将作为我们生成决策树的训练集;如果有M个输入变量,每个节点都将随机选择m(m<M)个特定的变量,然后运用这m个变量来确定最佳的分裂点。在决策树的生成过程中,m的值是保持不变的;每棵决策树都最大可能地进行生长而不进行剪枝;通过对所有的决策树进行加总来预测新的数据(在分类时采用多数投票,在回归时采用平均)。
主要应用:分类、回归、缺失值与异常值处理等
相关案例:
- 随机森林Python实战_哔哩哔哩_bilibili
- 书籍《Random Forests with R》