数据挖掘之套袋与助推

本文概述

我们都在日常生活中使用决策树技术来做出决策。组织使用这些受监督的机器学习技术（例如决策树）来做出更好的决策并产生更多的盈余和利润。

集成方法将不同的决策树组合在一起, 以提供更好的预测结果, 然后再利用单个决策树。集成模型背后的主要原理是一群弱学习者聚集在一起形成一个积极的学习者。

下面给出了两种用于执行整体决策树的技术。

当我们的目标是减少决策树的方差时, 使用装袋。这里的概念是从训练样本中创建一些数据子集, 这些子集是通过替换随机选择的。现在, 每个子集数据集合都用于准备其决策树, 因此, 我们最终得到了各种模型的集合。使用来自多个发束的所有假设的平均值, 它比单个决策树更强大。

Random Forest是对套袋的扩展。它需要采取另一步骤来预测数据的随机子集。它还可以随机选择特征, 而不是使用所有特征来开发树。当我们有许多随机树时, 它称为随机森林。

以下是实现随机森林所采取的以下步骤：

使用随机森林技术的优势：

使用随机森林技术的缺点：

由于最后的预测取决于子集树的均值预测, 因此无法为回归模型提供精确的值。

Boosting是另一个收集预测变量的合奏过程。换句话说, 我们拟合连续的树, 通常是随机样本, 并且在每个步骤中, 目标是解决现有树的净误差。

如果给定的输入在理论上被错误分类, 则其权重会增加, 因此即将出现的假设更有可能通过整合整个集合最终将正确的分类正确地转化为性能较差的学习者。

梯度增强是增强过程的扩展。

Gradient Boosting = Gradient Descent + Boosting

它利用梯度下降算法可以优化任何微分损失函数。单独构造一棵树木, 然后相继求和。下一棵树尝试恢复损失（这是实际值与预测值之间的差）。

使用梯度增强方法的优点：

使用渐变增强方法的缺点：

装袋	助推
从整个训练数据集中随机抽取各种训练数据子集进行替换。	每个新的子集都包含先前模型错误分类的组件。
套袋试图解决过度拟合的问题。	提振试图减少偏见。
如果分类器不稳定（高方差）, 则需要套袋。	如果分类器稳定且简单（高偏差）, 那么我们需要应用提升。
每个模型都具有相等的权重。	模型按其性能加权。
目的是减少差异, 而不是偏见。	目的是减少偏差, 而不是方差。
这是连接属于同一类型的预测的最简单方法。	这是一种连接属于不同类型的预测的方法。
每个模型都是独立构建的。	新模型受以前开发的模型的性能影响。