Bagging,Random Forests以及Boosting-FreeNAS中文网

admin 管理员组

文章数量: 887042

Bagging,Random Forests以及Boosting

前面讲到，决策树（决策树（Decision Tree））可以用来解决分类或回归问题，它们统称为分类回归树（Classification and Regression Tree,CART）。并且，分类回归树有一个显著的缺点，那就是对噪音十分敏感，稍微改变数据，树的形状很有可能发生较大的改变。

为了防止分类回归树陷入过拟合，我们有一系列改善措施来提高树的性能，常见的有Bagging和Random Forests以及Boosting算法。首先来了解一下什么是Bootstrap。

Bootstrap是一种数据抽样方法，最普通的单一树的生成过程是利用所有训练数据进行划分然后产生决策枝干，而Bootstrap的做法是在训练数据中去抽样数据重新获得训练数据集，即从原始训练数据集去可重复地抽样n个样本来作为新的训练数据集，从而训练得到一个决策树。

通过Bootstrap抽样方法产生Ｂ个新的训练集，从而可以运用不同的数据集训练得到Ｂ个不同的决策树，然后对于输入数据x，我们可以由这Ｂ个不同的决策树去投票来决定最终的分类结果。这种算法称为Bagging或Bootstrap aggregation，Bagging算法可以显著地提高单一决策树的性能，Bagging是很多树的投票结果，因此可以使得决策边界变得更加平滑了。例如下面一组Bagging的结果与单一决策树形状对比。

值得注意的是，在Bagging中，由于Bootstrap抽样会使得一些样本无法抽到，那么这些样本将作为测试样本得到测试误差，该误差又称为”out-of-bagging”误差。

随机森林（Random Forests，简称RF）算法是在Bagging算法的基础上再做修正的，RF的做法是在每一步划分时，假设一共有m个特征属性，只从中随机挑选log2(m)或sqrt(m)个特征来计算划分熵，而其他的步骤和Bagging是一样的。

Boosting算法是在Bagging的基础上引入权重因子，即对每个决策树加一个修正权重，最终的分类器是所有分类器的权重和。

Boosting算法具体流程如下：
１、首先，假设有Ｎ个观察样本（即测试样本，或out-of-bagging样本），初始化权重为w_i=1/N；
２、对于Ｍ个分类器，重复以下四步：
（１）训练一个树分类器Ｃ_m；
（２）计算该树分类器的权重误差
Err_m=SUM(w_i*I(y_i!=C_m(x_i)))/SUM(w_i)；
（３）计算alpha_m=log[(1-Err_m)/Err_m]；
（４）更新Ｎ个权重
w_i=w_i*exp[alpha_m*I(y_i!=C_m(x_i))]
　并且归一化所有w，得到新的w_i；
３、计算分类树的最终输出C(x)=sign[SUM(alpha_m*C_m(x))]；
这里的SUM是指对下标进行求和，I是误差函数。

本文标签： bagging Random Forests以及Boosting

版权声明：本文标题：Bagging,Random Forests以及Boosting 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/free/1699189972h335718.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

技术交流 – FreeNAS中文网

Bagging,Random Forests以及Boosting

Bagging,Random Forests以及Boosting

更多相关文章

Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Random forest 和 gradient boosting的区别

Jackknife，Bootstrap, bagging, boosting, AdaBoost, Rand forest 和 gradient boosting的区别

Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting的区别

Jackknife，Bootstrap, Bagging, Boosting, AdaBoost, RandomForest 和 Gradient Boosting的区别

Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting的简单介绍

【机器学习】Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting...

Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting

Bagging...

bootstrap, boosting, bagging

Bagging,Random Forests以及Boosting

Ensemble Learning(Trees, Forests, Bagging, Boosting）

发表评论

推荐文章

云计算运营—01华为云计算解决方案介绍

matlab光盘映像文件可以删除吗_Windows10光盘映像去哪儿下载？

【linux】Linux 系统 CentOS 最新版本和历史版本下载方法

Windows 11规格、功能和电脑要求公布：最低RAM 4GB、储存空间64GB

chatGPT 背后的技术 之 Transformer 详解

热门文章

matlab极点配置已知超调量,利用MATLAB解决现代控制理论的计算问题（这一篇文章就够了）...

【Ybt OJ】[基础算法 第5章] 广度搜索 [后半章]

Windows11 24H2正式版 大幅度提升整机性能 业内公认最强！

win10雷电3接口驱动_地表最强接口？南哥带你了解雷电（Thunderbolt）3接口

Windows下nginx的配置与启动

win7计算机共享设置密码,如何为Win7旗舰系统的共享文件夹设置密码

使用Windows Sysprep来封装系统

华为电脑系统linux下载,华为操作系统openeuler去哪下载？官方下载ISO安装包

关于无法完全停止windowsUpdate的解决方法

window安装ab压力测试

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Deepin操作系统安装及系统相关设置

华为MateBook E Go Wi-Fi性能版(GK-W78、GK-W76)工厂模式win11原厂系统包,含F10智能恢复功能

【PC工具】win10关闭自带杀毒软件，win10关闭安全软件方法

Windows Server Backup裸机恢复（WM虚拟机）

修复苹果手机黑屏死机的9种方法

chatGPT 背后的技术之 Transformer 详解

【Ybt OJ】[基础算法第5章] 广度搜索 [后半章]

Windows11 24H2正式版大幅度提升整机性能业内公认最强！