在Adaboost算法中空白八邻域边界跟踪算法是什么意思？

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>百度 >>在Adaboost算法中空白八邻域边界跟踪算法是什么意思？

在Adaboost算法中空白八邻域边界跟踪算法是什么意思？

来源：蜘蛛抓取(WebSpider) 时间：2018-07-07 08:39 标签： word缩小空白边界

11:13 提问
初学adaboost算法，求指教
新手，初学adaboost算法，从网上找了一些资料和文献，有些地方没有看懂，请各位老师们指点。
adaboost算法的基本原理是将在不同的样本分布下训练“弱分类器”，将多个“弱分类器”集成为一个“强分类器”，其关键是在每一轮的样本权重更新中，提高上一轮识别错误的样本权重，降低上一轮识别正确的样本权重。
我想问的是，在我找的资料和文献中，给出的算法流程都没有说明怎样根据样本分布进行下一轮的训练，样本的权重是体现在什么地方？
请各位老师赐教，谢谢
按赞数排序
弱分类器算法，原文中并未指定。样本的权重最初是一样的，然后根据每次迭带，正确分类的样本权重减小，未正确分类的样本权重加大。体现在权重的变化上，即D（t+1）与D（t）的变化上，原文看下。Yoav Freund，Experiments with a New Boosting Algorithm
分类器选取的依据是分类误差最小化，权重直接体现在分类误差上，而上一次错分的样本权重较大，所以本次分类器的选取会偏重于能正确分类权重较大样本。
迭代次数就是分类器个数吗？
准确详细的回答，更有利于被提问者采纳，从而获得C币。复制、灌水、广告等回答会被删除，是时候展现真正的技术了！
其他相关推荐三 Adaboost 算法
& AdaBoost 是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，即弱分类器，然后把这些弱分类器集合起来，构造一个更强的最终分类器。(很多博客里说的三个臭皮匠赛过诸葛亮)
& 算法本身是改变数据分布实现的，它根据每次训练集之中的每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练，然后将每次训练得到的分类器融合起来，作为最后的决策分类器。
完整的adaboost算法如下
简单来说，Adaboost有很多优点:
　　1)adaboost是一种有很高精度的分类器
　　2)可以使用各种方法构建子分类器，adaboost算法提供的是框架
　　3)当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单
　　4)简单，不用做特征筛选
　　5)不用担心overfitting！
四 Adaboost 举例
也许你看了上面的介绍或许还是对adaboost算法云里雾里的，没关系，百度大牛举了一个很简单的例子，你看了就会对这个算法整体上很清晰了。
　　下面我们举一个简单的例子来看看adaboost的实现过程：
　　图中，&+&和&-&分别表示两种类别，在这个过程中，我们使用水平或者垂直的直线作为分类器，来进行分类。
　　第一步：
　　根据分类的正确率，得到一个新的样本分布D2&，一个子分类器h1
　　其中划圈的样本表示被分错的。在右边的途中，比较大的&+&表示对该样本做了加权。
也许你对上面的?1，ɑ1怎么算的也不是很理解。下面我们算一下，不要嫌我啰嗦，我最开始就是这样思考的，只有自己把算法演算一遍，你才会真正的懂这个算法的核心，后面我会再次提到这个。
算法最开始给了一个均匀分布 D 。所以h1 里的每个点的值是0.1。ok，当划分后，有三个点划分错了，根据算法误差表达式得到误差为分错了的三个点的值之和，所以?1=(0.1+0.1+0.1)=0.3，而ɑ1 根据表达式&的可以算出来为0.42. 然后就根据算法把分错的点权值变大。如此迭代，最终完成adaboost算法。
　　第二步：
　　根据分类的正确率，得到一个新的样本分布D3，一个子分类器h2
　　第三步：
　　得到一个子分类器h3
　　整合所有子分类器：
　　因此可以得到整合的结果，从结果中看，及时简单的分类器，组合起来也能获得很好的分类效果，在例子中所有的。
五 Adaboost 疑惑和思考
& 到这里，也许你已经对adaboost算法有了大致的理解。但是也许你会有个问题，为什么每次迭代都要把分错的点的权值变大呢？这样有什么好处呢？不这样不行吗? 这就是我当时的想法，为什么呢？我看了好几篇介绍adaboost 的博客，都没有解答我的疑惑，也许大牛认为太简单了，不值一提，或者他们并没有意识到这个问题而一笔带过了。然后我仔细一想，也许提高错误点可以让后面的分类器权值更高。然后看了adaboost算法，和我最初的想法很接近，但不全是。注意到算法最后的表到式为，这里面的a 表示的权值，是由得到的。而a是关于误差的表达式，到这里就可以得到比较清晰的答案了，所有的一切都指向了误差。提高错误点的权值，当下一次分类器再次分错了这些点之后，会提高整体的错误率，这样就导致 a 变的很小，最终导致这个分类器在整个混合分类器的权值变低。也就是说，这个算法让优秀的分类器占整体的权值更高，而挫的分类器权值更低。这个就很符合常理了。到此，我认为对adaboost已经有了一个透彻的理解了。
　　最后，我们可以总结下adaboost算法的一些实际可以使用的场景：
　　1）用于二分类或多分类的应用场景
　　2）用于做分类任务的baseline
　　无脑化，简单，不会overfitting，不用调分类器
　　3）用于特征选择（feature selection)
　　4）Boosting框架用于对badcase的修正
　　只需要增加新的分类器，不需要变动原有分类器
　　由于adaboost算法是一种实现简单，应用也很简单的算法。Adaboost算法通过组合弱分类器而得到强分类器，同时具有分类错误率上界随着训练增加而稳定下降，不会过拟合等的性质，应该说是一种很适合于在各种分类场景下应用的算法。
第二节，AdaBoost算法
（一）认识AdaBoost
AdaBoost算法有AdaBoost.M1和AdaBoost.M2两种算法，AdaBoost.M1是我们通常所说的Discrete AdaBoost，而AdaBoost.M2是M1的泛化形式。关于AdaBoost算法的一个结论是:当弱分类器算法使用简单的分类方法时,boosting的效果明显地统一地比bagging要好.当弱分类器算法使用C4.5时,boosting比bagging较好,但是没有前者明显。后来又有学者提出了解决多标签问题的AdaBoost.MH和AdaBoost.MR算法,其中AdaBoost.MH算法的一种形式又被称为Real Boost算法---弱分类器输出一个可能度，该值的范围是整个R, 和与之相应的权值调整，强分类器生成的AdaBoost算法。
事实上:Discrete AdaBoost是指,弱分类器的输出值限定在{-1,+1}，每个弱分类器有相应的权值，从而构成一个强分类器。本文就详解该二分类的AdaBoost算法，其他请参考&&。
假设是二值分类问题，X表示样本空间，Y={-1,+1}表示样本分类。令S={(Xi,yi)|i=1,2,&,m}为样本训练集，其中Xi&X，yi&Y。再次重申，我们假设统计样本的分布式是均匀分布的，如此在两分类分类中（类别-1或者1）可以将阈值设为0。实际训练数据中，样本往往是不均衡的，需要算法来选择最优阈值（如ROC曲线）。AdaBoost算法就是学习出一个分类器YM(x) --由M个弱分类器构成。在进行分类的时候，将新的数据点x代入，如果YM(x)小于0则将x的类别赋为-1，如果YM(x)大于0则将x的类别赋为1。均匀分布中阈值就是0，非均衡分布则还要根据ROC曲线等方法确定一个分类的最优阈值。
基本过程：针对不同的训练集训练一个个基本分类器（弱分类器），然后集成而构成一个更强的最终的分类器（强分类器）。不同的训练集是通过调整训练数据中每个样本对应的权重实现的。每次训练后根据此次训练集中的每个样本是否被分类正确以及上次的总体分类的准确率，来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练，然后将每次训练得到的分类器融合起来，作为最后的决策分类器。
每个弱分类器可以是机器学习算法中的任何一个，如logistic回归，SVM，决策树等。
Adaboost有很多优点:
1)adaboost是一种有很高精度的分类器
2)可以使用各种方法构建子分类器，adaboost算法提供的是框架
3)当使用简单分类器时，计算出的结果是可以理解的，而且弱分类器构造极其简单
4)简单，不用做特征筛选
5)不用担心overfitting
（二）AdaBoost算法过程
完整的adaboost算法如下（训练样本样本总数是N个，M是迭代停止后（积累错误率为0或者达到最大迭代次数）得到弱分类器数目）。
给定一个训练数据集T={(x1,y1), (x2,y2)&(xN,yN)}，其中实例，而实例空间，yi属于标记集合{-1,+1}，Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器，流程如下：
最开始的时候，每个样本对应的权重是相同的（1/m），在此样本分布下训练出一个基本分类器h1(x)。对于h1(x)错分的样本，则增加其对应样本的权重；而对于正确分类的样本，则降低其权重。这样可以使得错分的样本突出出来，并得到一个新的样本分布。同时，根据错分的情况赋予h1(x)一个权重，表示该基本分类器的重要程度，错分得越少权重越大。在新的样本分布下，再次对基本分类器进行训练，得到基本分类器h2(x)及其权重。依次类推，经过M次这样的循环，就得到了M个基本分类器及对应权重。最后把这M个基本分类器按一定权重累加起来，就得到了最终所期望的强分类器YM(x)。迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数。
（i）初始化训练数据的权值分布，每一个训练样本最开始时被赋予相同的权值：1/N。
（ii）进行多轮迭代，迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数L。用m = 1,2, ..., M表示迭代的第多少轮，也就是得到了多少个弱分类器，M&=L。
a.使用具有权值分布Dm的训练数据集学习，得到基本分类器：
&&&&&&&&&&&&&
b.计算Gm(x)在训练数据集上的分类误差率
&&&&&&&&&&&&&
由上述式子可知，Gm(x)在训练数据集上的误差率em就是被弱分类器Gm(x)分类错误样本的权值之和。就是在这里，训练样本权重因子发生了作用，所有的一切都指向了当前弱分类器的误差。提高分类错误样本的权值，下一个分类器学习中其&地位&就提高了（以单层决策树为例，因为每次都要得到当前训练样本中em最小的决策桩）；同时若这次的弱分类器再次分错了这些点，那么其错误率em也就更大，最终导致这个分类器在整个混合分类器的权值am变低---让优秀的分类器占整体的权值更高，而挫的分类器权值更低。
c. 计算Gm(x)的权值系数，am表示Gm(x)在最终分类器中的重要程度（目的：得到基本分类器在最终分类器中所占的权重）：
&&&&&&&&&&&&&&&
可知:em&&= 1/2时(两分类Adaboost算法em不可能大于1/2)，am&&= 0;am随着em的减小而增大，意味着分类误差率越小的本分类器在最终分类器中的作用越大。
另外，若某一个若分类器分类错误率为0计算am将会发生除数为0的异常，这属于边界处理。此时可以根据数据集的具体情况设定错误率为一个很小的数值，例如1e-16。观察样本权重更新就可以知道:没有错分，所有样本的权重就不会进一步调整,样本权重相当于没有改变。当然，该弱分类器权重alpha将较大，但是因为算法并不因此停止，如果后面还有其他弱分类器也能达到训练错误率为0，也同样会有较大的权重，从而避免由单个弱分类器完全决定强分类器的情况。当然，如果第一个弱分类器错误率就为0，那么整个分类就完成了，它有再大的权重alpha也无妨。采用下述修正方案：
alpha = float(0.5*log((1.0-error)/max(error,1e-16) ))
d. 更新训练数据集的权值分布（目的：得到样本的新的权值分布），用于下一轮迭代。这使得被基本分类器Gm(x)分类错误的样本的权值增大，而被正确分类样本的权值减小。通过这样的方式，AdaBoost算法提高了较难分类的样本的&地位&。
&&&&&&&&&&
Zm的意义在于让权重因子之和为1.0，使向量D是一个概率分布向量。其定义是
&&&&&&&&&&&&&&&&&&
（iii）&组合各个弱分类器得到最终分类器，如下：
&&&&&&&&&&&&&&&&&
（三）Python实现单决策树AdaBoost算法
单层决策树（decision stump，也叫决策树桩）是一种简单的决策树，决策树中只有一个树桩，也就是仅基于样本单个特征来做决策分类。单层决策树是AdaBoost算法中最流行的弱分类器。
AdaBoost把多个不同的决策树用一种非随机的方式组合起来，表现出惊人的性能。第一，把决策树的准确率大大提高，可以与SVM媲美。第二，速度快，且基本不用调参数。第三，几乎不Overfitting。本节就以多个单层决策树做基本分类器实现AdaBoost算法，值得注意的是每个基本分类器单层决策树决策用分类使用的特征都是在样本N个特征中做最优选择的（也就是说在分类特征选择这个层面，每个单层决策树彼此之间是完全独立的，可能若干个单层决策树都是基于同一个样本特征），而非样本特征的串联。
该版本的AdaBoost分类算法包含decisionstump.py（decisionstump对象，其属性是包含dim, thresh, ineqtype三个域的决策树桩，方法有buildstump()、stumpClassify()等。），adaboost.py, object_json.py, test.py，其中adaboot.py实现分类算法，对象adaBoost包含属性分类器词典adaboostClassifierDict和adaboost train&classify方法等。为了存储和传输更少的字节数，也可以在adaboost模块增加一个新类adaboostClassifier只用来存储分类词典和分类算法（本包中没有这么做）。test模块则包含了一个使用adaboost分类器进行分类的示例。
由于adaboost算法每一个基本分类器都可以采用任何一种分类算法，因此通用的方案是采用dict来存储学习到的AdaBoost分类器，结构如下图：
adaboost对象可以针对决策树、SVM等定义私有的各种弱分类算法，train和classifier方法则会根据当前的弱分类器类型创建响应的弱分类器实例并调用私有弱分类train\classifer方法完成train\classify。需要记住的是，adaboost train方法创建的弱分类器对象只用来调用相应的弱分类器方法，而该弱分类实例所有的属性则存储在adaboostClassifierDict中，这样可以减少弱分类器实例数目。另外，方法jsonDumpsTransfer()和jsonLoadTransfer()则要根据adaboostClassifierDict中支持的弱分类器类型删除\创建相应实例，从而支持JSON存储和解析。
采取上图中的分类器存储方案及相应的分类函数，AdaBoost支持每一个基本分类器在决策树、贝叶斯、SVM等监督学习算法中做最优选择。分类其中adaboostClassifierDict中的classifierType用户可以自己指定，从而在上述分类存储结构的基础上做一些利于分类器程序编写的调整。我实现的单层决策树Adaboost指定classifierType为desicionstump，即基本分类器采用desicionstump，每一个弱分类器都是一个DS对象。所以存储结构可以调整为下图所示（利于分类函数实现）：
通过调整adaboost算法弱分类器的数目，会得到分类错误率不同的adaboost分类器。测试证明，numIt=50时错误率最低。
AdaBoost分类算法学习包的下载地址是：
（四）Adaboost应用
由于adaboost算法是一种实现简单、应用也很简单的算法，应该说是一种很适合于在各种分类场景下应用的算法。adaboost算法的一些实际可以使用的场景：
1）用于二分类或多分类的应用场景
2）用于做分类任务的baseline--无脑化，简单，不会overfitting，不用调分类器
3）用于特征选择（feature selection)
4）Boosting框架用于对badcase的修正--只需要增加新的分类器，不需要变动原有分类器
阅读(...) 评论()你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
adaboost一般是用在处理二分类的问题，而且假设分类数据应该是平衡的吧，那请问adaboost算法在处理多分类不平衡问题时应该用哪些预处理的方式比较好呢？Smote过采样可以么？
如果样本严重有偏，如样本中正例很少负例很多（这在实践中其实非常常见：如点击率、购买率，如饭馆的意见本——不信你去翻翻，那里面大部分是差评啦。）可以肯定的是：几乎所有的算法，都无法对抗样本有偏的问题。在实践中需要对样本预处理才可以。如
对正样本重复采样，
对负样本降采样，
给定正负样本的距离，模拟生成更多的样本，
加入更多的先验，调节超参数。
这是个重要而难解的开放性好问题，实践中往往需要针对具体算法、应用场景再进行进一步处理。特征选择、数据分析，往往需要最体现才能的就是这个环节。
推荐你看下这篇文章：
我把本答复中前面的常用4条方法做了总结，截图如下：
要回复问题请先或
浏览: 1793
关注: 3 人&>&adaboost算法的一个简单实现
adaboost算法的一个简单实现
上传大小：2KB
这是matlab下对adaboost算法的一个简单实现。
综合评分：4
{%username%}回复{%com_username%}{%time%}\
/*点击出现回复框*/
$(".respond_btn").on("click", function (e) {
$(this).parents(".rightLi").children(".respond_box").show();
e.stopPropagation();
$(".cancel_res").on("click", function (e) {
$(this).parents(".res_b").siblings(".res_area").val("");
$(this).parents(".respond_box").hide();
e.stopPropagation();
/*删除评论*/
$(".del_comment_c").on("click", function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_invalid/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parents(".conLi").remove();
alert(data.msg);
$(".res_btn").click(function (e) {
var parentWrap = $(this).parents(".respond_box"),
q = parentWrap.find(".form1").serializeArray(),
resStr = $.trim(parentWrap.find(".res_area_r").val());
console.log(q);
//var res_area_r = $.trim($(".res_area_r").val());
if (resStr == '') {
$(".res_text").css({color: "red"});
$.post("/index.php/comment/do_comment_reply/", q,
function (data) {
if (data.succ == 1) {
var $target,
evt = e || window.
$target = $(evt.target || evt.srcElement);
var $dd = $target.parents('dd');
var $wrapReply = $dd.find('.respond_box');
console.log($wrapReply);
//var mess = $(".res_area_r").val();
var mess = resS
var str = str.replace(/{%header%}/g, data.header)
.replace(/{%href%}/g, 'http://' + window.location.host + '/user/' + data.username)
.replace(/{%username%}/g, data.username)
.replace(/{%com_username%}/g, data.com_username)
.replace(/{%time%}/g, data.time)
.replace(/{%id%}/g, data.id)
.replace(/{%mess%}/g, mess);
$dd.after(str);
$(".respond_box").hide();
$(".res_area_r").val("");
$(".res_area").val("");
$wrapReply.hide();
alert(data.msg);
}, "json");
/*删除回复*/
$(".rightLi").on("click", '.del_comment_r', function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_comment_del/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parent().parent().parent().parent().parent().remove();
$(e.target).parents('.res_list').remove()
alert(data.msg);
//填充回复
function KeyP(v) {
var parentWrap = $(v).parents(".respond_box");
parentWrap.find(".res_area_r").val($.trim(parentWrap.find(".res_area").val()));
评论共有3条
可以用还好
内容很丰富，但是缺乏注释
这个Adaboost算法写的还是偏于简单，但是还是有一定的参考价值，谢谢楼主！
VIP会员动态
CSDN下载频道资源及相关规则调整公告V11.10
下载频道用户反馈专区
下载频道积分规则调整V1710.18
spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip
资源所需积分/C币
当前拥有积分
当前拥有C币
输入下载码
为了良好体验，不建议使用迅雷下载
adaboost算法的一个简单实现
会员到期时间：
剩余下载个数：
剩余积分：0
为了良好体验，不建议使用迅雷下载
积分不足！
资源所需积分/C币
当前拥有积分
您可以选择
程序员的必选
绿色安全资源
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验，不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验，不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
您的积分不足，将扣除 10 C币
为了良好体验，不建议使用迅雷下载
无法举报自己的资源
你当前的下载分为234。
你还不是VIP会员
开通VIP会员权限，免积分下载
你下载资源过于频繁，请输入验证码
您因违反CSDN下载频道规则而被锁定帐户，如有疑问，请联络:!
若举报审核通过，可返还被扣除的积分
被举报人：
举报的资源分：
请选择类型
资源无法下载（ 404页面、下载失败、资源本身问题）
资源无法使用（文件损坏、内容缺失、题文不符）
侵犯版权资源（侵犯公司或个人版权）
虚假资源（恶意欺诈、刷分资源）
含色情、危害国家安全内容
含广告、木马病毒资源
*详细原因：
adaboost算法的一个简单实现一文搞懂AdaBoost集成算法一文搞懂AdaBoost集成算法戴翠美百家号一、Boosting算法Boosting集成分类器包含多个非常简单的成员分类器，这些成员分类器的性能仅好于随机猜想，常被称为弱学习机。典型的弱学习机的例子就是单层决策树。Boosting算法主要针对难以区分的样本，弱学习机通过在分类错误的样本上进行学习来提高继承分类器的分类性能。Boosting与Bagging不同，在Boosting的初始化阶段采用的是无返回抽样从训练样本中随机抽取一个子集，而Bagging采用的是有放回的抽取。Boosting的过程由四个步骤组成：1、从训练集D中以无放回抽样方式随机抽取一个训练子集d1，用于弱学习机C1的训练。2、从训练集D中以无放回抽样方式随机抽取一个训练子集d2，并将C1中误误分类样本的50%加入到训练集中，训练得到弱学习机C2。3、从训练集D中抽取C1和C2分类结果不一致的训练样本生成训练样本集d3，用d3来训练第三个弱学习机C3。4、通过多数投票来组合弱学习机C1、C2和C3。Boosting与Bagging模型相比，Boosting可以同时降低偏差也方差，Bagging只能降低模型的方差。在实际应用中，Boosting算法也还是存在明显的高方差问题，也就是过拟合。二、AdaBoost算法AdaBoost算法与Boosting算法不同，它是使用整个训练集来训练弱学习机，其中训练样本在每次迭代的过程中都会重新被赋予一个权重，在上一个弱学习机错误的基础上进行学习来构建一个更加强大的分类器。下面通过一个图来了解AdaBoost算法的工作过程训练样本由两个不同的种类(蓝球和红球)所组成。在第一幅图中所有的样本都被赋予了相同的权重，通过训练集的训练，我们可以获取到一个单层的决策树(代表图中的虚线)，它通过最小化代价函数(样本不纯度)来划分两类不同的样本，其中有两个篮球和一个红球被错误的划分。在第二次训练的过程中，两被错误划分个篮球和一个被错误划分的红色被赋予更大的权重(球变得更大)，同时还可以降低正确划分样本的权重，在本次训练的过程中更加专注于权重大的样本，也就是划分错误的样本。通过重复这个过程，最后直至样本划分正确。然后，得到一个弱学习机的组合，通过多数投票的方式来决定最后的预测结果。AdaBoost算法的步骤如下：1、以相同的初始值来初始化样本的权重ω，并且样本权重之和为1。2、在m轮boosting操作中，对第j轮做如下操作3、训练一个加权的弱学习机：C(j)=train(X,y,ω)4、预测样本类标pred_y=predict(C(j),X)5、计算权重错误率ε=ω*(pred_y==y)6、计算相关系数7、更新权重8、归一化权重，并保证权重之和为19、完成最终预测可能看完上面AdaBoost的步骤之后还不是很明白，下面通过一个实例来说明一下三、AdaBoost算法实例讲解上表表示的是10个一维样本的数据。第一列表示样本的编号，第二列表示样本特征的值，第三列表示样本所对应的实际类标，第四列表示的是样本的权重值，第五列表示的是预测的样本，第六列表示预测的类标是否准确，第七列表示的是样本权重更新后的值。根据上面AdaBoost的步骤，详细介绍权重的更新过程从第5步开始：5、计算权重的错误率，预测类标与实际类标相等用0表示，否则用1表示，所以预测错误的样本有三个6、计算相关系数7、更新权重8、权重归一化通过一轮权重的更新可以发现，之前预测正确的权重由0.1变成了0.072，预测错误的权重由0.1变成了0.167。所以说，在权重更新的过程中，会增大预测错误样本的权重，同时也会减少预测正确样本的权重。四、使用sklearn来应用AdaBoost算法1、决策树在训练集和测试集上的准确率2、AdaBoost在训练集和测试集上的准确率结论：通过单层决策树和AdaBoost在训练集和测试集上表现可以发现，AdaBoost可以准确预测所有的训练集样本，与单层的决策树相比，AdaBoost在测试集上的准确率要稍微高点。但是，AdaBoost也存在明显的过拟合。所以说，AdaBoost在降低模型的偏差同时，也会提升模型的方差。五、绘制决策边界总结：通过决策区域可以发现，AdaBoost的决策区域要比单层的决策树复杂的多。集成分类器与单独分类器相比，集成学习提高了计算复杂度，计算复杂度的提高会带来计算成本的增加。所以在实际中，我们需要仔细权衡模型的性能和计算成本。本文由百家号作者上传并发布，百家号仅提供信息发布平台。文章仅代表作者个人观点，不代表百度立场。未经作者许可，不得转载。戴翠美百家号最近更新：简介:娱乐新闻，八卦，搞笑文章作者最新文章相关文章

在Adaboost算法中空白八邻域边界跟踪算法是什么意思？

我要回帖

更多关于 word缩小空白边界的文章

随机推荐

在Adaboost算法中空白八邻域边界跟踪算法是什么意思？

我要回帖

更多关于 word缩小空白边界 的文章

随机推荐

更多关于 word缩小空白边界的文章