将连续数据离散与连续化,分割点的位置,麻烦大家帮我看看,谢谢

1、离散与连续型特征的处理方法:

为什么使用one-hot编码来处理离散与连续型特征这是有理由的,不是随便拍脑袋想出来的!!!具体原因分下面几点来阐述: 

Euclidean space as well.将离散与连續特征通过one-hot编码映射到欧式空间,是因为在回归,分类聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的洏我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性基于的就是欧式空间。

2那么x_1和x_3工作之间就越不相似嗎?显然这样的表示计算出来的特征的距离是不合理。那如果使用one-hot编码则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1),那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的显得更合理。


对离散与连续型特征进行one-hot编码是为了让距离的计算显得更加合理

考虑类别信息(已知X 的值和Y 的值)检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益基尼指数,最短描述长度原则(MDLP基于熵),WoE等

(b)目标和分支节点使用Pearson卡方统计量的p值;

(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。


不考虑类别信息(已知X的值而未知Y的值)分箱(binning/split bin)方法如:等宽、等頻、聚类。

(1)等宽/等距:将数值属性的值域[ , ]等分为K个区间即 (Xmax - X min) / K。前提:数值大概服从均匀分布

(2)等频/等深/分位数(equi-depth):和等宽类似,但它不是要求每个区间宽度一样而是要求落在每个区间的对象数目相等。即共有M个点每个区域含有M / K 个点。

分箱后再作数据平滑处理(smoothing)

hypermesh笔记总结_机械/仪表_工程科技_专业資料大家一起学习1.如何...
Hypermesh 使用技巧总结 1、hypermesh 划分的网格其中一部分单元的节点连接顺序是顺时针的,导致计算不能进行, 请问大侠如何在 hypermesh 中改变節点连接的顺序呢?...
hypermesh 网格划分总结 1、我想提取一个面的线,映射到另外的面上,然后...
hypermesh 网格划分总结 1、我想提取一个面的线,映射到另外的面上,然后...
Hypermesh 總结-网格划分篇 1、我想提取一个面的线,映射到另外的面上,...
hypermesh网格划分总结经验_工学_高等教育_教育专区。一些hypermesh积累的经验! hypermesh 网格划分总结 1、我想提取一个面的线,映射到另外的面上,然后用那个线来......
HyperMesh画网格总结_机械/仪表_工程科技_专业资料学习HyperMesh总结 hypermesh 网格划分总结 1、我想提取一个面的線,映射到另外的面上,然后用那个线来分面,......
hypermesh入门总结(亲力亲为)_计算机软件及应用_IT/计算机_专业资料。Hypermesh 的初学步骤: 1:几何清理:在导入模型后,会出现┅些圆角,倒角,去除模型的 通孔,......
Hypermesh总结——网格划分篇_机械/仪表_工程科技_专业资料1、我想提...
hypermesh总结几何清理篇_数学_自然科学_专业资料。总结-几哬清理篇 、...
hypermesh网格划分总结_机械/仪表_工程科技_专业资料对hypermesh网格划分做了详细的介绍 hypermesh 网格划分总结 1、 我想提取一个面的线, 映射到另外的面上, ......

我要回帖

更多关于 离散与连续 的文章

 

随机推荐