对称的二元变量和双眼不对称怎么修复的二元变量之间的区别是什么

 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
、聚类分析(精品)
下载积分:3000
内容提示:、聚类分析(精品)
文档格式:PDF|
浏览次数:1|
上传日期: 19:17:02|
文档星级:
全文阅读已结束,如果下载本文需要使用
 3000 积分
下载此文档
该用户还上传了这些文档
、聚类分析(精品)
官方公共微信该用户的其他资料
在此可输入您对该资料的评论~
(window.slotbydup = window.slotbydup || []).push({
id: '4540180',
container: s,
size: '250,200',
display: 'inlay-fix'
添加成功至
资料评价:
所需积分:0posts - 873,&
comments - 469,&
trackbacks - 7
&&&&& 如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0或 1 没有优先权。例如,属性&性别&就是这样的一个例子,它有两个值:&女性&和&男性&。基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。对恒定的相似度来说,评价两个对象 i和 j 之间相异度的最著名的系数是简单匹配系数,其定义如下: d(I,j) = (r+s) / (q+r+s+t)&&&&&&&&&&&&&&&&&& (8.9&& p342 ?) &&&&& 如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为 1(例如,HIV阳性),而将另一种结果编码为 0(例如 HIV阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。因此,这样的二元变量经常被认为好像只有一个状态。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度,最著名的评价系数是 Jaccard 系数,在它的计算中,负匹配的数目被认为是不重要的,因此被忽略。 &D(I,j) = (r+s) / (q+r+s)&&&&&&&& (8.10) &当对称的和非对称的二元变量出现在同一个数据集中,在 8.2.4 节中描述的混合变量方法可以被应用。
阅读(...) 评论()导读:分两个步骤实施挖掘:第一步,具体实施过程是结合编程实验并借助于MicrosoftAnalysisServic,这一步完成客户群细分后将客户类别信息添加到数据挖掘库当中,MicrosoftAnalysisService数据挖掘工具的决策树模型来实现,上述第一步得到的挖掘结果如表4.4所示:表4.4聚类挖掘结果簇中心,从以上数据分析可知,将客户分类信息C1、C2、C3、C4作为Cluster属性写 分两个步骤实施挖掘:第一步,选择客户的平均购买额和购买次数,采用聚类的方 法对客户进行分类,这样每个客户都有一个确定的分类;第二步,选用决策树模型对客 户构建决策树,以对客户的特征进行进一步分类分析。 具体实施过程是结合编程实验并借助于Microsoft Analysis Service的数据挖掘工具 来完成的。第一步的聚类是在Visual Foxpro 6.0环境下采用编程方式来实现的(代码见 附录),这一步完成客户群细分后将客户类别信息添加到数据挖掘库当中。第二步通过 MicrosoftAnalysis Service数据挖掘工具的决策树模型来实现。 4.4.3结果分析 上述第一步得到的挖掘结果如表4.4所示: 表4.4聚类挖掘结果 簇中心 簇簇成员个数百分比% 平均购买额购买次数 C1 3. 117 22 C2 7. 145 27 C3 6. 52 lO C4 6. 226 42 从以上数据分析可知,C1客户群的平均购买额与购买次数都较低,属于不确定型 客户,C4客户群的平均购买额较低,但购买次数较高,应属于经常性客户,C2客户群 的平均购买额较高,但购买次数较低,属于乐于消费型客户,而C3客户群的平均购买 额与购买次数都较高,应属于最好的客户。从客户数的比例来看,也基本与帕累托原则 相符。 将客户分类信息C1、C2、C3、C4作为Cluster属性写入到挖掘库中,然后选择它 作为预测列并选择年收入、未成年孩子数等作为输入列创建的决策树如下: ?只锨10¨ok/\\c1(86.84%1 C2(5.26%、 C3(2.63%1 C4(2.63%1 C1(5.13呦 C2(8.33嘲 C3(6.4l㈨ C4(79.4%1
。 未成年孩子数 图4.3客户细分决策树 C1(7.69%、 C2(11.54%1 C3(57.69蚴 C4(19.23%1 篁婴皇苎±壅鲞塑盗整塑竺查生塑坌!!壅 从该模型结果可以看出,年收入在1万元到3万元之间的客户当中有86.84%的客 户属于不确定型客户,年收入在3万元以上且未成年孩子数小于等于2人的客户当中有 79.4%的客户属于经常性客户,而在年收入在3万元以上且未成年孩子数大于2人的客 户当中有57.69%的客户属于最好的客户,此外有11.54%的客户属于乐于消费型客户, 有19.23的客户属于经常性客户。这些挖掘结果为零售企业更好地认识客户具有重要的 参考价值。 决策树是一种较好的分类模型,但由于它是一种有指导的学习方法,需要预先知道 样本的类型。因此,在零售企业面对众多客户的情况下,结合聚类和决策树技术进行客 户细分建模是一种有效而实用的方法。 4.5本章小结 本章分析、研究了数据挖掘中的聚类分析和决策树技术,受基于购买行为的客户细 分方法启发,提出一种基于聚类和决策树的客户细分模型,对零售业客户细分模型的建 立和分析进行了研究与实践,为零售业客户细分提供了一种有效而实用的方法。 东南大学硕士学位论文 第五章客户行为分析中的数据挖掘建模研究 5.1交叉销售中的关联规则挖掘 5.1.1关联规则挖掘原理与算法 定义5-l关联规则挖掘的数据集记为D(一般为事务数据库),D=(tl,t2,?,tk,?, tn),铲<扎赴,?,‰,?,知},tk(乒1,2,?,11)称为事务(Transaction),ira(m=1,2,?,一称为项 目(Item)。 定义5-2设I={il,i2,'\是D中全体项目组成的集合,I的任何子集X称为D 中的项目集(Itemset),IXI=k称为集合x为k项目集(k-Itemset)。设tI【和x分别为 D中的事务和项目集,如果x£k,称事务tk包含项目集x。每一个事务都有一个惟一 的标识符,称为TID。 定义5.3数据集D中包含项目集X的事务数称为项目集X的支持数,记为0,。项 目集X的支持度记为support(X): suppor“X)2诲×10似(或suppor“X)2街’ (5.1) 其中lD|是数据集D的事务数,若support(X)不小于用户指定的最小支持度 (minsupport),则称x为频繁项目集,简称频集(或大项目集),否则称x为非频繁项 目集,简称非频集(或小项目集)。 定理5-1设X、Y是数据集D中的项目集: (1)若X_cY,则support(X)≥support(Y)。 (2)若XcY,如果X是非频集,则Y也是非频集。 (3)若X_cY,若Y是频集,则X也是频集。
定义5.4若X、Y为项目集,且XnY=巾,蕴涵式xjY称为关联规则,X、Y 分别称为关联规则XjY的前提和结论。项目集XUY的支持度称为关联规则XjY 的支持度,记作: supportO(Y),supporc()(≥Ⅵ=support(Xu Y) (5.2) 关联规则XjY的可信度记作,confidence(Xj Y): corrfidence(Xjy)_Sup噗Y),×100% (5.3) support(X J 支持度和可信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据中 的统计重要性,后者用于衡量关联规则的可信程度。一般来说,只有支持度和可信度均 较高的关联规则才可能是用户感兴趣、有用的关联规则。 定义5-5若support(X j Y)≥minsupport, 且confidence(X jⅥ≥ minconfidence,称关联规则X≥Y为强规则,否则称关联规则x≥Y为弱规则。 关联规则挖掘的任务就是要挖掘出D中所有的强规则。强规则XjY对应的项目 集(xuY)必定是频集(由定义5―5和式5.2可知),由式5.1和5.3可知,频集(xu Y)导出的关联规则xjY的可信度可由频集x和(XuY)的支持度计算。 关联规则挖掘的第一个问题即发现频集是关联规则的关键问题,研究者们已经提出 了许多发现算法,而Agrawal等人[69J于1994年提出的Apriori算法是发现频集的经典算 兰至兰查皇堡垄坌堑生堕塑堡丝塑堡堡堕塑 法。Apriori算法使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1).项集。首先, 找出频繁1.项集的集合。该集合记作L1。Ll用于找频繁2.项集的集合k,而L2用于找 L3,如此下去,直到不能找到频繁k-项集。找每个h需要一次数据库扫描。用Lk.1找 h由连接和剪枝两个过程组成。 (1)连接步:为找k,通过Lk-l与自己连接产生候选矗项集的集合。该候选项集 的集合记作ck。设,1和如是Lk.1中的项集。记号,1们表示,l的第,项。为方便计,假定 事务或项集中的项按字典次序排序。执行连接Lk.1 join Lk.1,其中Lk.1的元素是可连接 的,如果它们前(k.2)个项相同。即是,Lk.1的元素II和,2是可连接的,如果(11【1】_如[I】) ^(It【2】=f2【2】)八?^(1l【k-2]=如【肛2】)A(1j【k-1]<如陋l】)。条件(1l【k-1]<如【k-1]) 是简单地保证不产生重复。连接ll和如产生的结果项集是II【l】,1【2】..?,l陋l】/2【kq]。 (2)剪枝步:Ck是Lk的超集;即是,它的成员可以是也可以不是频繁的,但所 有的频繁k-项集都包含在Ck中。扫描数据库,确定Q中每个候选的计数,从面确定 Lk。然而,Ck可能很大,这样所涉及的计算量就很大。为压缩Ck,可以用以下办法使 用Apdod性质:任何非频繁的(k-1).项集都不可能是频繁肛项集的子集。因此,如果一 个候选如项集的(k-1).子集不在Lk.1中,则该候选也不可能是频繁的,从而可以由Ck中 删除。 以下是算法的伪码描述: 算法:Apdod
输入:事务数据库D;最小支持度阈值min sup。 输出:D中的频繁项集L。 L l=f'md_frequent_l-itcmsets(D); For(k--2;Lk-l≠①:kH) {Ck=apriori_gen(Lk.1); foreachtransactiont∈D//scanDforcounts {Ct=subset(Ck,t);//get the subsets oft that a∞candidates for each candidate CE ct C.COullt++: ) Lk={cE Ck I c.count>,min_sup} ) feRlnlL#U kLk procedure apfiofi_gcn((Lk.j:frequent(k-1)-itemsets) for each itemset Ii∈Lk.I for each itemset如∈Lk.1 if(h[1]=/2[1])A(1,[21=/212】)八?A(1dk-2]=/2陋2】)A(11[k-1]<12[k-1])then {c=h.1 join Lk-l;//join step:generate candidates ifhas_infrequent_subset(c,Lk-1)then delete c; //prune step:remove unfruitful candidate else add CtoCk; 41 东南丈学硕士学位论文 } return ck; procedure has i硼requent_subset(c:candidate k-itemset;Lk-:f:requent(k-1)-itemset) for each(k-1)-subset s ofc Ifs芒Lk.1 then Return TRUE; Return FALSE; 关联规则挖掘的第二个问题是根据找出的频集和最小可信度产生关联规则,办法如 下: ?对于每个频繁项集,,产生,的所有非空子集。 ?对于z的每个非空子集s,如果竺型翌竺=!竺兰坚掣≥研加confi则输出规则“sj(,.s)一。 support_count(s) 其中,mm COnf是最小可信度阈值。 接下来,通过一个实例对Apfiofi算法进行进一步说明。以某连锁零售企业为例, 从其销售数掘库中抽取出的一个事务数据库样本,如表5.1所示。11代表鞋刷,12代表 浴衣,13代表香皂,14代表空气清新剂,15代表剃须泡沫。运用Apriori算法找出具有 最小支持度为O.5(最小支持度计数为2)的频集的过程如图5.1所示,最终得到频集为:
L=((II,b),(12,13),(12,Is),<h,Is),(12,13,15))170]。 表5.1销售事务数据库样本 TID 项ID的列表 500 Il。13,14 ,15 ,13,15
令最小可信度为O.65,则会产生以下关联规则: 11 j13(confidence=1);Djll(confidence--0.67); 12≥13(eonfidence=O.671: 13 j12(confidence=0.671: 12=,15(confidence=1); 15j12(eonfidence=1); 13 j 15(confidence=0.67); 15 j 13(confidence-:o.67); 12,13等15(eonfidenee=1); 12,15 13(eonfidenee=O.67): 13,15≥12(confidence=1); 12等13,15(confidenee=O.67) 13j12,15(eonfidence--4).67);巧j12,13(confidence=O.67); Apriori算法存在的主要问题是:组合产生大量的规则,使用户难以理解众多的、 较长的规则,并且有的规则并不是用户所感兴趣的。针对此问题可以用基于约束的关联 规则挖掘来加以解决。 第五章客户行为分析中的数据挖掘建模研究 项集支持度计数 {11} 2 {12} 3 {13) 3 {14) l {15) 3 项集支持度计数 {11} 2 {12} 3 {13} 3 {15} 3 项支持度L2 项支持度 项集c2 集计数集计数 {11,12} {II,13} 扫描{ll,12} l 筛选 {11,13} 2 {11,13} 2 {12,13, 2 01,15} {II,15} l {12,15} 3 {12,13} 计数{12,13} 2 {13,15} 2 {12,15} {13,15}
包含总结汇报、文档下载、旅游景点、党团工作、外语学习、教学研究、工作范文、行业论文、考试资料、人文社科以及基于数据挖掘技术的CRM应用研究硕士论文等内容。本文共10页
相关内容搜索

我要回帖

更多关于 腿纹不对称 的文章

 

随机推荐