stm32自带的CANstm32 usb控制器器是什么?

developerWorks 社区
本文将通过 SPSS Modeler 介绍决策树 (Decision tree)
演算法于银行行销领域的应用实例。通过使用网路公开电销资料建立不同决策树模型,分析、解释并讨论模型结构,您将会了解各种决策树演算法及其不同之处,针对不同资料特征选择合适的决策树模型。
, 软件工程师,
林俞均,2012 年加入 IBM 至今,擔任 IBM 大中华软件开发中心全球化部门的工程师,从事 SPSS 與 Cognos 产品的全球化测试,拥有多张 BA
相关证照。曾在台湾政治大学及台湾大学开设 SPSS Modeler 数据挖掘课程。
, 软件工程师,
賴秉宏,为 IBM 大中华软件开发中心全球化部门的工程师,从事 BA(商业智慧分析) 软件的全球化测试,熟悉 Cognos 及 SPSS 产品。曾在台湾政治大学及台湾大学开设 SPSS
Modeler 数据挖掘课程。
, 软件工程师,
袁璞,为 IBM 大中华软件开发中心全球化部门的工程师,从事 BA(商业智慧分析) 软件的全球化测试,熟悉 Cognos 及 SPSS 产品。曾多次担任 SPSS Modeler 课程讲师。
引言随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分析时很常用的分类方法,本文将使用 IBM SPSS
Modeler 进行实作,介绍决策树 (Decision tree) 演算法于银行行销领域的应用实例。IBM SPSS Modeler 包含多种决策树模型,包括 C5.0、C&R
Tree、Quest、CHAID。首先,本文将会简介决策树演算法的基本原理,接着会针对案例数据 (网路公开电销数据)
进行初步的数据分析,并套入决策树模型中,分析、解释并讨论最后的结果。通过本文,您将会了解各种决策树演算法及其不同之处,针对不同数据特征选择适当决策树模型。决策树演算法 (Decision
Tree) 简介决策树演算法的原理决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支
。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。决策树演算法的比较决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler
中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 C&R Tree
四种。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分将会针对这四类决策树演算法进行简单的介绍和比较,而详细演算法原理将不会在本文中详述。1. C5.0由 C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准 (Information Measure)
来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0 的目标字段 (Target) 测量级别,不适用于连续类型 (Continuous)
的测量级别。而输入字段的数据型态则适用连续类型 (Continuous) 的测量级别。2. CHAID (Chi-Square Automatic Interaction Detector)此演算法和前述的 C5.0 概念很像,均可以在每一个节点产生不同数目的分支来分割数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定 (Chi-square F test)
来进行分支,通过卡方检定来计算节点中的 P-value,来决定数据是否仍须进行分支。另外,CHAID 的目标字段 (Target) 的测量级别可适用于连续类型 (Continuous)
的测量级别,但在输入字段则只适用分类类型 (Categorical) 的测量级别。3. QUEST (Quick Unbiased Efficient Statistical Tree)此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST 在变数的数据型态限制上,跟 C5.0 一样,目标字段 (Target)
测量级别,不适用于连续类型 (Continuous) 的测量级别。但在输入字段的测量级别则适用连续类型 (Continuous) 的测量级别。4. C&R Tree (Classification and Regression Tree)又称为 CART,构建决策树的原理是使用 Gini Ratio 作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数 (Target)
以及输入字段的测量级别均适用连续类型 (Continuous) 的测量级别做分析。决策树演算法的选择在使用决策树演算法进行分析之前,首要工作就是选择适当的演算法。一般来说,会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的决策树分析出来的结果,选择最适合的决策树演算法。银行电话行销数据栏位和特征分析这次分析使用的数据是识别化的葡萄牙银行电销数据。电销的产品是银行的定存。电销的数据包括:
客户的基本数据:年龄、工作、教育等 客户的业务相关数据:是否破产、余额、房贷、个人信贷等 电销数据:连络方式、连络日期、次数、谈话时间,以及关键的电销结果一般来说,业务相关数据及电销数据对我们预测相当重要,而客户的基本数据有时候并不重要,例如性别。但在此,年龄、工作、教育对一个人的收入等级连带的定存意愿可能有关联,所以进一步的分析是必要的。(请看图
1)图 1. 银行电销数据概观 1在模型建置前,首先要了解数据的组成。通过 Data Audit Node 中简单的图表及统计数据 (如图 2
所示),我们可以察觉数据的异常、极端值。以年龄栏位为例,我们可以通过最大、最小及平均值,来观察有无异常分布。年龄 18~95 岁及平均 40
岁属于正常分布,所以不需要做特殊处理。其它栏位可以通过同样方式检视,以增加对客户数据的了解。图 2. 银行电销数据概观 2 – Data Audit Node接下来我们选择几个代表性的栏位来分析电销结果在数据栏位间的分布。以客户职业为例,由图 3
可发现,学生、退休人员,及公司主管对定存产品的接受度较高。同时,我们也意外发现,失业者的定存接受度也相当高。而这些发现仍需再进一步的研究,才可解释其原因。但在此,将不多作探讨。图 3. 银行客户职业与定存产品接受度之图表以年龄的分布来说,超过 60 岁的客户普遍对定存产品的接受度较高 (图
4),因此,可以做为打电话的参考依据。然而,以单一面相来决定结果并非最理想,我们仍需要找寻跟其它栏位的关联性。图 4. 银行客户年龄与定存产品接受度之图表其它栏位的分析此小节我们将简单的对其它栏位作分析。在业务数据上,许多栏位是连续类型的测量级别(Continuous),通过直方图,我们可以发现,打电话的时间、月份、客户接电话的次数都会影响结果。这些栏位都是建立预测模型的重要参考依据。Modeler
也提供了网状图让我们了解栏位间的关联。例如由打电话的月份这个栏位,我们可以通过网状图评估月份对成功率的影响。图 5. 银行最后一次致电客户的时间 (秒) 对定存产品接受度之图表图 6. 与银行客户通话次数对定存产品接受度之图表建立决策树模型串流读取数据SPSS Modeler 中需要根据数据档案格式,来选择不同的源节点读取数据。本篇文章中我们使用的数据档案格式为 .csv
档,因此我们将使用可变文件节点。在节点设定方面,文件标签下我们先读入数据“bank-full.csv”,接着勾选“读取文件中的字段名”和使用分号 (;)
做为字段定界符。此外,在多次反覆训练模型后,根据变量重要性的排序,我们在最后的模型选择移除相对较不重要的栏位,将会据此筛选出建模所需要的数据栏位:过滤标签下选取是否破产 (default)
、有无贷款 (loan) 等较无法预测结果的栏位。图 7. 使用可变文件节点读取数据数据类型定义为了产生决策树模型,我们需要在数据建模前就定义好各栏位的角色,也就是加入字段选项下的「类型」节点。将类型节点拉入串流后,我们会先点选读取值按钮,接着设定角色。在本案例中,栏位 y
是我们最后预测的目标,因此先将其角色设定为“目标”,余下的栏位则是要设定为“输入”。数据分区为了在训练出模型后能够分析模型准确度,在此我们将加入字段选项下的「分区」节点,将数据分为 50%训练数据以及
50%测试数据。在分区节点的编辑页中,点选预览可发现每笔数据已经多出了一个栏位「分区」,栏位中的值被随机归类为「1_训练」及「2_测试」,让决策树节点可判别是否要使用此资料做为训练数据。在完成资料分区后,我们已经完成数据准备
(请见图 8),可以套用决策树模型节点了。图 8. 数据准备决策树节点设定如我们第一章节所述,SPSS Modeler 共提供四种决策树节点建模,包括 C5.0、C&R 树、Quest 和
CHAID。考量到数据特性以及我们希望提供的决策树具有多元分类法,因此我们将建立 C5.0 和 CHAID 两种分类模型。C5.0 节点设定 将 C5.0 节点与分区节点连结后,我们将于此节点编辑页面中的模型标签下设定相关的变数。以下为各变数的详细介绍,此定义来自。 使用分区数据:如果定义了分区字段,则此选项可确保仅训练分区的数据用于构建模型。 为每个分割构建模型:给指定为分割字段的输入字段的每个可能值构建一个单独模型。 输出类型:在此指定希望结果模型块是决策树还是规则集。 组符号:如果选中此选项,C5.0 将试图组合输出字段中具有相似样式的符号值。如果未选中此选项,C5.0 将为用于分割父节点的符号字段的每个值创建一个子节点。 使用 boosting:C5.0 算法有一个特殊的方法用于提高其准确率,称为
boosting。它的工作原理是在序列中构建多个模型。第一个模型按常规方式进行构建。构建第二个模型时,将焦点集中于由第一个模型误分类的记录。构建第三个模型时,将焦点集中于第二个模型的错误,依此类推。最后,通过将整个模型集应用到观测值,并使用加权投票过程将单独的预测组合为一个总预测来分类观测值。推进可以显着提高
C5.0 模型的准确性,但也需要更长的训练时间。通过试验次数选项可以控制在推进模型过程中使用的模型数目。 交互验证:如果选中此选项,C5.0 将使用一组模型(根据训练数据的子集构建)来估计某个模型(根据全部数据集构建)的准确性。 专家模式- 修剪严重性: 确定对决策树或规则集的修剪程度。增加该值可获得一个更简洁的小型树。减小该值可获得一个更精确的树。 专家模式- 每个子分支的最小记录数:可使用子组的大小限制树的任何分支中的分割数。仅当两个或多个生成的子分支中至少包含从训练集合得到的这一最小记录数时,才可分割树的分支。默认值为
2。根据我们的分析需求,此节点的设定如下:勾选使用分区数据、选择决策树输出类型、专家模式下的修剪严重性设定为 80、每个子分支的最小记录数
15。此设定考量到我们资料量较大,避免过度配适的情形发生。CHAID 节点设定将 CHAID 节点与分区节点连结后,我们将于此节点编辑页面中的模型标签下设定相关的变数。由于 CHAID 节点设定较多,以下将挑选我们有修改预设值的变数进行详细介绍。此定义来自“SPSS Modeler 15 Modeling Nodes 文件”。 最大树深度:指定根节点以下的最大级数(递归分割样本的次数)。 修剪树以防止过拟合:修剪包括删除对于树的精确性没有显着贡献的底层分割。修剪有助于简化树,使树更容易被理解,在某些情况下还可提高广义性。 停止规则:设置最小分支大小可阻止通过分割创建非常小的子组。如果节点(父)中要分割的记录数小于指定值,则父分支中的最小记录数
将阻止进行分割。如果由分割创建的任意分支(子)中的记录数小于指定值,则 子分支中的最小记录数 将阻止进行分割。根据我们的分析需求,此节点的设定如下:最大树深度选择自定义 8、勾选修剪树以防止过度拟合选项、停止规则选择使用绝对值、父分枝的中的最小记录数 50、父分枝的中的最小记录数 15。生成决策树模型决策树节点设定完成后,点击主工具列的运行当前流前即可看到两个决策树模型的产生。双击决策树模型则可看到模型结果,而我们最主要要观察的是模型标签及查看器标签下的内容。模型标签内容如图 9
所示,左栏位使用文字树状展开,表现每一阶层的分类状况及目标变数的模式;右栏位则是整体模型预测变量的重要性比较。我们也将会根据变量重要性调整模型设定、变数选择,持续的训练出较佳的模型。查看器标签则是将一样的决策树结果用树状图的方式展现。图 9. 决策树模型结果分析结果在前面的串流产生中,我们加入了分区节点将数据分成训练数据与测试数据,因此在决策树模型产生后,可加入分析节点,完成的决策树串流如图 10
所示。分析节点中我们勾选重合矩阵选项,因此除了分析节点原本就提供的正确错误率比较,可进一步了解实际值与预测值的比较矩阵,如图 11。分析结果将于下一小节详述。图 10. 决策树串流图 11. C5.0 决策树分析结果评估结果比较决策树模型分析结果正确率由于各决策树的演算法不同,最后的分枝结果以及预测的准确性亦不同,本文使用 C5.0 及 CHAID 两种决策树节点,其预测正确率如图 11 和图 12
所示。从结果来看,不论是训练以及测试数据,C5.0 的正确率都高于 CHAID,因此接下来我们会使用 C5.0
结果为主。进一步观察实际值与预测值的重合矩阵,可发现模型预测不购买定存商品的准确性远高于预测将会购买的准确性,以 C5.0 测试数据来看,no 的预测准确性为 95.9%,远大于 yes 的
49.1%。图 12. CHAID 决策树分析结果变量重要性C5.0 与 CHAID 模型的变量重要性如图 13
所示。比较左边与右边的图可发现,尽管变量重要性的排序两个模型相差很大,但是最重要的两个分析变量「duration」和「poutcome」相同,且都比其他变量相对重要许多。图 13. 变量重要性解读预测结果预测规则C5.0 决策树模型产生许多预测规则,而大部分的预测结果如同实际数据一样,都是不会购买定存产品。为了提高电销的成功率,银行人员可由这些规则来筛选目标。SPSS Modeler
提供的决策树结果,包括了分类结果、实例数字和置信度,当分类的实例置信度较高,则可导出预测规则。以图 14 为例,橘色底色的规则为「当 duration&=391,poutcome in
[“failure”“other”],其预测结果是 no」,实例数字为 2808 笔数据符合,其中 91%被正确预测。图 14. 模型结果以下条列预测结果 (图 15,图 16) 为 yes 的规则及其实例数字和置信度(以 50%最低置性,及 100 最小实例数):图 15. 生成规则集图 16. 规则集利用图形节点了解重要预测值duration 和 poutcome 是刚刚得出的重要预测值。由直方图 (图 17) 来看,duration(与客户对谈时间)越长,成功率能大幅提升。超过 1000
秒的对谈时间,成功率能超过五成。以分布图 (图 18) 来观察 poutcome(上次行销结果),上次跟客户的成功交易,会大幅影响这次的结果。图 17. duration 与客户接受银行商品意愿的关系图图 18. poutcome 与客户接受银行商品意愿的关系图结束语由本次分析的结果看来,电销中有适当的与客户的谈话时间 (&1000 秒),及上次电销的成功率将会影响到本次电销的结果。由 Repeat customer
来着手,成功率会最明显提升。电销的谈话时间需要进一步的检视与客户对谈的实际内容,以设计吸引客户的话题。从 campaign(打电话) 次数来看,打给客户推销的次数越多,销售的效果越差。公司在进行电销行动前也可以事先筛选客户,例如大于 60 岁或从事某一些职业 (学生、退休、主管等)
的客户设定为优先考虑。再来筛选财务状况。将基本的条件筛选完毕后,电销结果就会跟谈话的质量有关系。
参考资料 参考:详细介绍资料探勘的基本原理和技术。参考:本文分析的数据来源,以及基本的资料探勘流程、模型的介绍。参考 :详细的介绍关于 SPSS Modeler 中,所有资料探勘模型的信息。 在 ,了解关于大数据的更多信息,获取技术文档、how-to 文章、培训、下载、产品信息以及其他资源。 访问 developerWorks ,了解关于信息管理的更多信息,获取技术文档、how-to 文章、培训、下载、产品信息以及其他资源。加入 。查看开发人员推动的博客、论坛、组和维基,并与其他 developerWorks 用户交流。
developerWorks: 登录
标有星(*)号的字段是必填字段。
保持登录。
单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件。
在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。
所有提交的信息确保安全。
选择您的昵称
当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。昵称长度在 3 至 31 个字符之间。
您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。
标有星(*)号的字段是必填字段。
(昵称长度在 3 至 31 个字符之间)
单击提交则表示您同意developerWorks 的条款和条件。 .
所有提交的信息确保安全。
文章、教程、演示,帮助您构建、部署和管理云应用。
立即加入来自 IBM 的专业 IT 社交网络。
免费下载、试用软件产品,构建应用并提升技能。
static.content.url=/developerworks/js/artrating/SITE_ID=10Zone=Information ManagementArticleID=992103ArticleTitle=IBM SPSS Modeler 决策树之银行行销预测应用分析publish-date=  摘 要 决策树算法是数据挖掘中的重要技术之一,具有出色的数据分析能力和直观易懂的结果展示等特点。本文利用SPSS Mo" />
免费阅读期刊
论文发表、论文指导
周一至周五
9:00&22:00
基于决策树技术的高校学生成绩分析
2015年20期目录
&&&&&&本期共收录文章20篇
  摘 要 决策树算法是数据挖掘中的重要技术之一,具有出色的数据分析能力和直观易懂的结果展示等特点。本文利用SPSS Modeler提供的决策树分类算法对高校学生的成绩进行更深层次的有效分析,发现隐藏在成绩数据中的规律或模式,考察大学计算机基础考试中不同部分对总成绩的影响程度,从而进一步提高高校的计算机基础课程的教学水平。 中国论文网 /1/view-6900763.htm  关键词 数据挖掘 决策树 成绩分析   中图分类号:TP311.13 文献标识码:A   0引言   随着我国高等教育信息化建设的快速发展,许多高校都已经建立起了校园精品课程、数字化图书馆、网络实验室等信息化应用,在知识共享上不断完善求新。同时,校园服务、校园信息发布、在线教学等数字化校园平台的建设实现了数据的共享与系统的整合。   传统的学生成绩分析还停留在简单的查询及简单的数字统计阶段。如查询某个学生的某门课程的成绩,统计某门课程的优、良、中、差各个成绩段的学生人数,统计成绩的均值、方差、置信度等。己有的分析研究仅仅从理论上对可行的评价机制进行讨论,而隐藏在这些数据后的其他有用信息很难能够发掘出来。   另一方面,信息化应用中获取的大量教学信息使得各种新的属性不断出现,增加了学生的信息存量,大量的学生信息以及学习数据没有发挥其相应的作用。这些信息从一定的角度上反映了学生在新的教学模式下所特有的学习行为,为研究学生的学习行为提供了依据与基础。本文就是在这些大量的数据基础上,结合数据挖掘的决策树分类技术,从学生的学习成绩入手,收集、整理和分析学生的行为信息,总结和发掘在新的学习模式下对教学质量及其学习效果的影响,为教师日常教学和学生学习的改进提供依据。   1数据挖掘技术综述   数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信的信息和知识的过程 。是一门广义的交叉学科,它的发展和应用涉及到不同的领域,尤其是数据库、人工智能、数理统计、可视化、并行计算等 。   数据挖掘技术有两大基本功能,即描述功能和预测功能。描述功能是指描述数据库中数据的一般性质。预测功能是指对当前数据进行推断,以便做出预测。   数据挖掘研究的对象是大量隐藏在数据内部的有价值的信息,如何获取有价值感兴趣的信息是我们所要解决的主要问题。接下来简单介绍数据挖掘中应用较为广泛的常用的一些技术。   1.1决策树方法   决策树算法的目的是通过向数据学习,获得输入变量和输出不同取值下的数据分类和预测规律,并用于对新数据对象分类的预测。   1.2关联规则   关联规则用来揭示数据与数据之间未知的相互依赖关系。由一个条件和一个结果组成的,形如 IF...THEN 的简单形式就叫做规则,关联规则挖掘就是扫描整个数据集,从中找出具有给定的最小支持度和最小置信度的关联规则。其中最具代表性的是R.Agrawal 提出的 Apriori 算法。   1.3神经网络   神经网络是以人脑为基础的抽象模型,它模拟真实人脑神经网络的结构和功能,将众多结构和功能极其简单的神经元通过各种方式联接成一个复杂的网络结构,以实现复杂的智能行为,构成一个类似于人脑结构的非线性预测模型,通过学习进行模式识别。神经网络具有两大特点――自学能力和自适应能力。   1.4聚类分析   聚类是将数据集分成若干不同的类,使得在同一类的数据对象尽可能相似,而不同类中的数据尽可能相异。聚类与分类的根本区别在于:分类需要事先知道所依据的对象特征,而聚类是在不知道对象特征的基础上要找到这个特征。   以上介绍了数据挖掘的基本知识,包括数据挖掘的概念、数据挖掘的功能、数据挖掘的过程及步骤,以及数据挖掘中常用的各种技术。而且现在的数据挖掘软件,不管是开源还是商用都已经很成熟了,也提供易用的可视化界面,集成了数据处理、建模、评估等一整套功能。本文尝试使用Spss modeler[7,8]数据挖掘工具,采用决策树分类技术,对所采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。   2高校学生成绩的决策树模型   2.1决策树技术   决策树技术是通过学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对测试集的分类预测。它主要由两个阶段组成。   第一阶段,建树阶段。选取训练数据集进行学习,导出决策树。建树的流程图如图1所示:   第二阶段,剪枝阶段。用测试数据集检验决策树,如果所建立的决策树不能正确的回答所研究的问题,我们要对决策树进行剪枝以解决过分适应数据的问题,直到建立一棵正确的决策树。剪枝的目的是降低由于训练集的噪声而产生的起伏。   决策树技术之所以是数据挖掘领域中运用较多的分类和预测主要技术,原因有三:一是决策树构造的分类器易于理解;二是采用决策树分类,其速度快于其他分类方法;三是采用决策树的分类方法得到的分类准确性优于其他方法。   SPSS Modeler提供了包括C5.0、CHAID、CART和QUEST在内的经典决策树算法,C5.0是在决策树的ID3算法基础上发展起来的。决策树的核心问题之一是决策树分枝准则的确定,C5.0以信息增益率为标准确定最佳分组变量和分割点。其关键的概念是信息熵。   2.2学生成绩分析   分析影响学生成绩的因素,可以通过数据挖掘技术从定量的角度精确展现学生成绩分析的多个方面,找出影响学生成绩的主要因素,以此来帮助教师和教学部门制订相应的措施,有利于提高教学质量和增强教学效果。因此,本文采用SPSS Modeler14.1数据挖掘工具,对采集的学生考试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和预测成绩数据。具体的信息挖掘的操作步骤如下:
  2.2.1确定挖掘对象、目标及其数据采集   以本校 年度第一学期所讲授的“计算机大学基础”为例,对象是 2014 的部分学生,共 931人。希望根据学生的考试情况来分析挖掘出哪些因素对学生成绩有影响。数据的采集来自于考试系统中导出的数据。计算机大学基础考点所占的分数如下:单项选择15分、填空5分、windows基础知识10分、计算机网络10分、word操作20分、excel操作20分、ppt制作10分、access数据库10分,总计100分。由考试系统导出的数据中包含了考生的基本信息如姓名、班级、学号和机器号等信息。也包含了考生所做试卷的编号及其交卷后的剩余时间等重要信息。   2.2.2数据的预处理   所收集的原始数据还不能直接用于挖掘,因为这些数据一般是不完整的、含噪声的、不一致的,需要对这些数据进行预处理,以提高数据挖掘对象的质量,有助于提高后面挖掘过程的精度和性能。因此,对数据变量的管理和样本管理是建立数据模型的前提和基础。图2表示了对学生成绩数据进行的预处理数据流,其中包含了对数据源的追加、合并、填充和过滤。最终确定了进行分类的重要输入字段为:单选、填空、widows、网络、word、excel、ppt、access、试卷编号和剩余时间(已经将时间格式转换为以秒为单位);分类的输出即目标确定为考生的大学计算机基础成绩(已经将其离散化为好、中、不及格),为后续的建模做准备。   2.2.3决策树在学生成绩分析中的应用   决策树的生长过程本质是对训练样本反复不断递归过程, 根据SPSS Modeler提供的的C5.0算法、QUEST算法、CHAID算法和CART算法,对预处理后的数据流分别进行建模和比较,具体的算法思想和内容不再赘述,其建模的流程和C5.0算法结果如图3所示:由图3(b)中的模型结果可以看出评估模型中每个预测变量的相对重要性。通过这一点,我们看到Excel成绩在此个案中最显著,而其他变量的因子依次为:Access、填空、单选、ppt、word等成绩。这也说明了Excel,Access和填空对学生来说不容易得分,大部分同学掌握还有待加强。而学生对ppt、word、网络和windows题目掌握较好。   由图4所示的分析结果可以看出:经过剪枝的决策树模型的准确率为达到了88.1%,模型提取的分类的成绩结果为“好”的规则如图4(a)所示。由决策树提取的分类规则对大学生英语学习有着重要的指导作用,同学们可以根据自己实际学习情况,参考决策树挖掘结果,找出自己的学习薄弱环节,进行针对性的学习训练,对通过大学计算机考试的几种情况有所了解,为自己制定学习计划和学习目标提供参考。从上面的规则我们可以看出:在考试中,单选、excel和Access部分的得分对考试成绩为“好”的影响是最为重要的,其次是填空和word,其余部分对考试的影响较小。因此,同学们在准备考试的时候可以将excel和Access作为重点来进行强化训练,提前调整自己的学习计划、完善自己的学习方法、科学的提高学习成绩。   此外,由图4(b)和图5所示的模型对比结果可以看出:经过剪枝的决策树C5.0算法模型的测试和训练的准确率比其他几个分类算法要高。模型一致性误差对比可以看出:在检验的样本集合上,4个模型对255个样本有相同的预测值,占52.9%。225个样本预测结果不同,占47%。可见,4个模型预测结果相同的比例属于中等水平;进一步,在相同预测结果的255个样本中,有232个预测正确,占91.7%,21个预测错误占8.3%。因此,模型的总体预测精度一般,根据分析可进行样本的平衡处理或在模型参数上更细致的调整。   3小结   本文研究数据挖掘技术中的决策树模型,采用SPSS Modeler工具软件对大学计算机基础的考试成绩进行分析,通过数据预处理,为决策树模型准备数据,实现了成绩分类挖掘的全过程,通过生成的决策树规则分析计算机大学基础考试中的题型对考试成绩的影响情况,从中找出规律指导考生调整学习计划、完善学习方法、科学有效提高学习成绩。从实验分析的结果和模型的对比可以看出,该决策树模型的分类效果是良好的。   参考文献   [1] 伍顺比.新世纪我国高等教育信息化的回顾与展望[J].教育探索,2011(6):135-137.   [2] 孙名松,周梦熊,李胜利,基于UML的高校教育信息化评价系统的模型研究[J].大连理工大学学报,2005(45):287-290.   [3] 胡水星,张剑平,高校教育信息化成本效益分析与评价[J].现代远程教育研究,2012(3):63-68.   [4] 董彩云等.数据挖掘及其在高校教学系统中的应用[J].济南大学学报(自然科学版),.
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。

我要回帖

更多关于 stm32控制器 的文章

 

随机推荐