基于决策树的数据挖掘技术

  文摘:方针决策树下的消息发掘技术。,次要探究消息发掘区域目的搭配技术。。供给了搭配运动。,方针决策树的表现、搭配、剪枝成绩的分钟剖析,最不克不及够的,用拟态方法显示了该方法的有效性。。
奇纳河论文网
关键词:消息发掘;方针决策树;搭配;性能要求
中图搭配号:tp311证件鉴定码:A 文字编号:(2010)08-1949-02 1009-3044
少量的消息流区域了警告的职别。,就真正限度局限就,这是每一巨万的记载。,高维的材料,这增多了国际公约剖析技术的争论。。搜集的消息最好的5%到10%用于剖析。,消息搜集手续不议论消息独特性。,这使我们家不得不运用消息发掘(消息)。 发掘)技术。消息发掘技术的次要算法有:论点剖析法。,神经中枢体系,方针决策树方法,遗传算法等。在监狱里方针决策树搭配作为消息发掘器和方法经过是运用树建筑物图的方法把消息独特性视觉的地表述使摆脱,可用于消息的搭配和预测。,其要点是多少建筑的高精确度。,小规模方针决策树。
1 搭配运动
搭配是一类要紧的消息发掘成绩。。
1)搭配的急切的:输出消息的剖析,集中消息锻炼的独特性,为每个类找到严密的的特性描述或从前的。这种特性描述通常表现为谓语。。总算类特性描述用于对出生量度消息中止搭配。。但是这些出生量度消息的类副标志是未知的。,我们家依然可以预测这些新消息的类。。照料执意预测,但不肯定。我们家还可以更合适的地担心消息区域目的每每一类。。也执意说,我们家早已产额率所及了这门课的知。。
2)搭配构成释义:假定的的消息库,t2,…,tn},D tuple Ti?,类的集中C = C1,……,Cm},搭配成绩被构成释义为从消息库到TH的表现。,也执意说,消息库区域目的元组TI被分分派物每一类CJ。,有Cj {钛(Ti)| F = Cj,1≤i≤n,D·}和Ti。
3)搭配的两个阶段:锻炼集(锻炼)。 设置:在消息库中整队每一消息元组,以整队每一用于。它是由一张磁盘结合的。。每个记载计入几属性(属性)。,结合每一独特性向量。锻炼集的每个记载都有每一详述的类副标志(类)。 副标志)与之绝对应。这种典型的副标志是体系的输出。,通常先前的体验消息。锻炼精髓区域目的每一元组称为锻炼范本。,每个种植范本都有每一搭配奖章。。详述范本的塑造可以是(V1),v2,…,VN;C);在监狱里VI表现属性值,范围的c表现。量度集用于评价搭配从前的的精确率。
4)搭配从前的的建筑的方法:器想出方法。,机具想出方法采取方针决策树建筑的最优解。,方针决策树法对应的表现为方针决策树或判别树;论点方法:知表现是判别函数和蓝本事例,详细方法有:贝叶斯;非限制因素法(邻近想出或由于事例的想出);神经体系方法:BP算法,从前的表现是一种前向反应神经体系从前的。。
2 方针决策树搭配
方针决策树搭配是消息发掘的方法和器经过。。它使用树形建筑物图视觉的地表达消息独特性。。可用于搭配和预测。。方针决策树方法的前兆是运动想出体系CLS,当时的发展到ID3方法,并将其推向热潮。,当时的它生长成处置陆续属性的产额率。。90年头后,方针决策树搭配算法生长为Sprint。。方针决策树算法是器具最普及的的归结算法经过。,它已成地器具于普及的的信贷风险的想出。。方针决策树搭配主要地可以表现列举如下:a) 准备方针决策树:运用锻炼范本造成方针决策TR。开端,消息在根混合词中。,反复消息眼罩;b) 剪枝方针决策树:砍掉少数能够有噪声或非常奇特的的消息。。c) 方针决策树是用来对未知消息中止搭配的。,直到叶混合词。
方针决策树的表现
方针决策树将诉讼手续从根混合词置换到叶混合词。,为了对每一样本中止搭配,叶状的建筑物混合词的搭配为例。树上的每个混合词暗示诉讼手续的属性的量度。,混合词的每个后续子在实地工作的对应于TH的每一能够值。。同样的树建筑物就像一棵使皈依的树。,每个在内地混合词(在内地) 混合词)表现属性的量度。,每一边代表量度总算。,叶(叶)表现类(类)或类的散布(c) 散布)。最下面的混合词是根混合词。。
方针决策树的根本造成算法
a) 根本算法(贪得无厌的算法):一种自顶下降的的隔开方法,所其中的一部分消息在根混合词中。;属性都是温和在实地工作的 (万一它是陆续的),将其团圆化);领地记载用所选属性反复的中止放假;属性的选择是由于每一探试法规定或许每一论点的度量。
b) 中止放假的授权:每一混合词上的消息都是属于同每一类别;缺席属性可以再用于对消息中止放假。
c) 伪法典:
Procedure BuildTree(S)
运用消息集s设定初值根混合词r
用根混合词R设定初值队列q
While Q is not Empty do {
敷衍队列q区域目的第每一混合词n
if N 污染(Pure) {
for 每个属性 A
在每一混合词上计算混合词的知识增益
选择最佳后果属性,走开成N1、N2
} }
可以看出,这是每一反复手续。。终极会利润一棵树。通常最好的放假是由贪得无厌的算法造成的。。贪吃的算法是求解最最佳化成绩的根本方法。。它采取逐渐建筑的最优解的思惟。,在解决成绩的每每一阶段,做每一决议,出场必然规范下的最优方针决策;一旦,你不克不及再换衣它了。。作出决议的根底叫做贪得无厌的。。每一怀疑:终究以为如何的走开才干被认为最佳后果呢?在法典8)处算法基金知识增益(Information 增益)刚过去的物价、人口等的指数用来测混合词的集中的。,知识增益的走开将被用作走开预调。。接下来,我们家绍介了知识增益参照系。。
方针决策树的剪枝
修剪的急切的是消弭overadaptation(过装修)亲。这真实地是消弭非常奇特的和声响的锻炼。修剪常用于论点方法。,使摆脱最不值得信赖的的人、也许是少数声响。。
方针决策树非常奇特的的争辩是多方面的。,在监狱里经过执意对刚过去的独特性的不恰当特性描述。,有些树独特性特性描述不克不及精确地准备目的运动。,运用此特性描述时,目的从前的非常奇特的复杂,倒地则相反。,恰当地运用特性描述将非常增加。这棵大树的另每一争辩是声响。。当事例计入少量的独特性噪声(即弄错副标志的独特性值)或类噪声(即弄错副标志的类值)时,由于判例独特性归结处理与无边地的的前件无干。。大的树通常被残害-过度的叶状的建筑物混合词。,而且每个叶混合词最好的两三个诉讼手续。搭配弄错比叶叶混合词多了很多样本。,更轻易受到声响的情感。这些叶混合词(或更精确),其相关联的的树小路)是疏散的。,发生的能够性很低。。到这程度,一种促进的方法是经过树的叶状的建筑物只切几箱t。。
它是把持的促进职别的谜语(或樱桃。方针决策树剪枝的精确度的费常常是银基,除了,修剪一下可以举起修剪的精确率。,它在真正器具中从事要紧的意思。。万一不克不及决定哪种算法对假定的消息库最好,他们一开战,一开战,当时的比力总算。
3 拟态剖析
直线的搭配
本条文由于用直线的辨别式搭配CAR消息集,阐明体系模块的创造。消息集计入1970。,1976,计划中的1982产额的领地汽车的材料,包孕产额时期,车身分量,油耗及对立面消息。三年内发生了100套消息。。我们家的装满消息看,产额汽车的变化多的属性的变化多的。我们家在嗨只选择两个属性肉体的分量和激起消费,俾在立体上显示直线的辨别式搭配知识。模块运转后可预知的总算是,汽车的年纪可以基金汽车的属性来搭配。。满地点显示消息散布。
图1显示了汽车在三个变化多的年份的散布处境。对消息集中止直线的辨别式搭配,范围直线的辨别式搭配总算,密码组合网格图显示它。。从上图2可以看出直线的辨别式搭配的总算。我们家经过计算利润ANS,也执意说,超越32%的消息是弄错的。,也就说用直线的辨别式搭配所利润的后果并坏人。
方针决策树搭配
详细手续是:a) 使用方针决策树搭配算法的消息搭配,量度方针决策树搭配弄错率;b) 对该搭配方针决策树的构造; 量度方针决策树搭配本钱;d) 使用剪枝算法对该搭配方针决策树中止剪枝,利润最佳后果方针决策树。
如图3所示,圆的每一点,方针决策树建筑物复合物与CO的均衡。也执意说,最好的方针决策叶数是7。,在修剪,真正的的图片是修剪的总算。。
方针决策树搭配,直线的辨别式搭配比力,可以看出,方针决策树的搭配总算更多。,弄错率非常在水下辨别式搭配。确实辨别式剖析被设计用来处置和剖析少数详述的处境?――每个组区域目的测属性都是成多元正态散布,在处境下辨别式搭配才是高效的。在实践中,它是不克不及够做随便哪一个散布猜想。到这程度,搭配的选择是每一非常奇特的要紧的成绩。。在方针决策树搭配中,消息集的度量属性可以是无授权的。,团圆或陆续,也执意说,在方针决策树搭配中。,不喜欢在消息集中分派范本消息。。由于这种处境,运用方针决策树搭配是睿智的。,搭配总算的真正的率也利润使安全。。真实情况是在真正中。,它被成地器具到从想出麦克匪特斯氏疗法做出诊断到想出评价存款申请表格的信贷风险附加物的辽阔接。
参考证件:
[1] 可用的消息发掘[M] 现在称Beijing:电子工业强迫征兵,2004.
[2] 韦敏郑,黄刚。消息发掘综述[M]。 现在称Beijing:清华大学强迫征兵,2001.
[3] Margare H.Dunhan。消息发掘课程[M] 郭崇慧,田风占,译. 现在称Beijing:清华大学强迫征兵,2005.

请选出重印的本源。。原文地址:

发表评论

电子邮件地址不会被公开。 必填项已用*标注