+ All Categories
Home > Documents > Cap 5 Arbori de Decizie

Cap 5 Arbori de Decizie

Date post: 04-Jun-2018
Category:
Upload: oana-andra-dragomir
View: 229 times
Download: 1 times
Share this document with a friend

of 27

Transcript
  • 8/13/2019 Cap 5 Arbori de Decizie

    1/27

    Arbori de decizie 49

    Arbori de decizie Decision Trees

    5.1 Noiuni teoretice

    Arborii de clasificare i decizie reprezint una dintre principalele tehnici de DM. Analizaarborilor de decizie permite prognoza apartenenei unor obiecte/instane la categorii distincte,plecnd de la msurile lor n funcie de una sau mai multe variabile predictoare1.

    Obiectiv constituirea subgrupelor omogene din punct de vedere a variabilei dependente Y.Arborii de clasificare i decizie pot fi:

    arbori de clasificare atunci cnd rezultatul prediciei este clasa de apartenen adatelor;

    arbori de regresie, atunci cnd rezultatul prognozat poate fi considerat un numrreal (preul petrolului, valoarea unei case);

    CART (C&RT) Classification And Regression Tree (Breiman, 1984) combincele dousituaii de mai sus.

    Algoritmii utilizai de-a lungul timpului au fost :

    Hunt Hunt, 1962 AID Morgan i Sonquist, 1963 THAID -Morgan i Messenger, 1973 ID3 Quinlan, 1979 CHAID Kass, 1980 CART -Breiman, 1984 C4.5 i C5.0 Quinlan, 1993 QUEST

    5.1.1 Construirea unui arbore de decizie

    Apelm la exemplul Quinlan (1993) fiierul este compus din 14 observaii (mulimea deantrenament) i ne propunem s explicm comportamentul indivizilor (joac, nu joac) nfuncie de previziunile meteorologice2. Algoritmul utilizat este CHAID (CHI squared

    Automatic Interaction Detection) recunoaterea formelor.

    Nr. obs VremeaX1

    Temperatura ( F)X2

    Umiditate (%)X3

    VntX4

    JoacY

    1 soare 75 70 da da2 soare 80 90 da nu

    1Gorunescu F.,DATA MINING concepte, modele i tehnici, Ed. Albastra, Cluj-Napoca, 2006, pag. 1422Rakotomalala Ricco, Les methodes dInduction dArbres, Laboratoire ERIC, Lyon, 2005

  • 8/13/2019 Cap 5 Arbori de Decizie

    2/27

    Capitolul 550

    3 soare 85 85 nu nu4 soare 72 95 nu nu5 soare 69 70 nu da6 acoperit 72 90 da da7 acoperit 83 78 nu da8 acoperit 64 65 da da

    9 acoperit 81 75 nu da10 ploaie 71 80 da nu11 ploaie 65 70 da nu12 ploaie 75 80 nu da13 ploaie 68 80 nu da14 ploaie 70 96 nu da

    Descrierea arborelui: primul nod Joacse numete rdcina arborelui i prezintdistribuia persoanelor

    dupmodalitile variabilei dependente Y; se alege prima variabilde segmentareaplicnd testul de independen 2 Chi-Square. Cu ajutorul testului 2 se poateanaliza dac dou variabile sunt dependente sau independente, garantndrezultatele cu o probabilitate dinainte stabilit. Pentru a verifica acest lucru pornimde la ipotezele:

    H0: variabile independente ipoteza nul, cu alternativaH1: variabile dependente.

    Douvariabile sunt independente dacsunt ndeplinite condiiile:

    )()/()()/( 111111 yYPxXyYPixXPyYxXP ========

    Joac

    9 64% Da5 36% Nu

    Vremea = soare

    2 40%3 60%

    Vremea = acoperit

    4 100% Da0 0% Nu

    Vremea = ploaie

    3 60%2 40%

    Umiditate < 77,5

    2 100% Da0 0%

    Umiditate 77,5

    0 0%3 100% Nu

    Vnt = da

    0 0%2 100% Nu

    Vnt = nu

    3 100% Da0 0%

  • 8/13/2019 Cap 5 Arbori de Decizie

    3/27

    Arbori de decizie 51

    = =

    =

    p

    i

    q

    j ij

    ijij

    calcnt

    ntn

    1 1

    22 )(

    n care: ijn sunt valorile observate

    ijnt sunt valorile teoretice (ateptate, acele valori care ar satisfacecondiiile de independen)

    p numrul liniilorq numrul coloanelor

    Valoarea2

    calc se comparcu valoarea teoretic2

    t , extrasdin tabelul

    funciei2

    , pentru nivelul de semnificaie ales i )1()1( qp grade de

    libertate.Dacvaloarea 2calc >

    2t , atunci, se respinge ipoteza H0i se admite alternativa

    ei H1, variabilele sunt dependente.

    P( 22 tcalc < )

    H02t H1

    2calc poate lua valori de la 0 la +. Pentru a putea face comparaii ntre

    combinaii de variabile cu numr diferit de grade de libertate se poate recurgela normalizare calculnd valoarea t a lui Tschuprow, ]1;0[t

    )1)(1(

    2

    =

    qpnt calc

    Pentru exemplul nostru, se alege combinaia pentru care nivelul de semnificaieAsymp. Sig. este cel mai mic. n cazul nostru prima variabilde segmentare vafi Vremea care va produce trei noduri " fiu " potrivit celor trei modaliti;

    Legturi ntre Pearson Chi-SquareValue df

    Asymp. Sig.(2-sided)

    Joaca * Vremea 3.547 2 0.170

    Joaca * temperatura (grade F) 11.822 11 0.377

    Joaca * umiditate (%) 6.015 8 0.646

    Joaca * vant 0.933 1 0.334

  • 8/13/2019 Cap 5 Arbori de Decizie

    4/27

    Capitolul 552

    nodul de la nivelul doi Vremea = soare, conine 5 persoane (nregistrri) din care2 joac i trei nu joac, ceea ce nseamn c la nivelul acestui nod nu avemomogenitate. El va genera noduri " fiu ". La fel se va ntmpla i cu nodul Vremea= ploaie;

    nodul de la nivelul doi Vremea = acoperit, conine 4 persoane (nregistrri) carejoac, ceea ce nseamn c la nivelul acestui nod avem omogenitate. El este unnod " pur " i devine o frunza arborelui;

    pentru nodul de la nivelul doi Vremea = soare se alege variabila de segmentareastfel: se selecteazcele 5 nregistrri punnd condiia de mai sus apoi se aplictestul 2 combinnd variabila dependentJoaccu celelalte trei

    Nivelul de semnificaie cel mai mic se ntlnete la combinaia Joaca * umiditate,variabila de segmentare va fi Umiditate.

    variabila Umiditate este continu, de aceea se impune alegerea unui punct detiere astfel: valorile umiditii (pentru cele 5 observaii) sunt sortate pe axaumiditate, un prim punct de tiere este mediana dintre 70 i 85, adic valoarea77,5, se mpart cele 5 observaii n dou grupe n funcie de aceastcondiie deumiditate, se aplictestul 2 i se calculeazvaloarea normalizatt Tschuprow, secontinucu alegerea urmtoarelor puncte de tiere (dintre 85 i 90, dintre 90 i 95)

    i pentru fiecare situaie se calculeazvaloarea normalizatt Tschuprow. Cea maibun decupare o realizeaz valoarea 77,5 (combinaia cu valoarea normalizat tcea mai mare), rezultnd dounoduri pure (frunze). Se poate lua ca punct de tierefiecare valoare a variabilei analizate.

    Legturi ntre Pearson Chi-SquareValue df

    Asymp. Sig.(2-sided)

    Joaca * temperatura (grade F) 5 4 0.287

    Joaca * umiditate (%) 5 3 0.172Joaca * vant 0.139 1 0.709

  • 8/13/2019 Cap 5 Arbori de Decizie

    5/27

    Arbori de decizie 53

    nodul de la nivelul doi Vremea = ploaie, conine 5 persoane (nregistrri) dincare 3 joaci 2 nu joac, ceea ce nseamncla nivelul acestui nod nu avemomogenitate. El va genera noduri " fiu ". Se alege variabila de segmentare astfel:

    Se alege ca varibilde segmentare Vant (Asymp. Sig. cel mai mic), variabilcegenereazdounoduri pure (frunze).

    5.1.2 Msuri de evaluare a segmentrii (partiionrii)

    Msurile de evaluare a segmentrii (partiionrii) pot fi: statistice; rezultate din teoria informaiei

    Situaii posibile3

    3Rakotomalala Ricco, Les methodes dInduction dArbres, Laboratoire ERIC, Lyon, 2005

    Legturi ntrePearson Chi-SquareValue df Asymp. Sig.(2-sided)

    Joaca * temperatura (grade F) 5 4 0.287

    Joaca * umiditate (%) 2,222 2 0.329

    Joaca * vant 5 1 0.025

  • 8/13/2019 Cap 5 Arbori de Decizie

    6/27

    Capitolul 554

    Msuri statistice - 2 i normalizarea sa (CHAID)

    Fie tabelul de contingen:

    Y X1 . . Xj . . Xq TotalY1

    ..Yi..

    Yp

    n11

    ..ni1..

    np1

    .

    .

    .

    . n1j

    ..nij..

    npj

    .

    .

    .

    .

    .

    .

    n1q

    ..niq..

    npq

    n1.

    ..ni...

    np.Total n.1 . . n.j . . n.q n

    Exemplul S1 distribuie purn frunze.Considerm variabilele: Y Cumprai produsulA ? i X Ai vzut reclama la prod. A ? cu modalitile da, nu.

    Value df

    Asymp. Sig. (2-

    sided)

    Pearson Chi-Square 8.000a 1 .005

    N of Valid Cases 8

    b. Computed only for a 2x2 table

    Valoarea normalizatt (Tschuprow) 1)12)(12(8

    8=

    = ne indicdependena totaldintre

    Y i X i constituirea frunzelor pure:

    cumpara * reclama Crosstabulation

    reclama

    nu da Total

    da 0 4 4

    nu 4 0 4

    cumpara

    Total 4 4 8

    CumprYY1 = da = 4 50%Y2 = nu = 4 50%

    Total = 8 100%

    Reclama X1 = da = 4 50%din care

    Y1 = da = 4 100%Y2 = nu = 0 0%

    Total = 4 100%

    Reclama X2 = nu = 4 50%din care

    Y1 = da = 0 0%Y2 = nu = 4 100%

    Total = 4 100%

  • 8/13/2019 Cap 5 Arbori de Decizie

    7/27

    Arbori de decizie 55

    Exemplul S2 frmodificarea distribuiei

    Value df

    Asymp. Sig. (2-

    sided)

    Pearson Chi-Square .000a 1 1.000

    N of Valid Cases 8

    b. Computed only for a 2x2 table

    Valoarea normalizatt (Tschuprow) 0)12)(12(8

    0=

    =

    cumpara * reclama Crosstabulation

    reclama

    nu da Total

    da 2 2 4

    nu 2 2 4

    cumpara

    Total 4 4 8

    CumprYY1 = da = 4 50%Y2 = nu = 4 50%

    Total = 8 100%

    Reclama X1 = da = 4 50%din care

    Y1 = da = 2 50%Y2 = nu = 2 50%

    Total = 4 100%

    Reclama X2 = nu = 4 50%din care

    Y1 = da = 2 50%Y2 = nu = 2 50%

    Total = 4 100%

  • 8/13/2019 Cap 5 Arbori de Decizie

    8/27

    Capitolul 556

    Exemplul S3 distribuie intermediar

    Value df

    Asymp. Sig. (2-

    sided)

    Pearson Chi-Square 4.800a 1 .028

    N of Valid Cases 8

    b. Computed only for a 2x2 table

    Valoarea normalizatt (Tschuprow) 6,0)12)(12(8

    8,4=

    =

    Teoria informaiei Ctigul informaional (C4.5)

    Entropie Shannon cantitatea de informaie pentru cunoaterea valorilor lui Y

    =

    =n

    n

    n

    nYE i

    p

    i

    i .2

    1

    . log)(

    Entropie condiional cantitatea de informaie pentru cunoaterea valorilor lui Ycondiionate de valorile lui X

    =

    == j

    ijp

    i j

    ijq

    j

    j

    n

    n

    n

    n

    n

    nXYE

    .2

    1 .1

    . log)/(

    cumpara * reclama Crosstabulation

    reclama

    nu da Total

    da 0 4 4

    nu 3 1 4

    cumpara

    Total 3 5 8

    CumprYY1 = da = 4 50%

    Y2 = nu = 4 50%Total = 8 100%

    Reclama X1 = da = 5 62%din care

    Y1 = da = 4 80%Y2 = nu = 1 20%

    Total = 5 100%

    Reclama X2 = nu = 3 38%din care

    Y1 = da = 0 0%Y2 = nu = 3 100%

    Total = 3 100%

  • 8/13/2019 Cap 5 Arbori de Decizie

    9/27

    Arbori de decizie 57

    Ctigul de informaie- )/()()/( XYEYEXYG =

    Ctigul de informaie normalizat (Gain Ratio) innd cont de distribuia marginala lui X

    )(

    )/(

    )/( XE

    XYG

    XYGR =

    n care

    =

    =n

    n

    n

    nXE

    jq

    j

    j .2

    1

    . log)(

    Pentru situaiile de mai sus se ntlnesc valorile:

    Gain Ratio

    =

    =

    =

    3575,0

    20

    11

    Spentru

    Spentru

    Spentru

    Atunci cnd se alege variabila de segmentare se analizeaz toate combinaiile variabileidependente cu variabilele de segmentare candidate i se alege ctigul de informaie GainRatio cel mai mare.

    Indicele de concentrare (CART)

    Indicele GINI msoargradul de concentrare al valorilor lui Y

    2

    1

    .1)( =

    =

    p

    i

    i

    n

    nYI

    p numrul modalitilor lui Yq numrul nodurilor n care se face mpeirea

    Indicele GINI condiional

    =

    ==

    p

    i j

    ijq

    j

    j

    n

    n

    n

    nXYI

    1

    2

    .1

    . 1)/(

    Ameliorarea concentrrii )/()( XYIYIGinisplit = .

    Pentru situaiile de mai sus se ntlnesc valorile:

    D

    =

    =

    =

    33,0

    20

    15,0

    Spentru

    Spentru

    Spentru

    Msura de clasificare greit(misclassification measure) este un indice ce msoareroareade clasificare care se poate face la un nod utiliznd o anumit partiionare i este dat deformula:

    (max1)(j

    iI = proporia de obiecte din clasa j / totalul clasei j)

    Vom alege partiionarea care minimizeazeroarea.

  • 8/13/2019 Cap 5 Arbori de Decizie

    10/27

    Capitolul 558

    Stabilirea mrimii arborelui

    Procesul de partiionare continupncnd toate nodurile terminale devin pure. Acest lucrupoate conduce la situaia ca numrul obiectelor din aceste noduri (frunze) sfie prea mic sauarborele sfie prea mare.Determinarea mrimii optime se poate face prin:

    pre-pruning se oprete creterea arborelui n timpul procesului de inducie prinstabilirea unor reguli de Stop. De exemplu, n metoda CHAID, la nivelul nodului ceurmeaza se segmenta, se alege un nivel de semnificaiecu care se va compara nivelul desemnificaie p-value al testului 2. Dacp-value

  • 8/13/2019 Cap 5 Arbori de Decizie

    11/27

    Arbori de decizie 59

    =

    +

    =

    p

    i ii

    ii

    nn

    nn

    n

    n

    n

    n

    1

    2.1.

    21

    2

    2.

    2

    1.

    1

    2 cu (p-1) grade de libertate

    Exemplu, fie nodurile a, b, c, fixm riscul de prima spe pentru testul echivaleneidistribuionale de 10%.

    Noduri Distribuia CHI-2 p-value Rezultat

    a & b (2 ; 3) i (4 ; 0) 3,60 0,058a & c (2 ; 3) i (3 ; 2) 0,40 0,527 Fuziunea & d (4 ; 0) i (3 ; 2) 2,06 0,151

    Combinaiile (a & c) i (a & d) pot fuziona deoarece au p-value mai mare dect 0,10 (seapropie de echivalena distribuional ipoteza H0). Distribuiile cele mai apropiate sunt (a &c), noduri ce vor fuziona sub numele A. Notm nodul b cu B. La pasul doi se analizeazfuzionarea dintre A i B.

    Noduri Distribuia CHI-2 p-value RezultatA & B (5 ; 5) i (4 ; 0) 3,11 0,078

    Se constatcp-valueeste mai mic dect 0,10 se oprete fuzionarea.

    5.2 Clementine arbori de decizie

    Metodele se difereniaz n funcie de tipul variabilelor: dac variabila dependent estecantitativ (range) se genereaz un arbore de regresie; dac variabila dependent estecalitativ(categorial) se genereazun arbore de clasificare.

    Classification and Regression Tree (Arbore de clasificare i regresie) nodce genereazun arbore de decizie cu care se pot prevedea sau clasifica valori viitoare. Metodautilizeazo partiionare recursivprin mprirea nregistrrilor unei mulimi de antrenament

    n segmente, minimiznd impuritile la fiecare pas. Variabila dependent i variabileleindependente pot fi cantitative sau categoriale, partajarea este binar (numai n dousubgrupe).

    CHAID - nod ce genereaz un arbore de decizie utiliznd statistica 2 pentrurealizarea partajrii optime. Variabila dependent i variabilele independente pot ficantitative sau categoriale, partajarea poate fi non-binar.

    QUEST - Variabila dependent trebuie s fie categorial iar variabileleindependente pot fi cantitative sau categoriale, partajarea este binar.

  • 8/13/2019 Cap 5 Arbori de Decizie

    12/27

    Capitolul 560

    C5.0 - partajarea optimse face aplicnd metoda ctigului maxim de informaie.Variabila dependenttrebuie sfie categorial.

    Un arbore de decizie se poate genera automat, lasnd algoritmul s aleag cea mai bunpartajare la fiecare nivel sau interactiv.Exemplificm exemplul Stream1_Vremea cu datele din tabelul de mai sus i care au fostintroduse n fiierul SPSS Arbori de decizie1.sav. Alegem crearea interactiva arborelui dedecizie.

    Acestui fiier i s-a ataat nodul CRTdin seciunea Modeling.

  • 8/13/2019 Cap 5 Arbori de Decizie

    13/27

    Arbori de decizie 61

    Prin activarea butonului Use custom settingsdin seciunea Fieldsputem specifica n Targetvariabila dependent(categorial) iar n Inputsvariabilele predictoare (independente).Din seciunea Model alegem opiunea Interactive Tree.

    Prin apsarea butonului Executeapare fereastra de construire interactiva arborelui:

    Cu $R-Y a fost notatvariabila dependent(target) Joac. A fost generat nodul rdcin. Cu

    butonul se pot afia etichetele valorilor. Comanda Tree poate declana urmtoarele

    opiuni: Grow Tree genereaztoate nodurile arborelui Grow Tree One Level genereazun nivel Grow Branch genereaztoate ramurile de sus n jos de la nodul selectat Grow Branch One Level genereazramurile unui nivel de la nodul selectat Grow Branch with Custom Split genereazun nivel, de la nodul selectat, avnd

    posibilitatea de a indica variabila independent n funcie de care s se realizezeconstrucia nodurilor. Fereastra Define Split ne permite alegerea altui predictoractivnd butonul Predictors....Dacdorim spstrm predictorul indicat de sistem

  • 8/13/2019 Cap 5 Arbori de Decizie

    14/27

    Capitolul 562

    dar s-i modificm condiiile, selectm Custom. Se declaneaz execuia cubutonul Grow. n fereastra Select Predictor, coloana Improvement, se afieazvaloarea n funcie de care alegem predictorul cel mai bun pentru generarea unuinou nivel. Dacse utilizeazmetoda CHAID, testul 2, se alege valoarea cea maimic(de faptp-value): dacse utilizeazmetoda C&RT se alege valoarea cea maimare (cea mai mare reducere a impuritilor dintre nodul tati nodul fiu).

    Pentru exemplul nostru metoda este C&RT i Improvement ul se poate calculacu Indicele Gini, Twoingsau Ordered declannd butonulExpert.

    Acest lucru l putem concentra n tabelul:

  • 8/13/2019 Cap 5 Arbori de Decizie

    15/27

    Arbori de decizie 63

    Indicele GINI msoargradul de concentrare al valorilor lui Y

    2

    1

    .1)( =

    =

    p

    i

    i

    n

    nYI

    p numrul modalitilor lui Yq numrul nodurilor n care se face mpeirea

    =

    =

    22

    14

    5

    14

    91)(YI 0,459

    Indicele GINI condiional

    =

    ==

    p

    i j

    ijq

    j

    j

    n

    n

    n

    nXYI

    1

    2

    .1

    . 1)/(

    =

    +

    =

    2222

    10

    5

    10

    51

    14

    10

    4

    0

    4

    41

    14

    4)/( XYI 0,357

    Ameliorarea concentrrii == )/()( XYIYIGinisplit 0,459 0,357 = 0,102

    ( cea mai mare diferenntre distribuia marginali distribuia condiional)

    X1 - Vremea TotalY - Joac

    acoperit soare+ploaie

    Da 4 5 9Nu 0 5 5Total 4 10 14

  • 8/13/2019 Cap 5 Arbori de Decizie

    16/27

    Capitolul 564

    Twoing - se msoar diferenele dintre noduri, nodul stng i nodul drept, pentrufiecare din modalitile variabilei dependente Y. C&RT construiete noduri binare. Sealege valoarea care maximizeazacest criteriu.

    2

    1 2.

    2

    1.

    12.1.

    =

    =

    p

    i

    ii

    n

    n

    n

    n

    n

    n

    n

    nT

    =

    +=

    2

    10

    5

    4

    0

    10

    5

    4

    4

    14

    10

    14

    4T 0,204

    Ordered se utlizeazatunci cnd variabila dependentYeste ordinal.

    Least Squared Deviation LSD se aplicatunci cnd variabila Y este cantitativcontinu(range). Se alege valoarea maxim.

    LSD = Dispersia total(Y) - n

    n 1.(Dispersia n nodul stng) - n

    n 2.(Dispersia n nodul drept)

    Remove One Level terge nodurile de pe un nivelGains - dacse executclic pe butonul Gainsobinem informaii statistice pentru nodurileterminale ale arborelui. n fereastra de mai jos s-a ales 1 (Joac = da) n caseta Targetcategory.

    Node: nreprezintnumrul total de nregistrri din fiecare nodNode (%) reprezintponderea numrului nregistrrilor din fiecare nod n numrul total al

    nregistrrilor (4/14 x 100 = 28,57%)Gain: nnumrul de apariii ale valorii 1(Joac= da) n fiecare nodGain (%)reprezintponderea valorilor 1 din fiecare nod n numrul total al valorilor 1 din

    ntreg arborele (4/9 x 100 = 44,44% i 5/9 x 100 = 55,56%)

  • 8/13/2019 Cap 5 Arbori de Decizie

    17/27

    Arbori de decizie 65

    Response (%) reprezintponderea valorilor 1 din fiecare nod n numrul total al valorilor dinacel nod (4/4 x 100 = 100% i 5/10 x 100 = 50%)Index (%) reprezintraportul dintre proporia valorilor 1 la nivelul nodului "fiu" i proporiavalorilor 1 la nivelul nodului "tat" pentru fiecare nod n parte. La nivelul nodului "tat"proporia valorilor 1 este 9/14 x 100 = 64,285%. Indexul pentru fiecare nod se ob ine100/64,285 x 100 = 155,56% i 50/64,285 x 100 = 77,78%).

    Efectund clic pe butonul Risks obinem Risk Estimate= 0,357 = 5/14.Risk Estimate = (numrul total de obiecte - suma obiectelor de pe diagonala principal) /numrul total de obiecteRiscul descrete pe msurce arborele crete.Pentru a vizualiza nregistrrile care ndeplinesc condiiile unui nod se selecteaznodul i seexecutcomanda Generate Select Node.

    Nodul 2 necesitpartiionare i s-a ales variabila X4 Vnt.

  • 8/13/2019 Cap 5 Arbori de Decizie

    18/27

    Capitolul 566

    Cu butoanele:

    - se obine arborele cu frecvenele fiecrui nod;

    - se obine arborele cu graficul frecvenelor fiecrui nod;

    - se obine arborele cu cu frecvenele i graficul frecvenelor fiecrui nod;

    - orientare de sus n jos

    - orientare de la stnga la dreapta

    - orientare de la dreapta la stngaDup generarea arborelui avem posibilitatea s generm modelul alegnd comanda

    din care alegem opiunea Generate Model.... De asemenea putem genera setulde reguli de decizie alegnd opiunea Rule Set... Modelul apare cu numele Vremea1iar setulde reguli cu numele Vremea RS.

  • 8/13/2019 Cap 5 Arbori de Decizie

    19/27

    Arbori de decizie 67

    Dacexecutm dblu clik pe nodul VremeaRS obinem setul de reguli:

    Dacalegem comanda din aceastfereastrse poate genera Rule Trace Node.

  • 8/13/2019 Cap 5 Arbori de Decizie

    20/27

    Capitolul 568

    Exemplu News Service Sales (C&RT) 5. Acest exemplu aplic C&RT n domeniulmarketingului i se refer la preferina consumatorilor pentru un nou serviciu de televiziuneprin cablu. Variabilele predictor sunt : vrsta, genul, ani de studii, categoria de venit, num rulorelor de vizionare la TV pe zi, numrul de copii. Variabila dependent (target) esteNewschan (apeleazsau nu la acest serviciu de televiziune). Acest exemplu folosete fiierulClementine mou_newschan.strcare ncarcdatele dintr-un fiier SPSSNou_NewsChan.sav.

    Crearea arborelui

    Se plaseazpe suprafaa de lucru un nod de tip sursa datelor prin care se va ncrcafiierul SPSSNou_NewsChan.sav

    Se conecteaz un nod Type care se activeaz i se selecteaz Read Values. Seselecteaz variabila NEWSCHAN i se declar Flag i direcia Out (fiind variabiladependent). Toate celelalte variabile vor fi cu direciaIn adicvariabile predictoare (factori deinfluen).

    5Clementine 10.0 Users Guide

  • 8/13/2019 Cap 5 Arbori de Decizie

    21/27

    Arbori de decizie 69

    Type node se conecteazcu un nod C&RTdin seciunea Modeling, se selecteazInteractive Tree din fereastraModel

    Cu butonulExpert se deschide fereastra n care se selecteazModeExpert, Prunetree i Use standard error rule. Se stabilete valoarea 0,003 pentru Minimumchange in impurity.

    Clic pe butonulStopping i se trec valorile din figura alturat

  • 8/13/2019 Cap 5 Arbori de Decizie

    22/27

    Capitolul 570

    clic pe

    se executGrow Tree and PruneExaminarea arborelui

    Se observ c s-au obinut ase nivele i ase noduri terminale. Dac selectm un nod ne-terminal i tragem de linia de jos a ferestrei putem vizualiza grila cu regulile acelui nod. nfigura de mai jos s-a selectat nodul rdcin.

  • 8/13/2019 Cap 5 Arbori de Decizie

    23/27

    Arbori de decizie 71

    Cu butonul Gainsi Target categoryegal 1, obinem urmtoarele informaii:

    Nodul 2 (67,9%) i 27(72%) au cea mai mare valoare pentru Index(%). Nodul al crui indexeste mai mare dect 100% indic faptul c exist o mai mare ans ca s se gseascrespondeni ce accept oferta serviciului TV prin selectarea nregistrrilor corespunztoareacestui nod dect dacam selecta aleator nregistrrile din ntregul eantion.

    Pentru a vedea graficul cu opiunea Liftse alege butonul Quantilesi din aceastcategorie Decile (se execut nti cu opiunea Gains i apoi cu Lift). Acest graficafieazvalorile din coloana Index(%) i aratcse pot selecta n top pna la maxim50% din nregistrri nainte ca rata de rspuns sscadsemnificativ.

  • 8/13/2019 Cap 5 Arbori de Decizie

    24/27

    Capitolul 572

    Generarea modelului i a nodului cu scoruri

    generarea modelului

    se genereazmodelul pe suprafaa de lucru i se conecteazla nodul Type

  • 8/13/2019 Cap 5 Arbori de Decizie

    25/27

    Arbori de decizie 73

    se executclic pe nodul NEWSCHAN1 iar cu butonul Settings se bifeazCalculateconfidencesi Rule identifier. Se ataeazun nodTable prin care se pot vizualiza

    nregistrrile posibile cu rspunsDa (acceptnoul serviciu de tv).

    Coloana $R-NEWSCHANafieazvalorile previzionate. Dacnregistrarea conine valoarea1, acea persoaneste un potenial respondent Dala aceastofert.

  • 8/13/2019 Cap 5 Arbori de Decizie

    26/27

    Capitolul 574

    Dacse dorete salvarea modelului pentru a fi aplicat altui set de date se executclic-dreaptape nodulNEWSCHAN1 i se selecteaz Add to Models Palette. Cu clic pe modelul dinModels palettese executSave Model.

    Generarea unui nod de selecie - Generating a Select Node

    Se poate genera un nod care s selecteze nregistrrile din nodul 2 i 27 i care s coninpersoanele probabile srspundDala aceastofert. Se selecteaznodul 2 i cu Shift nodul27, se alege Generate , Select Node.

  • 8/13/2019 Cap 5 Arbori de Decizie

    27/27

    Arbori de decizie 75

    n viitor se poate aplica acest nod de selecie altui set de date.Dac modelul a fost salvat ntr-un director, poate fi lansat n execuie prin dublu-clic pepictograma modelului. Se deschide produsul Clementine iar n fereastra din dreapta, laseciunea Models apare modelul care poate fi adus pe suprafaa de lucru i activat.


Recommended