+ All Categories
Home > Documents > 03. Metode de Invatare Nesupervizata

03. Metode de Invatare Nesupervizata

Date post: 04-Oct-2015
Category:
Upload: carol-popescu
View: 24 times
Download: 0 times
Share this document with a friend
Description:
Analiza datelor

of 31

Transcript
  • Capitolul 3. Metode de nvare nesupervizat

    n cele ce urmeaz vom prezenta pe scurt cteva dintre tehnicile de nvare nesupervizat. Reamintim c aceste tehnici au ca scop construirea unui model al datelor iniiale n care toate variabilele fiind tratate ca inputuri, nefiind precizate nici un fel de variabile de tip output.

    3.1 Analiza componentelor principale

    Aa cum am mai menionat, datele multivariate sunt greu de vizualizat. Din acest motiv ar fi necesar reducerea dimensiunilor matricei lor. De cele mai multe ori este dorit reducerea numrului de coloane. Tehnica numit Analiza componentelor principale (Principal Component Analysis PCA) are ca scop reducerea controlat a numrului de variabile (coloane) ale matricei de date, pe ct posibil la dou sau trei. Astfel, n loc de p variabile corelate ntre ele am dori s avem doar dou sau trei variabile noi, numite componente. Acestea exprim atribute noi ale indivizilor i sunt construite n aa fel nct s fie necorelate ntre ele, fiecare dintre aceste noi variabile fiind o combinaie liniar de variabilele originale.

    Scopul PCA este acela de a extrage cel mai mic numr de componente care s recupereze ct mai mult din informaia total coninut n datele originale.

    3.1.1 Reprezentri geometrice ale datelor. Cantitatea de informaie din norul de puncte

    S prezentm mai nti cazul n care folosim matricea de date ce conine informaii asupra celor p variabile urmrite pe cei n

    indivizi (cazuri). n aceast abordare nu facem nici o ipotez legat de repartiiile valorilor celor p variabile, doar aplicm standardizarea datelor. Soluia obinut pentru reducerea dimensiunilor matricei datelor se bazeaz pe considerente strict geometrice i algebrice.

    )( pnX

    Fie matricea ce reprezint n indivizi asupra crora s-au msurat p variabile. Matricea X o putem privi fie linie cu linie exprimnd informaii despre cei n indivizi, fie coloan cu coloan exprimnd informaii despre cele p variabile.

    )( pnX

  • Prin urmare:

    (1) oricrui individ i i corespunde n matricea X o linie, adic un vector cu p elemente, care va fi scris: ; pipiii xxxL R= ),...,,( 21

    (2) oricrei variabile j i corespunde n matricea X o coloan cu n elemente, care va fi notat: . nnjjjj xxxC R= T21 ),...,,(

    Dac matricea este privit pe linii, atunci avem n linii ce pot fi reprezentate n spaiul Rp al variabilelor. Se obine, n spaiul variabilelor, un nor de n puncte de coordonate , cte un punct pentru fiecare individ i.

    ),...,,( 21 ipii xxx

    Dac matricea este privit pe coloane, atunci avem p coloane ce pot fi reprezentate n spaiul Rn al indivizilor. Se obine, n spaiul indivizilor, un nor de p puncte de coordonate , cte un punct pentru fiecare variabil j.

    ),...,,( 21 njjj xxx

    Atunci cnd n sau/i p sunt mari (mult mai mari dect 2 sau 3), nu mai putem s interpretm grafic norul de puncte. Ideea ar fi s dezvoltm nite tehnici care s ne permit, fr a pierde prea mult informaie coninut n norul de puncte, s aproximm att spaiul coloanelor ct i spaiul liniilor prin nite subspaii de dimensiuni mai mici. Vom prezenta n cele ce urmeaz o asemenea tehnic.

    S notm cu vectorului mediilor celor p variabile. Punctul de coordonate din Rp este numit centrul de greutate al norului de puncte. Informaia cu care particip un individ oarecare k n norul de puncte poate fi exprimat prin distana (euclidian) de la punctul ce-l reprezint de coordonate pn la centrul de greutate, adic:

    ),...,,( 21 pmmmm =),...,,( 21 pmmm

    kI

    ),...,,( 21 kpkk xxx

    2

    1

    )( jp

    jkjk mxI =

    =. (1)

    n acelai timp, putem s scriem informaia total I a norului de puncte ca fiind suma informaiilor cu care particip toate punctele (indivizii), adic:

    = ==

    ==n

    k

    p

    jjkj

    n

    kk mxII

    1 1

    2

    1

    )( . (2)

  • Observaie: Este important, atunci cnd analizm norul de puncte, s identificm punctele ce particip cu informaia cea mai mare!

    Exemplu: S presupunem c avem trei indivizi i dou variabile msurate asupra lor. Coordonatele acestor indivizi, n planul variabilelor sunt urmtoarele: 5) ,5( 0), ,1( ),0 ,0( 321 === xxx . Centrul de greutate al norului de puncte descris de cei trei indivizi este dat de punctul de coordonate . )6666.1 ,2( 21 == mm

    Folosind formulele de mai sus, obinem informaiile corespunztoare indivizilor: I1 = 6.75, I2 = 3.75 i I3 = 20.15 i informaia total oferit de norul de puncte I = 30.65. Se observ faptul c punctul al treilea deine informaia cea mai mare n cadrul norului de puncte analizat.

    A ajusta norul de puncte nseamn a exprima datele din matrice prin mai puine coloane, pierznd ct mai puin posibil din informaia de ansamblu oferit de norul de puncte.

    a) Subspaiu cu o dimensiune Considerm datele exprimate prin norul de puncte din spaiul

    variabilelor Rp. Acest nor are un centru, anume centrul de greutate. Presupunem c eventual n urma unei operaiuni de centrare originea spaiului este exact acest centru. Fie, n acest spaiu Rp, o dreapt ce trece prin origine i este determinat de versorul . Putem s alegem o infinitate de asemenea drepte; evident, fiecare dreapt astfel precizat este un subspaiu de dimensiune 1 al spaiului variabilelor.

    T21 ),...,,( puuuu =

    Exist oare o asemenea dreapt care s ajusteze optim norul de puncte? Pentru a rspunde la aceast ntrebare, s considerm un individ k ale crui coordonate (centrate) n spaiul variabilelor sunt . ),...,,( 21 kpkk xxx

    S proiectm acest individ pe dreapta de versor u. Proiecia sa se afl la distana ck de origine; numrul ck reprezint unica coordonat a individului k pe dreapta . Coordonata ck,, obinut prin proiecie ortogonal, este dat de formula:

    Figura 1. Proiecia pe o dreapt

    Pk(x1,x2,...)

    Pk(y1,y2,) ck

    0

    pkpkkk uxuxuxc +++= ...2211 . (Pentru edificare putem urmri i desenul din figura 1.)

  • Folosind definiia informaiei oferite de norul de puncte din spaiul Rp, putem s exprimm informaia total oferit de ctre proieciile punctelor din nor pe dreapta prin:

    ==

    ==n

    kk

    n

    kku cII

    1

    2

    1

    ' (3)

    Putem s formulm acum urmtoarea

    Problem: S se identifice, dintre dreptele , acea dreapt *, adic acel versor , care s maximizeze expresia (3) cu alte cuvinte, s recupereze maxim posibil din informaia norului de puncte.

    T**2

    *1

    * ),..,,.( puuuu =

    Ca problem de programare matematic (3) se rescrie astfel:

    .1...

    )...(max

    222

    21

    1

    211

    =+++

    ++==

    p

    n

    kpkpku

    uuu

    uxuxIu (4)

    Versorul , soluie a problemei (4), pentru care se obine maximul expresiei informaiei totale, va fi notat

    . El poart numele de prima ax factorial.

    T**2

    *1

    * ),..,,.( puuuu =

    T112

    11

    1 ),...,,( pffff =Se observ c numerele ce determin proieciilor celor n puncte

    (indivizi) pe aceast prim ax factorial se obin prin nmulirea matriceal . S notm cu C1 acest vector. El se numete prima component factorial sau prima variabil factorial. Prin urmare, n loc s analizm p variabile asupra celor n indivizi, putem analiza doar o singur variabil nou, dat de vectorul C1 obinut prin formula

    *kc

    nfX R 1

    11 fXC = (5) De menionat faptul c aceast component este o combinaie liniar

    de coloanele matricei X, iar coeficienii acestei combinaii sunt dai de elementele versorului axei factoriale. (Ct de bine va nlocui ea ansamblul variabilelor rmne ns de vzut!)

    Observaie: Din punct de vedere geometric, folosind criteriul celor mai mici ptrate, problema aflrii unui subspaiu de dimensiune 1 poate fi formulat astfel (vezi notaiile din figura 1).

  • S se gseasc acea dreapt * de versor pentru care se realizeaz minimul expresiei

    T**2

    *1

    * ),..,,.( puuuu =

    2 ' kk PP (6)

    Se observ imediat faptul c aflarea minimului expresiei (6) este echivalent cu aflarea maximului problemei (4).

    Soluia problemei de optim (4) este justificat de urmtoarea:

    Propoziia 1. Versorul soluie a problemei de optimizare (4) este un vector propriu asociat celei mai mari valori proprii, fie ea 1, a matricei . Cantitatea total de informaie recuperat de axa factorial asociat versorului este tocmai 1.

    T**2

    *1

    * ),..,,.( puuuu =

    XX T*u

    Demonstraie. Dac datele din matricea X sunt standardizate n raport cu mediile i abaterile standard ale variabilelor, atunci matricea

    este tocmai matricea coeficienilor de corelaie (vezi Anexa 3). S o notm cu R. Cum informaia total recuperat de dreapta de versor u este

    unde C este variabila factorial asociat axei factoriale u (adic

    ), aceast informaie o putem scrie: , iar problema de optim (4) devine:

    XX T

    CCIu = TuXC = uRuCCIu TT ==

    .1

    maxT

    T

    ==

    uu

    uRuIu (7)

    Pentru a rezolva problema de optimizare (7) vom face apel la lagrangeanul asociat ei. (Avem o singur restricie de tip egalitate, prin urmare vom avea un singur multiplicator Lagrange asociat ei fie acesta .) Lagrangeanul este:

    ).1( ),( TT uuuRuuL += Din condiia necesar de optim 0=

    uL rezult c vectorul u i

    multiplicatorul trebuie s fie soluii ale sistemului de ecuaii

    uuR = (8) adic multiplicatorul Lagrange este o valoare proprie a matricei R, iar (soluia optim a problemei) este un vector propriu asociat.

    *u

  • Acum putem s afirmm c, din punct de vedere practic, prima ax factorial este dat de vectorul propriu (de norm 1) asociat primei valori proprii a matricei R a corelaiilor.

    1f

    Se mai observ faptul c, dac nmulim ambii membri ai relaiei (8) cu uT, obinem:

    uuuRu = TT i, cum vectorul u verific condiia (este de norm 1), rezult c 1T =uu

    = uRuT (9) Din expresia (9) rezult c informaia total recuperat de prima ax

    factorial (dat de versorul , optimul problemei (7)) este tocmai (adic valoarea proprie maxim a matricei corelaiilor).

    1f *u

    Observaie. Cum matricea hessian (a derivatelor de ordinul doi) asociat este R, suntem asigurai c din condiia necesar de optim se va obine un punct de maxim pentru problema (7).

    b) Subspaiu de dou dimensiuni A ajusta norul de puncte Rp printr-un (sub)spaiu cu dou dimensiuni

    nseamn a gsi un plan n spaiul Rp. Se poate arta c un asemenea subspaiu care ajusteaz optim norul de puncte este un plan determinat de prima ax factorial obinut ca soluie a problemei

    de optim (4) i de un vector ortogonal pe aceasta, vector care satisface:

    T112

    11

    1 ),...,,( pffff =T

    21 ),...,,( puuuu =

    0)(

    1

    )...(max

    T1

    T1

    211

    ==

    ++==

    uf

    uu

    uxuxIn

    kpkpku

    (10)

    Soluia problemei (10), fie ea , va fi notat, prin

    analogie cu soluia problemei (4), cu i va fi numit a doua ax factorial. Aplicnd din nou propoziia 1 pentru problema (10), putem s concluzionm c este vectorul propriu al matricei R asociat

    T**2

    *1 ),..,,.(* puuuu =

    T222

    21

    2 ),...,,( pffff =

    2f

  • celei de-a doua valori proprii. Cum matricea R este simetric, este

    ortogonal pe .

    2f1f

    n ceea ce privete coordonatele celor n indivizi pe aceast nou ax, grupate n vectorul , vor fi obinute la fel ca i n cazul primei axe, adic printr-un produs matriceal:

    nC R2

    22 fXC = (11) Caracteristica sintetizat C2 astfel obinut se numete a doua

    component sau a doua variabil factorial. Ea este o a doua combinaie liniar a variabilelor iniiale.

    c) Subspaiu de q dimensiuni (q < p) n cazul q-dimensional (cu q < p), a ajusta optim norul de puncte

    din Rp nseamn a maximiza expresia (3), de aceast dat prin puncte proiectate pe un subspaiu (din Rp) de dimensiune q. Prin generalizarea cazului bidimensional, ar trebui s identificm, iterativ, axele factoriale

    mutual ortogonale perpendiculare dou cte dou ca soluii ale problemei (4). Folosind din nou propoziia 1, axele factoriale cutate vor fi vectori proprii asociai valorilor proprii ale matricei R a corelaiilor. Dac

    qfff ..., , , 21

    q ...21 sunt primele q valori proprii, atunci axele factoriale sunt vectorii proprii corespunztori. qfff ..., , , 21

    d) Aspecte practice privind ajustarea norului de puncte n spaiul p-dimensional al variabilelor

    Pentru a realiza scopul propus n PCA se calculeaz mai nti matricea R a corelaiilor variabilelor (care este o matrice de dimensiune p p) i apoi valorile proprii i vectorii proprii ai acesteia. Componentele principale sunt extrase n ordinea descresctoare a importanei lor, aa nct prima component extras recupereaz cea mai mare parte a cantitii de informaie din datele iniiale. Procesul de extragere a componentelor principale este unul iterativ. Dac s-a reuit extragerea unui numr de q componente, iar acestea acoper 80-90% din informaia total a datelor iniiale, ne putem declara mulumii de rezultatul obinut. n continuare, analistul problemei va ncerca s interpreteze componentele obinute n termenii variabilelor iniiale, pentru a oferi mai mult nelegere rezultatelor obinute.

    Putem s prezentm acum un algoritm pentru obinerea primelor q axe factoriale i a cantitii totale de informaie recuperat de ele.

  • Paii algoritmului sunt urmtorii:

    Pasul 1. Se standardizeaz datele din matricea de date, folosind mediile i abaterile medii ptratice ale variabilelor.

    Pasul 2. Se calculeaz, din datele standardizate, matricea corelaiilor, fie ea R.

    Pasul 3. Se identific primele q valori proprii ale matricei R a corelaiilor (n ordine descresctoare). Fie ele q ...21 .

    Pasul 4. Prima ax factorial este dat de vectorul propriu de norm 1

    asociat valorii proprii

    1f

    1 . A doua ax factorial este dat de vectorul propriu de norm 1 asociat valorii proprii , .a.m.d.

    Formm matricea a vectorilor proprii.

    2f

    2),...,,( 21 qfffF =

    Pasul 5. Matricea a componentelor principale variabilelor factoriale se obine din matricea vectorilor proprii F ai matricei R i din matricea X, adic

    ),...,,( 21 qCCCC =

    FXC = (12) Pasul 6. Dup parcurgerea pasului 5 pentru toate cele q (< p) axe factoriale,

    cantitatea total de informaie din norul de puncte recuperat de subspaiul factorial descris de axele este qfff ..., , , 21

    q+++ ..21 . Un mod practic de apreciere a calitii ajustrii norului de puncte

    prin acest subspaiu este calculul raportului

    100....

    21

    21 ++++++=

    p

    qq . (13)

    Cum , acest raport exprim, procentual, cantitatea de informaie recuperat. Evident, cu ct

    1000 qq este mai apropiat de valoarea

    maxim 100, cu att norul de puncte este ajustat mai bine prin subspaiul de dimensiune q.

    3.1.2 Combinaii liniare standardizate Soluia geometric a problemei aflrii componentelor principale

    prezentat n 3.1.1 este uor de aplicat, ea nu presupune ipoteze

  • suplimentare asupra variabilelor urmrite. Are la baz matricea observaiilor iar tehnicile folosite sunt doar de natur algebric si geometric. ns putem aborda problema reducerii numrului de variabile prin componente principale i n alt mod.

    S presupunem c avem identificate cele p variabilele ce descriu un fenomen. Evident, n dorina noastr de a reduce numrul acestora am putea s considerm, pe rnd, doar cte o variabil important. Dei, reducnd astfel drastic problema, am grei cu siguran, netiind pe care s-o alegem. Am putea ns s acordm ponderi egale celor p variabile i s considerm

    ca nou variabil media aritmetic a celor p variabile, adic =

    p

    jjxp

    1

    1 ,

    ponderile folosite fiind

    ppp1.,..,1,1 . Am grei ns din nou acordnd

    aceleai ponderi tuturor variabilelor, nediscriminndu-le n nici un fel. Soluia cea mai rezonabil ar fi s considerm o combinaie liniar a

    variabilelor cu ponderile necunoscute, anume , unde ==

    p

    jjj xx

    1

    T

    ),...,,( 21 p= sunt ponderi normate (cu proprietatea ,

    combinaia fiind standardizat). Noua variabil generic este cea care ne intereseaz; ea este o component sau o nou variabil dac vom identifica unic ponderile

    11

    2 ==

    p

    jj

    xT),...,,( 21 p .

    S presupunem c cele p variabile urmrite sunt aleatoare, grupate n vectorul . Fie ),...,,( 21 pxxxx = vectorul medie (avem ) i matricea de covarian (avem

    =)(xE =)(xVar ). Mai tim c matricea de

    covarian se scrie n descompunere Jordan T= (cu matricea diagonal a valorilor proprii iar

    o matrice ortogonal format cu vectori

    proprii ai matricei ). Acum, la rndul ei, noua variabil este i ea o variabil aleatoare avnd media i variana . Precizarea unui criteriu de optim n aflarea ponderilor

    xTT = TT )( xVar

    ),...,,( 21 p este acum foarte clar: vom alege acea combinaie liniar standardizat care are cea mai mare varian. Deci, ponderile alese ),...,,( 21 p vor fi acelea care rezolv urmtoarea problem de optimizare.

  • .1

    )( )( maxT

    TT

    == xVarxVar (14)

    Problema (14) este analoag cu problema de optimizare (7), n locul matricei R a corelaiilor avem matricea a covarianei. Ponderile optime

    , de norm 1, sunt vectorii proprii asociai pe rnd valorilor proprii ale matricei . Fie valoarea proprie maxim

    * 1 , creia i corespunde vectorul

    propriu 1 de norm 1. Avem i deci noua variabil va fi cu media . Dac dorim ca noua variabil s aib media zero, atunci, printr-o transformare de variabil obinem

    1* = xT1

    T1

    )(T1 = xy (15) unde am notat cu y componenta principal asociat ponderilor . Repetnd procedeul, lund pe rnd valorile proprii ale matricei i folosind notaiile din descompunerea Jordan a matricei

    1* =

    putem scrie: )(T = xY (16)

    unde am notat cu Y matricea noilor variabile principale.

    Exemplul 1. S analizm datele din tabelul 1 al Anexei 1. Dealerul tie c unii cumprtori se ghideaz, n achiziionarea unui autoturism nou, doar dup preul acestuia. Lista de mai jos, obinut printr-o simpl ordonare dup pre, le va fi de folos. Pre Pre SEATMarbella GL 10970 DaihatsuCharadeTS 14625 Austin Metro Special 12000 SuzukiSwiftGL 14655 SuzukiSwiftGA 12115 Peugeot205GL 15780 Nissan Micra 1.0 DX 12400 ToyotaStarlettXL 16850 Renault4TL 12981 Renault5GTS 17250 FordFiestaJunior 13050 FiatUno70SL 17845 Opel Corsa Swing 13050 Volkswagen Polo 18045 Peugeot205XE 13260 Peugeot205GT 18965 CitroenAX 10RE 13275 SEATIbizaGLX 19283 FiatUno45Fire 13475 FordFiestaXR-2 21743 Renault4GTL 13806 FiatUnoTurboTE 25005 ToyotaStarlettL 14000 Peugeot205GTI 25175 Renault5SL 14156 Renault5GTTurbo 25319

  • Ali cumprtori se ghideaz, n achiziionarea unui autoturism nou, doar dup viteza maxim. i pentru acetia se poate obine o list analoag.

    Exist ns cumprtori care ar dori s se orienteze dup ambele variabile, Preul de achiziie dar i Viteza maxim. Acestora le va fi de folos graficul urmtor.

    S-ar putea obine oare o ordonare a tipurilor de autoturisme, innd seam de ambele variabile? Oare cum am putea nlocui aceste dou variabile prin una singur?

    Pentru nceput, s centrm datele n raport cu mediile celor dou variabile (16118 $, resp. 155 km/h): (date centrate) Pre Vit. max. Pre Vit. max. Austin Metro Special -4118 -14.8 Peugeot205GTI 9057 35.2 CitroenAX 10RE -2843 -9.8 Renault4TL -3137 -39.8 DaihatsuCharadeTS -1493 -9.8 Renault4GTL -2312 -34.8 FiatUno45Fire -2643 -9.8 Renault5SL -1962 -11.8 FiatUnoTurboTE 8887 45.2 Renault5GTS 1132 12.2 FiatUno70SL 1727 10.2 Renault5GTTurbo 9201 45.2 FordFiestaJunior -3068 -17.8 SEATIbizaGLX 3165 20.2 FordFiestaXR-2 5625 25.2 SEATMarbella GL -5148 -23.8 Nissan Micra 1.0 DX -3718 -14.8 SuzukiSwiftGA -4003 -9.8 Opel Corsa Swing -3068 -11.8 SuzukiSwiftGL -1463 8.2 Peugeot205XE -2858 -20.8 ToyotaStarlettL -2118 -4.8 Peugeot205GL -338 -12.8 ToyotaStarlettXL 732 15.2 Peugeot205GT 2847 15.2 Volkswagen Polo 1927 15.2

    100

    120

    140

    160

    180

    200

    220

    10000 12000 14000 16000 18000 20000 22000 24000 26000 28000

    P re t ( $ )

    Renault4TL

    RenauIt4GTL

    SEATMar bella GL

    Peugeot205GTI

    FiatUnoTur boTERenault5GTTur bo

    For dFies taXR-2SEATIbizaGLX

    Peugeot205GTVolkswagen Polo

    FiatUno70SLRenault5GTS

    ToyotaStar lettXL

    Peugeot205GL

    SuzukiSwif tGL

    DaihatsuChar adeTS

    Renault5SL

    ToyotaStar lettL

    Peugeot205XE

    SuzukiSwif tGA

    Austin Metr o Special

  • S acceptm ideea c, n viziunea cumprtorului, se acord o importan dubl variabilei Viteza maxim n raport cu Preul de achiziie, astfel c ponderile sunt )3/2,3/1( =p . Norma vectorului ponderilor fiind

    3/5 , versorul asociat este )5/2,5/1( =u . Proiectm acum punctele ce reprezint tipurile de maini pe dreapta avnd acest versor i care trece prin origine (centrul de greutate!). Coordonatele calculate pentru aceast dreapt sunt prezentate n urmtorul tabel:

    Austin Metro Special -1855.04 Peugeot205GTI 4081.72 CitroenAX 10RE -1280.37 Renault4TL -1438.69 DaihatsuCharadeTS -676.63 Renault4GTL -1065.26 FiatUno45Fire -1190.93 Renault5SL -888.17 FiatUnoTurboTE 4014.64 Renault5GTS 516.98 FiatUno70SL 781.28 Renault5GTTurbo 4155.06 FordFiestaJunior -1388.15 SEATIbizaGLX 1433.32 FordFiestaXR-2 2537.94 SEATMarbella GL -2323.72 Nissan Micra 1.0 DX -1676.16 SuzukiSwiftGA -1799.14 Opel Corsa Swing -1382.78 SuzukiSwiftGL -647.12 Peugeot205XE -1296.92 ToyotaStarlettL -951.67 Peugeot205GL -162.79 ToyotaStarlettXL 340.78 Peugeot205GT 1286.63 Volkswagen Polo 875.20

    Cantitatea de informaie recuperat din norul de puncte este de doar 91106 din totalul de 447106, adic aproximativ 20%! Se pierde prea mult informaie pentru ca s putem accepta ordonarea tipurilor de autoturisme folosind aceste ponderi.

    Observm i c datele din acest ultim tabel sunt mai apropiate, ca ordin de mrime, de datele din coloana Pre dect de datele din coloana Viteza maxim. Motivul este evident discrepana ntre numerele ce reprezint Preul i cele ce reprezint Viteza maxim. Dei nlocuirea celor dou variabile (Preul i Viteza maxim) prin una singur, aa cum a fost efectuat mai sus, pare natural, nici din acest motiv ea nu este indicat. Se impune aducerea celor dou seturi de date la uniti de msur comparabile, iar acest lucru poate fi fcut prin standardizare.

    S relum exemplul folosind acum datele standardizate: (date standardizate) Pre Vit. max. Pre Vit. max. Austin Metro Special -0.9736 -0.6549 Peugeot205GTI 2.1411 1.5565 CitroenAX 10RE -0.6722 -0.4338 Renault4TL -0.7417 -1.7606 DaihatsuCharadeTS -0.3530 -0.4338 Renault4GTL -0.5467 -1.5395

  • FiatUno45Fire -0.6249 -0.4338 Renault5SL -0.4639 -0.5222 FiatUnoTurboTE 2.1009 1.9988 Renault5GTS 0.2675 0.5392 FiatUno70SL 0.4082 0.4508 Renault5GTTurbo 2.1751 1.9988 FordFiestaJunior -0.7254 -0.7876 SEATIbizaGLX 0.7481 0.8931 FordFiestaXR-2 1.3297 1.1142 SEATMarbella GL -1.2171 -1.0530 Nissan Micra 1.0 DX -0.8791 -0.6549 SuzukiSwiftGA -0.9464 -0.4338 Opel Corsa Swing -0.7254 -0.5222 SuzukiSwiftGL -0.3460 0.3623 Peugeot205XE -0.6757 -0.9203 ToyotaStarlettL -0.5008 -0.2126 Peugeot205GL -0.0800 -0.5665 ToyotaStarlettXL 0.1730 0.6719 Peugeot205GT 0.6730 0.6719 Volkswagen Polo 0.4555 0.6719

    n ideea c ponderile variabilelor, n viziunea cumprtorului, sunt , coordonatele calculate pentru caracteristica sintetic sunt

    prezentate n urmtorul tabel: )3/2,3/1( =p

    Austin Metro Special -1.0212 Peugeot205GTI 2.3496 CitroenAX 10RE -0.6886 Renault4TL -1.9064 DaihatsuCharadeTS -0.5459 Renault4GTL -1.6214 FiatUno45Fire -0.6675 Renault5SL -0.6745 FiatUnoTurboTE 2.7273 Renault5GTS 0.6019 FiatUno70SL 0.5857 Renault5GTTurbo 2.7605 FordFiestaJunior -1.0289 SEATIbizaGLX 1.1333 FordFiestaXR-2 1.5913 SEATMarbella GL -1.4861 Nissan Micra 1.0 DX -0.9789 SuzukiSwiftGA -0.8112 Opel Corsa Swing -0.7915 SuzukiSwiftGL 0.1693 Peugeot205XE -1.1253 ToyotaStarlettL -0.4141 Peugeot205GL -0.5424 ToyotaStarlettXL 0.6783 Peugeot205GT 0.9020 Volkswagen Polo 0.8046

    Cantitatea de informaie recuperat este de 43.2 din totalul de 50, adic 86.4%, ceea ce ar prea mulumitor.

    (S observm c procentul informaiei recuperate depinde n mod esenial de unitile de msur folosite!)

    n viziunea unui alt cumprtor ambele variabile ar putea avea aceeai importan (adic )2

    1 ,21(=p ). n aceast situaie coordonatele

    calculate pentru caracteristica sintetic sunt prezentate n urmtorul tabel.

  • Austin Metro Special -1.1516 Peugeot205GTI 2.6146 CitroenAX 10RE -0.7820 Renault4TL -1.7694 DaihatsuCharadeTS -0.5564 Renault4GTL -1.4751 FiatUno45Fire -0.7486 Renault5SL -0.6973 FiatUnoTurboTE 2.8989 Renault5GTS 0.5705 FiatUno70SL 0.6074 Renault5GTTurbo 2.9514 FordFiestaJunior -1.0699 SEATIbizaGLX 1.1605 FordFiestaXR-2 1.7281 SEATMarbella GL -1.6052 Nissan Micra 1.0 DX -1.0847 SuzukiSwiftGA -0.9760 Opel Corsa Swing -0.8822 SuzukiSwiftGL 0.0116 Peugeot205XE -1.1286 ToyotaStarlettL -0.5045 Peugeot205GL -0.4571 ToyotaStarlettXL 0.5974 Peugeot205GT 0.9510 Volkswagen Polo 0.7972

    Cantitatea total de informaie recuperat din norul de puncte este acum de 47.84 din totalul de 50, adic 95.7%. Aceste date ar putea servi dealerului, cu destul de mult certitudine, pentru ordonarea tipurilor de autoturisme n caz c ntlnete un cumprtor cu aceste preferine (importan egal acordat preului i vitezei maxime). Ordonarea ar fi urmtoarea: (valori) Renault4TL -1.9065 Peugeot205GL -0.5424 Renault4GTL -1.6214 ToyotaStarlettL -0.4142 SEATMarbella GL -1.4861 SuzukiSwiftGL 0.1694 Peugeot205XE -1.1253 FiatUno70SL 0.5857 FordFiestaJunior -1.0289 Renault5GTS 0.6020 Austin Metro Special -1.0212 ToyotaStarlettXL 0.6783 Nissan Micra 1.0 DX -0.9789 Volkswagen Polo 0.8047 SuzukiSwiftGA -0.8112 Peugeot205GT 0.9020 Opel Corsa Swing -0.7915 SEATIbizaGLX 1.1334 CitroenAX 10RE -0.6886 FordFiestaXR-2 1.5913 Renault5SL -0.6746 Peugeot205GTI 2.3497 FiatUno45Fire -0.6675 FiatUnoTurboTE 2.7273 DaihatsuCharadeTS -0.5459 Renault5GTTurbo 2.7605 sau, dup ranguri.

  • (ranguri) Pre P, Vm Pre P, Vm Austin Metro Special 2 6 Peugeot205GTI 25 24 CitroenAX 10RE 9 10 Renault4TL 5 1 DaihatsuCharadeTS 14 13 RenauIt4GTL 11 2 FiatUno45Fire 10 12 Renault5SL 13 11 FiatUnoTurboTE 24 25 Renault5GTS 18 18 FiatUno70SL 19 17 Renault5GTTurbo 26 26 FordFiestaJunior 6 5 SEATIbizaGLX 22 22 FordFiestaXR-2 23 23 SEATMarbella GL 1 3 Nissan Micra 1.0 DX 4 7 SuzukiSwiftGA 3 8 Opel Corsa Swing 7 9 SuzukiSwiftGL 15 16 Peugeot205XE 8 4 ToyotaStarlettL 12 15 Peugeot205GL 16 14 ToyotaStarlettXL 17 19 Peugeot205GT 21 21 Volkswagen Polo 20 20

    Termeni folosii n PCA Vom enumera civa dintre termenii folosii n etapele unei analize a

    componentelor principale. (Vom indica i denumirile uzuale, pentru a uura folosirea i nelegerea softului de specialitate.) o Valori proprii i vectori proprii (eigenvalues, eigenvectors). Sunt

    asociai matricei corelaiilor variabilelor iniiale. O valoare proprie mai mare dect 1, pentru o component, indic faptul c acea component are o contribuie mai mare dect a unei variabile iniiale, deci este indicat a fi extras. Vectorii proprii, asociai valorilor proprii, vor constitui ponderile n calculul combinaiilor liniare respective.

    o Scorurile componentelor principale (PC scores). Sunt coordonatele indivizilor n noile axe, date de vectorii proprii selectai. Media unei coloane de scoruri este 0.

    o Graficul descreterii (scree plot). Ofer informaii privind valorile proprii, dar i ratele lor de descretere.

    o Regula Kaiser-Guttman. Este folosit n stabilirea numrului de componente principale: avem attea componente cte valori proprii sunt mai mari dect 1. (Totui, numrul final de componente va fi stabilit n funcie de interpretarea concret pe care acestea o primesc.)

    o Coeficienii de ncrcare (PC loadings). Sunt exact coeficienii de corelaie dintre variabilele originale i scoruri. Acetia exprim importana fiecrei variabile originale n explicarea fiecrei noi componente.

  • 3.2 Analiza factorilor

    Analiza factorilor este o tehnic statistic multivariat care are ca scop extragerea unui numr mic de factori ascuni (lateni) responsabili de corelaiile dintre variabilelor originale. Dac aceste corelaii sunt semnificative, se poate presupune c ar fi cauzate de existena unuia sau mai multor factori ascuni comuni tuturor variabilelor. Analiza factorilor ne permite s confirmm statistic un rezultat privind modul de grupare al variabilelor originale. Variabilele care se grupeaz mpreun i, ca atare, pot fi privite ca formnd un grup omogen, vor fi considerate asociate unui acelai factor. Vom prezenta cteva tehnici care pun n eviden factorii comuni i ali factori responsabili de valorile observate asupra variabilelor studiate.

    3.2.1 Modelul factorilor ortogonali Aa cum am mai afirmat, scopul analizei factorilor este acela de a

    explica valorile celor p variabile printr-un numr mai mic de variabile, aa numiii factori. Acetia sunt interpretai ca fiind caracteristici comune, latente, ale variabilelor observate. Ideal, orice observaie x identificat prin valorile ar putea fi caracterizat de un numr mai mic de

    valori, anume de valorile factorilor cu

    ppxxx R),...,,( 21

    kkfff R),...,,( 21 pk < , unde

    jkjkjjj qfqfqfx ++++= ...2211 , pj ,...,2,1= (17) Se poate arta c relaia (17) o putem explicita prin intermediul

    componentelor principale n cazul n care matricea de covarian are ultimele valori proprii negative, adic ea este o matrice singular. ntr-adevr, considernd vectorul aleatoriu de medie

    i matrice de covarian

    kp

    ppxxx R),...,,( 21

    ),...,,( 21 p= =)(xVar , expresia (17) o putem scrie

    +

    =

    pkpkpp

    k

    k

    p f

    ff

    qqq

    qqqqqq

    x

    xx

    .........

    ..................

    ...2

    1

    2

    1

    21

    22221

    11211

    2

    1

    (18)

    sau, matriceal

    += FQx (19)

  • folosind notaiile i )( ijqQ = )( ifF = , pentru pi ,...,2,1= i . Mai precizm faptul c factorii grupai n sunt presupui a fi de medie 0, necorelai ntre ei i avnd dispersiile egale cu 1 fiecare.

    kj ,...,2,1=F

    Folosim descompunerea spectral T= n care partiionm matricele corespunztor ultimelor kp valori proprii nule. Vom putea scrie:

    =

    2

    1121 00

    0) ( (20)

    Soluia oferit de componentele principale n cazul structurii (20) a matricei covarianelor este , de unde )(T = xY 2211 YYYx +== .

    Cum , putem scrie c

    =

    =

    000

    ,0~)( 12

    1

    2

    1 xYY

    Y TT

    +== 11YYx (21) Definind i avem o interpretare n termenii componentelor principale pentru matricea Q i vectorul F din (18).

    2/111=Q 12/11 YF =

    n situaiile concrete rareori matricea de covarian este singular. n general, un model de analiz a factorilor, generalizare a modelului (19) este urmtorul:

    ++= UFQx (22) unde sunt loadings (ne-aleatori) ai factorilor comuni iar sunt factori aleatori specifici. Presupunem c variabilele factor F formeaz un vector aleatoriu cu componente necorelate. n ceea ce privete grupul factorilor specifici acetia au mediile zero, sunt necorelai ntre ei i n acelai timp necorelai cu factorii comuni:

    )( kpQ )1( kF)1( pU

    .0),(

    0),(0)(

    )(0)(

    ==

    ==

    =

    UFCov

    UUCovUE

    IFVarFE

    ji

    k

    pentru ji (23)

  • Pentru o component a vectorului x putem scrie, folosind (22), c jx

    jjl

    k

    ljlj Ufqx ++=

    =1 (24)

    De aici obinem

    jj

    k

    ljlj qxVar +=

    =12)( (25)

    Numrul se numete comunalitate, iar numrul se

    numete variana specific, ambele fiind asociate variabilei .

    =

    k

    ljlq

    1

    2jj

    jx

    n general, covariana vectorului x este descompus, evideniindu-se matricea de comunalitate, astfel:

    += TQQ . (26)

    Comparaie ntre Analiza componentelor principale i Analiza factorilor Analiza componentelor principale caut combinaii liniare ntre

    variabile, ordonndu-le dup valorile proprii ale matricei covarianelor (corelaiilor). n analiza factorilor se modeleaz variaiile variabilelor x prin transformri liniare a unui numr fixat, limitat de factori numii ascuni lateni.

    Obiectivul analizei factorilor este de a gsi matricea Q de ncrcare i matricea varianei specifice .

    Factorii ascuni determin variabilele, n sensul c fiecare dintre variabile se poate scrie ca o combinaie liniar de factorii lateni, la care se adaug un reziduu. Coeficienii din combinaia liniar se estimeaz prin tehnici statistice clasice (de exemplu prin metoda celor mai mici ptrate), ipoteza fundamental fiind aceea de independen a reziduurilor.

    Termeni folosii n Analiza factorilor o Comunalitatea (communality) este acea parte din variana unei variabile

    iniiale, exprimat procentual, ce este datorat ansamblului factorilor

  • gsii. Restul varianei variabilei este numit unicitate (uniqueness). Evident, suma celor dou pri este 100%. Exist mai multe metode pentru a estima comunalitile variabilelor. Atunci cnd presupunem c toate comunalitile variabilelor sunt egale cu 100% adic atunci cnd toate variabilele iniiale sunt complet previzionate de ctre factori rezultatul analizei factorilor coincide de fapt cu cel al analizei componentelor principale. (Reamintim ns c PCA are scopul de a reduce dimensiunea i nu cel de a explica corelaiile variabilelor cu factorii principali.) n cazul general comunalitile sunt estimate pe baza unui model de regresie.

    o Coeficienii de ncrcare a factorilor (factor loadings) formeaz o matrice de dimensiune p k, fiecare element al ei exprimnd corelaia dintre o variabil iniial i un factor. (Avem p variabile i k factori lateni, iar k < p.)

    o Rotaia factorilor (factor rotation) este o transformare a spaiului variabilelor, prin care se rotesc simultan factorii n scopul de a se obine ct mai multe elemente 0 n matricea coeficienilor de ncrcare a factorilor. (Suma valorilor proprii nu este afectat n timpul acestei transformri, dar rotaia va afecta vectorii proprii.)

    o Scorurile standardizate (standardized scores) sunt valori-scor asociate fiecrui individ (fiecrei linii din matricea de date). Standardizarea este fcut n aa fel nct marea majoritate a acestor scoruri se plaseaz ntre 3 i +3, permind astfel ordonarea indivizilor.

    o Testul hi-ptrat folosete ipoteza nul (H0): nu exist factori comuni. Ipoteza se consider respins dac valoarea p este < 0.05.

    o Valorile proprii exprim partea din variana total care este asociat fiecrui factor.

  • 3.3 Analiza clasificrii. Algoritmi ierarhici de agregare

    Metodele de clasificare sau de analiz cluster au ca scop gruparea indivizilor, identificai printr-o serie de atribute variabile numerice ntr-un numr ct mai restrns de clase omogene. Ceea ce le caracterizeaz este faptul c realizeaz o analiz global a indivizilor ce sunt studiai printr-un numr mare de variabile, iar ipotezele cerute sunt minime. Mai precizm faptul c obiectul clasificrii nu-l reprezint numai indivizii (liniile matricei de date) ci poate fi i variabilele (coloanele matricei de date).

    Se dorete a se realiza clase (grupuri) n aa fel nct indivizii aparinnd unei aceleiai clase s fie ct mai asemntori ntre ei prin valorile variabilelor lor (adic s fie similari) n timp ce clasele constituite s fie ct mai diferite. Putem spune c efectuarea unei analize cluster presupune parcurgerea a dou etape:

    a) alegerea unei msuri de proximitate, mai precis, definirea unei msuri de apropiere dintre indivizi pe baza tuturor variabilelor observate;

    b) precizarea unor reguli de construire a claselor aa nct diferena ntre acestea s fie ct mai mare, n timp ce indivizii aflai n acelai grup s fie ct mai apropiai.

    n ceea ce privete aplicaiile analizei clasificrii, acestea sunt foarte numeroase, n diverse domenii economice cum ar fi: cercetarea de marketing, clasificarea unor companii dup rezultatele obinute i structurile lor organizatorice etc. Aplicaii interesante ale analizei clasificrii ntlnim n domeniul psihologiei, pentru identificarea tipurilor sau tipologiilor de indivizi n funcie de rspunsurile la chestionare, dar i n alte tiine cum ar fi medicina, biologia, arheologia, antropologia sau lingvistica.

    Analiza claselor disjuncte este o tehnic statistic de grupare a cazurilor (indivizilor) n clase sugerate de matricea de date. Distingem:

    1) Analiza claselor ierarhice (Hierarhical Cluster Analysis HCA) este o metod de grupare ierarhic n care fiecare clas este n totalitate coninut n alt clas. Nu este cerut nici o informaie a priori despre numrul claselor, iar odat ce un individ a fost asociat unei clase, el va rmne acolo. Nu este recomandat a fi utilizat pentru baze de date mari, cu muli indivizi.

    2) Analiza claselor disjuncte (Disjoint Cluster Analysis DCA) este o tehnic ne-ierarhic, ce recurge la o clasificare iterativ. Iniial toi indivizii se grupeaz arbitrar n clase. Urmeaz apoi o repartizare a fiecrui individ la o clas, n funcie de similaritatea

  • individului respectiv cu cei din clasa respectiv. Procedeul este iterativ i se termin atunci cnd nu mai constatm realocri ntre clase. Procedeul este mai eficient pentru baze de date mari, iar pentru rapiditate s-ar impune cunoaterea a priori a numrului de clase.

    3) Clasificarea pe baza mediei (k-mean clustering). Este o tehnic de clasificare n clase disjuncte, centrul fiecrei clasei fiind obinut dinamic ca medie a indivizilor din clasa respectiv. Tehnica k-mean are ca obiectiv, la fiecare iteraie, reducerea varianei indivizilor din interiorul fiecrei clase i maximizarea varianei dintre clase.

    3.3.1 Indicatori de proximitate ntre indivizi S presupunem c vrem s comparm trei ri notate simbolic A, B

    i C dup dou variabile, i anume procentul forei de munc din industrie i procentul forei de munc din agricultur (din totalul populaiei active). Putem s afirmm, fr s greim, c dou ri care au acelai procent de for de munc n industrie i acelai procent de for de munc n agricultur sunt perfect similare. Dar, ce se ntmpl dac valorile variabilelor sunt diferite? Cum putem s asociem diverselor situaii un indicator (o msur) a asemnrii? S considerm situaia din tabelul urmtor:

    ara % n industrie % n agricultur

    A 20 60

    B 30 30

    C 10 50

    Analiznd graficul corespunztor prezentat n figura 2 se observ c, poziia celor trei puncte A, B i C n plan ce au coordonate liniile din tabel reprezint cele trei ri avnd cele dou variabile. Lungimile segmentele AB, AC i BC exprim distanele euclidiene ntre punctele respective i se observ c acestea pot fi folosite ca msuri de comparare a rilor. Cu ct distana dintre puncte este mai mare cu att punctele sunt mai puin asemntoare. Deci, putem afirma faptul c distanele msoar mai degrab disimilaritatea ntre puncte. Cum distanele se afl n urmtoarea ordine:

    AB > BC > AC,

  • putem afirma c: ara A este similar cu ara C (distana dintre A i C fiind cea mai mic); ara B este disimilar cu ara A (distana de la A la B fiind cea mai mare). Putem trage concluzia c distana (euclidian) poate fi folosit ca indicator al disimilaritii.

    S revenim la exprimarea datelor n forma unei matrice )( pnX ce reprezint cei n indivizi asupra crora s-au msurat p variabile.

    Indicele (indicatorul) de proximitate este un numr ce exprim asemnarea (similaritatea) sau deosebirea (disimilaritatea) existent ntre doi indivizi, lund n considerare toate valorile observate asupra variabilelor lor. Astfel, putem s spunem c proximitatea ntre indivizi este msurat printr-o matrice )( nnD n care un element ijd exprim similaritatea (disimilaritatea) ntre individul i i individul j.

    Exist mai multe moduri de construire a matricei de proximitate, s exemplificm prin urmtoarele trei situaii:

    1) S presupunem c datele iniiale sunt exprimate printr-o matrice de forma indivizi variabile. Fie doi indivizi i i j i liniile corespunztoare lor n matricea de date. Mai precis, fie xi linia corespunztoare individului i i xj linia corespunztoare individului j. Pentru cei doi indivizi putem calcula distana dat de norma Lr.

    0

    10

    20

    30

    40

    50

    60

    0 10 20 30 40 50 60 70 80 90 100 110 120

    % in indus trie

    A

    B

    C

    Figura 2. Distane euclidiene

    AC2 = 102 +102=200

    AB2 = 102 + 302 = 1000

    BC2 = 202 + 202 = 800

  • rp

    k

    rjkikrjiij xxxxd

    /1

    1

    ||||||

    == =

    (27)

    S considerm n expresia (27) distana euclidian (obinut pentru r = 2). Aa cum am vzut n exemplul anterior, aceast distan poate fi folosit ca o msur de proximitate, ea msurnd disimilaritatea ntre indivizi. Mai precis, cu ct distana ntre indivizi este mai mare, cu att disimilaritatea ntre acetia este mai mare (sau similaritatea este mai mic). Se mai observ faptul c distana astfel calculat ne va conduce la o matrice de proximitate simetric, avnd 0 pe diagonala principal. De la caz la caz, se poate folosi una dintre distanele date de expresia (27), aa cum putem vedea i din exemplul urmtor.

    Exemplul 1. S presupunem c avem trei indivizi i dou variabile msurate asupra lor, i anume: 5) ,5( 0), ,1( ),0 ,0( 321 === xxx . n relaia (27) considerm r = 1 i calculm, de exemplu, distana dintre individul 1 i individul 3. Obinem 1055

    13=+=d (aceeai cu distana de la individul 3

    la individul 1). Pentru toi cei trei indivizi avem, utiliznd formula (27), matricea distanelor date de norma L1:

    =

    0910901

    1010)1(D .

    Dac vom calcula acum distanele euclidiene (pentru r = 2, date de norma L2), atunci ptratul distanei dintre individul 1 i individul 3 este

    5055 22213

    =+=d (aceeai ca i cea dintre individul 3 i individul 1). Pentru toi cei 3 indivizi avem urmtoarea matrice a distanelor:

    =

    0415041015010

    )2(D

    Putem remarca, de asemenea, c distanele pot fi nlocuite cu ptratele lor, ns similaritatea, respectiv disimilaritatea ntre indivizi se pstreaz.

  • Exemplul 2. S presupunem c vrem s comparm trei mrci de autoturisme dup dou variabile observate, i anume dup consumul de combustibil la 1000 de km i dup preul de achiziionare (n $). Datele sunt cele prezentate n tabelul urmtor:

    Autoturismul Consumul (litri/1000 km) Preul de achiziionare ($)

    1 45 30000 2 43 35000 3 47 34000

    Media 45 33000 Ab. standard 2 2645.75

    Distanele euclidiene calculate pentru cele trei autoturisme sunt prezentate n tabelul urmtor:

    Distanele euclidiene/datele originale Autoturismul

    1 2 3 1 0 5000 4000 2 5000 0 1000 3 4000 1000 0

    Ele se ordoneaz astfel: 231312 ddd >> indicnd faptul c cele mai similare sunt autoturismele 2 i 3 i cele mai disimilare sunt autoturismele 1 i 2. Se observ faptul c distanele au fost calculate din datele originale, n care pentru cele dou variabile s-au folosit uniti de msur foarte diferite ca ordin de msur (litri de combustibil la 1000 km i preul n $). Evident, distanele obinute sunt influenate de acest aspect. Pentru a elimina aceast influen suntem condui spre ideea standardizrii datele. n procesul de standardizare folosim mediile i abaterile standard. Prezentm n tabelul urmtor datele corespunztoare n form standardizat.

    Autoturismul Consumul litri/1000 km. (n abaterea standard) Preul de achiziie ($) (n abaterea standard)

    1 0 -1,134 2 -1 0,756 3 1 0,378

    Media 0 0 Abaterea standard 1 1

  • Distanele euclidiene calculate pe datele normate sunt prezentate n tabelul urmtor:

    Distanele euclidiene/datele standardizate Autoturismul 1 2 3

    1 0 2.137 1.812 2 2.137 0 2.035 3 1.812 2.035 0

    Acum distanele se ordoneaz astfel: 132312 ddd >> , i observm faptul c, autoturismule 1 i 3 devin cele mai similare, ns autoturismele 1 i 2 rmn cele mai disimilare.

    2) S presupunem c televiziunea i radioul publice au, n cursul unei zile, un fond total de timp rezervat pentru reclam. Conform contracte-lor realizate, acest fond de timp s-a mprit ntre 4 produse, notate simbolic A, B, C i D. Dac datele sunt cele din tabelul urmtor, ne-ar interesa s apreciem dac fondul de timp a fost repartizat similar pentru cele patru produse sau nu. Ce indicator ar trebui folosit pentru a exprima asemnarea sau neasemnarea ntre obiectele matricei de date n aceast situaie?

    Minute reclam Produsul TV Radio

    Total minute

    A 2 5 7 B 1 3 4 C 3 8 11 D 4 4 8

    Total minute 10 20 30 Se observ faptul c informaiile din matricea de date exprim

    numrul de apariii ale unui eveniment (aici timp reclam). n acest caz este indicat s asociem datelor iniiale o matrice de contingen.

    S revenim la notaiile generale, matricea cu n indivizi i p variabile )( pnX exprimnd acum numrul de apariii ale unui eveniment. Dac i1

    i i2 sunt dou linii ale unei asemenea matrice, o distan ntre ele se poate defini astfel:

    2

    121

    2

    2

    2

    1

    1),( =

    =

    p

    j i

    ji

    i

    jij x

    xxx

    biid (28)

    unde j

    j xxb= .

  • Se observ faptul c distana (28) este de fapt o distan euclidian

    ponderat ntre vectorii linie

    =1

    11

    i

    ji

    xx

    x i

    =2

    22

    i

    ji

    xx

    x . Elementele acestor

    noi linii reprezint frecvene condiionate. Prezena n formula (28) a coeficienilor jb , de fapt ponderi, ne conduce la concluzia c distanele sunt

    calculate folosind o matrice a ponderilor, i anume 1

    =

    xx

    diagA j .

    S revenim la exemplul repartizrii fondului de timp pentru reclam. Folosind formula (28) putem calcula distanele dintre produse. Mai nti vom transforma datele primare, construind o matrice de contingen folosind frecvenele marginale pe linii. Noile date, exprimnd pe linii profilul fiecrui individ (produs) sunt prezentate n tabelul urmtor.

    Frecvenele condiionate Produsul TV Radio

    A 2/7 5/7 B 1/4 3/4 C 3/11 8/11 D 4/8 4/8

    Ponderile 3 1.5

    Se observ imediat c un calcul elementar ne permite s obinem distana ntre produsul A i produsul B.

    Mai nti 0.0058)4/37/5()2/3()4/17/2(3),( 222 =+=BAd , apoi 076.0),( =BAd .

    Aici distana msoar similaritatea ntre cele dou produse n ceea ce privete fondul total de timp repartizat. Celelalte distane calculate n acelai mod sunt urmtoarele: 0.027),( =CAd i 0.048),( =CBd . Gruparea produselor este acum evident! Cum distana cea mai mic este ntre produsul A i produsul C, putem spune c acestea sunt cele mai similare n ceea ce privete fondul total de timp pentru reclam.

    Pentru aplicaiile n care dorim s grupm variabilele ntre ele putem folosi o msur de similaritate identic cu cea folosit n cazul gruprii indivizilor (liniilor matricei). Fie dou coloane j1 i j2 precizate; distana ntre ele se calculeaz cu formula:

    2

    121

    2

    2

    2

    1

    1),( =

    =

    p

    j j

    ji

    j

    jii x

    x

    x

    xbjjd (29)

  • unde =i

    i xx

    b .

    3) n afara distanelor date de normele Lr amintite, se mai poate folosi ca msur a proximitii i coeficientul de corelaie liniar. Folosind formulele cunoscute se construiete matricea coeficienilor de corelaie

    )( ppR asociat celor p variabile, iar analiza similaritii se poate face acum folosind elementele acestei matrice.

    3.3.2 Indicatori de proximitate ntre clase. Algoritmi de agregare Atunci cnd dorim s evalum proximitatea ntre clase (grupuri) de

    indivizi, putem recurge la mai multe proceduri. Iat trei dintre acestea:

    a) Metoda vecinilor celor mai apropiai. Prin aceasta, distana dintre dou clase este asimilat cu distana dintre elementele cele mai apropiate ntre ele (elemente aparinnd, evident, la grupuri diferite). Utilizarea acestei metode poate conduce la riscul apariiei de grupuri foarte eterogene, deoarece nu lum n calcul elementele extreme ale clasei.

    b) Metoda vecinilor celor mai deprtai. Prin aceasta, distana dintre dou clase este asimilat cu distana dintre elementele cele mai deprtate ntre ele. (Ca mai sus, elementele vor aparine la clase diferite.)

    c) Metoda agregrii prin medii. Aceasta const n evaluarea distanei ntre dou clase pornind de la centrele lor de greutate. Dei aceast metod este foarte logic, ea cere multe calcule suplimentare n comparaie cu primele dou. De aceea, de multe ori este mai indicat a se utiliza una dintre metodele anterioare.

    Q

    O2 PB

    D

    AC O1

    R

    Distana ntre vecinii apropiai

    Distana ntre vecinii deprtai

    Distana ntre centre

  • S explicm cele trei metode pe exemplul din figura anterioar. Aici avem deja constituite dou clase: prima format din elementele A, B, C, i D, iar a doua format din elementele P, Q i R. Am mai marcat n prima clas centrul de greutate O1 iar n clasa a doua centrul de greutate O2.

    a) Dup metoda vecinilor celor mai apropiai, distana dintre cele dou clase este dat de distana de la punctul C la punctul P.

    b) Dup metoda vecinilor celor mai deprtai, distana ntre clase este dat de distana dintre A i R.

    c) Dup metoda agregrii prin medii, distana dintre clase este distana dintre centrele lor de greutate, marcate cu O1 i O2.

    Se pot lua n considerare dou strategii de clasificare constnd n:

    1) precizarea aprioric a numrului de clase, urmnd ca algoritmul s distribuie fiecare element spre clasa ce-l reprezint;

    2) folosirea unei metode ierarhice de clasificare.

    Metodele ierarhice de formare a claselor se caracterizeaz prin faptul c numrul de clase nu este cunoscut dinainte, ci este determinat pe parcurs, prin algoritmul de clasificare. Se disting dou categorii de algoritmi ierarhici de clasificare, i anume algoritmii ascendeni (sau de agregare) i algoritmii descendeni.

    n cele ce urmeaz vom prezenta paii principali pentru un algoritm de agregare. Presupunem c avem n indivizi pe care dorim s-i clasificm.

    Pasul 1. Se consider n0 = n, adic partiia cea mai fin, format iniial din clase cu un singur individ fiecare. n aceast mulime de indivizi/clase se selecioneaz doi, cei mai apropiai dup indicele de proximitate folosit. Acetia vor forma primul grup.

    Pasul 2. Se calculeaz o nou matrice de proximitate ce conine n0 - 1 linii, corespunztoare celor n0 2 obiecte/clase nc negrupate i primului grup creat.

    Pe baza acestei noi matrice se identific alte dou obiecte, cele mai apropiate ntre ele, i cu acestea se va forma un nou grup. Iterativ, aceste obiecte pot fi fie doi indivizi, fie un individ i un grup deja constituit, fie dou grupuri deja constituie.

    Descretem n0 (= n0 1) i repetm pasul 2 pn cnd toi indivizii au fost grupai.

  • S presupunem c avem un grup format din dou obiecte P i Q (ce pot fi indivizi sau grupuri) i un alt obiect (individ sau grup), fie el R. O formul general de calcul a distanei dintre grupul P + Q i R este urmtoarea:

    |),(),(|),(),(),( 321 QRdPRdQRdPRdQPRd ++=+ unde coeficienii j sunt factori de ponderare descrii n tabelul urmtor (tabelul 2).

    Tabelul 2. Indicatori de proximitate Algoritmul 1 2 3

    Vecinilor celor mai apropiai (Single linkage)

    Vecinilor celor mai deprtai (Complete linkage)

    Agregrii prin medii (Average linkage weighted)

    QP

    Pnn

    n+ QP

    Q

    nnn+

    0

    n tabelul 2 am notat cu Pn numrul de elemente din grupul P i cu Qn numrul de elemente din grupul Q. Se poate observa c formula de

    calcul, n cazul vecinilor celor mai apropiai, este )},(),,(min{),( QRdPRdQPRd =+ .

    Exemplul 3. S examinm paii parcuri pentru gruparea indivizilor din exemplul 1. Aici cele trei puncte, corespunztoare celor trei indivizi, sunt: 5) ,5( 0), ,1( ),0 ,0( 321 === xxx .

    Algoritmul ncepe cu n0 = 3, clasele iniiale fiind chiar indivizii notai prin } { },{ Q , }{ 321 xRxxP === . Analiznd distanele euclidiene dintre acetia obinem matricea

    =

    0415041015010

    D ,

    aadar primul grup se va constitui din indivizii P i Q, adic },{ 21 xxQP =+ .

    n algoritmul vecinilor celor mai apropiai, distana de la grupul },{ 21 xxQP =+ la individul negrupat R este:

    41|4150|5.0415.0505.0),( =+=+ QPRd ,

  • iar noua matrice asociat va fi:

    041410 .

    Dac folosim metoda vecinilor celor mai deprtai, vom avea:

    50|4150|5.0415.0505.0),( =++=+ QPRd

    iar matricea asociat este

    050500 .

    Dac folosim metoda agregrii prin medii, avem un compromis ntre cele dou situaii extreme. Distana calculat este:

    737.6415.0505.0),( =+=+ QPRd . n finalul clasificrii, punctul R se altur grupului QP + ,

    deosebirea fiind dat de nivelul agregrii ultimului punct ( 071.750 = , 403.641 = sau 6.737). Prezentm n figura 3 o asemenea dendrogram pentru cazul agregrii medii. Pe ordonat avem marcat nivelul de agregare ntre obiecte, i anume distana euclidian. n softul de specialitate existente se poate alege ca indicator de clasificare i ptratul distanei.

    R Q P

    7

    1

    Figura 3. Exemplu de dendrogram

  • Nivelul de agregare al obiectelor este reprezentat pe ordonata dendrogramei, acesta fiind un element important n analiza constituirii constituirea claselor. De exemplu, dac mai sus alegem nivelul de agregare subunitar, vom distinge trei clase formate din cele trei puncte iniiale

    } { },{ , }{ 321 xRxQxP === . Dac nivelul de agregare este ales ntre 1 i 7, vom avea dou clase },{ 21 xxQP =+ i } { 3xR = . Evident, dac nivelul de agregare este mai mare dect 7, vom avea o singur clas.

    Capitolul 3. Metode de nvare nesupervizat3.1 Analiza componentelor principale3.2 Analiza factorilor3.3 Analiza clasificrii. Algoritmi ierarhici de agregare


Recommended