+ All Categories
Home > Documents > StatWork_11

StatWork_11

Date post: 08-Apr-2018
Category:
Upload: pop-ioana
View: 223 times
Download: 0 times
Share this document with a friend

of 16

Transcript
  • 8/7/2019 StatWork_11

    1/16

    Statistic multivariat

    Lucrarea nr. 11 Analiza n componente principale -SPSS

    A. Noiuni teoreticeAnaliza factorial (analiza n componente principale este o metod factorial)

    a aprut pentru a rezolva probleme din categoria urmtoare: reducerea complexitii datelor (data reduction) poate fi nlocuit un

    masiv de date de mari dimensiuni prin masive de dimensiuni mai mici? evidenierea i fixarea patternului asocierilor (corelaiilor) dintre

    variabile. determinarea variabilelor latente (mai puine) care se afl n spatele

    variabilelor msurate (mai multe) problem similar descopeririicelor care mnuiesc ppuile ntr-un teatru de ppui; comportarea,variana variabilelor msurate poate fi regsit din variana unor

    variabile ascunse, care le determin prin asociere.Variabilele ascunse, latente, sunt denumite factori i de aici denumirea

    metodelor analizei factoriale.Metoda a aprut la nceput n studii psihologice n care s-a ncercat s se

    determine, evalueze, variabile precum inteligena. Cum se pot evalua atribute precumputerea de asimilare, de reacie, de nelegere etc., s-a presupus c multe dintre acesteasunt determinate de o variabil latent care poate fi inteligena.

    Formaliznd cele spuse se consider c exist o mulime de variabile X1,X2,...,Xp i se dorete determinarea unor variabile noi C1, C2,...,Cm, undeCi = wi1X1 + wi2X2 + ... + wipXp, cu dorina ca m

  • 8/7/2019 StatWork_11

    2/16

    unde E este o matrice rezidual, cu termeni suficient de mici astfel nct cele np valoridin X s fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor uiv,=1,,q.

    Problema se va rezolva cu ajutorul reprezentrilor geometrice.Tabloul X poate fi privit drept mulimea coordonatelor pentru n puncte n spaiul cu p dimensiuni, Rp (fiecare linie a tabloului este un

    punct n acest spaiu), sau p puncte n spaiul cu n dimensiuni, Rn (fiecare coloan a tabloului este

    un punct n acest spaiu).Ambele spaii, Rpi Rn, se consider dotate cu metrica euclidian uzual.

    Ajustarea printr-un subspaiu vectorial dinRpIdeea este aceea de a determina un subspaiu vectorial de dimensiune q < p n

    care s fie coninutX (matricea X este gndit ca mulimea a n vectori coloanele

    matricei). n acest caz, cele n puncte din X pot fi reconstituite plecnd de la coordonatele pe noile q axe, adicnq valori, componentele noilor axe n spaiul iniial, adicpq valori.Se utilizeaz astfel nq + pq valori.S ncepem prin a cuta dreapta F1, trecnd prin origine, care ajusteaz cel mai

    bine, n sensul celor mai mici ptrate, norul de puncte.

    Fie un vector unitaru de pe aceast dreapt, deci uu=1.Rezult c fiecare linie din Xu este produsul scalar al punctului respectiv cu u

    i deci lungimea proieciei punctului pe F1. Prin urmare, minimizarea sumeidistanelor la F1 (criteriul celor mai mici ptrate) revine la maximizarea sumeiproieciilor. Deci determinarea lui F1 conduce la maximizarea sumei ptratelor acestorproiecii, adic se cautu care maximizeaz forma ptratic

    (Xu)(Xu)=uXXu,cu restricia uu=1.

  • 8/7/2019 StatWork_11

    3/16

    Prin metoda multiplicatorului lui Lagrange, se considerL = uXXu - ( uu-1)

    i anularea derivatelor pariale n raport cu u conduce la2 XXu-2u=0,

    de undeXXu = u

    ceea ce arat cu este un vector propriu al matricei XX. Atunci,uXXu = uu

    i, din restricia impus, rezult uXXu = , adic maximul cutat este egal cu ovaloare proprie a matricei simetrice XX.

    Prin urmare, u este acel vector propriu u1 care corespunde celei mai marivalori proprii 1.

    n general, se arat c o baz ortonormat a subspaiului vectorial cu qdimensiuni, care ajusteaz norul de puncte n sensul celor mai mici ptrate, esteconstituit din cei q vectori proprii care corespund celor mai mari q valori proprii alematricei simetrice XX. Notm cu u1, u2,, uq vectorii proprii i 1, 2, , qvalorile proprii corespunztoare.

    De remarcat c matricea XX este simetrici semipozitiv definit, deci toatevalorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali.

    Ajustarea printr-un subspaiu vectorial din Rn

    n R n, coloanele matricei Xnp definesc un nor de p puncte. Raionnd analog(pe matricea X) se ajunge la:

    cel mai bun subspaiu cu q dimensiuni este generat de vectoriiproprii v1, v2,, vq care corespund la valorile proprii(descresctoare) 1, 2, , q ale matricei XX.

    Relaia dintre cele dou subspaii dinRpiR nDin definiia vectorului propriu v, avem

    XXv =vde unde, prin nmulire la stnga cu X,

    XXXv = Xvadic

    (XX)(Xv) = (Xv)Deci fiecrui vector propriu v a lui XX i corespunde un vector propriu egal

    cu Xv a matricei XX iar este valoare proprie pentru XX. Adic{){}

    Analog se demonstreaz i incluziunea invers i se arat astfel identitateacelor dou mulimi de valori proprii,

    = ,

    = 1,,r,unde reste rang(X), r min(p,n).Intre vectorii proprii exist relaiile (cu observaia c egalitatea are loc pn la

    un factor)u = kXvv = kXu

    unde ki k sunt constante necunoscute.Din uu = vv = 1 rezult

  • 8/7/2019 StatWork_11

    4/16

    1u ''2' == vXXvu k

    DarvXXv = = de unde

    1' == kk

    Intre vectorii proprii din cele dou spaii exist astfel relaiile

    (*)

    vXu = 1 ,

    Xuv 1=

    Axa F, care poart vectorul unitar u, este numit a -a ax factorial dinR

    p. Analog pentru G n Rn.

    Coordonatele punctelor pe axa din Rp (i respectiv din Rn) sunt, princonstrucie, componentele lui Xu (respectiv Xv).

    Relaiile precedente arat proporionalitatea care exist ntre coordonatelepunctelor pe o ax dintr-un spaiu i componentele unitare (cosinuii directori) aiaxei dincellalt spaiu.

    Reconstituirea tabloului X

    Din relaia (*) se obine

    vXu = , de unde

    uvuXu = i sumnd

    ==

    =pp

    uvuuX11

    .

    Cum =

    p

    uu1

    este produsul matricei ortogonale a vectorilor proprii cu

    transpusa sa, adic este matricea unitate, se obine reconstituirea tabloului iniial prin

    =

    =p

    uvX1

    '

    cu meniunea c anumite valori proprii pot fi 0 (dar exist vectorii propriicorespunztori).

    O reconstituire aproximativX* este obinut prin limitarea la primele q axefactoriale (reamintim c valorile proprii au fost luate n ordine descresctoare, deciq+1, , p sunt valorile cele mai mici):

    =

    =q

    uvXX1

    '*

    .

    Fiecare valoare proprie msoar suma ptratelor distanelor la origine aleproieciilor pe axa factorial respectiv. Prin urmare, reconstituirea va fi cu att maibun cu ct suma valorilor proprii reinute va constitui o parte notabil a sumei tuturorvalorilor proprii. Calitatea global a reconstituirii poate fi msurat prin cantitatea

    ===pq

    q

    11

    numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu qdimensiuni). Se poate verifica i

    =ji

    ij

    ji

    ijq xx,

    2

    ,

    2* .

    care ofer un suport intuitiv faptului c reflect calitatea global a reconstituirii.

  • 8/7/2019 StatWork_11

    5/16

    Analize particulare

    Atunci cnd nu este vorba strict de o aproximare numerici ne ncadrm nanaliza statistic, dispunem de informaii suplimentare asupra naturii datelor.

    Considerarea acestor informaii conduce la transformri prealabile ale dateloriniiale, astfel nct aplicarea metodei generale la datele transformate permiteinterpretri mai adecvate structurii datelor.

    Se obin astfel analize factoriale particulare, cele mai importante suntenumerate n continuare:

    Analiza n componente principale, Analiza n componente principale normate, Analiza rangurilor, Analiza corespondenelor.Ideea de baz care st la baza tuturor acestor analize este aceea c un tabel de valori poate produce (prin liniile, respectiv coloanele sale)

    reprezentri sub forma norilor de puncte n dou spaii, ajustrile punctelor din cele dou spaii sunt legate prin relaii simple,

    interpretabile.

    Analiza n componente principale

    Iniiat de Pearson (1901) i dezvoltat de Hotelling (1933).Tabloul de plecare R este oarecare: rij semnific, n mod uzual, a i-a observaie

    a unei variabile j. Variabilele pot fi eterogene n privina mediilor lor (de ex. uniti demsur diferite, ordine de mrime diferite etc.). Pentru a anula efectul eterogenitii seefectueaz transformarea

    n

    rrx

    jij

    ij

    *= , unde

    =

    =n

    i

    ijj rn

    r1

    *

    1este media variabilei a j-a.

    Analiza general se va aplica tabloului X astfel obinut, matricea XX estematricea de covarian a variabilelor iniiale.

    Analiza n componente principale normate

    Dac variabilele sunt eterogene i n dispersie, se vor norma valorile prin

    ns

    rrx

    j

    jij

    ij

    *= , unde sj este abaterea standard pentru a j-a variabil.

    Analiza general se va aplica tabloului X, cu observaia c c matricea XXimplicat n calcule este tocmai matricea de corelaie a variabilelor iniiale.

    Analiza n componente principale (normate) ACP/ACPN

    Numele metodei provine din aceea c factorii (obinui prin analiza general)sunt numii i componente principale.

    Dei pentru identificarea factorilor se aplic metoda general asupra matriceide covarian (corelaie) a variabilelor implicate, n continuare se prezinti o metodalternativ, care poate oferi o viziune mai intuitiv asupra calculelor efectuate.

    Se dorete reducerea numrului de variabile dar cu pstrarea a ct mai mult (nlimita posibilitilor) din variana datelor iniiale.

    Pentru aceasta se introduce o nou variabil, Z, ca o combinaie liniar avariabilelor iniiale:

    pp xaxaxaZ +++= K2211

  • 8/7/2019 StatWork_11

    6/16

    unde a1,,ap sunt ponderi asociate variabilelor iniiale.Observaie. Ecuaia precedent este doar aparent similar unei ecuaii de

    regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu exist termenliberi nici erori (reziduuri).

    Analiza n componente principale determin acele ponderi ai caremaximizeaz variana variabilei Z. Cum variana poate tinde la infinit pentru valori

    ale ponderilor convenabil alese, metoda determin doar ponderile supuse restriciei cvectorul a este normalizat, adic

    =

    =p

    i

    ia1

    2 1. O dat calculate ponderile a, variabila Z

    este numitprima component principal.Notnd cu C matricea de covarian (corelaie) a variabilelorX, de fapt prin

    transformarea datelor din analiza n componente principale C = XX, rezult cdispersia lui Z este aCa. Se dorete maximizarea varianei lui Z cu restriciaaa = 1.Se ajunge astfel la problema general:

    max aXXa cu restricia aa = 1Prin metoda multiplicatorilor lui Lagrange se va cuta maximul funciei

    F(a) = aCa - (aa 1)de unde rezult, ca n metoda general, c a este vector propriu al matricei Ccorespunztor valorii proprii i aCa =. Deoarece Var(Z) = aCa rezultVar(Z) = , adic a este vectorul propriu care corespunde celei mai mari valoriproprii .

    A doua component principal este definit drept combinaia liniar avariabilelorX cu urmtoarea cea mai mare varian:

    Z2 = a12x1 + a22x2 + + ap2xpSe ajunge astfel la a doua valoare proprie ca mrime etc. De remarcat c aij

    reprezint ponderea variabilei i n componenta principal cu numrul j.O consecin a faptului c varianele componentelor principale sunt valorile

    proprii iar ponderile (coeficienii combinaiilor liniare) sunt vectorii proprii este aceeac factorii obinui (componentele principale) sunt necorelate ntre ele.

    Astfel, din exprimarea matriceal z = Ax a componentelor principale i dinfaptul c matricea vectorilor proprii este ortogonal, AA = I, rezult

    Az = AAx = Ix = x,

    adic i variabilele iniiale pot fi exprimate drept combinaii liniare ntrecomponentele principale. Notnd cu Czz matricea de covariane a componentelorprincipale, relaia anterioar produce

    C = ACzzA.de unde, utiliznd rezultatul cunoscut

    C = AA,unde este matricea diagonal a valorilor proprii, rezult c Czz este o matricediagonal, adic toate componentele principale sunt necorelate ntre ele. Se observastfel c prin trecerea la componentele principale se elimin redundana din date.

    Analiza n R pCele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o

    reprezentare a apropierilor dintre aceste puncte ntr-un spaiu de dimensiune maimic. Prin transformrile prealabile are loc o translaie a norului de puncte ntr-unreper avnd ca origine centrul de greutate al norului.

    In ACPN se modifici scala pe fiecare ax.

  • 8/7/2019 StatWork_11

    7/16

    Analiza n R nCele p puncte sunt aici variabilele, transformrile prealabile au ns o

    interpretare diferit: transformarea din ACP este o proiecie paralel cu prima bisectoareAstfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o

    vizualizare corect), un punct variabil

    este supus transform

    rii:

    transformarea din ACPN este o deformare a norului de puncte care aduce

    fiecare punct variabil la distana 1 de origine (pe sfera unitate).

    ntr-adevr, din transformareans

    rrx

    j

    jij

    ij

    *= , rezult c distana unui punct

    variabil la origine este

    =

    ==n

    ijjij srr

    nj

    1

    222 1/)(1

    )0,(d .

    Distana dintre dou puncte este dat de),(cor22),(d2 kjkj =

    adic proximitile dintre puncte se pot interpreta n termenii corelaiilor dintrevariabile.

    Coordonatele punctelor variabile pe o ax sunt coeficienii de corelaie dintrevariabile i factorul respectiv (considerat ca o nou variabil). Prin urmare se poateinterpreta un factor (ax) drept o combinaie a variabilelor cele mai corelate cu el.

    Componente principale o alt definiie

    Definiia componentelor principale prezentat aici ofer un punct de vedere diferit (apropiatde sensul istoric iniial). Notm cu Xnp matricea de date (n observaii asupra a p variabile), cu Ajmatricea (transpus) (de tip jp) a ponderilor primelor j componente principale (coloanele din Aj fiindprimii j vectori proprii), cu Znj matricea scorurilor componentelor principale.

    zik= a1ix1k+ a2ix2k+ + apixpkRezult atunci

    X = ZAj + U

    unde Unp este matricea reziduurilor.Se poate arta atunci c primele j componente principale sunt acele variabilenecorelate care constituie cele mai bune variabile predictor (printr-un model liniar) alevariabilelor observate.

    Criteriul este tot al celor mai mici ptrate

    i j

    iju2min

  • 8/7/2019 StatWork_11

    8/16

    Se poate astfel spune c, dac s-ar determina mulimea de variabile necorelatecare prognozeaz cel mai bine (printr-un model liniar) variabilele observate, atunciaceste noi variabile ar fi componentele principale.

    Prin urmare, relaia matricealX = ZAj + U

    se interpreteaz ca evideniind variabilele ascunse (latente), z, care determin

    variabilele observate x.

    Numrul de componente principale

    Din toat discuia de pn acum apare ca un punct important acela al fixriinumrului j de componente principale care se rein n modelul final.

    Aceast ntrebare nu are un rspuns precis. Exist o serie de proceduriacceptate, discutate n continuare i care se aplici altor metode factoriale.

    O proprietate important a metodei este aceea a meninerii varianei totale adatelor. Cu alte cuvinte

    )var(...)var()var()var(...)var()var( 2121 pp ZZZXXX +++=+++

    p +++= ...21

    n cazul ACPN, variabilele sunt standardizate i, prin urmare,pXXX p =+++=+++ 1...11)var(...)var()var(

    **2

    *1

    de unde rezult c suma varianelor componentelor principale este p:pp =+++ ...21

    n general, primele q componente principale ofer un rezumat q-dimensionalal variabilelor iniiale, acela care are variana maxim dintre toate rezumateleq-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obinnd o simpltransformare a variabilelor iniiale. Prin reinerea doar a primelor q valori proprii,proporia explicat din variana total este

    p

    q

    ++

    ++

    ...

    ...

    1

    1

    Acesta nu poate constitui un criteriu pentru numrul de factori reinui, ntructraportul crete o dat cu numrul factorilor (ajungnd la 1). Un prim criteriu poate fiacela al reinerii acelor valori proprii care depesc media, adic

    )...(1

    1 pip

    ++>

    criteriul implicit n SPSS, cu observaia c n ACPN criteriul devine identic cucriteriul Kaizer.

    Criteriul Kaiser

    Se rein doar componentele principale corespunznd valorilor proprii mai maridect 1. Se aplic de regul n ACPN.

    Criteriul Cattell (scree test)

    Varianta grafic: se detecteaz pe diagrama valorilor proprii un cot. Serein doar valorile proprii de pn n acel loc, inclusiv.

  • 8/7/2019 StatWork_11

    9/16

    Varianta analitic: se calculeaz1=1-1, 2=2-3, 1=1-2, 2=2-3, i se rein 1, , k+1 astfel nct 1, 2, , ks fie toate pozitive.Analog, se ncearc trasarea unei drepte (dreapta de regresie) prin ultimele j

    valori proprii i se rein doar valorile proprii situate deasupra acesteia.

    Reprezentri grafice

    In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, carepot fi interpretate ca

    n puncte-indivizi (observaii) n Rp

    , p puncte-variabile n Rn.Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui

    subspaiu n care datele iniiale pot fi regsite cu suficient acuratee. Examinareastructurii norilor de puncte din subspaiile respective se realizeaz prin metodegrafice, reprezentnd punctele prin proiecii pe un numr suficient de plane factoriale.

    Astfel, pentru a putea nelege structura unui nor de puncte n R3 este nevoiede proiecia lor pe dou plane (xOy i xOz, de exemplu). Interpretrile difer totuidup cum este vorba de variabile sau de observaii.

    Variabile

    Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai micide 1, punctele fiind pe sfera unitate. Cum distan ele dintre puncte sunt inversproporionale cu corelaiile dintre variabilele corespunztoare, gruprile de puncteindic grupuri de variabile corelate.

    Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dupanaliza proiecii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabileleapropiate de o ax sunt corelate cu acea component principal, se poate considera caxa respectiv este o combinaie a variabilelor apropiate de ea.

  • 8/7/2019 StatWork_11

    10/16

    Observaii

    Reprezentarea punctelor-observaii prezint de asemenea gruprile deobservaii, fr a mai fi pe sfera unitate.

    Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul eiobservaiile mici de cel mari. A doua ax factorial este factorul de form. carenuaneaz diferen-ele efectuate de primul factor.

    Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca nfigur) poate oferi informaii utile prin configuraiile vizibile. Concluziile suntjustificate doar dup utilizarea unui numr suficient de proiecii.

    Coordonatele punctelor observaii sunt, de regul, scalate astfel nct spermit suprapunerea celor dou grafice (variabile, observaii). Dei trebuie ooarecare grij n emiterea concluziilor (vezi, de exemplu, efectul de perspectiv nconfiguraiile multidimensionale), asemenea vizualizri pot oferi explicaii aleapropierilor dintre observaii prin variabilele apropiate acelui grup etc.

    B. Instrumente SPSS

    Dialogul Factor Analysis

    Pentru a aplica analiza factorial, prin natura metodei, trebuie ca ntrevariabile s existe corelaii suficient de mari pentru a avea sens problema reducerii

  • 8/7/2019 StatWork_11

    11/16

    dimensiunii. Prin urmare, dac o variabil nu este corelat cu celelalte va trebuiexclus din analiz. n acelai timp, nici corelaiile foarte mari (multicoliniaritatea) nuconduc la rezultate uor de interpretat, situaia extrem fiind cea de singularitate, aexistenei variabilelor perfect corelate. n asemenea cazuri este imposibil s sedetermine contribuia individual la un factor a variabilelor. Prin urmare este necesars se calculeze i s se analizeze matricea de corelaii a variabilelor prin Analyse

    Correlate Bivariate, inclusiv determinantul acestei matrice pentru determinareamulticoliniaritii.Este de asemenea necesar s se testeze c variabilele au o distribuie apropiat

    de distribuia normal (prin analizarea histogramelor sau a testelor de normalitate).Dialogul principal este Analyse Data Reduction Factor. Se afieaz

    dialogul Factor Analysis.

    Variabilele procesate se trec n lista Variables iar n Selection Variable sepoate indica o variabil care selecteaz prin Value observaiile/cazurile considerate nanaliz. Parametrii analizei se fixeaz n dialogurile afiate de acionarea butoanelorDescriptives, Extraction, Rotation, Scores, Options, dialoguri descrise ncontinuare.

    Descriptives

    n grupul Statistics se poate cere afiarea statisticilor elementare (media,abaterea standard etc.). Selectarea Initial solution afieaz comunalitile iniiale,valorile proprii etc.

    Grupul Correlation Matrixconine informaiile despre coeficienii de corelaiei cele utile n studiul multicoliniaritii. Dintre acestea, Bartlett's Test of Sphericitytesteaz dac matricea de corelaie este aproximativ unitar (ca ipotez nul), ceea cedenot o multicoliniaritate accentuat, dar nu precizeaz care variabil nu estecorelat cu celelalte. Acest studiu ar trebui realizat separat prin estimareacoeficientului de determinare R2 n fiecare model liniar Xi = f (restul variabilelor X).KMO (Kaiser-Meyer-Olkin) testeaz corelaiile pariale dintre variabile doar global,ceea ce nu este util n identificarea variabilelor necorelate.

    Acceptarea ipotezei nule din testul Bartlett conduce la ideea c variabilele nusunt corelate ntre ele, deci o ncercare de reducere a dimensiunii nu este sortit

  • 8/7/2019 StatWork_11

    12/16

    succesului, fiecare variabil are o contribuie proprie important i care nu poate fisuplinit de celelalte variabile.

    Este de remarcat c dac o variabil nu este bine corelat cu celelalte (deci nucontribuie la multicoliniaritate), aceast variabil poate fi omis din analiz.

    Opiunea Reproduced afieaz matricea de corelaie estimat din soluiafactoriali se afieazi reziduurile.

    Extraction

    Din lista Methodse poate fixa metoda de analiz factorial. Pentru analiza ncomponente principale sau componente principale normate se va selecta Principalcomponents. n acest caz, tipul analizei este dat de selecia din grupul Analyze:correlation matrix pentru ACPN sau covariance matrix pentru ACP.

    n grupul de opiuni Extract se poate indica exact numrul de factori saupreciza pragul pentru valorile proprii (deci factorii) reinute. Prin selectarea opiuniiScree plotse obine diagrama valorilor proprii care ofer ajutor n stabilirea numruluide factori. Unrotated Factor Solution produce afiarea pentru soluie a ncrcrilor,comunalitilori valorilor proprii.

    Deoarece soluia se obine n urma unui proces iterativ, se poate fixa numrulmaxim de iteraii n Maximum Iterations for Convergence.

    Reamintim c din p variabile se pot extrage p componente, fiecare valoareproprie reprezentnd partea de varian care este explicat de componenta respectiv.

    Rotation

    Rotaia reperului axelor factoriale pentru a prinde un unghi de vedere maibun se poate selecta n dialogul Rotation. Ca metode sunt disponibile: varimax (seminimizeaz numrul de variabile cu ncrcri mari pe fiecare factor, ceea cesimplific interpretarea factorilor), direct oblimin (rotaie oblic), quartimax(minimizeaz numrul de factori necesari explicrii fiecrei variabile), equamax(combinaie ntre metodele varimaxi quartimax) i promax (rotaie oblic n care seadmit factori corelai).

    Pentru soluia obinut n urma rotaiei se poate cere soluia sau diagramelencrcrilor pentru primii doi (dac nu s-au extras cel puin trei factori) sau treifactori. i pentru procesul de rotaie se poate preciza numrul maxim de iteraii nMaximum Iterations for Convergence.

  • 8/7/2019 StatWork_11

    13/16

    Scores

    Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecarefactor producnd o variabil. Cu alte cuvinte coordonatele cazurilor n reperulfactorial sau transformri ale acestora.

    Se poate preciza metoda de calcul a scorurilor: regression (scorurile produseau media zero i o dispersie egal cu ptratul corelaiei multiple ntre scorurile

    factoriale estimate i coordonatele factoriale adevrate), Bartlett(scorurile produse aumedia zero i este minimizat suma ptratelor factorilor reinui) sau Anderson-Rubin(scorurile au media zero, abatere standard unitari sunt necorelate).

    Prin Display factor score coefficient matrix se afieaz matricea de corelaiedintre scoruri i coeficienii cu care se nmulesc variabilele pentru a obine scorurilefactoriale.

    Options

    Se precizeaz modul de tratare a valorilor lips ca i modul de afiare amatricelor, de exemplu se pot omite coeficienii care sunt n valoare absolut sub unanumit prag.

    Structura fiierului de ieire

    Matricea de corelaie, dac este solicitat, se interpreteaz n mod uzual,dupcum s-a explicat n lucrarea dedicat asocierii variabilelor. Se recomandanalizarea corelaiilor pentru a identifica variabilele care nu sunt corelate cu celelalte(i care pot fi eventual omise din analiz, dac nu se dorete mai degrab reducereanumrului de variabile dect analiza corelaiilor). Se afieaz i tabelul cu testeleamintite mai sus, asociate existenei multicoliniaritii:

    Tabelul valorilor proprii (eigenvalues) conine, pe lng valoarea efectiv,calculul necesar identificrii varianelor explicate de componentele respective. Sumacelor p valori proprii este egal cu p (numrul de variabile). Proporia de varianexplicat de o component este prin urmare raportul dintre valoarea proprie respectiv

  • 8/7/2019 StatWork_11

    14/16

    i p (reamintind c fiecare valoare proprie reprezint partea de varian explicat,captat de componenta respectiv):

    3.313 47.327 47.327

    2.616 37.369 84.696.575 8.209 92.905

    .240 3.427 96.332

    .134 1.921 98.252

    9.E-02 1.221 99.473

    4.E-02 .527 100.000

    Component

    1

    23

    4

    5

    6

    7

    Total% of

    VarianceCumulative

    %

    Initial Eigenvalues

    Extraction Method: Principal Component Analysis. Se observ c din ultima coloan se citete direct ct din variana total se

    explic prin reinerea unui numr de componente.Pentru ajutor n stabilirea numrul de componente se poate cere afiarea

    diagramei valorilor (diagrama dat de exemplu conduce la reinerea a dou sau treicomponente, decizia final fiind influenat i de proporia cumulat a varianeiexplicate):

    Scree Plot

    Component Number

    7654321Eigenvalue

    3.5

    3.0

    2.5

    2.0

    1.5

    1.0

    .5

    0.0

    Tabloul Component Matrix, esenial n analiz, conine ncrcrile factorilor,factor loadings. Matricea este referiti prin loading matrix sau factor pattern matrix.Elementele matricei, ncrcrile, sunt corelaiile dintre componente (coloane) ivariabilele iniiale (linii). Datorit proprietilor componentelor (sunt ortogonale),ncrcrile au i interpretarea de coeficieni standardizai din regresia multipl, cu altecuvinte arat cu cte abateri standard sX se modific X dac factorul respectiv semodific cu o abatere standard sF.

    Component Matrixa

    .760 -.576

    .736 -.614

    -.735 -.071

    .710 -.646

    .550 .734

    .632 .699

    .667 .675

    COLOR

    AROMA

    REPUTAT

    TASTECOST

    ALCOHOL

    SIZE

    1 2

    Component

    Extraction Method: Principal Component Analysis.

    2 components extracted.a.

    Structura mai util pentru interpretare este, totui, cea obinut dup rotireafactorilor, care ofer o "viziune" mai bun. Matricea de ncrcare este afiati dupce s-au rotit factorii, interpretarea fiind cea dat mai sus.

  • 8/7/2019 StatWork_11

    15/16

    Rotated Component Matrixa

    .960 -.028

    .958 1.E-02

    .952 6.E-02

    7.E-02 .947

    2.E-02 .942-.061 .916

    -.512 - .533

    TASTE

    AROMA

    COLOR

    SIZE

    ALCOHOLCOST

    REPUTAT

    1 2

    Component

    Extraction Method: Principal Component Analysis.

    Rotation Method: Varimax with Kaiser Normalization.

    Rotation converged in 3 i terations.a.

    Se observ c sunt evideniate mai bine diferenele de ncrcare ale factorilor.Observaie. ncrcrile factorilor constituie baza denumirii factorilor,

    problem important n analiza factorial. Un factor, ca variabil latent, ar trebui spoarte un nume pentru a fi neles, utilizat, referit etc. Structura de ncrcare a unuifactor poate oferi sugestii n acest sens, ncrcrile mai mari ca 0,6 sunt considerate caimportante, cele sub 0,4 sunt sczute. Variabilele cu ncrcri mari constituiecombinaia de variabile iniiale care determin factorul, deci i denumirea lui (createvident de specialitii din domeniu, nu de statistician).

    Dac s-a cerut o rotaie a factorilor, SPSS afieaz i variana explicat defiecare component dup rotaie. Variana explicat este egal cu suma ncrcrilor laptrat.

    Acest tabel ajut s se decid cte componente ar trebui reinute, sumaptratelor ncrcrilor (SSL, sum of squared loadings) dup rotaie este oarecumsimilar unei valori proprii. Se pot, drept urmare, pstra acele componente cu SSLpost-rotaie mai mari ca 1.

    ncrcrile post-rotaie arat cum sunt definite componentele. Dac o singurvariabil are o ncrcare mare la o component, componenta nu este bine definit.Dac doar dou variabile au ncrcri puternice cu o component, componenta estecorect dac variabilele sunt corelate ntre ele dar nu sunt corelate cu celelaltevariabile.

    Se numete comunalitate (communality)proporia explicat de factori din variana uneivariabilei. Deoarece ncrcrile sunt corelaiile

    dintre variabile i componente i cumcomponentele sunt ortogonale, comunalitatea uneivariabile reprezint coeficientul de determinare,R2, dac variabila este prognozat de componente.Se poate calcula comunalitatea unei variabile casuma ptratelor ncrcrilor dup factori.

    Comunalitile iniiale sunt 1 fiind calculate nainte de reducerea dimensiunii.

  • 8/7/2019 StatWork_11

    16/16

    C. Lucrarea practic

    1) Un studiu din 1979 a urmrit n diferite ri europene modul de ncadrare a foreide munc n diferite ramuri industriale. Datele sunt sub form de procentaje i segsesc n fiierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilelesunt Country numele rii, Agr procentajul de muncitori din agrucultur, Min

    procentajul de muncitori din minerit, Man procentajul de muncitori dinindustria prelucrtoare, PS procentajul de muncitori din industria energetic,Con procentajul de muncitori din construcii, SI procentajul de muncitori dinservicii, Fin procentajul de muncitori din finane, SPS procentajul demuncitori din servicii sociale, TC procentajul de muncitori din transporturi icomunicaii.

    a) S se realizeze o analiz n componente principale.

    b) S se deduc grupurile principale de state omogene ca structur a muncii.

    2) Datele necesare acestul exerciiu sunt la adresa webwww.infoiasi.ro/~val/statistica/boston.sav.Datele au fost utilizate i n lucrarea 8 n scopul prognozei preului de vnzare a

    unei case din regiunea Boston n funcie de caracteristici diverse ale locuinei iale localizrii ei. Reamintim c variabilele sunt, n ordine, CRIM ratacriminalitii, ZN proporia teritoriului zonat n loturi de peste 25,000 sq.ft.,INDUS proporia terirorial a zonei industriale, CHAS indicator de nvecinarecu rul din zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrulmediu de camere, AGE proporia de locuine construite nainte de 1940 iocupate de proprietar, DIS distana ponderat la cinci centre productive dinBoston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX rata deimpozit (procent la 10000$), PTRATIO raportul copii-profesori n zon, B 1000(Bk0.63)2 unde Bk este procentajul populaiei de culoare n zon, LSTAT procentajul populaiei srace, MEDV valoarea medie a caselor (n mii de dolari).

    a) S se realizeze o analiz n componente principale a variabilelor dintre cares-au exclus CHAS i MEDV.

    b) S se analizeze dac apar diferene n rezultate atunci cnd se considerseparat grupurile definite de CHAS.