+ All Categories
Home > Documents > Statistica multivariata

Statistica multivariata

Date post: 12-Jul-2015
Category:
Upload: badbluebastard
View: 4,940 times
Download: 9 times
Share this document with a friend

of 155

Transcript

Universitatea Alexandru Ioan Cuza Iai Facultatea de Informatic Valentin Clocotici Introducere n statistica multivariat 2007 Cuprins Noiuni recapitulative ............................................................................................................... 11 Ce este statistica?.............................................................................................................................. 11 Terminologie ..................................................................................................................................... 11 Calitatea informaiei......................................................................................................................... 12 Variabile ............................................................................................................................................ 12 Variabile nominale ........................................................................................................................................... 13 Rezumatele statistice pentru date nominale..................................................................................................... 13 Variabile ordinale............................................................................................................................................. 14 Variabile de interval ......................................................................................................................................... 15 Rezumate statistice de tendin central .......................................................................................................... 17 Indicatori de msur ai mprtierii ................................................................................................................. 18 Elemente de teoria probabilitilor................................................................................................. 19 Funcia de probabilitate.................................................................................................................................... 19 Variabile aleatoare............................................................................................................................................ 20 Valori tipice...................................................................................................................................................... 21 Repartiii teoretice remarcabile........................................................................................................................ 22 Repartiia normal ....................................................................................................................................... 22 Repartiia 2................................................................................................................................................. 24 Repartiia Student (t) ................................................................................................................................... 24 Repartiia Fisher-Snedecor (F) .................................................................................................................... 25 Inferena statistic ............................................................................................................................ 26 Estimaii............................................................................................................................................................ 27 Intervale de ncredere pentru valoarea medie............................................................................................. 29 Intervale de ncredere pentru dispersie ....................................................................................................... 29 Testarea ipotezelor statistice............................................................................................................ 29 Raionamentul general...................................................................................................................................... 30 Erori posibile n decizie.................................................................................................................................... 31 Categorii de teste.............................................................................................................................................. 32 Teste de concordan........................................................................................................................................ 32 Testul erorii standard a mediei .................................................................................................................... 33 Testul de concordan Student (t) ............................................................................................................... 33 Teste de comparare........................................................................................................................................... 34 Situaii de aplicare a testelor de comparare ................................................................................................ 34 Testul F........................................................................................................................................................ 34 Teste t de comparare.................................................................................................................................... 35 Teste privind egalitatea dispersiilor unor populaii normale........................................................................... 36 Testul Bartlett .............................................................................................................................................. 37 Testul Levene .............................................................................................................................................. 37 Prelucrri statistice........................................................................................................................... 38 Microsoft Excel ................................................................................................................................................ 38 SPSS ................................................................................................................................................................. 39 Distribuia de frecvene ............................................................................................................................... 39 Statisticile descriptive.................................................................................................................................. 40 Tabele de frecvene ncruciate................................................................................................................... 40 Analiza dispersional................................................................................................................ 42 Analiza dispersional unifactorial................................................................................................. 42 Structura datelor ............................................................................................................................................... 42 Tabelul ANOVA.............................................................................................................................................. 43 Modele ale analizei dispersionale unifactoriale............................................................................................... 46 Modelul cu efecte sistematice ..................................................................................................................... 46 4Introducere n statistica multivariat Modelul cu efecte ntmpltoare................................................................................................................. 47 Contraste........................................................................................................................................................... 48 Analiza post hoc ............................................................................................................................................... 49 Metoda Tukey.............................................................................................................................................. 49 Metoda Scheffe............................................................................................................................................ 50 Metoda Bonferroni ...................................................................................................................................... 50 Alegerea metodei de comparaie multipl .................................................................................................. 50 Analiza dispersional bifactorial ................................................................................................... 50 Structura datelor ............................................................................................................................................... 51 Modele ale analizei dispersionale bifactoriale................................................................................................. 55 Modelul cu efecte sistematice ..................................................................................................................... 56 MANOVA.......................................................................................................................................... 57 Teoria matematic ............................................................................................................................................ 58 Prelucrri statistice........................................................................................................................... 60 Excel ................................................................................................................................................................. 60 SPSS.................................................................................................................................................................. 61 Asocierea datelor....................................................................................................................... 63 Msuri de asociere ............................................................................................................................ 64 Asocierea ntre dou variabile nominale (calitative) ..................................................................... 65 Semnificaia statistic a asocierii ..................................................................................................................... 67 Asocierea datelor ordinale................................................................................................................ 67 Coeficientul de corelaie a rangurilor (Spearman) rs....................................................................................... 67 Coeficientul .................................................................................................................................................... 68 Asocierea datelor continue (de interval) ......................................................................................... 69 Dreapta de regresie........................................................................................................................................... 70 Coeficientul de corelaie (liniar)..................................................................................................................... 72 Modelul Liniar .......................................................................................................................... 73 Definiie.............................................................................................................................................. 73 Estimaia prin cele mai mici ptrate ............................................................................................... 74 Interpretarea coeficienilor ............................................................................................................................... 75 Distribuia estimatorului................................................................................................................................... 75 Teorema Gauss Markov: ............................................................................................................................. 75 Teorema lui Rao .......................................................................................................................................... 75 Estimaia dispersiei erorilor (2) ...................................................................................................................... 75 Precizia ajustrii ............................................................................................................................................... 76 Coeficientul de corelaie multipl .................................................................................................................... 77 Coeficientul de corelaie parial ..................................................................................................................... 77 Testarea ipotezelor............................................................................................................................ 77 Testul F de semnificaie global.................................................................................................................. 78 Teste t........................................................................................................................................................... 78 Intervale de ncredere....................................................................................................................... 78 Parametrii modelului ........................................................................................................................................ 78 Valorile prognozate .......................................................................................................................................... 79 Analiza reziduurilor.......................................................................................................................... 79 Diagrama reziduurilor ...................................................................................................................................... 80 Diagrama reziduuri valori estimate............................................................................................................... 80 Diagrama reziduuri variabil independent.................................................................................................. 81 Multicoliniaritatea ............................................................................................................................ 81 Detectarea multicoliniaritii............................................................................................................................ 82 Eliminarea multicoliniaritii ........................................................................................................................... 82 Cuprins5 Cea mai bun regresie...................................................................................................................... 82 Etapele selectrii celei mai bune regresii......................................................................................................... 83 Etapa 1. Modelul maxim............................................................................................................................. 83 Etapa 2. Criteriul de selectare ..................................................................................................................... 83 Etapa 3. Strategii de selectare a celui mai bun model ................................................................................ 84 Etapa 5. Reliabilitatea modelului ales......................................................................................................... 85 Regresia polinomial ........................................................................................................................ 85 Variabile independente discrete ...................................................................................................... 86 Factori dihotomici ............................................................................................................................................ 86 Factori multicategoriali .................................................................................................................................... 87 Analiza varianei............................................................................................................................... 87 Analiza covarianei ........................................................................................................................... 89 Model 1: yik = (+i)+(+i)xik+ik................................................................................................................. 90 Model 2: yik = (+i) + xik + ik..................................................................................................................... 91 Model 3: yik = + ( + i)xik + ik................................................................................................................... 91 Model 4: yik = + xik + ik............................................................................................................................. 92 Model 5: yik = + ik........................................................................................................................................ 92 Teste statistice n analiza covarianei............................................................................................................... 93 Testul egalitii pantelor.............................................................................................................................. 93 Testul identitii centrelor ........................................................................................................................... 93 Testul efectului global de clasament ........................................................................................................... 93 Testul unui y constant.................................................................................................................................. 94 Regresia logistic .............................................................................................................................. 94 Cazul unei singure variabile independente ...................................................................................................... 95 Cazul mai multor variabile independente ........................................................................................................ 96 Estimarea coeficienilor............................................................................................................................... 96 Prelucrri statistice........................................................................................................................... 98 Excel ................................................................................................................................................................. 98 SPSS ................................................................................................................................................................. 98 Analiza datelor metode factoriale.......................................................................................... 101 Reducerea dimensiunii ..................................................................................................................... 101 Elemente de calcul matriceal ........................................................................................................... 103 Vectori i valori proprii .................................................................................................................................... 103 Proprieti .................................................................................................................................................... 104 Analiza factorial metoda general ............................................................................................. 104 Ajustarea printr-un subspaiu vectorial din R p............................................................................................... 105 Ajustarea printr-un subspaiu vectorial din R n................................................................................................ 106 Relaia dintre cele dou subspaii din R p i R n............................................................................................. 106 Reconstituirea tabloului X................................................................................................................................ 107 Analize particulare ........................................................................................................................................... 107 Analiza n componente principale.................................................................................................................... 108 Analiza n componente principale normate ..................................................................................................... 108 Analiza rangurilor............................................................................................................................................. 109 Analiza corespondenelor................................................................................................................................. 109 Analiza n componente principale (normate) ACP/ACPN ........................................................... 109 Az = AAx = Ix = x, ................................................................................................................................... 110 Analiza n R p................................................................................................................................................... 110 Analiza n R n................................................................................................................................................... 110 Componente principale o alt definiie......................................................................................................... 111 Numrul de componente principale................................................................................................................. 111 Criteriul Kaiser ............................................................................................................................................ 112 Criteriul Cattell (scree test) ......................................................................................................................... 112 6Introducere n statistica multivariat Reprezentri grafice.......................................................................................................................................... 112 Variabile....................................................................................................................................................... 113 Observaii..................................................................................................................................................... 113 Variabile/observaii suplimentare .................................................................................................................... 114 Puncte-variabile suplimentare ..................................................................................................................... 115 Puncte-observaii suplimentare ................................................................................................................... 115 Analiza corespondenelor ................................................................................................................. 115 Norii de puncte ................................................................................................................................................. 116 Invariana distanelor n R p......................................................................................................................... 116 Analiza n R p.................................................................................................................................................... 116 Analiza n R n.................................................................................................................................................... 118 Relaia dintre spaiile R p i R n......................................................................................................................... 118 Reconstituirea tabloului de frecvene............................................................................................................... 119 Contribuii absolute i relative ......................................................................................................................... 119 Contribuii absolute ..................................................................................................................................... 119 Contribuii relative....................................................................................................................................... 120 Alte concepte ale analizei factoriale................................................................................................. 120 Tipuri de factori ................................................................................................................................................ 121 Rotaia factorilor............................................................................................................................................... 121 Validitatea rezultatelor ..................................................................................................................................... 121 Analiza covarianelor/corelaiilor pariale ..................................................................................... 122 Regresia ortogonal .......................................................................................................................... 122 Interpretarea geometric n R p......................................................................................................................... 123 Regresia ortogonal f(X,Y) ............................................................................................................................... 123 Regresia dup componente principale ............................................................................................ 125 Analiza canonic ............................................................................................................................... 125 Analiza discriminant....................................................................................................................... 128 Prelucrri statistice........................................................................................................................... 130 SPSS.................................................................................................................................................................. 130 Descriptives ................................................................................................................................................. 131 Extraction..................................................................................................................................................... 131 Rotation........................................................................................................................................................ 131 Scores........................................................................................................................................................... 131 Options......................................................................................................................................................... 132 Probleme de clasificare............................................................................................................. 133 Clasificare .......................................................................................................................................... 133 Clasificare predictiv........................................................................................................................ 133 Clasificare predictiv - Fisher .......................................................................................................................... 133 Clasificare predictiv - Bayes .......................................................................................................................... 134 Clasificare predictiv k vecini....................................................................................................................... 135 Clasificare descriptiv ...................................................................................................................... 136 Clasificare descriptiv - agregare..................................................................................................................... 137 Clasificare distane ntre obiecte................................................................................................... 137 Metoda celui mai apropiat vecin (nearest neighbor method) .......................................................................... 137 Metoda celui mai deprtat vecin (farthest neighbor method).......................................................................... 138 Metoda legturii medii ..................................................................................................................................... 138 Metoda distanei centrelor (average group linkage) ........................................................................................ 138 Metoda distanei Ward (Ward's linkage) ......................................................................................................... 139 Clasificare descriptiv - agregare..................................................................................................................... 139 Clasificare descriptiv - divizare ..................................................................................................... 139 Cuprins7 Clasificare descriptiv - partiionare.............................................................................................. 140 Clasificare descriptiv metode fuzzy ........................................................................................... 141 Calitatea clasificrii .......................................................................................................................................... 142 Prelucrri statistice........................................................................................................................... 143 SPSS ................................................................................................................................................................. 143 K-Means Cluster.......................................................................................................................................... 144 Hierarchical Cluster..................................................................................................................................... 145 Exerciii ..................................................................................................................................... 147 Bibliografie................................................................................................................................ 155 Introducere Statisticamultivariat conine tehnici dedicate analizrii seturilor complexe de date, obinute n urma studiilor experimentale n care sunt urmrite, evaluate, msurate mai multe variabile.Complexitateacercetrilordeacesttipestedatoratnuattnumruluimaredevariabile,ct necesitiideastudiarelaiisimultanentremaimultevariabile.Prinurmare,descrierea statistic a fiecrei variabile necesit doar cunotine de statistic elementar n timp ce studierea relaiilor de asociere sau de structur a seturilor de variabile sau de observaii impune apelarea la tehnicispecifice.icumstudiulstructuriloresteobiectulpredilectalcercetrilorultimelor decade,aplicareatehnicilorstatisticiimultivariateadevenitoconstantncercetareadatelor experimentale. Acestetehnici nu sunt ntotdeaunaunitareca prezentare(fiecareconstituie subiectul unuitratat desutedepagini)ialegereatehniciiadecvateestedemulteoridificil.nacestcurssunt prezentatedoarelementeledebaz,depindpuinnivelulintroductiv,alecelormaifrecvente metode incluse n domeniul statisticii multivariate. Se vor discuta n acest curs: analiza dispersionala ANOVA/MANOVA, analiza regresional multipl, analiza covarianei, analiza n componente principale, analiza corespondenelor, probleme de clasificare. Cursul conine, din dorina de a se autosusine, o prim parte introductiv n care sunt reamintite noiunileelementaredestatistic.Aceastpartepoatefiomisdectrecititoriiavizai,dei, chiar i pentru acetia, are utilitatea obinuirii cu limbajul i noiunile necesare celorlalte seciuni ale lucrrii. Fiecare capitol conine o scurt prezentare a comenzilor disponibile n Excel i/sau SPSS i care permit realizarea prelucrrilor efective de date statistice.Se recomand cititorului s consulte i site-ul cursului,http://thor.info.uaic.ro/~val/stamult.html, unde exist legturi ctre documente ajuttoare. Noiuni recapitulative Ce este statistica? Statisticaesteuncorpdemetodeutilizatepentruaaduna,adescrie iaanalizadatenumerice. Statisticaseconcentreazpereprezentrilenumericealediferiteloraspectealerealitii,adic asupra a ceea ce poate fi numrat, msurat sau cuantificat. Nu toate aspectele unei realiti care sestudiazaucaracternumeric;nacestesituaii,posibilitateadeutilizareauneicodificri numericepermiteuneleprelucrristatistice.Programeleinformaticededicateprelucrrilor statistice necesit, uneori, codificri numerice pentru aspectele nenumerice studiate. Metodelestatisticiipotfimpritendoucategorii:statisticadescriptivistatistica inferenial.Clasificareaestemaimultteoretic;npractic,acesteaspectesentreptrundn majoritatea analizelor statistice. Terminologie populaie statistic = mulimea elementelor studiate,eantion = submulime a unei populaii statistice,variabile = fiecare faet a realitii, fiecare atribut al unui element din populaia statistic,distribuia (valorilor) unei variabile = mulimea tuturor valorilor (nu neaprat distincte). Statisticadescriptivconstnexactceeacespunenumele:suntmetodededescriere. Necesitateadescrieriiuneivariabileesteimpusdevariaiavalorilorvariabilei.ntr-olume constant nu este nevoie de statistic. Descriereaeste,deregul,subformnumeric.Pentruaconstituiinformaieutilizabil, descriereatrebuiesfiesuccint.Deaiciapariiarezumatelorstatistice(statistici)cumarfi media, dispersia etc.Oricedescrierenecesitcheltuieliidinacestmotiv,caidinaltele,dateleprelucratesunt valoroase i trebuie s fie tratate ca atare. Orice descriere este afectat de erori. Statisticainferenialconstntehnicileprincaresepotdeduce(infera)caracteristicileunei populaiidinobservaiileefectuateasupraunuieantiondinaceapopulaie.Tehnicilestatisticii inferenialesuntimpusedefaptulc,nmareamajoritateacazurilor,estedeinteresdescrierea populaieiinuaeantionuluiobservat.Generalizarealanivelulpopulaieiaunuirezultat propriu unui eantion este, de multe ori, implicit: n formularea n urma unui studiu pe 1000 de persoane s-a observat c 52% beau ap plat este evident c rezultatul este comunicat ca fiind ataat populaiei i nucelor 1000 de persoane studiate. Analogpentru sondajul din data de arat c 38% dintre alegtori vor vota cu . n schimb, formularea La alegerile din 33% dintre voturi au fost pentru se refer evident la ceea ce s-a ntmplat, la eantionul celor care au mers la vot,, fiind o simpl comunicare descriptiv.Atuncicndsuntimplicateeantioaneipopulaiitrebuiessepstrezedistinciadintre rezumatelestatisticedelaniveluleantionuluiiceledelanivelulpopulaiei,maialesc formuleledecalculsuntsimilare(pnlaidentitate).Descrierilenumerice(rezumatele statistice)delanivelulpopulaieisuntparametriipopulaiei:mediapopulaiei,abaterea standardapopulaieietc.Descrierilenumerice(rezumatelestatistice)delaniveluleantionului sunt denumite statistici. Incadrulinfereneistatistice,statisticilesuntestimaii(aproximri)aleparametrilor.De menionat c termenul aproximare nu are nuan de minimalizare, cel puin att timp ct nsi descrierea este aproximativ. 12Introducere n statistica multivariat Calitatea informaiei Valoarea unei informaii poate fi privit ca valoare istoric, valoare de comparaie, valoare de prognoz (predictiv). Ordineaprecizatlapunctulanteriorfixeazascendentigraduldecomplexitate,deutilitatea informaiei.Prelucrrilestatistice sunt necesaretocmai pentru a obine informaii cu valorimai mari, pentru a trece de la valoarea istoric la valoarea de comparaie sau, n final, la valoarea de predicie. Valoareaistoricestedatdeataarealaunanumitmomentistoric.Deregul,oricerezultat statistic are aceast valoare, chiar dac se accept uzual unele compromisuri: n 1959 populaia era de 16,1 milioane iar n 1960 era de 16,11 milioane; imaginai-v c studiul din 1959 a fost n decembrie, cel din 1960 n ianuarie Valoarea de comparaie este conferit de posibilitatea de a utiliza o anumit informaie pentru a compara situaii diferite: momente de timp, locuri etc. De exemplu, dac n Iai sunt 15300 de absolvenidenvmntsuperioriarnPacanisunt1650,celedounumeresepotcompara doar mecanic, fr a obine nimic nou: cum populaiile celor dou orae sunt diferite ca numr, acelailucrutrebuiessentmpleicunumrulabsolvenilor.Dacinformaiaestedatsub forma:nIai,12,5%dintrelocuitorisuntabsolvenidenvmntsuperioriarnPacani 12,2%, atunci informaia are putere de comparaie. Valoarea de prognoz (predictiv) este conferit de posibilitatea utilizrii informaiei pentru a prevedeacomportriviitoare.Deexemplu,dacsetiecnIaisunt400demiidelocuitori, aceast informaie nu poate oferi indicii despre numrul de locuitori depeste5ani.Dacsecunoatetabelulurmtor,putereade prognozestemritprinaceeacsepoatestudiaritmulde cretere, sensul modificrii etc. Variabile O variabil reprezint o caracteristic, un atribut al elementelor din populaia statistic studiat: dacsestudiazocolectivitateuman,nlimea,greutatea,aniidestudiu,culoareaochilor, averea, vrsta etc. reprezint variabile posibile. Dinpunctdevederematematic,putemconsiderac,fixatunatribut,existofunciecare ataeazfiecruielementdinpopulaievaloareapecareoareatributulpentruelementul respectiv. Aceast funcie este, n statistic, variabila avnd numele atributului considerat. Reamintimcexistenastatisticiisedatoreazfaptuluicvariabilelenusuntconstante,ciauo variaie (de origine cunoscut, sau nu) a valorilor. Variabilitatea valorilor se datoreaz unor surse cepotficlasificatenprevizibile(sistematice)iimprevizibile(ntmpltoare,fortuite). Clasificareaesterealizatdinpunctuldevederealcercettorului:caracterul previzibil/imprevizibil nu este un dat, ci este relativ la cercetarea efectuat. Metodelestatisticevorcuta,deregul,sstabileasc,celpuinrelativ,importanasurselorde variaie previzibile n explicarea variabilitii valorilor unei variabile. Este de menionat i faptul cdacsursavariaiilorimprevizibileestefoarteputernic,atunciestepracticimposibilsse poat evalua corect ponderea variaiilor previzibile. Valorile unei variabile se obin prin utilizarea unui instrument de msur pentru toate elementele studiate (observate). Un asemenea instrument va fi numit n continuare scal de msur. O scal de msur trebuie s fierobust msurtori repetate ale aceluiai element produc acelai rezultat, AnulLocuitori (mii) 196029019803402000390Noiuni recapitulative13 corect (valid) scala produce evaluarea dorit, exhaustiv scala poate evalua toate elementele int, mutual exclusiv un element poate produce un singur rezultat. S-au dezvoltat trei tipuri principale de scale: nominal, ordinal, de intervale.Alegereaunuitipdescalpentrudeterminareavaloriloruneivariabilefixeazapriori prelucrrile posibile. Nici o tratare statistic nu poate aduga numerelor (valori ale variabilelor) proprietipecareexperimentatorulnule-adatprinoperaiademsurare.Intretipurile enumerateexistordineadelasimplu(scalenominale)lacomplex(scaledeintervale).O variabilarecaracterulscaleidemsurutilizate:variabilanominal,variabilordinal, variabildeinterval.Prindatenominale,dateordinalesaudatedeintervalsevanelege mulimea valorilor unei variabile de tipul specificat. Variabile nominale O scal nominal (calitativ, categorial) este format din categorii pentru clasificarea obiectelor sau evenimentelor pe baza unei caliti (atribut). Pentru a construi o scal nominal este suficient ssepoatrepartizaobservaiileposibilentr-unnumrdeclase,ansamblulacestorclase constituiegradaiilescaleinominaleastfeldefinite.Intregradaiilescaleinuexistordine; enumerarea categoriilor scalei este arbitrar. Este de menionat c fixarea criteriilor de clasificare este subiectiv; criterii mai fine produc mai multe categorii cu riscul de a introduce criterii colaterale, strine inteniei iniiale. Prezentarea datelor nominale se efectueaz sub forma tabelului urmtor: Categoria (clasa)Frecvena absolutFrecvena relativ c1 f1 r1 = f1/n c2 f2 r2 = f2/n cm fm rm = fm/n Totaln= fi 1 Estederemarcatcfrecvenelerelativesuntutilepentruacomparaodistribuiecualta; compararea frecvenelor absolute este posibil doar n cazul cnd aceluiai numr de observaii. De regul, frecvenele relative se exprim procentual se raporteaz cu o zecimal (cel mult dou) mai mult dect msurtorile brute se utilizeaz doar pentru n 50, dei literatura cunoate i alte situaii Pentru n < 50 seconsider comicmodificarea lui nproducemodificripreamari ale procentajelor. Exprimareasubformdeprocentajesteimportantdeoareceasiguropercepiemaibuna ordinului de mrime ( a se compara 0.05 cu 0.12 i 5% cu 12%).Rezumatele statistice pentru date nominaleValoareamod=categoriacufrecvenamaxim.Esteindicatorulstatisticdetendincentral (de localizare) a distribuiei. Indiceledevariaiecalitativ(IQV),carearatprocentualctdinvariaiamaximeste prezent n distribuia observat. Este indicatorul statistic de mprtiere a distribuiei. Calculul indicatorului IQV Se consider distribuia cu gradul de mprtiere maxim, avnd efectivele claselor ct mai egale. Pentru distribuia observat i pentru cea cu mprtierea maxim se calculeaz valoarea14Introducere n statistica multivariat >==ki jj ij if f1 ,varFormula de calcul pentru IQV este (%)maxima varobservata var= IQVReprezentrile grafice adecvate pentru datele nominale sunt (n variante 2D sau 3D) diagramele cu bare (bar chart) diagramele de structur (pie chart, doughnut chart) Se remarc faptul c nu se introduce explicit ordinea ntre categoriile reprezentate. Dintrevariabilelenominalesedistingvariabileledihotomice.Acesteaaudoardouvalori posibile:adevrat/fals,prezent/absent,brbat/femeieetc.Dacvalorilesuntcodificateprin0i 1,atuncicuacestecodurisepotefectuacalcule:deexemplu,sumacoduriloraratfrecvena categorieicodificatecu1.Asemeneacalculenusuntposibilepentruovariabilnominal general. Utilitateavariabilelornominalentr-ocercetarestatisticestedatdefaptulcdetermin,prin categoriile lor, grupuri de elemente, subpopulaii. Existena unor subpopulaii, determinate de o variabilnominal,constituieosurssistematicdevariaie,carepoatefiverificat.De exemplu, dac un studiu privind rezultatele la nvtur consider drept variabil mediul (rural, urbanetc.),nseamncacestaeste,nviziuneacercettorului,osursdevariaieavalorilor; ipoteza se poate, sau nu, verifica.Variabile ordinale Oscalordinal(deranguri)esteformatdincategoriiordonatepentruclasificareaobiectelor sau evenimentelor pe baza unei caliti (atribut). Pentru a construi o scal ordinal este suficient ssepoatdefiniorelaiedeordinentreobservaii.Claseleformatedinobservaiiegalevor constitui gradaiile scalei ordinale.Intregradaiilescaleinuexistdistan;enumerareacategoriilorscaleiestefixatdeordine. Relaiadeordineestedemulteorisubiectiv,corespunzndlaceeacenviaarealestemai bun,maimare,maifrumosetc.Sepoatespunecoscalordinalesteutilizatpentru clasarea observaiilor, fr pretenia de a indica precis cantitatea prezent de caracteristic. Prezentarea datelor ordinale se efectueaz sub forma tabelului urmtor: Categoria (clasa) Frecvena absolutFrecvena relativ Frecvena absolut cumulat Frecvena relativ cumulat c1 f1 r1 = f1/nf1 r1 c2 f2 r2 = f2/nf1 + f2 r1 + r2 cm fm rm = fm/nf1 ++ fm r1 ++ rm Totaln= fi 1 Noiuni recapitulative15 Scalaordinalestemaicomplexdectscalanominal;prelucrrileposibilesuntmai numeroase. Rezumatele statistice definite la datele nominale se pot calcula i aici: valoarea mod, IQV.Datoritfaptuluicobservaiilesuntordonate,sedefinescnoirezumatestatistice: mediana, quantile. In calculul quantilelor, definiia nu se poate aplica cu strictee, totui, dect n cazul datelor de interval. Medianaesteprimacategorieascaleicaredepetejumtatedintreelemente (observaii). Mediana este utilizat ca indicator de tendin central. Quantila de ordin p este acea categorie a scalei care depete o proporie p, p < 1, de elemente (observaii). Mediana este deci quantila de ordin 0.5. Pentru facilitarea interpretrii se exprim uneori proporiile sub form procentual, deci se poate vorbi de quantila de (ordin) 15%, sau quantila de (ordin) 75% etc. Prin faptul c definesc jaloane sub care se gsesc proporii ale numrului de observaii, quantilele ofer o imagine a gradului de mprtiere a observaiilor i sunt utilizate adesea pentru a fixa poziia uneiobservaii n raport cu mediana distribuiei.Sistemeledequantile(quartile,decile,centile)suntutilizatepentruapreciereamprtieriii pentrucomparareaunorvalorideterminatepescaleordinalediferite.Deexemplu,sistemul determinatdequantileledeordine1/4,2/4=1/2,3/4realizeaz(teoretic)omprirea observaiilornpatrupriegale.Acestequantilesenumescquartileisuntnotate,celmai adesea, prin Q1, Q2 i, respectiv, Q3.Doar pentru o repartiie uniform, quartilele sunt egal deprtate (ca numr de categorii) ntre ele.Reprezentrile grafice trebuie s reflecte att ordinea, ct i caracterul discret al scalei ordinale. Diagramacucoloaneesteceamaiadecvat,reprezentareafiindpentrufrecveneabsolute, relative sau cumulate. Formareprezentriifrecvenelornecumulateseapreciazdupaplatizareisimetrie,cuefect asupra calitii unei prognoze. Variabilele ordinale sunt utile pentru c: ordonareaobservaiilor,pelnginteresulnsine,permiteprelucrrimai complexe; caracterul discret al scalei ordinale definete subpopulaii care pot fi comparate n scopul de a verifica o surs sistematic de variaie.Este de remarcat i faptul c reprezentrile grafice ale datelor ordinale aumaimult informaie caresetransmitereceptorului.Cazulcelmaifrecventdeutilizareauneivariabileordinaleeste celalntrebrilordinsondajedeopiniecurspunsdegenul:foartemult,mult,indiferentetc. Deci ntrebrile care cer o ierarhizare. Notele colare sunt, n esena lor, categorii ale unei scale ordinale: 8 la matematic nu este acelai lucru cu 8 la francez etc.Variabile de interval Oscaldeintervalesecaracterizeazprinaceeacntrecategoriileordonatealescaleieste definit o distan. Se poate gndi c o asemenea scal de msur este construit prin alturarea deintervaleegale,asemeneauneirigle.Ounitateascaleireprezintoaceeaicantitatede caracteristic msurat, indiferent de poziia pe scal. 16Introducere n statistica multivariat La o scal de intervale nu exist un punct zero adevrat. De exemplu, scala timpului este scal de intervale. O scal de intervale cu un punct de zero real este denumit scal de rapoarte. Pe aceastscalvaloarea2xestededouorimaimaredectvaloareax(sprecomparaie,cineva care are nota 6 nu tie de dou ori mai mult dect cineva cu nota 3). Scalele de interval sunt scale continue, spre deosebire de scalele nominale i ordinale, care sunt scalediscrete.Dateledeinterval(continue)suntcelemaicomplexe imajoritateaprelucrrilor statisticesuntdezvoltatepentruacestedate.Sepoateobserva,dealtfel,cexisttendinade multiplicareacategoriiloruneiscaleordinale,tocmaipentruaoputeaconsiderascalde intervale (a se vedea sistemul de notare din nvmnt). Datele de interval se prezint: sub form brut = deoarece se msoar cantitatea exact de caracteristic prezent (n anumite limite discutate anterior), observaiile pot fi foarte diferite ntre ele i nu doar n limitele unuinumr finitdecategoriideclasificare;este foarte dificil s se transmit sau s se obin informaii din mulimea prezentat. subformordonatidefrecvene=valorilesuntordonateiseraporteaz frecvenele;estemaiuorsseperceaprepartiiavalorilorisaparvalorile minime, maxime; sub form de date grupate. Moduldeprezentareareimportanattlacalcululstatisticilor(suntformulediferitedup modul de prezentare disponibil), ct i n procesul de comunicare a rezultatelor. Pentrugrupareadatelorsedefinescintervaledegrupareiseraporteazvalorilesubformade frecvene. Se obine astfel un tabel de forma urmtoare. Trebuieavutnvederecs-apierdutopartedininformaiainiial (deexemplu,dintabelnurezultexactcaresuntcele8valoridin primulinterval:maiaproapede160,de170,de179etc.).Aceast pierderesejustifictotuiprinavantajuloferitdesimplificare,cai prinaceeacaceastuniformizareadatelor(ncadrulfiecrui interval)poatesreduc(scompenseze)uneleeroriposibilen cadrul operaiunii tehnice de msurare.Deoarecegrupareadateloresteimpusdenecesitateadeconcentrareainformaiei,artrebuica numrulintervalelorsfiemic.Deoarecepringruparesepierdeinformaie(nusemaitie valoarea exact observat), ar trebui ca numrul intervalelor s fie mare. Din aceast contradicie acriteriilorrezultcnuexistunnumrteoreticoptimdeintervale.Suntpropusediverse formule,calitatealorprincipalfiinddoaraceeadeuniformizare.Oformulacceptatde majoritatea statisticienilor este relaia empiric a lui Sturges: N k10log 332 , 3 1+ =undek este numrul de intervale, N este numrul de observaii (volumul eantionului). n tehnica gruprii se recomand respectarea anumitor principii: numerele prin care se exprim intervalele s fie pe ct posibil rotunde (sociologic acceptabile); numrul de intervale s fie suficient de mare n scopul de a furniza informaii ct mai analitice; intervalele trebuie s permit regruparea datelor sau separarea lor; frecvenelemicitrebuiesfieevitate,acesteaavndosemnificaiestatistic redus. Deobiceisealegeunnumrimpardeclasepentruoseriedeavantaje(deexemplusepoate observa mai bine simetria distribuiei, exist o clas central etc.). Din punct de vedere teoretic nu exist ns restricii cu privire la alegerea unui numr par de intervale de grupare.IntervalFrecvena 160-1798 180-19914 200-21920 220-23932 240-25956 Noiuni recapitulative17 Prin gruparea datelor i considerarea frecvenelor de interval,valorile individuale sunt mascate i cea mai bun aproximare a lor este oferit, pe baza principiului erorii minime, de centrul clasei la care aparin, valoare care va apare n formulele de calcul pentru rezumatele statistice.Prezentareagraficadatelorcontinuearelocdupgruparealor.Suntutilizate,pentrudate simple sau cumulate: histograma, poligonul frecvenelor. Rezumate statistice de tendin central Valoarea mod, Mediana, Media aritmetic Dintre indicatorii statistici de tendin central este prezentat doar media aritmetic.Cea mai utilizat valoare rezumativ pentru caracterizarea tendinei centrale a datelor este media aritmetic, calculat dup formula uzual nx x xxn+ + +=K2 1 undenestenumruldeobservaiiiarx1,x2,,xnreprezintseriadevaloriobservate.Formula aceasta poate fiaplicat doar n cazul datelor negrupate pe intervale (doar atunciavem valorile individuale observate). n cazul datelor grupate, fiecare valoare este aproximat prin centrul intervalului la care aparine i prin urmare formula devine nc f c f c ff f fc f c f c fxk kkk k+ + +=+ + ++ + +=KKK2 2 1 12 12 2 1 1 undekestenumruldeintervaledegrupare,f noteazfrecvenele,cnoteazcentrele intervaleloriarnestenumruldeobservaii.Formulaestemediaponderatacentrelor intervalelor, ponderile fiindfrecvenele intervalelor. Media aritmetic este punctul de echilibru al distribuiei, n sensul c suma abaterile de la medie pentruobservaiilemaimicidectmediaesteegalcusumaabateriledelamediepentru observaiile mai mari dect media. Acest rezultat se exprim matematic prin . 0 ) ( ) ( ) ( ) (3 2 1= + + + + x x x x x x x xnKSe mai spune c media aritmetic joac rolul de centru de greutate a datelor. Din punct de vedere variaional, media aritmetic realizeaz minimul expresiei 2 2221) ( ) ( ) ( ) ( z x z x z x z En + + + = KadicEesteminimpentrux z = .Aceastrelaieexprimifaptulcmediaaritmeticeste estimaia prin cele mai mici ptrate a valorii centrale a unei distribuii unidimensionale. 18Introducere n statistica multivariat Indicatori de msur ai mprtierii Amplitudinea (domeniul datelor) Estedefinitcadiferenadintrevaloareamaximiceaminimrezultndintervalulde variaieavalorilorobservate.Indicatorultindessupraestimezeintervaluldevariaie deoareceprinmrireavolumuluieantionuluicreteansadeaobservaoamplitudine maimare.Faptulcamplitudineaesteobinutdoardinvalorileextremeesteunalt argument n favoarea interpretrii cu precauie a indicatorului. Quantile Noiunea de quantil se pstreaz de la datele ordinale. Quantila de ordin p a unei liste de valorinumerice(0 = < = x tx) (t unde i sunt parametrii funciei de repartiieFuncia de repartiie normal se va nota prin N(; 2) iar faptul c v.a. X este repartizat normal cu parametrii i se noteaz X ~ N(; 2). Se demonstreaz c parametrii repartiiei au semnificaia unor valori tipice i anume M(X) = Me(X) = Mo(X) = D2(X) = 2 motivpentrucaresepoatevorbiderepartiia normalcumediaidispersia2,ceeace determin complet repartiia. Graficulfuncieidensitatedeprobabilitatefse numetecurbanormal,sauclopotulluiGauss. Pentru parametrii 3/2 i 1 se obine graficul alturat. RepartiianormalN(0,1)senumeterepartiia normalredus,saurepartiianormalnormat,sau repartiianormalstandard.Ov.a.repartizatN(0;1)estenotat,nmoduzual,cuZieste referit drept variabil Z, variabil normal redus etc. Orice variabil repartizat normal poate fi transformat ntr-o v.a. repartizat N(0;1) prin transformarea (de normare, de standardizare) =XZ. Valorile densitii de probabilitate, f(z), sunt tabelate n crile de statistic i sunt accesibile n oriceprogramdecalculatordedicatprelucrrilorstatisitce.PrinintermediultransformriiZse potastfelcalculadiferitelevalorialeoricreidensitideprobabilitatenormale,indiferentde parametrii ei. Notnd cu z quantila de ordin a repartiiei N(0,1), reamintim c = F(z) = P(Z < z) naplicaiisuntutileurmtoarelerelaiipentruovariabilaaleatoareXoarecare,repartizat normal, N(,2): calculul probabilitii pentru o v.a. X oarecare,. unde ), F( ) P(Z ) P(X ) F( = =< = < =xz zxx x calculul probabilitii ca o v.a. X s ia valori ntre dou valori date ) F( ) F( ) P(X ) P(X ) X P(1 2 1 2 2 1z z x x x x = < < = < = + >= < = 2 are un punct demaxim n punctul de abscis x = 2. Repartiia Student (t) Repartiia Student este utilizat n testarea ipotezelor statistice i a aprut datorit necesitii de a compensalipsadeinformaie,privindatributeleuneipopulaiistatistice,prinacceptareaunor probabilitimaimarideeroare(asevedeaprezentareatestelorstatistice).RepartiiaStudent (denumit i repartiia t) depinde de un singur parametru, numit numrul gradelor de libertate i notat cu . Se noteaz S() sau t. Repartiia este simetric fa de 0 i se observ c, spre deosebire de repartiia normal, valorile extreme au probabiliti mai mari de realizare (ariile de sub grafic sunt mai mari) Noiuni recapitulative25 Dintre rezultatele importante care privesc repartiia t menionm: DacXesterepartizatnormalstandard,X~N(0;1),iarYesterepartizat2 cu grade de libertate, Y ~ 2, atunci v.a. Z obinut prin YXYXZ= = este repartizat Student cu grade de libertate. Indicatorii statistici principali ai unei v.a. t ~ t sunt . 2 pentru,2) (0 ) (2>== t Dt M Dac > 30, atunci D2(t) devine aproximativ egal cu 1 iar densitatea de probabilitate se apropie foarte mult de aceea a unei v.a. normale reduse. Acest fapt permite ca, pentru aplicaiile practice, repartiia Student cu mai mult de 30 de grade de libertate s fie aproximat cu o repartiie N(0;1). Quantilele distribuiei se noteaz cu t;.Repartiia Fisher-Snedecor (F) Repartiia F este introdus ca o repartiie util n testarea ipotezelor statistice privind compararea a dou dispersii.Repartiia F depinde de doi parametri,1 i 2, ambiiavnd semnificaia unor grade de libertate. Notaia uzual este F(1, 2) sau F1; 2. Dac repartiia se refer la o variabil aleatoare care se obine drept ctul altor dou v.a.,atunci 1 este numrul gradelor de libertate pentru numrtor i 2 este numrul gradelor de libertate pentru numitor. Dintre rezultatele importante legate de repartiia F menionm teorema, luat uneori ca definiie pentru o v.a. repartizat FisherSnedecor: Dac Y1 i Y2 sunt dou variabile aleatoare independente repartizate 2, cu 1 i, respectiv, 2 grade de libertate, atunci v.a. X definit prin 1 22 12211YYYYX= = are o repartiie F cu 1 i 2 grade de libertate. FormarepartiieiFdepindedevalorileparametrilor,oimagineorientativestedatnfigura urmtoare. 26Introducere n statistica multivariat QuantilelerepartiieiF,notateF;1;2,sunttabelatepentrudiferitevaloriuzualealeluii diferite grade de libertate. Repartiia F nu este simetric, ntre quantile exist relaia .F1F2 12 1; ;; ; 1 = Inferena statistic Prininferennelegem,potrivitdefiniieidedicionar,operaiuneaintelectualprincarese trece de la un enun la altul, acceptarea adevrului ultimului enun bazndu-se pe legtura logic cu enunurile anterioare, acceptate ca adevrate.Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de concluzii bazate pe oevidenstatistic,adicpeinformaiiderivatedintr-uneantion.Concluziilesuntasupra caracteristicilor populaiei din care provine eantionul. Observaie.Dacesteinvestigatntreagapopulaie,atuncirezultatelecareseobinconstituie finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse n aceast seciune. Prineantion(sauselecie)vomnelegeosubmulimeapopulaieistatisticeconsiderate.O cercetarestatisticarentotdeaunacaobiectuneantionfinit.Deobicei,termenuldeeantion presupuneceantionulesteireprezentativ,adicinformaiaaferenteantionuluiesten concordancuinformaiacaracteristicpopulaieistatistice.Reprezentativitateaunuieantion depinde de modul de selectare a elementelor constitutive i nu exist, practic, instrumentul care s spun c un eantion este sau nu reprezentativ n absena informaiilor privind populaia. Ceea cesepoateface,nmodraional,estessealeagacelemetodedeconstituireaunuieantion care au anse mai mari s produc eantioane reprezentative. Operatiunea de formare a unui eantion se numete sondaj. Sondajele care au anse mai mari de a produce eantioane reprezentative sunt cele bazate pe proceduri de selecie aleatoare.In eantioane diferite, statisticile calculate au valori diferite. n acest fel se poate vorbi despre o distribuieavalorilorstatisticiinmulimeaeantioanelordeunacelaivolum;apareastfel distribuia de sondaj a statisticii respective.Inferena statistic implic trei distribuii asociate cu caracteristica studiat: distribuia populaiei; distribuia de sondaj; distribuia eantionului. Prindistribuiapopulaieisenelegedistribuiapecareoarecaracteristicastudiat(sauv.a. asociatei)npopulaie.Aceastdistribuienueste,ngeneral,cunoscut.Interesulunei cercetri este tocmai acela de a studia aceast distribuie.Prindistribuiaeantionuluisenelegedistribuiapecareoarecaracteristicastudiatn eantionuldisponibilnstudiu.Aceastdistribuieestecunoscutcomplet,ntructtoatedatele necesare sunt msurate. Prindistribuiadesondajauneistatisticisenelegedistribuiapecareoarestatistican mulimeatuturoreantioanelordevolumdat.Aceastdistribuienuestecunoscuticonine mai multe valori dect populaia de baz. Este ns remarcabil faptul c, din considerente teoretice, ntre distribuia populaiei i distribuia de sondaj exist legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate forma acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit). Inferena statistic urmeaz, n general, urmtorul algoritm: se obine, printr-un procedeu valid, un eantion; se calculeaz o valoare tipic a eantionului (o statistic de sondaj); Noiuni recapitulative27 dinconsiderenteteoretice,secunoaterepartiiadincareprovineaceastvaloaretipici relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de estimaie.Primeledouetape(sondajul,calculareastatisticii)potfiinterpretatecaicums-aextrasla ntmplare o valoare (valoareacalculat) dintr-o repartiie cunoscut cel puin parial (repartiia de sondaj a statisticii). Prin ultima etap se termin procesul prin care, plecnd de la un eantion, ajungem la afirmaii asupra parametrilor populaiei i la o evaluare a probabilitilor de apariie a erorilor.Estederemarcatfaptulcnusetiedacexistsaunuerori,darsepotevalua probabilitile de apariie ale diverselor erori. Seconsider,pentruexemplificareaprocesuluideinferenstatistic,cazulmedieiaritmetice. FieopopulaiestatisticiocaracteristiccontinuXcuparametriiM(X)=iD2(X)=2. RepartiiavariabileiXestenecunoscut(decinusuntcunoscute, ,formadistribuieisau numai unele dintre aceste atribute). Din populaia respectiv se extrage un eantion de volum n, fie acesta x1, x2, , xn, i se calculeaz media aritmeticx . Este evident c se dorete ca aceast valoare s fie utilizat drept estimaie a mediei populaiei, .Repartiia de sondaj a mediei este caracterizat de. ) D(, ) ( D, ) M(22nxnx x = = = Forma repartiiei de sondaj a mediei este determinat de rezultatele: dac X esterepartizat normal,atuncimedia de sondaj este repartizat deasemenea normal,cuparametriiprecizaimaisus,indiferentdevolumuleantionului (demonstraie imediat) dac nu se cunoate repartiia lui X, atunci teorema limit central afirm c repartiia desondajamedieidevinenormallalimit,pentruvolumfoartemareal eantionului.Practic, se poate accepta o repartiie N(;2/n)pentru n > 10 dac repartiia lui X este aproape simetric, saupentru n > 30 pentru repartiii cu asimetrie pronunat sau necunoscut. Astfel,obinereavaloriimediix esteechivalentcuaextragelantmplareovaloaredintr-o repartiienormal,deciprobabilitilepotficalculateutilizndrepartiianormal.Deoarecese tie c o valoare, extras la ntmplare, dintr-o repartiie normal, are ans cu att mai mare s fie apropiat de medie cu ct dispersia este mai mic, rezult c media calculat este cu att mai aproape de cu ct dispersia ei, 2/n, este mai mic.Se observ astfel c pentru o populaie cu o variabilitate mare este necesar s efectum studii pe eantioane mai mari (n mai mare produce micorarea dispersiei de sondaj a mediei) dect pentru populaii cu variabilitate mai mic. Utiliznd repartiia normal, se pot atunci calcula probabilitile cu care pot aprea diverse erori, ajungndu-se la aseriuni probabiliste de genul: 683 . 0 ) | (| = < x Padicexistoprobabilitatede68.3%camediadesondajsdiferedemediapopulaieicumai puindeoabaterestandard(eroareadeestimaieestemaimicdeoabaterestandardcuo probabilitate de 68.3%).Estimaii Senumeteestimatororiceentitateacreivaloarepoatefiutilizatdreptvaloare(deregul aproximativ) pentru o alt entitate. Valoarea estimatorului se zice c este o estimaie. Avnd ca suport situaia n care informaia dintr-un eantion este utilizat pentru a obine informaii asupra unei populaii,este evident c estimatorii utilizai n statistic sunt valorile tipice de sondaj (cele calculate n eantion).28Introducere n statistica multivariat Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a unui parametru al populaiei poart denumirea de estimaie statistic.Astfel,mediaaritmeticesteestimatorpentrumediapopulaiei,abatereastandardseste estimator pentru abaterea standard a populaiei etc.Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii: punctuale sub form de interval. Ambelecategoriideestimaiisenscriupeliniaextinderiisimuluicomunprinraionamentul statistic.Astfelnviaacurentsentlnescdoumodurideprecizarenumericauneisituaii: indicareauneivalori(afarsunt5grade),sauindicareaunuiinterval(afarsuntntre3i6 grade). Printr-oestimaiepunctualsenelegevaloareaunuiestimatorcalculatntr-uneantion. Numim eroare de estimare valoarea absolut a diferenei dintre estimaia punctual i valoarea parametrului.Deoarecenusecunoatevaloareaparametruluiestepracticimposibilsse calculeze eroarea de estimare. Pentru estimatori particulari se pot obine judeci probabiliste pe baza repartiiei de sondaj (a se vedea exemplul de la medie).Deoarece aprecierea erorilor de estimare posibile, n cazul estimaiile punctuale, este suficient de laborioas,s-ancercatdezvoltareauneimetode,carespunaccentulpeprobabilitilede apariie ale erorilor. Aceast metod generic este metoda determinrii intervalelor de ncredere, saumetodadeestimaresubformdeinterval.Fieopopulaiestatistic,caracterizatdeov.a. continu X a crei repartiie depinde de un parametru , necunoscut. Problema este ca, pornind deladateledesondajaleunuieantiondevolumn,ssedeterminedoulimitentrecare valoarea parametrului s se afle cu o probabilitate fixat. Adic s se determine dou statistici, 1 i 2, astfel nctp = < < ) P(2 1 , undepesteoprobabilitateindependentde parametrul . Prin definiie, dac se pot determina 1 i 2 astfel nct pentru o valoare prestabilit (0 < < 1) s aib loc = < < 1 ) P(2 1, atunciintervalul(1,2)senumeteintervalde ncredere pentru parametrul necunoscut cu un coeficient (sau nivel) de ncredere egal cu , sau cu o siguran statistic S = 1.Valoarea se numetenivel(sau prag) de semnificaie.Utilizareatermenului semnificaieeste explicat n seciunea dedicat testelor statistice. Dinpunctuldevederealestimrii,eroareadeestimareesteegal,celmult,cujumtatea intervalului de ncredere. Este de dorit astfel ca intervalul de ncredere s aib o lungime ct mai mic pentru ca estimarea s fie mai precis. Dac valoarea parametrului este fixat, o dat cu populaia, limitele intervalului de ncredere depind de eantionul ales, deci sunt limite aleatorii. Sevasubnelegeatuncicnuputemaveacertitudineacvaloareaparametruluiesten intervaluldeterminat.Raionamentulcorectesteacelacdacserepetprocedeulpentru eantioanediferite,atunci100(1)%dintreintervaleledeterminatevorconinevaloarea necunoscut a parametrului (evident c nu se va ti care sunt acele intervale).Apareatuncinecesitateacasfiectmaimic,darodatcumicorarealuisemrete lungimeaintervalului,decieroriledeestimaresuntmaimari.Uzualsealege=0,05sau= 0,01.Dac att 1 ct i 2 sunt finite, atunci intervalul de ncredere se zice bilateral. n cazul cnd 1 este -, sau 2 este +, ceeace revine n fapt la determinarea unei singure limite, intervalul se zice unilateral.Relaia dintre nivelul de ncredere i lungimea intervalului este evident chiar la nivelul simului comun. O afirmaie de genul afar sunt ntre 10 i 20 de grade are ansemaimari s fiemai apropiatdeadevr(sfiemaicredibil,sprezintemaimultncredere)dectoafirmaiede Noiuni recapitulative29 genul afar sunt ntre 14 i 16 grade. A doua afirmaie, dac este adevrat, este mai precis. Precizia i ncrederea sunt dou noiuni oarecum contrare i compromisul ntre ele conduce la o stare acceptabil statistic.Intervale de ncredere pentru valoarea medie Fieopopulaiestatisticcaracterizatdeov.a.Xrepartizatnormal,cuparametriii2. Presupunemcs-auobinut,dintr-uneantiondevolumn,mediadesondajx idispersiade sondajs2.Fixmpraguldesemnificatie.Limiteleunuiintervaldencrederedepindattde eantion, ct i de cunoasterea, sau nu, a dispersiei populaiei. Dac dispersia, 2 este cunoscut, intervalul de ncredere pentru media populaiei: ,2121 + < < znx znx Dac dispersia, 2, nu este cunoscut 2; /1 ; 2 / 1 + < < tnsx tnsx Intervale de ncredere pentru dispersie Fieopopulaienormal,sauaproximativnormal,cuparametriii2necunoscui.Se demonstreazcintervaluldencrederebilateralpentrudispersiapopulaiei,cuncrederea statistic de 1, este dat de,) 1 ( ) 1 (2; 2 /222; 2 / 12 s n s n < < unde n estevolumul eantionului,2 este dispersia de sondaj,iar ; 2 / i ; 2 / 1 sunt quantilele de ordin /2, respectiv 1- /2,ale repartiiei 2 cu = n1 grade de libertate. Testarea ipotezelor statistice Fr a ncerca o generalizare neadevrat, se poate accepta ideea c, n cele mai multe prelucrri statistice, datele sunt obinute i prelucrate pentru a verifica ipoteze ale cercettorilor. Deci, ca o prim imagine a subiectului, trebuie reinut secvena: 1.formularea unei ipoteze; 2.obinerea de date experimentale; 3.verificarea ipotezei pe baza acestor date. Analiza secvenei anterioare arat c problematica se nscrie tot n inferena statistic, deoarece1.ipotezele trebuie s priveasc populaiile statistice,2.datele experimentale presupun eantioane reprezentative, 3.verificarea trebuie s conduc la afirmaii privitoare la populaii. Prinipotez,dicionareledefinescuzualopresupunere,explicaieprovizorie,enunatpebaza unorfaptecunoscute,cuprivirelaesena,cauza,legea,mecanismulinternalunuifenomeni care este supus verificrii sau demonstrrii. Se va utiliza ipotez statistic deoarece verificarea sefacepebazaevideneistatistice,decipebazainformaiilorobinute,ngeneral,din eantioane. Datoriteducaiei(ngeneral)deterministe,neateptmcatestarea,verificareauneiipotezes fieoprocedurriguroasnsensulc,nfinal,putemspunecipotezaestefalssauceste adevrat.Inrealitate,dinmotivemetodologicevalide,procesulverificriiestemaicomplicat. El este bazat pe criteriul falsificabilitii (Karl Popper) care afirm c n timp ce este posibil s determinm cnd o ipotez este fals, este mult mai dificil, dac nu imposibil, s demonstrm c 30Introducere n statistica multivariat o ipotez este adevrat. Dac evidena empiric, a datelor, este contrar ipotezei, atunci ipoteza estefals(ipotezapoatefirespins).Dacevidenacoincidecuipoteza,nurezultnmod necesar c ipoteza este adevrat. n acest caz, singurul lucru rezonabil care se poate afirma este acela c evidena disponibil nu a artat falsitatea ipotezei (ipoteza nu poate fi respins). Vom considera semnificativ un eveniment care contrazice ipoteza de plecare. Sensul se apropie desensulcurentprinaceeacfalsificndipotezadeporniresepermiteacceptareauneialte ipoteze, n acest fel dezvoltndu-se procesul general de cunoatere a realitii. Raionamentul general Acceptm ca un dat urmtorul enun: In lumea real au loc evenimentele cu probabiliti mari de realizare. Comentariu: Nu nseamn c se neag apariia evenimentelor cu probabiliti foarte mici, chiar nule, de realizare. Aseriunea se refer doar la faptul c ntreg comportamentul nostru estebazatpepreviziunicaresebazeazpeapariiaevenimentelorcuprobabilitisuficientde mari de realizare. Pornind de la aceast afirmaie se poate nsui mecanismul de realizare a unui test statisticurmrindschema dintabel (sincronizarea dintrecoloaneareloc prinaezarea peo aceeai linie). Lumea realStatistic Se formuleaz setul de ipoteze H0, H1 Are loc un evenimentSecalculeaz,dintr-uneantion,ostatistic(statistica testului). Secalculeaz,nipotezaH0,probabilitateapcde apariieavaloriicalculate(probabilitateacritica testului, p-value). Rezultcprobabilitatea derealizareeste suficient de mare Dac pc este mic, apare o contradicie,PentruarezolvacontradiciasevarespingeH0n favoareaipotezeiH1deoarecemotivulpentrucare probabilitatea critic este mic este faptul c la calculul acesteia s-a acceptat ipoteza H0. Dac pcestemare, nu se respinge H0, nu existnici un motiv pentru a lua decizia contrar.Rmneosingurntrebare:ncepnddeundeoprobabilitateesteconsideratdreptmic? Rspunsulnupoatefilsatlalatitudineafiecruiutilizator,fiecareavndcriteriidiferitede apreciere. Pentru a nu introduce subiectivismul n aceast decizie, se fixeaz, anterior deciziei n test,unpragsubcareoprobabilitateesteconsideratmic.Aceastvaloaresenumeteprag desemnificaieisenoteazuzualcu.Denumireaestejustificatprinfaptulcvaloarea desparteevenimentelesemnificative(careconduclarespingereaipotezeinule)decele nesemnificative (care nu permit respingerea ipotezei nule).Regula de decizie n test poate fi formulat atunci: dacpc ,atunciserespingeipotezanul,H0,nfavoareaipotezeialternative, H1; dac pc > , atunci nu se respinge ipoteza nul H0. De reinut exprimarea nu respingem H0 n loc de acceptm H0, ultima avnd mai mult sensul atribuiriivaloriideadevrluiH0,senscarenuestecorect.Sepoateutilizaiformularea tolermH0,carelaslocuneiurmedendoial,atitudinecorectnsensuldiscuieidepn acum. Noiuni recapitulative31 Numimregiunederespingere,pentruunniveldesemnificaiefixat,mulimearezultatelor (valorilorstatisticiitestului)careconduclarespingereaipotezeiH0.Dacsepotdefinilimitele numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului. Sintetizndideileexpusesepoatestabilicproceduradetestareauneiipotezestatistice(pe scurt un test statistic) const n: formularea unei ipoteze H0 i a unei ipoteze alternative H1; obinerea de date statistice; calculareauneistatisticidindateleexperimentale,statisticpentrucaresetie repartiia n ipoteza H0; decizia pe bazaoprobabilitii critice i a nivelului de semnificaie sau a oregiunii de respingere corespunztoare nivelului fixat. Testele pot fiparametrice=ipotezaH0estestrictlegatdeunparametrualpopulaiei,iar statistica testului are o repartiie cunoscut tocmai din aceast ipotez. neparametrice=repartiiastatisticiitestuluisecalculeazinurezultdin presupuneri apriorice asupra acestei distribuii i a probabilitilor ataate.Testele parametrice pot fi ( noteaz un parametru al populaiei): bilaterale (nedirecionale) H0: = 0 H1: 0 unilaterale (direcionale) H0: = 0 H1: < (sau >) 0 Un test statistic are, de multe ori, o denumire dat de repartiia statisticii testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2 reprezint un test a crui statistic are orepartiiedesondajdinclasa2.Cunoaterearepartiieistatisticiitestuluipermitecalcularea regiunilor de respingere sau a probabilitilor critice. Spre exemplificare, regiunile de respingere pentru un test normal sunt prezentate n figura urmtoare.: Avndnvederesemnificaiaquantilelorrepartiieinormalestandard,sepoateprecizac regiunile de respingere a celor trei teste sunt: pentru testul bilateral zona I zona II; pentru testul unilateral cu zona IV. Erori posibile n decizie Am accentuat c nu se pune problema obinerii unor certitudini n problemele analizate. Rezult c se pot produce erori n procesul de decizie al unui test statistic.Erorile pot fi de dou tipuri: respingereaipotezeinule,H0,deiH0esteadevrat;acesteeroriseziceroride tip I, sau erori de spea ntia. 32Introducere n statistica multivariat tolerarea(nerespingerea)ipotezeinule,H0,deieaestefals;acesteerorisezic erori de tip II, sau erori de spea a doua. Dificultateaesteaceeacnuexistniciunmijlocpracticdeacunoatedacamluatodecizie corect sau dac am fcut o eroare i de ce tip este eroarea. Singurul mod raional n care putem acionanasemeneasituaiiesteaceladeaminimizarisculdeaproduceerori.Seobserv imediatcpraguldesemnificaiemsoarrisculdeprimaspe,adicrisculdeaproduceo eroaredetipI.ntr-adevr,statisticatestuluiiacuprobabilitatea,ncondiiileipotezeinule adevarate, valori n regiunea de respingere, ceea ce conduce la respingerea ipotezei nule, deci la producereauneierori de tip I. Ar prea necesar atuncica nivelul de semnificaie sfiectmai mic.Acestfaptnuesteadevratpentrucmicorarearisculuideprimaspeducelamrirea risculuidespeaadoua.NotmcrisculdespeaaII-adepindede,dereprezentativitatea eantionului, volumul acestuia etc. Se definete puterea unui test ca 1, unde este riscul de spea a doua, adic riscul de a tolera ipotezanuldeieaestefals.Sepoateinterpretaputereatestuluidreptcapacitatealuidea distinge o ipotez fals.Rezult c pentru un test se va urmris se minimizeze riscul de spea I is se maximizeze puterea testului (s se minimizeze riscul de spea II).Considerente teoretice, dar mai ales practice, au impus valorile = 0,05 sau = 0,01. Categorii de teste Testelesuntclasificatentestepentruvariabilecontinueitestepentruvariabilediscrete (nominale sau ordinale). Primele sunt, de regul, teste parametrice, celelalte sunt neparametrice. Esteinadecvatsseutilizezetesteproiectatepentrudatecontinueladatediscrete.Inverseste posibilprinaceeac,pedeoparte,sepotdiscretizavariabilelecontinue,iarpedealtparte, testeleneparametricesuntmaipuinrestrictivelacondiiiledeaplicareori,demulteori, restriciile impuse de un test parametric nu sunt ndeplinite.Reversul medaliei este acela c testele neparametrice sunt mai puin sensibile la diferene dect testele parametrice. Teste de concordan Acestetestesereferlapotrivirea,concordanadintrevalorilecalculateneantion(statisticile desondaj)ivalorileparametrilorrespectividinpopulaiastatistic(valoricunoscutesau presupuse). Cu alte cuvinte, problema poate fi formulat: ct de mult poate s se abat o valoare calculat (dintr-un eantion) de la valoarea presupus pentru ntreaga populaie pentru a putea considera c are loc o nepotrivire ntre cele dou valori? Deiformulatastfelproblemaparecsereferlaeantionilapopulaiadebaz,punctulde vedere corect este: 1.exist o populaie statistic de interes, fie ea P1; 2.pentruoriceeantionsepoateconsideraopopulaiedebazdincareesteextras eantionul (reprezentativ pentru acea populaie); fie P2 aceast populaie; 3.problemaestedacsepoateconsideracP2estenconcordancuP1,adic parametrii de interes ai celor dou populaii nu difer semnificativ. Seobservctestareasevaefectuapentruipotezeprivindpopulaii,sevautilizainformaia dintr-un eantion, deci rmnem n domeniul inferenei statistice. Ipotezanulvaafirma,ngeneral,cpopulaiileP1iP2concord.Respingereaipotezeinule poate avea, n practic, dou consecine: se va considera c eantionul nu este reprezentativ pentru populaia de interes, populaie care se consider stabil; se va cuta un alt eantion; Noiuni recapitulative33 sau sevaconsideracpopulaiaP1i-amodficatntretimpparametrii;nouapopulaiede referin este P2. Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat, fiind, de cele mai multe ori, o alegere ghidat de intuiie, de experien etc. Testul erorii standard a mediei FieP1populaiastatisticdeinteres,caracterizatdemedia0(cunoscutsaupresupus)ide abatereastandard(cunoscut).ntrebareaestedacvaloriletipicedesondajsusinipotezac eantionul este din populaia P1, accentul fiind pus pe media populaiei. n testul erorii standard a mediei se presupune c sunt ndeplinite condiiile care asigur mediei de sondaj o repartiie normal sau aproape normal:caracteristica studiat este repartizat normal saueantionul este mare (n30).Inacestecondiii,mediadesondajurmeazorepartiienormalN(,2/n),undeestemedia populaiei(notatnintroducereaseciuniicuP2)dincareprovineeantionul.PentruP2se presupune aceeai abatere standard (se studiaz modificarea mediei unei populaii). Rezult c variabila transformatnx xx == Z esterepartizatnormalstandardipoatefiutilizatpentrucalculareaprobabilitilornecesare. Ipotezele testului erorii standard a mediei suntpentru testul bilateral: =0 10 0: H: H(A) pentru testele unilaterale: >==2221"2221 0: H: H(C)1 Cnd ipoteza nul este adevrat, atunci statistica 2221 *sFs=esterepartizatFcu11 1 = n i12 2 = n gradedelibertate,nctsepotutilizavalorile tabelate pentru F(1;2) pentru determinarea probabilitilor critice. Pentrusimplificareadecizieintest,npracticseutilizeazostatisticuormodificatprin considerarea ca prim populaie, P1, a populaiei pentru care dispersia de sondaj este mai mare: ) , ( min) , ( maxF22212221s ss s=naa fel nct sunt utilizabile doartestele (A) i (C). n acestcaz se noteazcu maxnumrul gradelor de libertate pentru numrtor i cu min numrul gradelor de libertate pentru numitor. Decizia, la nivelul de semnificaie , pentru testul bilateral (A): se respinge ipoteza nul H0 n favoarea ipotezei alternative H1 dacmin max min max; ; 2 / ; ; 2 / 1F sau F F F < > Decizia, la nivelul de semnificaie , pentru testul unilateral (C): se respinge ipoteza nul H0 n favoarea ipotezei alternative '1Hdac min max; ; 1F > FTeste t de comparareComparareamediiloradoupopulaiiserealizeazprintestedecompararet.Suntutilizate frecventtreiasemeneateste,difereniatedesituaiaexistentntredispersiilepopulaiilori independena eantioanelor: eantioane independente, dispersii egale, eantioane independente, dispersii neegale, eantioane dependente (perechi, corelate). Este prezentat doar unul dintre teste, testul Student pentru eantioane independente i abateri standard egale.36Introducere n statistica multivariat ncazulcndnusepoaterespingeipotezaegalitiidispersiilorcelordoupopulaii,datorit aplicrii unui test F sau datorit cunoaterii din alt surs a egalitii dispersiilor, situaia poate fi schematizat prin: populaia P1 cu media 1 i dispersia 2; populaia P2 cu media 2 i dispersia 2 (aceeai ca la P1); variabilXrepartizatnormalnceledoupopulaii,cuparametriicorespunztori menionai; un eantion din P1, de volum n1, cu media 1xi dispersia 21s ; un eantion din P2, de volum n2, cu media2 xi dispersia 22s . Eantioanele se presupun independente.n condiiile enunate, cele de normalitate fiind importante, variabila 2 12 12 122 221 12 12 12) 1 ( ) 1 () ( ) (n nn nn ns n s nx xt+ + + = areorepartiieStudentcu=n1+n2-2gradedelibertate.Aceaststatisticpermite compararea cu o diferen prestabilit a mediilor populaiilor (deci cu o valoare fixat pentru 12). n cele mai multe aplicaii reale se consider ns o diferen egal cu zero, adic egalitatea mediilor. Ipotezele considerate n acest caz sunt: =2 1 12 1 0: H: H (A) , pentru testul bilateral, >= t t . Numrul gradelor de libertate este = n1 + n2 2. Observaie.Celelaltetestetdecomparareamediilordiferprinformuleledecalculale statisticii testului i a gradelor de libertate, dar, din punct de vedere formal, ipotezele i modul de decizie sunt aceleai. Teste privind egalitatea dispersiilor unor populaii normale Deiegalitateaunuinumrdekdispersiiaparelaverificareaipotezeloranalizeidispersionale unifactoriale, problema este de interes i n sine. A decide dac mprtierea valorilor se menine constantesteoprocedurcomplementarverificriiegalitiimediilor,atuncicndsunt Noiuni recapitulative37 consideratemaimultdedou(sub)populaii.Pentrucazuladoupopulaiireamintimcse utilizeaz un test F. Problema poate fi referit ca verificarea omogenitii dispersiilor. Pentrufixareaideilor,considermunnumrdekvariabilealeatorii,Xi,i = 1,2,,k,(k > 2), repartizatenormal) ; N(2i i ,attmediilectidispersiilefiindnecunoscute.Dispunemde dispersiile de sondaj,2221, s s2,ks K , determinate din eantioane de volume kn n n , , ,2 1K , respectiv. Trebuieca,pebazadatelordesondaj,sseverificeipotezaomogenitiidispersiilor.Se consider testul statistic cu ipotezele: H0:2 2221 k = = = KH1: exist2 2 care pentru,j ij i (exist cel puin dou dispersii diferite) Testul Bartlett Acesttestesteutilizatndeosebiatuncicndvolumeleeantioanelorsuntdiferitentreele. Statistica testului este ((

= = =kii ikiis s1212ln lnc1B unde: , , , 2 , 1, 1 k i ni iK = = ,1 1k nkiikii = = = = ,112 2==kii is s .1 1) 1 ( 3111((

+ == ki ikcDecizia n test este bazat pe faptul c, n condiiile ipotezei nule, cantitatea B este repartizat 2 cu k1 grade de libertate.Prin urmare, dup logica general a unui test bazat pe o repartiie cunoscut, se respinge ipoteza H0dacvaloareaBcalculatestemaimaresauegalcuquantilacorespunztoareniveluluide semnificaie fixat: 21 ; 1B k . n aceast situaie se poate considera c dispersiile nu sunt omogene. Pentru a decide care dou dispersiisuntdiferitesevorefectuatesteF,comparnddispersiiledouctedou,deregul dispersiiledesondajextremeproducndrespingereaipotezeiegalitiidispersiilorpentru populaiile respective. Dacnuestendeplinitcondiiaderespingereaipotezeinule,adicstatisticaBcalculateste mai mic dect quantila 21 ; 1 k , atunci se va accepta c dispersiile sunt omogene, sau, n sensul raionamentuluistatistic,cdateledesondajdisponibilenupermitrespingereaomogenitii dispersiilor. Testul Levene Testul Levene este mai puin sensibil dect testul Bartlett la abaterile de la normalitate a datelor. Prin urmare, dac exist o eviden puternic a normalitii datelor, se impune utilizarea testului Bartlett. Statistica testului este = == =kinjiijkiiiiz z kz z n k nW1 1212) ( ) 1 () ( ) ( 38Introducere n statistica multivariat unde ijz poate avea una dintre urmtoarele definiii: 1.iij ijx x z = , 2. i ij ijx x z~ = , n carex~este mediana grupului i, 3. 'iij ijx x z = , n care 'i x este media redus 10% a grupului i. n carei z este media dup j a cantitilor ijziarz este media general. Celetreiposibilitideterminrobusteea(capacitateadeanudetectanmodfalsvariane neegaleatuncicnddatelebrutenusuntnormaldistribuiteivarianelesuntegale)iputerea (capacitateadeadeterminavarianeneegaleatuncicndelesuntneegale)testului.Alegerea optim este n funcie de repartiia datelor, n lipsa oricrei cunoateri fiind recomandat alegerea variantei care implic mediana. Decizia n test este bazat pe repartiia F, respingndu-se ipoteza egalitii dispersiilor dac k n kF W , 1 , 1. Prelucrri statistice Microsoft Excel Pentru prelucrarea unui set de date memorat ntr-un document Excel se pot utiliza att funciile statistice ale aplicaiei, ct i procedurile obinute prin Tools Data Analysis. Funciile statistice uzuale sunt (n ordine alfabetic):AVEDEV abaterea medie absolut AVERAGE media aritmetic BINOMDIST funcia de repartiie binomial CHIDIST funcia de repartiie 2 CHIINV inversa funciei de repartiie 2 CHITEST aplicarea testului 2 CONFIDENCE intervalul de ncredere pentru medie FDIST funcia de repartiie F FINV inversa funciei de repartiie F FTEST aplicarea testului F HARMEAN media armonic KURT coeficientul de aplatizare MIN, MAX valorile extreme din list MEDIAN mediana MODE valoarea mod NORMDIST funcia de repartiie normal NORMINV inversa funciei de repartiie normal NORMSDIST funcia de repartiie normal standard NORMSINV inversa funciei de repartiie normal standard PERCENTILE quantile QUARTILE quartile RANK rangul argumentului ntr-o list SKEW coeficientul de asimetrie STANDARDIZE valoarea standardizat a argumentului STDEV abaterea standard TDIST funcia de repartiie Student, t TINV inversa funciei de repartiie Student TTEST aplicarea testului Student VAR dispersia Pentruautilizaprocedurilestatistice,trebuiecaprinToolsAddInssseverificedaceste instalatutilitarulAnalysisToolPak.ncazafirmativ,comandaTools DataAnalysisva deschide dialogul Data Analysis din care sunt accesibile o serie de prelucrri statistice conduse dedialogurileasociate.AstfelDescriptiveStatisticsvaproduceindicatoriistatisticiaiunei variabilecontinue,RandomNumberGenerationvagenerasecvenedenumerealeatorii repartizatedupofuncieprecizat,RankandPercentilerealizeazatribuireaderanguri, Sampling produce un eantion din nregistrrile oferite etc. Tot n partea de descriere statistic poate fi ncadrat i metoda de creare a cuburilor OLAP prin DataPivotTable,metodprincareseobindistribuiilesimplesaumultivariatealeunor Noiuni recapitulative39 variabilediscretesauindicatoriistatisticiesenialiaisubpopulaiilor.Deasemenea,nutrebuie uitatctoateprocedurilelegatedereprezentrilegraficesuntoparteaprelucrriistatistice descriptive oferind grafice, histograme etc.SPSS PrelucrrilestatisticedinSPSSserealizeazprincomenziledinmeniulAnalyze,sauprin executareacomenzilorscrisenfereastraSyntaxEditor.Deoareceefectuareauneiprelucrri necesitoperareacuunnumrdedialogurispecializate,pentrufamiliarizareacuprincipalele dialoguri care apar la comenzile de prelucrri statistice se prezint n continuare modul n care se obin statisticile descriptive. Distribuia de frecvene Se selecteaz Analyze - Descriptive Statistics - Frequencies...Apare dialogul urmtor n care se trec variabilele dorite din lista din stnga n lista din dreapta (prin dublu click sau selectare i X). Semarcheazcheckbox-ulDisplayfrequencytablesdacsedorescitabelelede frecvenecalculate.IncazcontrartrebuiesseoperezecusubdialogurileStatistics, Charts pentru a obine rezultate.La acionarea butonului Statistics, se afieaz dialogul Frequencies: Statistics n care se pot activa opiunile corespunztoare indicatorilor de tendin central, mprtiere sau de caracterizare a curbei distribuiei (evident c anumite statistici se pot calcula doar pentru variabile de tipuri adecvate: interval, ordinal, nominal). SubdialogulChartspermiteconstruireaunuigrafic adecvatpentruuntabeldefrecvene.Opiunea Histograms with normal curve afieaz curba normal suprapuspestehistogram,utilpentruaprecierea deprtrii de la normalitate. SubdialogulFormatgestioneazmoduldeafiarea intrrilor tabelului de frecvene n Order by. n Multiple variablessepoateoptantreunformatcareinclude 40Introducere n statistica multivariat toate variabilele selectate (pentru comparare trebuie ca variabilele s fie de acelai tip) i un format n care fiecare variabil este raportat separat. Prin OK n dialogul iniial se va genera n fereastra Viewer ieirea cerut.Statisticile descriptive OcomandsinteticpentrustatisticiledescriptivealevariabilelorcontinueesteAnalyze- DescriptiveStatistics-Descriptives.Parametriiprelucrriisefixeaznurmtoareledou dialoguri. Tabele de frecvene ncruciate Obinereatabelelordefrecvenencruciate,utilelastudiulasocieriidintrevariabile,este gestionat de comanda Analyze Descriptive Statistics Crosstabs, care iniializeaz dialogul urmtor. Se trec, prin acionarea butoanelor de trecere, variabilele dorite n lista Rows (tabelele vor avea cteoliniepentrufiecarevaloaredistinctavariabilelordinaceastlist)inlistaColumns (tabelele vor avea cte o coloan pentru fiecare valoare distinct a variabilelor din aceast list). Se va calcula i afia cte un tabel de frecvene ncuciate pentru fiecare combinaie de variabile, cte una din fiecare list. n cazul n care se doresc frecvene ncruciatepentru trei sau mai multe variabile, se utilizeaz controlul Layer n care se vor trece variabilele de pe poziia a treia, se trece la layerul urmtor i se repet procedura. SubdialogulStatisticsper


Recommended