+ All Categories
Home > Documents > Cap 01 Mediul de Lucru SPSS

Cap 01 Mediul de Lucru SPSS

Date post: 29-Jun-2015
Category:
Upload: crisy4
View: 3,874 times
Download: 7 times
Share this document with a friend
87
Capitolul 1 Mediul de lucru SPSS Rolul acestui scurt capitol introductiv este acela de a readuce în memoria studentului principalele comenzi din programul statistic SPSS – programul cu care se va lucra în cadrul cursului de Metode cantitative. Informaţiile cuprinse în acest curs fac referire la versiunea SPSS 10.0 sub Windows. Pornim desigur de la premisa că toţi studenţii ştiu să utilizeze sistemul de operare Windows, fie şi numai la nivel elementar. Programul SPSS 10.0 conţine zece meniuri. Prezentǎm în continuare conţinutul fiecǎruia dintre acestea. File – cuprinde în special comenzile utilizate pentru crearea unor documente noi şi deschiderea sau salvarea documentelor create anterior Edit – cuprinde comenzile utilizate pentru editarea documentelor (ştergere, copiere, lipire etc.) View – din acest meniu se pot seta caracteristicile vizuale ale documentelor Data – cu ajutorul comenzilor acestui meniu se realizează o serie de operaţiuni de bază asupra datelor statistice (inserare, sortare, agregare, fuzionare fişiere etc.) Transform – cuprinde comenzi utilizate pentru transformări (cantitative sau calitative) ale datelor (crearea de noi variabile plecând de la cele existente, recodificarea datelor, ierarhizarea datelor etc.) Analyze – în acest meniu se gǎsesc toate comenzile necesare pentru realizarea analizelor statistice Graphs – este meniul în care se gǎsesc comenzile pentru grafice (SPSS permite realizarea câtorva zeci de tipuri de grafice) 1
Transcript
Page 1: Cap 01 Mediul de Lucru SPSS

Capitolul 1

Mediul de lucru SPSS

Rolul acestui scurt capitol introductiv este acela de a readuce în memoria studentului principalele comenzi din programul statistic SPSS – programul cu care se va lucra în cadrul cursului de Metode cantitative.

Informaţiile cuprinse în acest curs fac referire la versiunea SPSS 10.0 sub Windows. Pornim desigur de la premisa că toţi studenţii ştiu să utilizeze sistemul de operare Windows, fie şi numai la nivel elementar.

Programul SPSS 10.0 conţine zece meniuri. Prezentǎm în continuare conţinutul fiecǎruia dintre acestea.

File – cuprinde în special comenzile utilizate pentru crearea unor documente noi şi deschiderea sau salvarea documentelor create anterior

Edit – cuprinde comenzile utilizate pentru editarea documentelor (ştergere, copiere, lipire etc.)

View – din acest meniu se pot seta caracteristicile vizuale ale documentelor Data – cu ajutorul comenzilor acestui meniu se realizează o serie de operaţiuni de bază

asupra datelor statistice (inserare, sortare, agregare, fuzionare fişiere etc.) Transform – cuprinde comenzi utilizate pentru transformări (cantitative sau calitative) ale

datelor (crearea de noi variabile plecând de la cele existente, recodificarea datelor, ierarhizarea datelor etc.)

Analyze – în acest meniu se gǎsesc toate comenzile necesare pentru realizarea analizelor statistice

Graphs – este meniul în care se gǎsesc comenzile pentru grafice (SPSS permite realizarea câtorva zeci de tipuri de grafice)

Utilities – este un meniu pe care nu-l vom folosi la acest curs. El cuprinde în special comenzi care permit automatizarea facilităţilor din SPSS

Window – permite manipularea ferestrelor în care este deschis programul SPSS Help – asigură accesul la asistenţa (ajutorul) pentru utilizatori

Întrucât meniul Analyze va fi de departe cel mai utilizat în cadrul acestui curs, vom detalia în continuare comenzile existente în acest meniu.

Reports – este un submeniu care conţine comenzi pentru elaborarea rapoartelor sintetice asupra datelor

Descriptive Statistics – comenzile din acest submeniu se folosesc în principal pentru generarea indicatorilor statistici pentru variabilele studiate

Custom Tables – submeniu folosit atunci când dorim sa construim tabele pornind de la datele dintr-un fişier

Compare Means – submeniu folosit pentru realizarea testelor de comparare a mediilor (Student, ANOVA univariatǎ)

1

Page 2: Cap 01 Mediul de Lucru SPSS

General Linear Model – comenzile din acest submeniu servesc la executarea analizei ANOVA multivariatǎ

Correlate – cuprinde comenzile pentru studierea corelaţiei bivariate şi parţiale dintre variabile

Regression – submeniu util pentru realizarea diverselor tipuri de analizǎ de regresie (liniarǎ şi neliniarǎ)

Loglinear – cuprinde comenzi utlie pentru analizele de regresie de tip logaritmic Classify – cuprinde procedurile utilizate pentru gruparea obiectelor din baza de date (analiza

de tip cluster, analiza discriminantului) Data Reduction – cuprinde procedurile utilizate pentru gruparea variabilelor studiate

(analiza factorialǎ, analiza corespondenţelor) Scale – cuprinde proceduri avansate pentru lucrul cu scalele de mǎsurare (scalarea

multidimensionalǎ, analiza încrederii) Nonparametric Tests – aşa cum îi aratǎ numele, acest submeniu grupeazǎ toate testele

neparametrice (binomial, hi pǎtrat, Wilcoxon etc.) Time Series – cuprinde procedurile de analizǎ a seriilor de timp Survival – cuprinde procedurile utilizate în analizele de supravieţuire Multiple Response – cu ajutorul comenzilor din acest submeniu sunt gestionate datele

provenind din întrebǎrile cu rǎspunsuri multiple Missing Value Analysis – procedura utilizatǎ pentru analiza valorilor lipsǎ

Comenzile pentru gestionarea fişierelor în SPSS sunt foarte asemǎnǎtoare cu cele din orice aplicaţie Windows. Astfel, pentru crearea unei noi baze de date comenzile utilizate sunt:

File > New > Data

Primul lucru pe care trebuie să-l facem este să definim variabilele (câmpurile) noii baze de date. În parte din stânga jos putem observa butoanele Data View/Variable View. Apăsând butonul Variable View, SPSS ne prezintă ecranul de dialog pentru definirea variabilelor. Pentru fiecare variabilă va trebui să specificăm, printre altele:

numele tipul (numeric, caracter etc.) lungimea (numărul de caractere) numărul de zecimale (pentru variabilele numerice) descrierea variabilei (opţional) valori posibile (opţional) etc.Odată variabilele introduse, apăsăm pe butonul Data View pentru a putea introduce datele în

fişier.

Pentru deschiderea unei baze de date existente vom utiliza comenzile:

File > Open > Data

SPSS-ul ne va deschide o casetă de dialog pentru deschiderea unui fişier.

2

Page 3: Cap 01 Mediul de Lucru SPSS

În momentul în care rulăm o analiză asupra unui set de date, SPSS-ul ne prezintă rezultatele acestei analize sub forma unui fişier special numit output. Fişierele de output pot fi desigur salvate şi apelate ulterior prin comanda:

File > Open > Output

Aspectele practice legate de lucrul cu fişierele, precum şi de utilizarea procedurilor de analizǎ vor fi lǎmurite la seminar.

Capitolul 2

Statisticǎ descriptivǎ – elemente de bazǎ

Aspecte teoretice - recapitulare

I. Variabilă, scor, distribuţie

O variabilă este acea proprietate a unui fenomen care poate lua diferite valori. De exemplu: zilele saptămânii (luni, marţi, …, duminică), înălţimea, venitul impozabil, notele studenţilor la examenul de Statistică etc.

Orice variabilă este descrisă de un set de valori. Valoarea particulară pe care o ia variabila pentru un anumit membru al populaţiei studiate poartă numele de scor. Exemple de scoruri ale diverselor variabile: persoana X are înălţimea de 1.68 metri, persoana Y are un salariu lunar de 1500 de lei, studentul Z a obţinut nota 9 la examenul de Statistică.

Distribuţia unei variabile este dată de frecvenţa de apariţie a diverselor scoruri (sau valori) care descriu variabila respectivă. Frecvenţa poate fi absolutǎ sau relativǎ. Distribuţia poate fi ilustratǎ cu ajutorul unui tabel de frecvenţe, sau reprezentată grafic prin intermediul unei histograme.

Orice distribuţie statisticǎ este definită prin trei caracteristici:

1. modalitatea, care se referă la numărul de maxime (ale frecvenţelor) pe care îl prezintă distribuţia. Distribuţiile cu un singur maxim (cum este cea de mai sus) se numesc unimodale, iar cele cu mai multe maxime se numesc multimodale.

2. înclinarea (skewness), care ne arată dacă în distribuţie predomină valorile mici (cazul distrubuţiilor înclinate spre stânga) sau valorile mari (cazul distrubuţiilor înclinate spre dreapta).

3

Page 4: Cap 01 Mediul de Lucru SPSS

3. boltirea (kurtosis), care ne arată cât de mult variază scorurile. O distribuţie “turtită” (sau “aplatizată”) prezintă toate valorile posibile ale scorurilor, de la cele mai mici la cele mai mari, pe când în cazul unei distribuţii “ascuţite” scorurile variază mai puţin (valorile extreme au frecvenţe de apariţie reduse).

II. Indicatorii (parametrii) unei distribuţii

Aceşti indicatori se împart în două mari categorii: indicatorii tendinţei centrale şi indicatorii împrăştierii. Vom prezenta pe scurt principalii indicatori din fiecare categorie.

A. Indicatorii tendinţei centrale

Aceşti indicatori exprimă tendinţa scorurilor unei variabile de a se grupa în jurul unor valori semnificative. Cei trei indicatori ai tendinţei centrale luaţi în discuţie aici sunt media, mediana şi modul.

Media este desigur cel mai cunoscut indicator al tendinţei centrale. Iatǎ formula de calcul a mediei ponderate:

unde cu x am notat valorile, iar cu n frecenţele absolute de apariţie.

Mediana este acea valoare care împarte o distribuţie în două părţi egale. Pentru a o determina, trebuie mai întâi să aşezăm scorurile în ordine crescătoare. În cazul în care numǎrul de scoruri este par, mediana va fi media artimetica a scorurilor din mijloc. Dacǎ numǎrul de scoruri este impar, mediana este dată de valoarea scorului din mijloc al seriei.

Să presupunem că ştim că mediana salariilor lucrătorilor dintr-o firmă este de 5300 de lei. Cum interpretăm acest fapt? În felul următor: jumătate din lucrători au un salariu de până la 5300 de lei, iar cealaltă jumătate au un salariu de peste 5300 de lei.

Modul unei distribuţii este acea valoare a distribuţiei care are cea mai mare frecvenţă de apariţie. În cazul anterior, modul distribuţiei este egal cu 2, deoarece acest punctaj apare cel mai des (de cinci ori). În exemplul ilustrat în tabelul 1, modul distribuţiei este 3, deoarece această valoare apare cel mai des (de 16 ori). După cum precizam anterior, există posibilitatea ca o distribuţie să prezinte mai multe moduri, caz în care o vom numi multimodală.

B. Indicatorii împrăştierii

Cel mai des folosit indicator al împrăştierii unei variabile este dispersia sau varianţa. Ea este notatǎ cu σ2 sau uneori cu Var şi se calculeazǎ cu formula:

4

Page 5: Cap 01 Mediul de Lucru SPSS

sau:

Cu cât valoarea dispersiei este mai mare, cu atât distribuţia respectivă este mai împrăştiată.

Abaterea pătratică sau abaterea standard nu este altceva decât rădăcina pătrată a dispersiei:

Abaterea pătratică se notează uneori cu SD (de la cuvintele englezeşti “standard deviation” – abatere standard). De remarcat că abaterea standard are aceeaşi unitate de măsură ca şi variabila. Se poate demonstra că majoritatea scorurilor unei variabile (şi anume cam 68%) se găsesc în interiorul intervalului care are drept capete valorile m- σ şi m+ σ. Aceste scoruri se mai numesc scoruri medii, normale sau tipice pentru acea distribuţie. Valorile care se găsesc în afara intervalului (m- σ; m+ σ) poartă numele de valori atipice.

Atunci când cunoaştem media şi abaterea standard a unui eşantion dat de volum n, putem determina dispersia de selecţie (sau eroarea standard) pentru eşantionul respectiv, cu formula:

Aceastǎ eroare standard reprezintǎ de fapt abaterea mediilor tuturor eşantioanelor de acelaşi volum n de la media populaţie totale. Pentru a determina un interval de încredere al acestei din urmǎ medii, cu un nivel de încredere de 95%, vom calcula:

m ± 1.96 *

unde m este media eşantionului nostru.

III. Distribuţia normală

Cunoscută şi sub denumirea de distribuţia Gauss-Laplace, distribuţia normală este fără îndoială cea mai importantă dintre toate tipurile de distribuţie întâlnite în statistică. Principala sa caracteristică: curba frecvenţelor se prezintă sub formă de clopot (de unde şi denumirea de “clopotul lui Gauss”). Iatǎ formula prin care se exprimă legea normală:

5

Page 6: Cap 01 Mediul de Lucru SPSS

unde p(x) este probabilitatea (frecvenţa) de apariţie a unei valori oarecare x, iar m şi σ sunt deja notaţii familiare (media şi abaterea pătratică a distribuţiei). Aşadar, aceşti doi parametri (media şi abaterea standard) definesc complet o distribuţie normală. Să mai spunem că distribuţia normală de

medie m şi abatere σ se notează prescurtat astfel: .

IV. Distribuţia normală standard. Scorurile z

Fie o variabilă aleatoare ce are media m şi abaterea standard σ. Pentru o valoare oarecare x a acestei variabile, scorul z se calculează astfel:

Se observă că acest scor are un caracter sintetic, reunind într-o singură formulă media şi abaterea standard a distribuţiei. Scorurile z nu au unitate de măsură. Tocmai acest lucru face posibilă compararea sau adunarea lor.

Distribuţia scorurilor z se numeşte distribuţie normală standard (sau normată). Ea are media

0 şi dispersia 1 şi se notează uneori astfel: .

Generarea indicatorilor statistici şi a rapoartelor în SPSS

În cadrul acestei sectiuni vom exemplifica pas cu pas urmǎtoarele proceduri:

1. generarea indicatorilor statistici şi a tabelului de frecvenţe, cu ajutorul comenzilor Frequencies şi Descriptives;

2. generarea indicatorilor statistici pe substraturi ale populaţiei, cu ajutorul comenzii Explore;

3. crearea tabelelor încrucişate, folosind comanda Crosstabs;4. crearea rapoartelor cu ajutorul unor opţiuni din submeniul Reports.

Pentru realizarea exemplelor practice vom folosi baza de date Employee data.sav, care prezintă informaţii privind cei 474 de salariaţi ai unei bănci din Statele Unite, informaţii obţinute în urma unui studiu organizat la începutul anilor 1990.

I. Generarea indicatorilor statistici şi a tabelului de frecvenţe

Vom cere în continuarea programului SPSS Sǎ ne furnizeze principalii parametri statistici pentru variabila salary, reprezentând salariul curent (anual) al lucrătorilor din bancă. În acest scop apelăm comanda:

Analyze > Descriptive Statistics > Frequencies

6

Page 7: Cap 01 Mediul de Lucru SPSS

SPSS-ul deschide o casetă de dialog (o vom vizualiza atunci când vom face aplicaţiile practice). Alegem pentru analiză variabila salary şi apăsăm butonul Statistics. Ni se deschide o nouă casetă de dialog în care selectăm rmătoarele opţiuni pentru calcul: Quartiles, Mean, Median, Mode, Std. Deviation (abaterea standard), Variance, S.E. mean (abaterea de selecţie), Skewness, Kurtosis. Apăsăm butonul Continue şi apoi butonul OK.

În fişiereul de output SPSS-ul ne prezintă rezultatele următoare:

- tabelul frecvenţelor pentru variabila salary (redăm aici doar o mică parte a lui, pentru economie de spaţiu):

Current SalaryFrequency Percent Valid

PercentCumulative Percent

Valid $15,750 1 .2 .2 .2$15,900 1 .2 .2 .4$16,200 3 .6 .6 1.1$16,350 1 .2 .2 1.3$16,500 1 .2 .2 1.5$16,650 1 .2 .2 1.7$16,800 1 .2 .2 1.9$16,950 3 .6 .6 2.5$17,100 2 .4 .4 3.0$17,250 1 .2 .2 3.2

… … … … …Total 474 100.0 100.0

În prima coloană se găsesc valorile variabilei, în cea de-a doua frecvenţele absolute, iar în

cea de-a treia frecvenţele relative (în procente). Ultima coloană prezintă frecvenţele relative cumulate.

Din acest tabel se poate vedea, de exemplu, că nivelul salariului de 16950 de dolari apare la trei salariaţi, reprezentând 0.6% din totalul salariaţilor.

- tabelul indicatorilor statistici:

Current Salary N Valid 474

Missing 0 Mean $34,419.57

Std. Error of Mean $784.31 Median $28,875.00

Mode $30,750 Std. Deviation $17,075.66

Variance $291,578,214.45 Skewness 2.125

Std. Error of Skewness .112 Kurtosis 5.378

Std. Error of Kurtosis .224 Percentiles 25 $24,000.00

50 $28,875.0075 $37,162.50

7

Page 8: Cap 01 Mediul de Lucru SPSS

Analiza în detaliu a acestui tabel o vom face la seminar.

Dacă nu ne interesează să obţinem tabelul de frecvenţe al variabilei, putem folosi pentru statistica descriptivă comanda (care are o plajă de opţiuni mai redusă):

Analyze > Descriptive Statistics > Descriptives

Dupǎ ce apǎsǎm butonul Options al casetei de dialog de la aceastǎ procedurǎ, SPSS-ul ne dǎ posibilitatea de a alege indicatorii statistici pe care-i dorim calculaţi. Noi vom alege, pentru ilustrare, doar indicatorii Mean, Standard Deviation şi S.E. mean. Iatǎ tabelul pe care ni-l afişeazǎ programul:

Descriptive StatisticsN Mean Std. Deviation

Statistic Statistic Std. Error Statistic Current Salary 474 $34,419.57 $784.31 $17,075.66

Valid N (listwise) 474

II. Generarea indicatorilor statistici pe straturi

Sǎ presupunem acum cǎ dorim sǎ analizǎm comparativ salariile bǎrbaţilor şi cele ale femeilor din populaţia studiatǎ. Pentru a realiza aceasta, ne stǎ la dispoziţie procedura Explore, pe care o apelǎm astfel:

Analyze > Descriptive Statistics > Explore

SPSS-ul ne cere sǎ precizǎm care sunt variabilele dependente (adicǎ variabilele pentru care se vor calcula parametrii), precum şi care sunt variabilele-factor (cele dupǎ care sunt definite straturile). În cazul nostru, variabila dependentǎ este salary, iar factorul este gender.

În afarǎ de tabelele de sinteza, îi vom solicita programului SPSS sǎ ne furnizeze şi graficul de tip “boxplot”, precum şi un test de normalitate pentru variabila studiatǎ.

Redǎm în continuare câteva din rezultatele acestei analize (discuţiile asupra lor vor avea loc la seminar).

În tabelul de mai jos se gǎsesc principalii indicatori statistici ai variabilei salary, pe cele douǎ substraturi: bǎrbaţi şi femei.

DescriptivesGender Statistic Std. Error

Current Salary

Female Mean $26,031.92 $514.26

95% Confidence Interval for Mean

Lower Bound

$25,018.29

Upper $27,045.55

8

Page 9: Cap 01 Mediul de Lucru SPSS

Bound5% Trimmed Mean $25,248.30

Median $24,300.00Variance 57123688.268

Std. Deviation $7,558.02Minimum $15,750

Maximum $58,125Range $42,375

Interquartile Range $7,012.50Skewness 1.863 .166

Kurtosis 4.641 .330Male Mean $41,441.78 $1,213.97

95% Confidence Interval for Mean

Lower Bound

$39,051.19

Upper Bound

$43,832.37

5% Trimmed Mean $39,445.87Median $32,850.00

Variance 380219336.303Std. Deviation $19,499.21

Minimum $19,650Maximum $135,000

Range $115,350Interquartile Range $22,675.00

Skewness 1.639 .152Kurtosis 2.780 .302

Rezultatele testului de normalitate Kolmogorov-Smirnov se gǎsesc în tabelul ce urmeazǎ:

Tests of NormalityKolmogorov-Smirnov

Gender Statistic df Sig. Current Salary Female .146 216 .000

Male .208 258 .000

În sfârşit, figura de mai jos prezintǎ graficul “boxplot” pentru variabila salary, pe cele douǎ segmente de angajaţi studiate (bǎrbaţi şi femei).

9

Page 10: Cap 01 Mediul de Lucru SPSS

III. Crearea tabelelor încrucişate

Tabelele încrucişate sunt foarte utile atunci când dorim sǎ studiem legǎtura dintre douǎ variabile categoriale. Asupra lor vom reveni într-un capitol ulterior, atunci când vom studia testele neparametrice. Acum vom arǎta doar, foarte pe scurt, cum se genereazǎ un asemenea tabel.

Sǎ presupunem cǎ ne intereseazǎ sǎ studiem interdependenţa dintre variabile gender şi variabile jobcat (ambele categoriale) pentru a vedea unde se întâlnesc majoritatea managerilor din bancǎ: în rândul bǎrbaţilor sau în rândul femeilor. Pentru aceasta vom apela opţiunea:

Analyze > Descriptive Statistics > Crosstabs

Vom cere programului sǎ afişeze categoriile variabile gender pe liniile, iar pe cele ale variabilei jobcat pe coloane. Alte opţiuni nu formulǎm, deocamdatǎ.

Rezultatul analizei este afişat în tabelul de mai jos.Gender * Employment Category CrosstabulationCount

Employment Category

Total

Clerical Custodial Manager

10

Page 11: Cap 01 Mediul de Lucru SPSS

Gender Female 206 10 216Male 157 27 74 258

Total 363 27 84 474

Dupǎ cum se poate observa, marea majoritate a managerilor sunt bǎrbaţi (74), iar femeile sunt mult mai puţin reprezentate în structurile de conducere (numai 10).

IV. Crearea de rapoarte sintetice

Opţiunea Reports din meniul Analyze conţine o serie de comenzi care permit crearea unei mari varietǎţi de rapoarte. Noi nu vom intra în toate detaliile aici, ci vom genera doar un raport sintetic privind principalii indicatori ai variabilei salary, atât pe subgrupul bǎrbaţilor cât şi pe cel al femeilor.

Vom selecta opţiunile:

Analyze > Reports > Case Summaries

În câmpul Variables vom introduce variabile de studiu (salary), iar în câmpul Grouping Variable(s), variabile gender. Apoi vom deselecta opţiunea Limit cases to first pentru a-i cere programului sǎ calculeze indicatorii pentru toate cazurile din eşantion, precum şi opţiunea Display cases (pentru a evita afisarea valorii variabilei la fiecare caz în parte). În continuare apǎsǎm butonul Statistics şi cerem sǎ fie generaţi – pentru fiecare subgrup – urmǎtorii indicatori: numǎrul de cazuri (deja selectat), media, mediana şi abaterea standard. Apoi apǎsǎm butoanele Continue şi OK. Tabelul de mai jos, care conţine rezultatul final al analizei, nu are nevoie de prea multe explicaţii.

Case SummariesCurrent Salary

Gender N Mean Median Std. Deviation Female 216 $26,031.92 $24,300.00 $7,558.02

Male 258 $41,441.78 $32,850.00 $19,499.21 Total 474 $34,419.57 $28,875.00 $17,075.66

Capitolul 3

Corelaţia

Aspecte teoretice - recapitulare

Corelaţia statisticǎ este utilǎ pentru a analiza legătura dintre douǎ variabile aleatoare, cantitative sau ordinale.

11

Page 12: Cap 01 Mediul de Lucru SPSS

Corelaţia este mǎsuratǎ de regulǎ cu ajutorul unuia dintre urmǎtorii coeficienţi: coeficientul de corelaţie “ro” al lui Pearson coeficientul de corelaţie al lui Spearman coeficientul de corelaţie “tau” al lui Kendall.

Coeficientul lui Pearson se foloseşte numai atunci când ambele variabile luate în studiu sunt cantitative (metrice). Ceilalţi doi coeficienţi se pot folosi atât pentru variabile metrice, cât şi ordinale (ei mai sunt numiţi şi coeficienţi de corelaţie neparametrici).

Coeficientul de corelaţie al lui Pearson (notat cu ρ) se determină după formula:

unde cu m şi σ s-au notat mediile, respectiv abaterile standard ale celor douǎ variabile, iar cu n numǎrul de cazuri din eşantion.

Coeficientul de corelaţie ρ poate lua valori cuprinse în intervalul [-1; 1]. Analiza sa presupune luarea în calcul a trei elemente:

valoarea absolută a coeficientului. Cu cât aceasta este mai aproape de 1, cu atât corelaţia este mai strânsă. Valoarea 0 (zero) înseamnǎ absenţa oricǎrei corelaţii.

semnul coeficientului. Valorile pozitive indică o legătură directă între variabile, iar valorile negative o legătură indirectă.

semnificaţia coeficientului. Aceasta poate fi determinatǎ cu ajutorul testului t. Valoarea acestui test pentru coeficientul de corelaţie se calculeazǎ cu formula:

Atenţie! Un coeficient de corelaţie mare nu indică neapărat existenţa unei legături de cauzalitate între cele două variabile; pur şi simplu ne arată faptul că două fenomene “merg împreună”, fără a fi în mod necesar interdependente.

Coeficientul de corelatie al lui Spearman (numit şi coeficient de corelaţie al rangurilor) se determinǎ cu formula:

unde D este diferenţa rangurilor observate în cele douǎ variabile ordinale.

Coeficientul de corelaţie a rangurilor este cuprins între 0 şi 1. Cu cât este mai apropiat de 1, cu atât legǎtura dintre variabile este mai puternicǎ.

Şi pentru coeficientul lui Spearman se poate calcula statistica t, în vederea determinǎrii gradului de semnificaţie. Formula este urmǎtoarea:

12

Page 13: Cap 01 Mediul de Lucru SPSS

Coeficientul de corelaţie Kendall (notat cu τ) se calculeazǎ cu expresia:

unde cu C am notat aici suma scorurilor pentru toate cele n(n-1)/2 combinatii posibile. Scorul este considerat +1 ori de câte ori o combinaţie este concordantǎ (are acelaşi clasament) şi -1 ori de câte ori o combinaţie este discordantǎ (clasamentele diferǎ).

Coeficientul lui Kendall ia valori între -1 şi 1. Interpretarea sa este exact la fel ca aceea a coeficientului Pearson.

Analiza corelaţiei în SPSS

În cele ce urmeazǎ vom studia procedurile din programul SPSS utilizate pentru calculul coeficienţilor de corelaţie. Vom folosi din nou, ca şi în capitolul anterior, variabilele din fişierul Employee data.sav.

Sǎ presupunem cǎ ne intereseazǎ legǎtura dintre salariul actual al anagajaţilor din bancǎ şi nivelul lor de educaţie (exprimat în ani de studii). salariul de început al lucrătorilor din bancă. Pentru a calcula coeficienţii de corelaţie apelăm comanda:

Analyze > Correlate > Bivariate

Odată ce SPSS-ul deschide caseta de dialog pentru calculul corelaţiei, selectǎm din fereastra din dreapta variabilele care ne interesează (cel puţin două). În cazul nostru, ele vor fi salary şi educ. Dacă alegem trei sau mai multe variabile pentru această analiză, programul ne va calcula corelaţile dintre aceste variabile luate două câte două. Apoi cerem programului sǎ calculeze toţi cei trei coeficienţi de corelatie (Pearson, Spearman şi Kendall). Toate celelalte opţiuni care ne intereseazǎ sunt deja selectate; aşadar, putem apăsa butonul OK pentru a rula analiza.

Output-ul se prezintă în felul următor:

CorrelationsCurrent Salary Educational Level

(years) Current Salary Pearson Correlation 1.000 .661

Sig. (2-tailed) . .000N 474 474

Educational Level (years)

Pearson Correlation .661 1.000

Sig. (2-tailed) .000 .N 474 474

** Correlation is significant at the 0.01 level (2-tailed).

Correlations

13

Page 14: Cap 01 Mediul de Lucru SPSS

Current Salary

Educational Level (years)

Kendall's tau_b

Current SalaryCorrelation Coefficient

1.000 .554

Sig. (2-tailed)

. .000

N 474 474Educational Level

(years)Correlation Coefficient

.554 1.000

Sig. (2-tailed)

.000 .

N 474 474 Spearman's

rhoCurrent SalaryCorrelation

Coefficient1.000 .688

Sig. (2-tailed)

. .000

N 474 474Educational Level

(years)Correlation Coefficient

.688 1.000

Sig. (2-tailed)

.000 .

N 474 474 ** Correlation is significant at the .01 level (2-tailed).

Primul tabel conţine valoarea coeficientului Pearson, iar cel de-al doilea valorile coeficienţilor de corelaţie neparametrici.

Interpretarea în detaliu a datelor din aceste tabele va fi fǎcutǎ la seminar. Aici dorim doar sǎ subliniem urmǎtorul lucru; pentru fiecare coeficient de corelaţie, SPSS-ul calculeazǎ automat valoarea “Sig”, cu ajutorul cǎreia putem stabili dacǎ respectivul coeficient este semnificativ sau nu. Dacă parametrul “Correlation Sig.” este mai mic decât nivelul de semnificaţie ales iniţial de noi (de regulǎ 5%), atunci putem accepta faptul că avem de-a face cu o corelaţie semnificativǎ statistic.

Dupǎ cum se poate observa, programul SPSS marchează cu două asteriscuri (**) valorile semnificative la un nivel de 0.01 (sau 1%). Valorile semnificative la un nivel de 0.05 (sau 5%) sunt marcate cu un singur asterisc (*).

Capitolul 4

Teste statistice

14

Page 15: Cap 01 Mediul de Lucru SPSS

Aspecte teoretice - recapitulare

În cadrul studiilor statistice, suntem adesea interesaţi în a compara mediile unei variabile pentru douǎ populaţii diferite (pentru a vedea dacǎ existǎ diferenţe semnificative între ele), sau media unui eşantion cu media populaţie din care province acesta (pentru a vedea dacǎ eşantionul este reprezentativ pentru populatia din care face parte). În acest scop putem folosi fie testul z, fie testul t.

I. Testul z

Testul z se foloseşte atunci când cunoaştem dispersia populaţiei din care provine eşantionul studiat (lucru care se întâmplǎ rareori).

Fǎrǎ a intra în toate aspectele de detaliu privind testarea unei ipoteze statistice, vom reaminti doar principiul de bazǎ al testului z: valoarea calculatǎ a statisticii z se comparǎ cu cea tabelarǎ (aleasǎ în functie de nivelul de semnificaţie dorit). Dacǎ valoarea calculatǎ este mai mare decât cea tabelarǎ (în valoare absolutǎ), atunci vom respinge ipoteza nulǎ şi vom spune cǎ existǎ diferenţe semnificative între grupurile studiate. În caz contrar vom accepta ipoteza nulǎ, afirmând cǎ diferenţele sunt nesemnificative.

Sǎ ne amintim acum modul de calcul al statisticii z.Atunci când se pune problema comparǎrii medie unui eşantion cu media populaţiei din care a

fost extras, statistica z se calculeazǎ cu formula:

unde m este media eşantionului, μ este media întregii populaţii, iar σm este abaterea de selecţie (explicatǎ în capitolul 2).

Dacǎ trebuie sǎ comparǎm mediile a douǎ grupuri diferite, vom folosi urmǎtoarea formulǎ:

nde m1 şi m2 sunt mediile celor douǎ eşantioane, iar la numitor se gǎseşte o abatere pǎtraticǎ (estimatǎ) a diferenţelor dintre aceste medii, calculatǎ astfel:

σ1 şi σ2 fiind, desigur, abaterile standard ale celor douǎ grupuri.

II. Testul t

În marea majoritate a situaţiilor din realitate, nu cunoaştem dispersia populaţiei din care provine eşantionul, aşadar testul z nu ne mai este util. Vom folosi aşadar testul t.

În analiza statisticǎ sunt cunoscute trei tipuri de test t: univariat, bivariat pe eşantioane independente şi bivariat pe eşantioane perechi. Le vom descrie pe scurt în rândurile ce urmeazǎ.

15

Page 16: Cap 01 Mediul de Lucru SPSS

A. Testul t univariat (pentru un singur eşantion)

Acest test se foloseşte pentru a compara media unui eşantion cu media populaţiei totale, atunci când cunoaştem doar media populaţiei (nu şi dispersia).

Statistica t se calculeazǎ, pentru acest caz, exact la fel ca statistica z:

Diferenţa constǎ în faptul cǎ abaterea de selecţie (valoarea de la numitor) nu se mai calculeazǎ pornind de la abaterea standard a populatie (σ) – care este necunoscutǎ – ci de la o estimare a acestei abateri (s). Aşadar, formula pentru sm este:

(n fiind volumul eşantionului).

B. Testul t bivariat pe eşantioane independente

Acest test este folosit pentru a detecta existenţa unor diferenţe semnificative între mediile a două eşantioane (grupuri) independente. Valoarea statisticii t calculate este:

unde abaterea standard a diferenţelor se calculeazǎ astfel:

sc fiind la rândul sǎu determinat cu expresia:

C. Testul t bivariat pe eşantioane perechi

Două eşantioane se numesc perechi sau dependente atunci când modul de alegere a unităţilor unui eşantion este determinat de modul de alegere a unităţilor celuilalt. Între unităţile din două eşantioane perechi se poate stabili o corespondenţă biunivocă. Statistica t utilizatǎ pentru evaluarea semnificatiei diferentei dintre medii se calculeazǎ cu formula:

16

Page 17: Cap 01 Mediul de Lucru SPSS

unde este media diferenţelor di dintre valorile perechi, iar sd este abaterea pǎtraticǎ a acestor diferenţe.

Utilizarea programului SPSS pentru testul t

Fişierul pe care-l vom folosi un aceastǎ secţiune este tot Employee data.sav. Vom ilustra în continuare, cu ajutorul a câte unui exemplu, modul de analizǎ pentru fiecare din cele trei tipuri de test t.

A. Testul t univariat

Să presupunem că deţinem urmǎtoarea informatie: că salariul mediu al unui angajat dintr-o bancǎ americanǎ este de 36000 de dolari. Respectă eşantionul nostru (de 474 de angajaţi) condiţia de reprezentativitate din acest punct de vedere? Dacă o respectă, atunci salariul mediu pe acest eşantion nu va fi semnificativ diferit de cel de la nivelul populaţiei. În unul din capitolele anterioare am calculat acest salariu mediu şi am văzut că era egal cu 34419.57 dolari. Să vedem dacă este semnificativ diferit de cel de 36000 de dolari. Vom fixa pentru studiul nostru un nivel de semnificaţie de 5%, adică un nivel de încredere de 95%.

Pentru a rula testul t univariat vom apela comanda:

Analyze > Compare Means > One-Sample T Test

În casetaă de dialog care apare, în fereastra “Test Variable(s)” vom introduce variabila salary, iar în câmpul “Test Value” com introduce valoarea 36000. Apăsând butonul OK obţinem urmǎtorul tabel:

One-Sample TestTest Value = 36000

t df Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference

Lower Upper Current

Salary-2.015 473 .044 -$1,580.43 -$3,121.60 -$39.27

Coloana a patra a acestui tabel este cea mai importantă, deoarece pe baza ei putem lua

decizia de acceptare sau respingere a ipotezei nule. Regula de decizie este următoarea: dacă valoarea lui “Sig.” din această coloană este mai mică decât nivelul de semnificaţie ales de noi, atunci vom respinge ipoteza nulă (cu alte cuvinte, vom afirma că între cele două valori există o diferenţă semnificativă); în caz contrar, vom accepta ipoteza nulă.

17

Page 18: Cap 01 Mediul de Lucru SPSS

Întrucât avem 0.044<0.05 vom respinge ipoteza nulă şi vom spune că salariul mediu pe eşantion este semnificativ diferit de salariul mediu pe populaţia totală, cu un nivel de încredere de 95%. Aşadar, eşantionul nu poate fi considerat reprezentativ din acest punct de vedere.

B. Testul t bivariat pentru două eşantioane independente

Să presupunem, că dorim să verificăm dacă salariul mediu al bărbaţilor din bancă este semnificativ diferit de cel al femeilor. Pentru aceasta vom folosi testul bivariat pe eşantioane independente, apelat cu comanda:

Analyze > Compare Means > Independent-Samples T Test

În fereastra “Test Variables” vom introduce din nou variabila salary, iar în câmpul “Grouping Variable” vom introduce variabila gender. Observăm că se activează butonul Define Groups. Dacă îl apăsăm se deschide o nouă casetă de dialog. Aici, în câmpul “Group 1” vom introduce “m” (fără asteriscuri), iar în câmpul “Group 2” vom introduce “f” (deasemenea fără asteriscuri). Apăsăm butonul Continue şi observăm că în câmpul “Grouping Variable” din prima casetă de dialog apare: “gender(‘m’ ‘f’)”. În acest fel am definit cele două eşantioane. Apăsăm OK pentru a rula analiza.

Iată o porţiune (cea mai relevantǎ) din tabelul de analiză pe care ni-l furnizeazǎ SPSS-ul:

Independent Samples TestLevene's Test for

Equality of Variancest-test for Equality of Means

F Sig. t df Sig. (2-tailed)

Current Salary

Equal variances assumed

119.669 .000 10.945 472 .000

Equal variances

not assumed

11.688 344.262 .000

Informaţiile din acest tabel vor fi comentate şi interpretate la seminar.

C. Testul t bivariat pentru două eşantioane perechi

Să presupunem în continuare că dorim să determinăm dacă există o diferenţă semnificativă între salariul mediu iniţial al lucrătorilor şi salariul mediu actual. Testul t pentru eşantioane perechi ne este de util în acest scop. Procedura pe care trebuie sǎ o apelǎm este:

18

Page 19: Cap 01 Mediul de Lucru SPSS

Analyze > Compare Means > Paired-Samples T Test

Acum va trebui să introducem în fereastra “Paired Variables” variabilele supuse analizei. Vom selecta simultan (folosind butonul CTRL al tastaturii) variabilele salary şi salbegin. Apăsând OK obţinem următorul output:

Paired Samples TestPaired Differences t df Sig. (2-

tailed)

Mean Std. Deviation

Std. Error Mean

Pair 1 Current Salary -

Beginning Salary

$17,403.48 $10,814.62 $496.73 35.036 473 .000

Să privim ultima coloanǎ: avem acolo valoarea parametrului “Sig”, utilizat pentru aprecierea semnificaţiei statistice. Întrucât acest parametru este mai mic decât 0.05, vom deduce că între salariul actual şi cel iniţial există o diferenţă semnificativă. Media acestei diferenţe pentru populaţia totalǎ (17403.48 dolari) poate fi gǎsitǎ din coloana a treia a tabelului.

Capitolul 5

Operaţii cu date şi variabile

Se pot întâlni în practicǎ foarte multe situaţii în care, înainte de a trece la analiza statisticǎ propriu-zisǎ, este necesar sǎ operǎm o serie de transformǎri sau modificǎri asupra datelor şi/sau variabilelor din baza de date. Aceasta se întâmplǎ fie din cauzǎ cǎ analistul este interesat doar de un anumit segment al datelor (un anumit subgrup din populaţia totalǎ), fie din cauzǎ cǎ informaţiile din baza de date nu sunt prezente în forma cea mai convenabilǎ pentru analist.

Iatǎ câteva posibile exemple de astfel de situaţii: dorim sǎ analizǎm corelaţia dintre anumite variabile pe un singur segment al angajaţilor

(de pildǎ, numai pentru angajaţii bǎrbaţi); dorim sǎ obţinem anumite informaţii statistice, simultan, pentru mai multe segmente de

angajaţi (de exemplu, atât pentru bǎrbaţi, cât şi pentru femei) în scopul de a compara mai uşor aceste informaţii;

dorim sǎ creem o nouǎ variabilǎ pornind de la una sau mai multe variabile deja existente (de exemplu, avem numǎrul de ore lucrate pe lunǎ şi salariul orar, şi dorim sǎ le înmulţim pentru a calcula salariul lunar);

dorim sǎ transformǎm o variabilǎ numericǎ într-una categorialǎ (de exemplu, pentru a-i împǎrţi pe angajaţi în trei grupuri: cu salarii mici, medii şi mari);

dorim sǎ sortǎm datele dupǎ un anumit criteriu (de exemplu, sǎ-i sortǎm pe angajaţi în funcţie de nivelul de educaţie).

19

Page 20: Cap 01 Mediul de Lucru SPSS

În continuare, vom vedea cum se rezolvǎ efectiv problemele de acest fel cu ajutorul facilitǎţilor disponibile în programul SPSS. Baza de date folositǎ va fi, ca şi în capitolele precedente, Employee data.sav.

Sortarea datelor

Este una din cele mai simple operaţiuni cu datele. Ea ne permite sǎ sortǎm cazurile din baza de date, ascendent sau descendent, în functie de variabila pe care am ales-o. Aceastǎ variabilǎ poate fi numericǎ sau categorialǎ.

Sortarea se realizeazǎ apelând comanda:

Data > Sort Cases

În fereastra din dreapta a casetei de dialog se introduc variabilele dupǎ care se face sortarea. Dacǎ dorim, de exemplu, sǎ-i sortǎm pe angajati dupǎ saalriu şi categorie, un ordine ascendentǎ), vom selecta variabilele salary şi jobcat, precum şi opţiunea “Ascending”. La final, angajaţii se vor regǎsi grupaţi pe cele trei categorii profesionale (funcţionari, salariaţi, manageri), iar în cadrul fiecǎrei categorii vor fi ierarhizaţi în ordinea crescǎtoare a salariilor.

Sortarea este utilǎ, de exemplu, dacǎ dorim sǎ aplicǎm procedura Explore (vezi capitolul 2) pe un grup anume de angajaţi – de exemplu, cei care au salariul mai mic sau cel mult egal cu 50000 de dolari pe an. Prin comanda Sort Cases vom ordona angajaţii dupǎ salariu, în mod ascendent, iar apoi vom rula procedura Explore numai pentru acele cazuri care îndeplinesc condiţia noastrǎ.

Selectarea cazurilor

Să presupunem în cele ce urmeazǎ că ne interesează, dintr-un anumit motiv, sǎ rulǎm o serie de analize statistice numai pentru angajaţii de sex masculin. În acest caz va trebui ca din eşantion să selectăm doar salariaţii care aparţin acestui grup. Pentru a face acest lucru vom folosi comanda:

Data > Select Cases

SPSS-ul deschide o casetă de dialog pentru selectare. În partea dreaptă vom alege opţiunea “If condition is satisfied” şi vom apăsa butonul If. Se deschide o nouă casetă în care vom introduce condiţia noastră sub forma: gender=”m” (aşadar, urmează să fie reţinuţi doar salariaţii bărbaţi). Apăsăm butonul Continue şi apoi OK.

Observăm că acele cazuri din baza de date pentru care are loc gender=”f” (aşadar, cele corespunzătoare salariaţilor femei) au fost “barate” (aşadar vor fi excluse de la analiză). Mai mult, în partea din dreapta jos a ferestrei SPSS-ului se poate citi menţiunea “Filter on”, ceea ce înseamnă că respectivei baze de date i-a fost aplicat un filtru.

Să calculăm acum, cu titlu de exemplu, coeficientul de corelaţie între salariul de început şi cel actual la nivelul unui acestui “segment” al populaţiei noastre – angajaţii bǎrbaţi.

Aplicăm procedura pentru analiza corelaţiei, aşa cum a fost prezentatǎ în capitolul 3, şi obţinem urmǎtorul rezultat:

Correlations

20

Page 21: Cap 01 Mediul de Lucru SPSS

Current Salary Beginning Salary Current

SalaryPearson

CorrelationSig. (2-tailed)

N

1.000 .860**

. .000

258 258

Beginning Salary

Pearson Correlation

Sig. (2-tailed)N

.860** 1.000.000 .

258 258

** Correlation is significant at the 0.01 level (2-tailed).

Se observǎ cǎ numǎrul total de cazuri pentru care a fost rulatǎ analiza este de 258 (aşadar, numai salariaţii de sex masculin)..

Pentru a înlǎtura filtrul definit pentru o bazǎ de date, atunci când nu mai avem nevoie de el, va trebui sǎ apelǎm din nou comanda:

Data > Select Cases

În caseta de dialog care apare se selectează opţiunea “All cases” şi apoi se apasă butonul OK.

Divizarea fişierului

Să presupunem că într-o bazǎ de date oarecare cazurile pot fi împǎrţite în 10 subgrupuri distincte, iar cercetǎtorul doreşte sǎ ruleze o anumitǎ analizǎ pentru fiecare subgrup în parte. Dacǎ ar folosi procedura de selectare a cazurilor, descrisǎ anterior, ar trebui sǎ repete aceastǎ procedurǎ de 10 ori, ceea ce ar fi incomod. Pentru a evita acest lucru, el poate utiliza o comandǎ de divizare a fişierului (“file split”) pusǎ la dispoziţie de SPSS.

Dacǎ este necesarǎ, de exemplu, determinarea coeficientul de corelaţie dintre salariul iniţial şi cel actual atât pentru bǎrbaţi, cât şi pentru femei, se va apela mai întâi la comanda de divizare a fişierului:

Data > Split File

Apare din nou o casetă de dialog, în care vom selecta opţiunea “Compare Groups”. În fereastra denumită “Groups Based on” vom introduce variabila gender. Odată ce apăsăm butonul OK, vom observa că în partea din dreapta jos a ferestrei SPSS apare menţiunea “Split File On”. Rulând din nou comanda pentru analiza corelaţiei obţinem douǎ tabele, câte unul pentru fiecare subgrup analizat:

Gender = Female

CorrelationsCurrent Salary Beginning Salary

Current Salary

Pearson Correlation

1.000 .759**

. .000

21

Page 22: Cap 01 Mediul de Lucru SPSS

Sig. (2-tailed)N

216 216

Beginning Salary

Pearson Correlation

Sig. (2-tailed)N

.759** 1.000.000 .

216 216

** Correlation is significant at the 0.01 level (2-tailed).a Gender = Female

Gender = Male

CorrelationsCurrent Salary Beginning Salary

Current Salary

Pearson Correlation

Sig. (2-tailed)

N

1.000 .860**. .000

258 258

Beginning Salary

Pearson Correlation

Sig. (2-tailed)

N

.860** 1.000.000 .

258 258 ** Correlation is significant at the 0.01 level (2-tailed).a Gender = Male

Atunci când fişierul este “divizat” în funcţie de o anumitǎ variabilǎ, toate analizele statistice vor fi rulate pe subgrupuri, în funcţie de valorile respectivei variabile.

Pentru a transforma un fişier “divizat” într-unul normal, vom apela din nou comanda Split File, iar în caseta de dialog vom alege opţiunea “Analyze all cases, do not create groups”.

Recodificarea variabilelor

Pot fi imaginate multe situaţii în care este necesar sǎ recodificǎm una dintre variabilele din baza de date. Sǎ ne gândim, de exemplu, la un posibil caz în care dorim sǎ transformǎm o variabilǎ numericǎ într-una categorialǎ.

Să presupunem că dorim să constatǎm dacă există o diferenţă semnificativă între salariul mediu al lucrătorilor cu studii medii (maxim 12 ani) şi cel al lucrătorilor cu studii superioare (peste 12 ani). Întrucât variabila education nu este categorială, ci numerică, va trebui să o recodificăm. Pentru aceasta vom executa comanda:

Transform > Recode > Into Different Variables

Am ales opţiunea “Into Different Variables” deoarece dorim sǎ pǎstrǎm şi valorile iniţiale ale variabilei respective. În caz contrar, am fi ales opţiunea alternativǎ “Intro Same Variables”.

22

Page 23: Cap 01 Mediul de Lucru SPSS

In fereastra principală a casetei de dialog vom introduce variabila pe care dorim să o recodificăm – educ – iar în câmpul din dreapta introducem numele noii variabile create – o vom numi educ2 – şi apoi apăsăm butonul Change pentru a salva această nouă variabilă. Ea va fi ulterior variabila după care vom face gruparea în cadrul testului t. Apăsăm apoi butonul Old and New Values.

Noua casetă de dialog ne permite recodificarea valorii vechii variabile. Astfel, salariaţilor care au maxim 12 ani de studii le vom atribui codul 1, iar celor care au peste 12 ani le vom atribui codul 2. După terminarea operaţiunii de recodificare apăsăm butonul Continue şi apoi OK. SPSS-ul a salvat în baza de date variabila educ2, care are numai două valori: 1 şi 2.

În aceste condiţii, este foarte uşor sǎ rulǎm testul t pentru compararea mediilor a douǎ grupuri independente, utilizând pentru grupare noua variabilǎ categorialǎ educ2.

Calcularea valorilor unei noi variabile

În cazul în care avem nevoie, pentru analizǎ, de o variabilǎ care nu existǎ ca atare în baza de date, dar ale cǎror valori pot fi calculate utilizând variabilele existente, programul SPSS ne dǎ posibilitatea de a obţine aceastǎ nouǎ variabilǎ.

În baza noastrǎ de date existǎ douǎ variabile care se referǎ la vechimea angajatului. Este vorba de jobtime (vechimea la locul de muncǎ actual) şi prevexp (experienţa anterioarǎ). Ambele sunt exprimate în luni. Sǎ presupunem cǎ dorim sǎ calculǎm experienţa totalǎ a angajaţilor, însumând pur şi simplu valorile acestor douǎ variabile. Pentru aceasta apelǎm comanda:

Transform > Compute

În câmpul din dreapta sus al casetei de dialog vom introduce numele noii variabile (de exemplu, exper). Apoi vom introduce în fereastra din dreapta expresia de calcul a noii variabile: jobtime + prevexp.

Dupǎ ce apǎsǎm butonul OK, programul creazǎ noua variabilǎ exper.

Comanda Compute poate fi folositǎ şi în alte scopuri. Programul ne pune la dispoziţie un numar foarte mare de funcţii predefinite (circa 70), funcţii care pot fi utilizate cu variabilele numerice, şir de caractere sau datǎ. De exemplu, dacǎ avem douǎ variabile, conţinând prenumele şi numele angajaţilor, putem utiliza funcţia CONCAT (concatenare) pentru a creea o nouǎ variabilǎ care sǎ conţinǎ numele complet al angajatului.

Capitolul 6

Teste neparametrice

23

Page 24: Cap 01 Mediul de Lucru SPSS

Testele neparametrice reprezintǎ o categorie aparte de teste statistice, folosite în situatia în care datele implicate în analizǎ sunt de tip categorial, cum ar fi sexul, mediul de viaţă (urban/rural), tipul de cafea preferat etc.

Aspecte teoretice - recapitulare

Testele neparametrice pe care le vom studia la acest curs sunt: testul binomial, testul hi pǎtrat, testul de normalitate Kolmogorov-Smirnov, testele Mann-Whitney şi Wilcoxon W pentru compararea a douǎ eşantioane independente, testul Wilcoxon Z pentru compararea a douǎ eşantioane perechi. Sǎ le prezentǎm în continuare pe scurt.

1. Testul binomial

Acest test este folosit în cazul variabilelor categoriale care pot lua doar două valori (cum ar fi, de exemplu, sexul). Rolul lui este de a compara proporţia celor două valori în eşantion cu proportia din populaţia totală sau cu o altă proporţie teoretică dată.

Întrucât, pentru un volum suficient de mare al eşantionului, distribuţia binomialǎ poate fi aproximatǎ cu una normalǎ, testul binomial se realizeazǎ cu ajutorul statisticii z. Formula de calcul a acesteia este:

unde p este proporţia observatǎ, iar π este proporţia teoreticǎ. Valoarea calculatǎ a statisticii z se comparǎ cu cea tabelarǎ corespunzǎtoare nivelului de semnificaţie dorit de cercetǎtor.

2. Testul hi pǎtrat ( χ 2 )

Acest test se folosşte atunci când studiem variabile categoriale având trei sau mai multe categorii. Existǎ douǎ tipuri de teste hi pǎtrat: univariat şi bivariat.

Testul hi pǎtrat univariat este folosit pentru a compara o distribuţie observatǎ cu una teoreticǎ şi a determina dacǎ existǎ diferenţe între cele douǎ distribuţi. Iatǎ formula de calcul a statisticii χ2, cazul univariat:

unde cu Oi s-au notat valorile observate ale distribuţie, iar cu Ti valorile teoretice.Valoarea teoreticǎ a statisticii hi pǎtrat se cautǎ în tabele corespunzǎtor nivelului de semnificaţie ales

şi numǎrului de grade de libertate (acesta este numǎrul de categorii al variabilei minus unu).Testul hi pǎtrat bivariat este folosit pentru a studia legǎtura dintre douǎ variabile categoriale.

Statistica se calculeazǎ cu formula:

24

Page 25: Cap 01 Mediul de Lucru SPSS

Dacǎ aceastǎ valoare este mai mare decât valoarea tabelarǎ (teoreticǎ) vom putea afirma cǎ existǎ o legǎturǎ între variabilele studiate; în caz contrar, vom spune cǎ ele sunt independente.

La fel ca la testul hi pǎtrat bivariat, valoarea teoreticǎ depinde de nivelul de semnificaţie şi numǎrul de grade de libertate. Acesta din urmǎ se determinǎ cu relatia: (K-1)(L-1), unde cu K şi L am notat numǎrul de categorii ale celor douǎ variabile.

3. Testul de normalitate Kolmogorov-Smirnov

Acest test comparǎ o distribuţie observatǎ cu una normalǎ şi ne spune dacǎ respectiva distribuţie poate fi consideratǎ normalǎ sau nu. Aparatul matematic utilizat pentru efectuarea acestui test este destul de complicat; ca urmare, nu vom insista aici asupra formulelor matematice.

4. Testul Mann-Whitney (U) pentru compararea a douǎ eşantioane independente

Testul mann-Whitney este echivalentul testului t pe eşantioane independente studiat la capitolul 4. El se utilizează atunci când avem de-a face cu variabile ordinale.

Pentru a efectua testul Mann-Whitney se calculeazǎ doua valori ale lui U, în felul urmǎtor:

U1 = n1n2 + n1(n1 + 1)/2 – R1

U2 = n1n2 + n2(n2 + 1)/2 – R2

În aceste formule, cu n s-au notal volumele eşantioanelor, iar cu R sumele rangurilor pentru grupurile 1 şi 2, respectiv (valorile celor douǎ grupuri se amestecǎ, sunt ordonate crescǎtor, iar apoi rangurile sunt a atribuite începând de la 1). Statistica U se alege ca fiind cea mai micǎ dintre valorile U1 şi U2. Se poate demonstra cǎ aceastǎ statisticǎ urmeazǎ o repartiţie aproximativ normalǎ. Scorul z se calculeazǎ cu formula:

unde μ este media lui U, iar σ este abaterea sa pǎtraticǎ. Ele se calculeazǎ astfel:

5. Testul Wilcoxon W

Testul W al lui Wilcoxon se foloseşte în acelaşi scop ca şi testul U, fiind o alternativǎ la acesta. La fel ca la testul Mann-Whitney valorile celor douǎ grupuri se amestecǎ şi se ordoneazǎ crescǎtor, iar apoi sunt acordate rangurile începând de la 1 pânǎ la cel mai mare (suma volumelor eşantioanelor). Nici la acest test nu vom insista asupra formulelor matematice folosite.

6. Testul Wilcoxon Z

25

Page 26: Cap 01 Mediul de Lucru SPSS

Acest test, care mai poartǎ şi denumirea de “testul semnului şi al rangului” este folosit pentru a determina dacǎ douǎ eşantioane dependente (perechi) sunt diferite sau nu. Din acest punct de vedere este asemǎnǎtor cu testul t pentru eşantioanele perechi, dar se utilizeazǎ atunci când variabila studiatǎ este ordinalǎ.

Pentru a rula acest test, valorile variabilei sunt ordonate, iar fiecǎrei valori i se atribuie un rang afectat de un semn. Suma rangurilor (notatǎ cu T) este repartizatǎ dupǎ distribuţia t, calculatǎ cu formula:

Media şi abaterea pǎtraticǎ se calculeazǎ cu ajutorul expresiilor de mai jos (n este volumul eşantionului):

Utilizarea programului SPSS pentru testele neparametrice

În cadrul acestei secţiuni vom utiliza, alǎturi de fişierul Employee data.sav (cu care suntem deja familiarizaţi), alte douǎ baze de date Prima dintre ele este voter.sav, care conţine date înregistrate pe un eşantion de 1847 de alegători americani, privitoare la alegerile prezidenţiale din 1992 din SUA. A doua bazǎ de date este 1991 U.S. General Social Survey.sav, unde gǎsim rezultatele unei anchete de opinie realizatǎ în Statele Unite în anul 1991, pe un eşantion de 1517 persoane. Toate aceste baze de date conţin variabile categoriale şi ordinale utile scopului nostru.

I. Testul binomial

Pentru a demonstra aplicarea acestui test vom folosi fişierul voter.sav. Să presupunem că dorim să verificăm dacă proporţia bărbaţi/femei în acest eşantion de alegători americani corespunde cu cea presupusǎ a fi întâlnită în populaţia totală (50/50). Vom utiliza comanda:

Analyze > Nonparametric Tests > Binomial

În fereastra “Test Variable List” vom introduce variabila sex. În câmpul “Test Proportion” se află trecută deja valoarea 0.50, reprezentând distribuţia teoretică (50/50) cu care vom compara distribuţia din eşantion. Dacă distribuţia teoretică este alta, vom schimba desigur variabila din acest câmp.

În partea din stânga jos a casetei de dialog se observă un cadran intitulat “Define Dichotomy” cu două opţiuni: “Get From Data” şi Cut Point”. Dacă variabila cu care lucrăm este una categorială, va rămâne selectată prima opţiune (cea implicită). Dacă variabila este cantitativă, o putem transforma într-una categorială alegând opţiunea a doua şi indicând valoarea unde se face

26

Page 27: Cap 01 Mediul de Lucru SPSS

diviziunea dintre cele două categorii. De exemplu, dacă s-ar pune problema să testăm proportia alegătorilor în vârstă de peste 40 de ani, am alege opţiunea “Cut Point” şi am introduce în câmpul respectiv valoarea 40.

Odată ce apăsăm butonul OK, SPSS-ul ne dă rezultatul analizei:

Binomial TestCategory N Observed

Prop.Test Prop. Asymp.

Sig. (2-tailed)

RESPONDENTS SEX

Group 1 male 804 .44 .50 .000

Group 2 female 1043 .56Total 1847 1.00

a Based on Z Approximation.

Se poate observa că din 1847 de alegători din eşantion, 804 (44%) sunt bărbaţi, iar 1043 (56%) sunt femei. Regula de decizie este cea cunoscută: dacă valoarea lui “Sig.” este mai mică decât nivelul de semnificaţie ales (0.05), atunci putem spune că există o diferenţă semnificativă între cele două proporţii. Este şi cazul nostru de faţă: nu putem afirma că proporţia bărbaţi femei din eşantion o reproduce pe cea din populaţia totală – femeile predomină într-o proporţie semnificativă.

II. Testul hi pǎtrat univariat

Baza de date folositǎ pentru acest test va fi tot voter.sav. Dorim să analizăm acum distribuţia intenţiilor de vot pentru candidaţii Clinton, Bush sau Perot (variabila pres92). Testul hi pǎtrat univariat ne va spune dacǎ voturile tind a se îndrepta în mod hotǎrâtor cǎtre unul din candidaţi sau dacǎ, dimpotrivǎ, tind a se împǎrţi în mod egal între cei trei candidaţi. Pentru a rula acest test apelăm comanda:

Analyze > Nonparametric Tests > Chi-Square

În fereastra “Test Variable List” introducem variabile pres92. Observăm apoi că în cadranul “Expected Values” ni se dă posibilitatea să definim distribuţia teoretică cu care vom face comparaţia. Dacă dorim ca ea să fie o echirepartiţie, vom selecta opţiunea “All Categories Equal” (aceasta corespunde cazului teoretic în care intenţiile de vot s-ar împărţi egal între cei trei candidaţi). În caz contrar, vom introduce pe rând valorile distribuţiei teoretice folosind opţiunea “Values”.

Apăsând butonul OK obţinem:

VOTE FOR CLINTON, BUSH, PEROTObserved

NExpected

NResidual

Bush 661 615.7 45.3 Perot 278 615.7 -337.7

Clinton 908 615.7 292.3 Total 1847

Test StatisticsVOTE FOR CLINTON,

BUSH, PEROT Chi-Square 327.341

27

Page 28: Cap 01 Mediul de Lucru SPSS

df 2 Asymp.

Sig..000

a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 615.7.

În primul tabel observăm valorile distribuţiei reale (coloana a doua), cele ale distribuţiei teoretice, care sunt egale (coloana a treia), precum şi diferenţele dintre ele.

În tabelul al doilea avem datele analizei. Valoarea lui hi pătrat este 327.341, iar numărul de grade de libertate este 2 (numarul categoriilor variabilei minus unu). Întrucât “Sig.” este mai mic decât 0.05, putem spune că între cele două distribuţii există diferenţe semnificative. Cu alte cuvinte, intenţiile de vot nu tind a se împărţi egal între candidaţi; părerea lor este deja formată, iar majoritatea opţiunilor merg spre Bill Clinton, după cum se poate observa din primul tabel.

III. Testul hi pǎtrat bivariat

În cele ce urmeazǎ, vom deschide fişierul Employee data.sav şi vom studia relaţia dintre variabilele gender şi jobcat (categoria angajatului). Întrucât ambele variabile sunt categoriale va trebui sǎ folosim testul hi pǎtrat bivariat pentru a ne atinge scopul. Pentru aceasta vom cere programului sǎ realizeze un tabel încrucişat, cu ajutorul comenzii (vezi capitolul 2):

Analyze > Descriptive Statistics > Crosstabs

Apǎsǎm butonul Statistics, iar în noua casetǎ de dialog care se deschide selectǎm opţiunea Chi-square. Rezultatele analizei se gǎsesc în tabelele ce urmeazǎ.

Gender * Employment Category CrosstabulationCount

Employment Category

Total

Clerical Custodial Manager Gender Female 206 10 216

Male 157 27 74 258 Total 363 27 84 474

Chi-Square TestsValue df Asymp. Sig. (2-

sided) Pearson Chi-Square 79.277 2 .000

Likelihood Ratio 95.463 2 .000 N of Valid Cases 474

a 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.30.

28

Page 29: Cap 01 Mediul de Lucru SPSS

Din cel de-al doilea tabel ne intereseazǎ cu precǎdere prima linie, care prezintǎ rezultatele testului hi patrat. Întrucât valoarea “Sig” este mai micǎ decât 0.05, vom deduce cǎ existǎ o legǎturǎ între cele douǎ variabile. Aşadar, bǎrbaţii si femeile nu sunt repartizaţi proporţional pe cele trei categorii profesionale (funcţionari, paznici şi manageri).

IV. Testul de normalitate Kolmogorov-Smirnov

Să ne întoarcem la baza de date voter.sav. Problema pe care ne-o punem acum este dacǎ variabila educ (nivelul studiilor respondenţilor, exprimat în ani) se prezintǎ sub forma unei distribuţii normale. Pentru aceasta vom apela comanda:

Analyze > Nonparametric Tests > 1 Sample K-S

În caseta de dialog deschisǎ vom introduce variabila educ ca variabilǎ de analizǎ. În chenarul “Test Distribution” este deja selectatǎ distribuţia normalǎ; apǎsǎm aşadar butonul OK şi obţinem urmǎtorul tabel:

One-Sample Kolmogorov-Smirnov TestHIGHEST YEAR OF

SCHOOL COMPLETED N 1845

Normal Parameters Mean 13.93Std.

Deviation2.84

Most Extreme Differences Absolute .134Positive .134

Negative -.133 Kolmogorov-Smirnov Z 5.749

Asymp. Sig. (2-tailed) .000 a Test distribution is Normal.

b Calculated from data.

Interpretarea datelor din acest tabel se va face la ora de seminar.

V. Testul Mann-Whitney pentru eşantioane independente

Vom folosi în continuare baza de date voter.sav. Vom presupune cǎ ne intereseazǎ dacă bărbaţii şi femeile din eşantion diferă în mod semnificativ între ei sub aspectul studiilor. Pentru aceasta vom folosi variabila degree, care este una ordinală (0 corespunde sudiilor medii, iar 4 studiilor superioare). Vom apela comanda:

Analyze > Nonparametric Tests > 2 Independent Samples

În fereastra “Test Variable List” introducem variabile degree, iar în câmpul “Grouping Variable” variabila sex. Apoi apăsăm butonul Define Groups şi definim cele două grupuri exact cum am făcut pentru testul t bivariat pentru eşantioane independente (vezi capitolul 3). În cadranul “Test Type” este deja selectat testul Mann-Whitney (U), aşa încât apăsăm butonul OK şi obţinem:

Test StatisticsRS HIGHEST DEGREE

29

Page 30: Cap 01 Mediul de Lucru SPSS

Mann-Whitney U 409502.000 Wilcoxon W 953948.000

Z -.932 Asymp. Sig. (2-tailed) .351

a Grouping Variable: RESPONDENTS SEX

Acest tabel este cel mai important pentru analiză, deoarece ne dă semnificaţia testului. Se observǎ cǎ programul ne furnizeazǎ şi valoarea testului W al lui Wilcoxon. Regula de decizie este cea cu care ne-am obisnuit deja: trebuie să comparăm valoarea lui “Sig.” cu cea a nivelului de semnificaţie ales de noi (0.05). Întrucât aici avem 0.351>0.05, vom tage concluzia că bărbaţii si femeile nu diferă între ei în ceea ce priveşte nivelul de educaţie. Dacă diferenţa ar fi fost semnificativă, atunci sensul ei ar fi fost dat de semnul notei Z de pe rândul patru al tabelului.

VI. Testul Wilcoxon Z pentru eşantioane perechi

Pentru a exemplifica acest test vom deschide fişierul 1991 U.S. General Social Survey.sav. Vom lua în considerare urmǎtoarele variabile din baza de date: obey (cât de importantǎ este pentru respondent supunerea, ascultarea de autoritǎţi) şi popular (cât de important este faptul de a fi popular, de a fi iubit şi apreciat). Dorim sǎ vedem dacǎ existǎ o diferenţǎ untre aceste douǎ variabile atitudinale.

Deoarece aici nu avem de-a face cu variabile cantitative, ci mai degrabǎ ordinale, este necesar sǎ apelǎm la testul semnului şi al rangului (testul Z al lui Wilcoxon) pentru a rezolva problema. Comanda utilizatǎ este:

Analyze > Nonparametric Tests > 2 Related Samples

La fel ca la testul t pe eşantioane perechi (capitolul 4), trebuie sǎ introducem în fereastra din dreapta a casetei de dialog perechile de variabile care fac obiectul comparaţiei (în cazul nostru, obey – popular). Se observǎ cǎ un caseta “Test Type” este deja selectat testul wilcoxon, singurul care ne intereseazǎ în acest moment. Apǎsând butonul OK obţinem urmǎtorul rezultat:

RanksN Mean

RankSum of Ranks

To Be Well Liked or Popular - To

Obey

Negative Ranks 205 337.99 69288.00

Positive Ranks 777 532.00 413365.00Ties 0

Total 982

Test StatisticsTo Be Well Liked or Popular - To Obey

Z -19.742 Asymp. Sig. (2-tailed) .000

Interpretarea în detaliu a tabelelor o vom face la seminar. Aici vom observa doar cǎ existǎ o diferenţǎ semnificativǎ între cele douǎ variabile (statistica “Sig” este mai micǎ decât 0.05). Sensul diferenţei este dat de semnul scorului Z. Se observǎ cǎ acest semn este minus. Întrucât pentru fiecare

30

Page 31: Cap 01 Mediul de Lucru SPSS

din cei doi itemi scorul creşte pe mǎsurǎ ce importanţa scade (1 – cel mai important, 5 – cel mai puţin important) deducem cǎ pentru americani este mai important a fi popular decât a te supune în faţa autoritǎţilor.

Capitolul 7

Populaţie şi eşantion

În ştiinţele sociale, populaţia totală supusă studiului are cel mai adesea dimensiuni foarte mari – de ordinul miilor, sutelor de mii sau chiar milioanelor de unităţi (aceste unitǎţi pot fi persoane individuale, familii/gospodǎrii sau organizaţii). Întrucât efectuarea unor studii pe întreaga populaţie ar fi foarte costisitoare, se apelează de regulă la cercetările statistice conduse pe un eşantion de volum mult mai redus decât cel al populaţiei totale.

Două probleme se pot pune în legătură cu eşantionarea:- determinarea erorii de estimare a unui parametru (de regulă media unei variabile), pe care

ne-o permite un eşantion dat şi- stabilirea volumului eşantionului care permite estimarea parametrului cu o eroare maximă

impusă.

Să presupunem că dintr-o populaţie totală formată din N unităţi se extrage un eşantion de volum n. Modul de calcul al indicatorilor statistici, atât pentru populaţia totală cât şi pentru eşantion, este prezentat în tabelul următor:

Caracteristică nealternativăPopulaţia totală (N) Eşantion (n)

Media:

Dispersia:

Media:

Dispersia:

Caracteristică alternativăPopulaţia totală (N) Eşantion (n)

Media: (frecvenţa de apariţie a stării “da” sau 1 în populaţia totală)

Dispersia:

Media: p (frecvenţa de apariţie a stării “da” sau 1 în eşantion)

Dispersia: s2=p(1-p)

31

Page 32: Cap 01 Mediul de Lucru SPSS

Tabelul 1. Parametrii populaţiei şi cei ai eşantionului

Se observă că pentru a nota parametrii populaţiei totale am folosit caractere greceşti, iar pentru cei ai eşantionului caractere latine.

Media eşantionului m este un estimator (mai mult sau mai puţin precis) pentru media populaţiei totale μ, care de regulă nu este cunoscută. Diferenţa E=m- μ poartă numele de eroare de estimare. Pe aceasta ne interesează să o determinăm.

Teoria statistică ne spune că dacă o variabilă are o distribuţie normală de medie μ şi dispersie σ2, atunci mediile (m) ale eşantioanelor de volum dat n vor avea tot o distribuţie normală, de medie μ şi dispersie σ2/n (aceasta poartă numele de dispersie de selecţie). Proprietatea aceasta este foarte importantă pentru eşantionare.

Să reprezentăm curba normală a distribuţiei mediilor eşantioanelor de volum n:

Figura 1. Curba normală a distribuţiei mediilor eşantioanelor de volum n

Eroarea de estimare E este de regulă fixată (impusă) de către cercetător. Intervalul simetric (μ –E, μ +E) poartă numele de interval de încredere. Aria suprafaţei de sub bolta curbei lui Gauss care corespunde acestui interval se numeşte nivel de încredere. Nivelul de încredere ne arată cu ce probabilitate garantăm estimarea noastră. În ştiinţele sociale se foloseşte de obicei un nivel de încredere de 95%, ceea ce înseamnă că putem garanta în proporţie de 95% că eroarea de estimare nu va depăşi nivelul E fixat. Cu alte cuvinte, există un risc de 5% ca eroarea reală să depăşească această limită. Acest risc mai poartă denumirea de nivel de semnificaţie al studiului.

Cum vom estima eroarea în condiţiile în care nu-l cunoaştem pe μ? Făcând apel la scorurile z . Pentru media m a unui eşantion oarecare, scorul z se calculează astfel:

32

2.5%2.5%

μ-E μ+Eμ

N(μ, σ2/n)

95%

Page 33: Cap 01 Mediul de Lucru SPSS

Întrucât dispersia populaţiei totale nu este de regulă cunoscută, ea se estimează cu ajutorul unei anchete preliminare pe un eşantion pilot de 30-200 de persoane. Se presupune că dispersia s2 a acestui eşantion aproximează dispersia σ2 a populaţiei. În acest caz putem rescrie ultima formulă:

De aici putem determina cu uşurinţă eroarea m- μ pe care n-o asigură un eşantion de volum dat n:

În ceea ce-l priveşte pe z, îl vom prelua din tabelele statistice. precizăm că vom folosi în exemplele noastre un nivel de încredere al cercetării de 95.44%, căruia îi corespunde o valoare z=2.

Dacă dorim să estimăm media populaţiei cu o eroare maximă admisibilă E, volumul eşantionului necesar pentru aceasta se calculează cu următoarea formulă (dedusă din cea anterioară):

În cazul în care avem de-a face cu o caracteristicǎ alternativǎ, formula este aceeaşi; se schimbǎ doar modalitatea de calcul a dispersiei (vezi tabelul 1):

Să dǎm acum douǎ exemple concrete de calcul al volumului eşantionului: unul pentru caracteristicile cantitative, altul pentru cele alternative.

Exemplul 1

Să presupunem că din cei 5000 de lucrători ai unei mari companii se extrag în mod aleator 100. Media de vârstă a eşantionului extras (m) este de 44 de ani, iar abaterea medie pătratică (s) de 15 ani. Se pune întrebarea care este eroarea cu care media acestui eşantion estimează media de vârstă a lucrătorilor din companie, cu un nivel de încredere de 95.44% (z=2).

Un calcul simplu, cu ajutorul formulei de determinare a erorii prezentate mai sus, ne arată că această eroare este de 3 ani. Aşadar, putem spune că media de vârstă a lucrătorilor este situată între 41 şi 47 de ani (44±3), cu un nivel de încredere de 95.44%.

Dacă această eroare de 3 ani este mult prea mare şi nu poate fi toleratǎ, va trebui sǎ mǎrim volumul eşantionului. Să presupunem că se doreşte estimarea vârstei medii a lucrătorilor cu o eroare maximă admisibilă (E) de numai 1 an.

În urma calculelor, utilizând formula de determinare a volumului eşantionului, rezultǎ că volumul eşantionului ar trebui să fie de 900 de lucrători, adică de 9 ori mai mare decât cel iniţial.

33

Page 34: Cap 01 Mediul de Lucru SPSS

Exemplul 2

La fel ca la exemplul 1, desfǎşurǎm studiul nostru într-o companie cu 5000 de angajaţi, din care alegem la întâmplare 100. Dintre aceştia, 62 sunt cǎsǎtoriţi (62%), iar 38 necǎsǎtoriţi. Aplicând formula de calcul a erorii, ajungem la concluzia cǎ acest eşantion aproximeazǎ procentajul angajaţilor cǎsǎtoriţi cu o eroare de ±9.7% (52.3%-71.7%). Dacǎ dorim o eroare de estimare mai redusǎ, de exemplu 5%, volumul eşantionului de studiu trebuie sǎ fie de 377 de angajaţi.

Eşantionarea aleatoare în SPSS

Dacǎ dorim ca dintr-o bazǎ de date de mari dimensiuni sǎ extragem un mod aleatoriu un numǎr de cazuri, putem face acest lucru cu ajutorul comenzii de filtrare cunoscute:

Data > Select Cases

În caseta de dialog pe care ne-o prezintǎ programul selectǎm opţiunea Random sample of cases şi apǎsǎm butonul Sample. Se deschide o nouǎ casetǎ, în care ni se oferǎ douǎ posibilitǎţi:

sǎ extragem un anumit procent din totalul cazurilor sǎ extragem un numǎr exact de cazuri.Dupǎ ce ne exprimǎm opţiunea, SPSS-ul alege în mod aleator cazurile care din eşantion şi le

“bareazǎ” pe cele excluse.Sǎ presupunem cǎ dorim sǎ extragem aleatoriu circa 25% cei 474 angajaţi din fişierul

Employee data.sav. În urma efectuǎrii paşilor descrişi mai sus, SPSS-ul a selectat circa 118 cazuri din total. Toate analizele statisitce vor fi rulate acum doar pentru aceste cazuri.

Pentru a elimina filtrul, procedǎm aşa cum am arǎtat la capitolul 5: executǎm din nou comanda Data > Select Cases şi alegem opţiunea All cases.

Capitolul 8

Analiza de regresie

Aspecte teoretice - recapitulare

Analiza de regresie studiază legătura dintre o variabilă dependentă şi una sau mai multe variabile independente, prin intermediul unei ecuaţii de regresie. În cadrul cursului de faţǎ vom discuta doar despre regresia liniarǎ, a cǎrei ecuaţie are forma:

unde:

34

Page 35: Cap 01 Mediul de Lucru SPSS

- y este variabila dependentă (numită şi cauzată sau endogenă);- x1, …, xk sunt variabilele independente (numite şi cauzale sau exogene);- b0 este aşa-numitul “termen liber”;- b1, …, bk sunt coeficienţii (sau parametrii) de regresie;- e este numită variabilă reziduală sau de perturbaţie. Apariţia sa în modelele de regresie se

datoarează faptului că relaţia dintre variabila dependentă şi cele independente nu este una strictă, deterministă, ci una statistică. Pentru fiecare unitate din eşantion, variabila reziduală se calculează ca diferenţă între valoarea reală (sau observată) a lui y şi cea calculată (sau estimată) prin ecuaţia de regresie de mai sus. Variabila e “colectează” aşadar influenţele tuturor factorilor necunoscuţi sau întâmplători, dificil de estimat, precum şi erorile de măsurare.

Toate variabilele care intervin într-o analizǎ de regresie sunt variabile cantitative (metrice). Dacă existǎ o singură variabilă independentă în model, vorbim de o regresie simplă, iar dacă intervin două sau mai multe variabile independente avem de-a face cu o regresie multiplă.

Rezultatele cele mai importante ale unei analize de regresie sunt:

- coeficienţii (sau parametrii de regresie). Aceştia ne arată cu cât se modifică variabila dependentă în urma modificării cu o unitate a uneia din variabilele independente.

- coeficientul de corelaţie multiplă (notat R2), care ne arată procentajul din variaţia lui y care este “explicat” de influenţa variabilelor independente. De pildă, o valoare a lui R2 de 0.90 ne indică faptul că evoluţia variabilei y este determinatǎ în proporţie de 90% de variabilele independente x1, …, xk, iar restul de 10% se explică prin alte influenţe, neluate în considerare în model.

- valoarea testului F. Acest test verificǎ existenţa unei dependenţe liniare între variabila y şi variabilele independente. În cazul în care testul F este nesemnificativ, legǎtura ar putea sǎ nu fie liniarǎ.

- valoarea testelor de semnificaţie pentru coeficienţii de regresie. Dacă parametrul de regresie al uneia din variabilele independente nu diferă semnificativ de 0, este posibil ca variabila respectivă să fie redundantă.

Într-o serie de situaţii particulare, pot fi introduse în modelel de regresie şi anumite variabile calitative (nemetrice), şi anume variabilele de tip dummy. O variabilă dummy este o variabilă care poate lua doar două valori (da/nu, bărbaţi/femei, mediu urban/mediu rural etc.), notate convenţional cu 1 şi 0. Desigur, ar putea fi folosite oricare alte cifre pentru a nota valorile unei variabile dummy, dar acest lucru ar duce la o serie de inconveniente. O asemenea variabilă poate fi utilizată într-o ecuaţie de regresie în acelaşi mod ca o variabilǎ cantitativǎ.

Analiza de regresie în SPSS

În exemplul de analiză de regresie ce urmeazǎ vom folosi tot baza de date Employee data.sav. Ca variabilă dependentă vom considera salariul actual (salary), iar ca variabile independente salariul de început (salbegin), vechimea în bancă (jobtime) şi nivelul de educaţie (educ). Pentru a rula analiza de regresie vom apela comanda:

35

Page 36: Cap 01 Mediul de Lucru SPSS

Analyze > Regression > Linear

În câmpul “Dependent” introducem variabila salary, iar în câmpul “Independent(s)” introducem cele trei variabile independente. Apăsăm OK pentru a rula analiza.

Iată tabelele de output care ne interesează:

Model SummaryModel R R Square Adjusted R

SquareStd. Error

of the Estimate

1 .895 .801 .800 $7,646.00 a Predictors: (Constant), Educational Level (years), Months since Hire, Beginning Salaryb Dependent Variable: Current Salary

În acest tabel ne este prezentat un sumar al analizei. Cea mai interesantă pentru noi este penultima coloană, unde putem vedea coeficientul de corelaţie multiplă, egal cu 0.80 pentru această analiză. Aceasta înseamnă că salariul curent al unui lucrător este determinat în proporţie de 80% de cele trei variabile independente şi în proporţie de 20% de alte influenţe, neluate în calcul aici.

ANOVAModel Sum of

Squaresdf Mean

SquareF Sig.

1 Regression 110439694339.523

3 36813231446.508

629.703 .000

Residual 27476801096.817

47058461278.929

Total 137916495436.340

473

a Predictors: (Constant), Educational Level (years), Months since Hire, Beginning Salaryb Dependent Variable: Current Salary

Acest tabel ne prezintă rezultatele analizei ANOVA pentru modelul nostru de regresie. Dupǎ cum spuneam în secţiunea anterioara, testul F ne aratǎ dacă ipoteza relaţiei liniare între variabilele noastre este corectă. Regula de decizie este simplă: ipoteza relaţiei liniare este corectă dacă valoarea factorului “Sig.” din ultima coloană este mai mică decât nivelul de semnificaţie ales de noi (0.05). În caz contrar, va trebui să luăm în considerare construirea unui alt tip de relaţii (neliniară) între variabilele în cauză.

CoefficientsUnstandar

dized Coefficient

s

Standardized

Coefficients

t Sig.

Model B Std. Error Beta 1 (Constant) -

19986.5023236.616 -6.175 .000

Beginning Salary

1.689 .058 .779 29.209 .000

Months since Hire

155.701 35.055 .092 4.442 .000

36

Page 37: Cap 01 Mediul de Lucru SPSS

Educational Level (years)

966.107 157.924 .163 6.118 .000

a Dependent Variable: Current Salary

Din acest tabel ne interesează cu precădere două coloane: cea a coeficienţilor (a treia) şi cea a valorii testelor de semnificaţie pentru coeficienţi (ultima). Aici putem observa că toţi coeficienţii sunt semnificativi (valorile factorilor “Sig.” sunt mai mici decât 0.05). Ecuaţia noastră de regresie se scrie astfel:

salary = -19986.502 + 1.689 * salbegin + 155.701 * jobtime + 966.107 * educ + e

Pe baza acestei ecuaţii putem face diverse analize asupra variabilei dependente (salariul curent), în funcţie de ceea ce ne interesează mai mult. Astfel, putem constata că:

- dacă doi lucrători au aceeaşi vechime în bancă şi acelaşi nivel de educaţie, dar unul şi-a început slujba cu un salariu cu 1000 de dolari mai mare, acesta din urmă va avea acum (în medie) un salariu anual cu 1689 dolari mai mare decât celălalt;

- un lucrător care are o vechime mai mare cu 10 luni decât celălalt va avea un salariu cu cca 1557 de dolari mai mare, dacă toate celelalte (salariul iniţial şi nivelul de educaţie) sunt aceleaşi;

- orice an în plus adăugat la nivelul de educaţie se traduce într-un spor mediu de salariu de cca 966 dolari.

Residuals StatisticsMinimum Maximum Mean Std. Deviation N

Predicted Value $16,662.55 $145,355.69 $34,419.57 $15,200.31 474 Residual -$29,580.63 $49,218.41 $.00 $7,780.02 474

Std. Predicted Value

-1.168 7.298 .000 1.000 474

Std. Residual -3.794 6.313 .000 .998 474 a Dependent Variable: Current Salary

Sǎ introducem acum în nodelul nostru o variabilǎ de tip dummy. Pentru aceasta vom transforma prin recodificare variabila gender în variabila dummy gendum, care are valorile 1 pentru bărbaţi şi 0 pentru femei. Apoi vom rula din nou analiza de regresie, introducând variabila gendum alături de cele douǎ variabile independente iniţiale.

Tabelele de output sunt următoarele:

Model SummaryModel R R Square Adjusted R

SquareStd. Error

of the Estimate

1 .896 .802 .800 $7,631.68 a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),

Beginning Salaryb Dependent Variable: Current Salary

ANOVAModel Sum of

Squaresdf Mean

SquareF Sig.

37

Page 38: Cap 01 Mediul de Lucru SPSS

1 Regression

110600724690.831

4 27650181172.708

474.742 .000

Residual 27315770745.509

469 58242581.547

Total 137916495436.340

473

a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years), Beginning Salary

b Dependent Variable: Current Salary

CoefficientsUnstandar

dized Coefficient

s

Standardized

Coefficients

t Sig.

Model B Std. Error Beta(Constant) -

19455.8283246.282 -5.993 .000

Beginning Salary

1.656 .061 .763 27.143 .000

Months since Hire

151.152 35.097 .089 4.307 .000

Educational Level (years)

942.136 158.286 .159 5.952 .000

GENDUM 1325.787 797.334 .039 1.663 .097 Din punctul de vedere al preciziei modelului, introducerea variabilei gendum nu aduce nici o

îmbunătăţire: R2 este acelaşi. Ipoteza liniarităţii modelului se verifică (tabelul al doilea), în schimb coeficientul variabilei gendum nu este semnificativ (tabelul al treilea, coloana “Sig.”, ultimul rând). Dacă acceptăm totuşi variabila gendum ca variabilă independentă, putem deduce din valoarea coeficientului său că bărbaţii au în medie un salariu cu cca 1326 dolari mai mare decât femeile.

Capitolul 9

Analiza de varianţǎ

Aspecte teoretice - recapitulare

Analiza de varianţǎ este o procedurǎ statisticǎ folositǎ pentru a studia relaţia între o variabilǎ dependentǎ cantitativǎ şi una sau mai multe variabile independente calitative (categoriale). Ea se mai numeşte şi analiză dispersională sau, prescurtat, ANOVA (acronim de la cuvintele englezeşti ANalysis Of VAriance).

38

Page 39: Cap 01 Mediul de Lucru SPSS

Atunci când în model este inclusǎ o singurǎ variabilǎ independentǎ (numitǎ şi factor) vorbim de ANOVA unifactorialǎ, iar dacǎ avem doi sau mai mulţi factori atunci ne aflǎm în faţa unui model ANOVA multifactorial. Vom trata aceste douǎ tipuri de analizǎ de varianţǎ separat.

1. ANOVA unifactorialǎ

Analiza de varianţă unifactorialǎ descompune varianţa (sau dispersia) populaţiei studiate în două componente:

- varianţa inter-grupuri (between groups variance), cauzată de diferenţele care există între mediile grupurilor din populaţia totală (grupuri care sunt de fapt categoriile factorilor);

- varianţa intra-grupuri (within groups variance) care ne arată cât de dispersate sunt, în medie, valorile individuale ale variabilei în cadrul fiecarui grup.Cu cât valoarea raportului dintre varianţa inter-grupuri şi cea intra-grupuri este mai mare cu

atât mai mare este influenţa factorului asupra variabilei independente. Aceastǎ influenţǎ se exprimǎ în mod concret prin diferenţele semnificative dintre mediile pe grupuri ale variabilei dependente. Acest raport se testează statistic utilizând testul F, denumit astfel după numele statisticianului britanic Ronald Fisher, creatorul său.

Testul F ne indicǎ faptul cǎ existǎ probabil diferenţe între nivelele factorilor, dar nu ne spune unde se gǎsesc aceste diferenţe şi cât de mari sunt ele. De asemenea, el nu ne oferǎ o ordonare a nivelelor factorilor dupǎ influenţa lor asupra vaiabilei dependente.

Aceastǎ problemǎ poate fi rezolvatǎ introducând noţiunea de contrast. Contrastul, notat aici cu K, este definit ca o combinatie liniarǎ a mediilor grupurilor (nivelelor factorilor).

unde cu m sunt notate mediile grupului, iar cu c reprezintǎ nişte ponderi care îndeplinesc relaţia:

Pentru a înţelege cum se stabilesc ponderile la definirea unui contrast, vom apela la un exemplu. Sǎ presupunem cǎ variabila categorialǎ implicatǎ în model are trei nivele, mediile fiecǎrui nivel fiind m1, m2 şi m3. Dorim sǎ studiem diferenţa dintre primele douǎ grupuri, luate împreunǎ, şi grupul al treilea. Ipoteza nulǎ, care afirmǎ cǎ între aceste grupuri nu existǎ nici o diferenţǎ, se exprimǎ prin relaţia:

Aceastǎ relaţie se poate rescrie astfel:

39

Page 40: Cap 01 Mediul de Lucru SPSS

Aşadar, primelor douǎ grupuri le va fi atribuitǎ ponderea 1, iar grupului al treilea ponderea -2. Suma ponderilor este, desigur, zero.

Dacǎ dorim sǎ estimǎm diferenţele dintre nivelele factorilor în mod simultan, putem folosi testele de comparaţie multiplǎ. Programul SPSS ne pune la dispoziţie multe teste de acest fel. Unele dintre ele se folosesc atunci când varianţele grupurilor sunt presupuse a fi egale (Sidak, Bonferroni, LSD, Scheffe, Tukey etc.) iar altele atunci când varianţele sunt presupuse a fi diferite (Tamhane, Games-Howell). Pentru a şti ce teste trebuie folosite, programul SPSS ne oferǎ rezultatul testului F al lui Levene pentru egalitatea varianţelor.

În cadrul orelor de seminar vom demonstra în detaliu modul de utilizare a procedurilor SPSS pentru ANOVA unifactorialǎ.

2. ANOVA multifactorialǎ

Aceastǎ tehnicǎ de analizǎ a datelor se foloseşte atunci când avem de studiat legǎtura dintre o variabilǎ dependentǎ numericǎ şi douǎ sau mai multe variabile independente categoriale (factori). Factorii ce intervin în aceastǎ analizǎ pot fi de douǎ tipuri:

- factori ficşi, al cǎror efect poate fi controlat;- factori aleatori, al cǎror efect este incontrolabil.

Alǎturi de factori, în model pot apǎrea şi covariatele. Aceste covariate sunt variabile de tip numeric presupuse a fi corelate cu variabila dependentǎ. Prin introducerea covariatelor se verificǎ dacǎ factorii ficşi au influenţǎ asupra variabilei dependente indiferent de acţiunea factorilor covarianţi.

Un model de analizǎ ANOVA multifactorial poate fi de douǎ feluri:- complet (full factorial), atunci când conţine toate efectele posibile şi toate

combinaţiile de factori;- modificat (custom), atunci când, un vederea simplificǎrii modelului, sunt luate în

considerare numai efectele unor anumiţi factori sau combinaţii de factori.Efectele studiate în cadrul unui model pot fi:

- efecte principale;- efecte ale interacţiunii dintre variabile.

Ca şi în cazul modelului unifactorial, este posibilǎ determinarea diferenţelor dintre nivelele factorilor, cu ajutorul contrastului. În programul SPSS sunt disponibile urmǎtoarele tipuri de contraste:

- Deviation : comparǎ media fiecǎrui nivel cu media generalǎ. Nivelurile factorilor pot fi în orice ordine;

- Simple : comparǎ media fiecǎrui nivel cu media unui nivel specificat. Acest tip de comparaţii este util atunci când existǎ un grup de control. Se poate alege ca grup de referinţǎ primul sau ultimul;

- Difference : comparǎ media fiecarui nivel (cu excepţia primului) cu cea a nivelelor anterioare;

- Helmert : compara media fiecǎrui nivel (cu excepţia ultimului) cu cea a nivelelor urmǎtoare;- Repeatet : comparǎ media fiecǎrui nivel (cu exceptia ultimului) cu cea a nivelului urmǎtor;- Polynomial : comparǎ efectele liniar, patratic, cubic etc. Primul grad de libertate contine

efectul liniar comparat cu toate categoriile; al doilea grad de libertate efectul patratic, etc. Aceste comparatii sunt deseori folosite pentru estimarea trend-urilor polinomiale.

40

Page 41: Cap 01 Mediul de Lucru SPSS

De asemenea, dacǎ dorim sǎ comparǎm simultan media variabilei dependente pe diverse nivele ale factorilor, putem face acest lucru cu ajutorul analizei post-hoc. De reţinut totuşi cǎ atât contrastele, cât şi comparaţiile multiple se realizeazǎ numai pentru factorii care au cel puţin trei nivele.

Analiza de varianţǎ în SPSS

În aceastǎ secţinue vom da câte un exemplu pentru fiecare din cele douǎ tipuri de analizǎ de varianţǎ: unifactorialǎ şi multifactorialǎ.

I. ANOVA unifactorialǎ

În cadrul bazei de date Employee data.sav vom analiza diferenţele între salariul mediu pe cele trei categorii de lucrători (variabila jobcat): 1 – “clerical” (funcţionari), 2 – “custodial” (paznici) şi 3 – “manager”. Pentru aceasta trebuie sǎ utilizǎm analiza de varianţǎ unifactorialǎ.

De asemeenea, ne mai intereseazǎ urmǎtoarele lucruri:- sǎ comparǎm între ei salariaţii, cu paznicii, lǎsându-i la o parte pe manageri;- sǎ comparǎm managerii cu “non-managerii”;- sǎ comparǎm simultan mediile celor trei grupuri.

Vom merge în meniu la:

Analyze > Compare Means > One-Way ANOVA

În fereastra “Dependent List” introducem variabila studiată (salary), iar în câmpul “Factor” variabila jobcat. Procedând astfel, ne asigurǎm cǎ programul va compara mediile celor trei grupuri, în mod global.

Pentru a compara mediile grupurilor care ne intereseazǎ, în mod separat, apǎsǎm butonul Contrasts. Caseta de dialog care se deschide ne permite sǎ definim oricâte contraste dorim. Noi avem nevoie de douǎ contraste, astfel:

- un prim contrast pentru care valorile coeficienţilor vor fi: 1 pentru salariaţi, -1 pentru paznici şi 0 pentru manageri;

- un al doilea contrast pentru care valorile coeficienţilor vor fi: 1 pentru salariaţi, 1 pentru paznici şi -2 pentru manageri.Pentru a defini un nou contrast, se apasǎ butonul Next.În final, sǎ apăsăm butonul Post Hoc pentru a deschide o caseta de dialog pentru testele de

comparaţie multiplă. Selectăm testul Bonferroni, apoi apăsăm butonul Continue. În final, apăsăm OK pentru a rula analiza.

Tabelele de output arată în felul următor:

ANOVACurrent Salary

Sum of Squares df Mean Square F Sig. Between

Groups89438483925.943 2 44719241962.971 434.481 .000

Within 48478011510.397 471 102925714.459

41

Page 42: Cap 01 Mediul de Lucru SPSS

Groups Total 137916495436.340 473

Contrast Tests

Contrast

Value of Contrast

Std. Error t df Sig. (2-tailed)

Current Salary

Assume equal variances

1 -$3,100.35 $2,023.76 -1.532 471 .126

2 -$69,178.1

7

$2,999.47 -23.063 471 .000

Does not assume equal

variances

1 -$3,100.35 $568.68 -5.452 93.072 .000

2 -$69,178.1

7

$4,021.75 -17.201 86.389 .000

Multiple ComparisonsDependent Variable: Current Salary Bonferroni

Mean Difference (I-

J)

Std. Error Sig. 95% Confidence Interval

(I) Employme

nt Category

(J) Employme

nt Category

Lower Bound Upper Bound

Clerical Custodial -$3,100.35 $2,023.76 .379 -$7,962.56 $1,761.86Manager -$36,139.26 $1,228.35 .000* -$39,090.45 -$33,188.07

Custodial Clerical $3,100.35 $2,023.76 .379 -$1,761.86 $7,962.56Manager -$33,038.91 $2,244.41 .000* -$38,431.24 -$27,646.58

Manager Clerical $36,139.26 $1,228.35 .000* $33,188.07 $39,090.45Custodial $33,038.91 $2,244.41 .000* $27,646.58 $38,431.24

* The mean difference is significant at the .05 level.

Analiza în detaliu a cifrelor din aceste tabele o vom face la seminar.

42

Page 43: Cap 01 Mediul de Lucru SPSS

II. ANOVA multifactorialǎ

Sǎ presupunem cǎ ne intereseazǎ sǎ studiem, în baza de date Employee data.sav, care este legǎtura dintre salariul unui angajat, pe de o parte, şi variabilele: categorie, sex şi minoritate rasialǎ, pe de altǎ parte. Întruât variabilele independente sunt categoriale, vom folosi analiza de varianţǎ.

Înainte de a trece la rularea analizei propriu-zise, am creat o nouǎ variabilǎ (gendum), care codificǎ astfel cele douǎ sexe: bǎrbaţi – 1, femei – 0.

Pentru a rula ANOVA multifactorialǎ, selectǎm urmǎtoarea opţiune:

Analyze > General Linear Model > Univariate

În câmpul Dependent Variable vom introduce variabila salary, iar în câmpul Fixed Factors, cele trei variabile independente. Apǎsǎm apoi butonul Model. Observǎm cǎ SPSS-ul ne oferǎ posibilitatea de a alege modelul complet, sau de a opta pentru un model modificat. În cazul de faţǎ, numǎrul variabilelor fiind redus, vom rǎmâne la modelul full factorial.

Sǎ apǎsǎm acum butonul Contrasts. Vom cere programului sa ne calculeze contrastele pentru variabila jobcat (singurul factor cu mai mult de douǎ nivele). Tipul de contrast ales va fi Simple, nivelul de referinţǎ fiind ultimul – 3 (aşadar, vom compara managerii cu celelate douǎ categorii de anagajaţi). În final sǎ apǎsǎm butonul Post Hoc şi sǎ-i cerem programului sǎ realizeze testele de comparaţie multiplǎ pentru aceeaşi variabilǎ jobcat. Testul ales va fi, la fel ca la analiza precedentǎ, Bonferroni.

Iatǎ tabelele de output care ne intereseaza, şi care vor fi comentate în cadrul orelor de seminar.

Tests of Between-Subjects EffectsDependent Variable: Current Salary

Source Type III Sum of Squares df Mean Square F Sig. Corrected

Model97506289892.260 8 12188286236.532 140.251 .000

Intercept 144392738098.723 1 144392738098.723 1661.526 .000 JOBCAT 20060883718.826 2 10030441859.413 115.420 .000 MINORIT

Y61989119.657 1 61989119.657 .713 .399

GENDUM 4756876309.700 1 4756876309.700 54.737 .000 JOBCAT * MINORITY

690053398.059 2 345026699.030 3.970 .020

JOBCAT * GENDUM

981526335.890 1 981526335.890 11.294 .001

MINORITY *

GENDUM

27977363.932 1 27977363.932 .322 .571

JOBCAT * MINORITY

* GENDUM

.000 0 . . .

Error 40410205544.080 465 86903667.837 Total 699467436925.000 474

Corrected Total

137916495436.340 473

43

Page 44: Cap 01 Mediul de Lucru SPSS

a R Squared = .707 (Adjusted R Squared = .702)

Contrast Results (K Matrix)Dependent Variable

Employment Category Simple Contrast

Current Salary

Level 1 vs. Level 3 Contrast Estimate -33946.454Hypothesized Value 0

Difference (Estimate - Hypothesized)

-33946.454

Std. Error 1966.958Sig. .000

95% Confidence Interval for Difference

Lower Bound

-37811.682

Upper Bound

-30081.226

Level 2 vs. Level 3 Contrast Estimate -39930.865Hypothesized Value 0

Difference (Estimate - Hypothesized)

-39930.865

Std. Error 2994.148Sig. .000

95% Confidence Interval for Difference

Lower Bound

-45814.603

Upper Bound

-34047.128

a Reference category = 3

Multiple ComparisonsDependent Variable: Current Salary

Mean Difference (I-

J)

Std. Error Sig. 95% Confidence

Interval(I)

Employment

Category

(J) Employme

nt Category

Lower Bound Upper Bound

Bonferroni Clerical Custodial -$3,100.35 $1,859.59 .288 -$7,568.33 $1,367.63Manager -$36,139.26 $1,128.70 .000 -$38,851.16 -$33,427.35

Custodial Clerical $3,100.35 $1,859.59 .288 -$1,367.63 $7,568.33Manager -$33,038.91 $2,062.33 .000 -$37,994.02 -$28,083.79

Manager Clerical $36,139.26 $1,128.70 .000 $33,427.35 $38,851.16Custodial $33,038.91 $2,062.33 .000 $28,083.79 $37,994.02

Based on observed means.* The mean difference is significant at the .05 level.

44

Page 45: Cap 01 Mediul de Lucru SPSS

Capitolul 10

Analiza factorialǎ

Aspecte teoretice - recapitulare

Atunci când la adoptarea unei decizii trebuie luat în considerare un număr foarte mare de variabile, este convenabilă (şi adesea posibilă) reducerea acestui număr prin gruparea variabilelor iniţiale, fie pe baza corelaţiei ridicate (pozitive sau negative), fie pe baza legăturii logice dintre unele variabile. În mod concret, analiza factorială de termină un număr de “factori” (de regulă 2-4) care “sintetizează” informaţia conţinută în variabilele de plecare. Fiecare factor este o combinaţie liniară a variabilelor care îl alcătuiesc:

unde wki arată ponderea cu care participă variabila k la formarea factorului i. Ponderile w sunt calculate astfel încât să fie îndeplinite următoarele două condiţii:

- suma pătratelor coeficienţilor de corelaţie dintre factorul i şi variabilele x1-xk să fie maximă (cu alte cuvinte, fiecare factor să fie puternic corelat cu variabilele care îl compun);

- factorii obţinuţi în final să fie complet necorelaţi doi câte doi (altfel spus, să fie ortogonali).

Factorii rezultaţi în final vor fi definiţi şi interpretaţi de analist în funcţie de corelaţia lor cu

diversele variabile iniţiale. Trebuie spus aici că analiza factorială reprezintă o combinaţie de

tehnici obiective şi subiective. Programele de analiză statistică prelucrează datele introduse de

cercetător şi reţin un număr de factori relevanţi (după criteriile pe care le vom vedea îndată),

indicând coeficienţii de corelaţie dintre fiecare factor şi variabilele care intervin în model. Din

acest moment intră în joc priceperea şi discernământul analistului: el trebuie să stabilească dacă

între variabilele corelate există o legătură logică şi, pe această bază, să dea fiecărui factor o

interpretare semnificativă şi utilă scopului cercetării.

Spre exemplu, să presupunem că în cadrul unui recensamânt al populaţiei, fiecare cetǎţean este

descris prin variabilele următoare: sexul, vârsta, venitul anual, averea, educaţia, profesia. În mod

45

Page 46: Cap 01 Mediul de Lucru SPSS

natural, variabilele “sex” şi “vârstă” ar putea fi grupate într-un “factor demografic”, variabilele

“venit” şi “avere” într-un factor care s-ar numi “situaţie economică” iar variabilele “educaţie” şi

“profesie” într-un factor numit “statut social”. Astfel, cele şase variabile iniţiale au fost reduse la

trei. Întrucât în acest exemplu avem de-a face în special cu variabile calitative, gruparea s-a

realizat în funcţie de asociaţiile logice care se pot face între diversele variabile.

Variabilele cu care se lucrează în analiza factorială sunt variabile cantitative (la fel ca la analiza

de regresie), deşi se pot folosi şi variabile de tip dummy (care iau valorile 0 şi 1).

Rezultatele cheie ale rulării unei analize factoriale sunt:

- matricea corelaţiilor între fiecare factor şi variabilele iniţiale. Aceste corelaţii mai sunt numite şi încărcările factorilor (“factor loadings”). Pe baza acestor corelaţii, analistul va stabili variabilele care intră în definiţia fiecărui factor, după cum se va arăta în exemplul practic de mai jos. Ca regulă generală, fiecare variabilă va fi atribuită factorului cu care este cel mai puternic corelată (este preferabil ca încărcarea să fie de peste 0,50 în valoare absolută);

- valorile proprii (“eigenvalues”) ale fiecărui factor. De regulă, programele statistice reţin pentru analiză acei factori ale căror valori proprii sunt mai mari decât 1; totuşi, dacă dorim, le putem impune să extragă numărul de factori pe care îl considerăm noi necesar;

- scorurile factorilor, care reprezintă de fapt ponderile w cu care intervin variabilele de plecare în formarea factorilor. Cunoscând aceste scoruri putem calcula valorile factorilor pentru fiecare caz din eşantion în parte. În acest fel, factorii rezultaţi pot fi trataţi ca noi variabile. Programul SPSS oferă opţiuni de calculare şi salvare a scorurilor factorilor.

Rezultatele care se obţin din prima extragere a factorilor sunt de cele mai multe ori confuze şi dificil de interpretat. Acesta este motivul pentru care îi cerem programului să rotească factorii iniţiali, astfel încât noii factori să fie mai bine corelaţi cu variabilele de plecare şi deci mai uşor de interpretat.

Pentru a ilustra grafic rotaţia factorilor să considerăm un caz ipotetic în care avem de-a face cu trei variabile iniţiale (V1, V2 şi V3), pe baza cărora analiza factorială a extras doi factori (F1 şi F2). Variabilele iniţiale le putem reprezenta ca vectori în spaţiul definit de axele de coordonate F1 şi F2 (vezi figura din stânga). Corelaţia dintre variabila V1 şi factorul F1, de exemplu, este cu atât mai bună cu cât vectorul V1 este mai apropiat de axa F1.

Pe graficul din partea stângǎ se observă că F1 este corelat într-o anumită măsură cu V1, dar slab corelat cu V2 şi V3. Cât despre F2, el nu este corelat satisfăcător cu nici una din cele trei variabile.

46 F2

Page 47: Cap 01 Mediul de Lucru SPSS

Pentru a rezolva aceasta, vom roti axele F1 şi F2 în sens invers acelor de ceasornic, ca în figura

din dreapta (respectând condiţia ca axele F1 şi F2 să rămână ortogonale, adică factorii să fie

necorelaţi între ei). Se vede clar că în urma rotirii factorul F1 este corelat cu variabilele V1 şi

V2, iar factorul F2 cu variabila V3. Interpretarea factorilor are acum mai multe şanse să ne ofere

nişte informaţii utile despre fenomenul analizat.

Analiza factorială îşi găseşte multiple utilizări în cercetarea economicǎ şi socialǎ.

În primul rând, reducerea numărului de variabile simplifică prezentarea concluziilor raportului

de cercetare: este mult mai uşor de parcurs un raport care se concentrează asupra a doi sau trei

factori esenţiali decât unul care ia în discuţie 10-20 de variabile. În plus, gruparea variabilelor

poate pune datele într-o nouă lumină: este posibil ca cercetătorul să detecteze corelaţii pe care nu

le bănuise mai înainte.

În al doilea rând, factorii rezultaţi dintr-o asemenea analiză pot fi folosiţi mai departe; pot fi

incluşi de exemplu într-o analiză de regresie, ca noi variabile. După cum am arătat în secţiunea

anterioară, analiza factorială poate fi utilizată pentru a grupa variabilele redundante care intervin

într-un model de regresie, eliminând astfel fenomenul de multicoliniaritate.

47

V3V2

V1

F1V3 V2

V1

F2

F1

Page 48: Cap 01 Mediul de Lucru SPSS

În sfârşit, o aplicaţie foarte utilă a analizei factoriale este gruparea unităţilor populaţiei sau

eşantionului care prezintă valori apropiate ale factorilor. Aceasta este denumită analiză

factorială de tip Q şi este folosită în special în cercetarea de marketing, pentru segmentarea

pieţei sau pentru construirea hărţilor perceptuale (mapping).

Analiza factorialǎ în SPSS

Prezentăm în cele ce urmează modul de rulare a unei analize factoriale cu ajutorul programului SPSS, folosind datele din fişierul World95.sav. Acest fişier conţine o serie de informaţii cantitative şi calitative din 109 ţǎri ale lumii, la nivelul anului 1995.

Pentru a rula analiza selectǎm:

Analyze > Data Reduction > Factor

Variabilele care intră în analiză sunt:- populatn (populaţia ţǎrii în mii de locuitori);- urban (procentajul populaţiei din mediul urban);- lifeexpm (speranţa de viaţǎ a bǎrbaţilor);- literacy (procentajul populaţiei alfabetizate);- babymort (mortalitatea infantilǎ);- gdp_cap (produsul intern brut pe locuitor);- calories (numǎrul de calorii zinice asigurate unei persoane).

În continuare vom indica programului opţiunile noastre privind numărul de factori reţinuţi şi rotaţia factorilor, în felul următor:

- pentru prima opţiune (numărul factorilor extraşi) vom apăsa butonul Extraction şi vom selecta alternativa Number of factors. În câmpul respectiv introducem valoarea 2 (dorim sǎ reţinem doi factori pentru analiza noastră). Apoi apăsăm butonul Continue.

- pentru a doua opţiune (rotaţia factorilor) apăsăm butonul Rotation şi cerem utilizarea metodei de rotaţie Varimax. Apăsăm din nou butonul Continue pentru a merge mai departe.

- în final, apǎsǎm butonul Save şi selectǎm ambele opţiuni din caseta de dialog respectivǎ (Save as variables şi Display factor score coeffcient matrix).

Odată ce toate opţiunile sunt stabilite, apăsăm butonul OK pentru a rula analiza.

Iatǎ în continuare tabelele de output rezultate în urma acestei analize.

Total Variance ExplainedInitial

Eigenvalues

Extraction Sums of Squared

Loadings

Rotation Sums of Squared

Loadings Compone

ntTotal % of

VarianceCumulativ

e %Total % of

VarianceCumulativ

e %Total % of

VarianceCumulativ

e % 1 4.735 67.638 67.638 4.735 67.638 67.638 4.722 67.455 67.455

48

Page 49: Cap 01 Mediul de Lucru SPSS

2 1.025 14.650 82.287 1.025 14.650 82.287 1.038 14.833 82.287 3 .504 7.201 89.488 4 .341 4.871 94.359 5 .226 3.226 97.585 6 .140 1.996 99.581 7 2.930E-02 .419 100.000

Extraction Method: Principal Component Analysis.

Acest tabel prezintǎ valorile proprii ale factorilor (coloana a doua). Coloana “% of Variance” ne arată în ce măsură explică fiecare factor cele cinci variabile de plecare. În coloana “Cumulative %” se observă că primii doi factori reţinuţi acoperă 82.29% din varianţa totală a variabilelor iniţiale, ceea ce este satisfăcător. Analiza poate fi considerată eficientă dacă factorii reţinuţi explică cel puţin 70% din varianţa totală.

Component MatrixComponent

1 2 Population in thousands -9.031E-02 .989

People living in cities (%) .841 -.160 Average male life expectancy .936 .109

People who read (%) .894 7.295E-02 Infant mortality (deaths per

1000 live births)-.958 -5.257E-02

Gross domestic product / capita

.811 -2.736E-02

Daily calorie intake .876 3.297E-02 Extraction Method: Principal Component Analysis.a 2 components extracted.

Rotated Component MatrixComponent

1 2 Population in thousands -3.205E-02 .993

People living in cities (%) .830 -.209 Average male life expectancy .941 5.361E-02

People who read (%) .897 2.030E-02 Infant mortality (deaths per

1000 live births)-.960 3.809E-03

Gross domestic product / capita .808 -7.493E-02 Daily calorie intake .877 -1.856E-02

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.a Rotation converged in 3 iterations.

49

Page 50: Cap 01 Mediul de Lucru SPSS

Cele douǎ tabele de mai sus prezintǎ coeficienţii de corelaţie dintre variabile şi fiecare din cei doi factori, înainte şi dupǎ rotirea factorilor. Analizând ambele tabele ajungem uşor la urmǎtoarele concluzii:

- primul factor este puternic corelat cu toate variabilele, în afarǎ de una singurǎ: mǎrimea populaţiei;

- al doilea factor este puternic corelat cu mǎrimea populaţiei.Variabilele cu care este corelat primul factor (procentajul populaţiei urbane, speranţa de

viaţǎ, procentajul populaţie alfabetizate etc.) sunt indicatori ai standardului de viaţǎ din ţara respectivǎ. Deci, factorul 1 îl putem numi “standard de viaţǎ”. În ceea ce priveşte factorul 2, corelat doar cu mǎrimea populaţiei, îl vom putea numi “mǎrimea ţǎrii”.

Dupǎ cum se poate observa, rotirea factorilor nu aduce, un acest caz particular, o îmbunǎtǎţire semnificativǎ a rezultatelor finale.

Component Score Coefficient MatrixComponent

1 2 Population in thousands .038 .964

People living in cities (%) .168 -.166 Average male life expectancy .204 .094

People who read (%) .193 .060 Infant mortality (deaths per 1000

live births)-.205 -.039

Gross domestic product / capita .169 -.037 Daily calorie intake .187 .021

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.

În tabelul de mai sus se gǎsesc coeficienţii asociaţi fiecǎrei variabile, pentru fiecare factor în parte. Cu ajutorul acestor scoruri SPSS calculează valorile celor doi factori pentru fiecare ţarǎ. La cererea noastrǎ, programul a salvat aceste scoruri în douǎ variabile separate. Ţinând cont de semnificaţiile celor doi factori, definite anterior, pe prima variabilǎ am numit-o livstan (“living standard”), iar pe a doua size (mǎrimea ţǎrii respective). De menţionat cǎ scorurile au fost calculate numai pentru acele ţǎri pentru care nu existǎ valori lipsǎ ale variabilelor considerate în analizǎ.

Aceste noi variabile pot fi folosite pentru alte analize (de exemplu, o analizǎ de regresie sau una de tip ANOVA).

Capitolul 11

Analiza cluster

Aspecte teoretice

Analiza cluster este o clasă de tehnici folosite la clasificarea obiectelor şi claselor în grupuri relativ omogene, numite clustere. Mai este denumită “analiza clasificării”, “analizǎ tipologicǎ” sau “ştiinţa clasificării numerice”.

50

Page 51: Cap 01 Mediul de Lucru SPSS

În analiza de cluster nu există informaţii a priori despre apartenenţa vreunui obiect la un grup, nici despre componenţa grupurilor. Grupurile sau clusterele sunt sugerate de date nedefinite anterior.

Spre deosebire de analiza factorialǎ, care urmǎreşte redyucerea numǎrului de variabile, analiza clasificǎrii are drept scop sintetizarea datelor prin reducerea numǎrului de indivizi, grupându-i pe aceştia în clase.

Etapele rulǎrii unei analize cluster sunt urmǎtoarele:

1. Alegerea variabilelor folosite la analizǎ. Aceste variabile pot fi de tip metric, interval, categorial, binomial.

2. Stabilirea indicatorilor de proximitate între indivizi. Pe baza acestor indicatori vor fi create ulterior clusterele. Pentru variabilele metrice sau interva, se poate folosi distanţa euclidianǎ sau alte tipuri de distanţe (Minkowski, city block etc.). Dacǎ avem de-a face cu variabile categoriale, se foloseşte în general hi pǎtrat ca mǎsurǎ a disimilaritǎţii. Pentru datele binomiale, SPSS-ul ne pune la dispoziţie cca 30 de metode de mǎsurare a distanţei (proximitǎţii).

3. Alegerea metodei de formare clusterelor. Aceasta va depinde în mod esential de tipul de clasificare ales. Existǎ douǎ categorii de analize cluster: ierarhicǎ şi neierarhicǎ (sau nodalǎ). În cazul analizei ierarhice, numǎrul de clustere nu este cunoscut dinainte, ci urmeazǎ a se stabili ulterior. Pentru acest tip de analizǎ existǎ 7-8 metode (algoritmi) de formare a grupurilor, printre care: legǎturǎ inter-grupuri, legǎturǎ intra-grupuri, metoda vecinului cel mai apropiat, metoda Ward etc. Clasificarea neierarhicǎ, în schimb, presupune stabilirea anticipatǎ a numǎrului de clustere, urmând ca analiza sǎ identifice indivizii din fiecare cluster. Pentru acest tip de analizǎ existǎ douǎ metode de clasificare: clasificare simplǎ, pe de o parte, şi iteraţie şi clasificare, pe de altǎ parte. În general, este bine ca la clasificarea neierarhicǎ sǎ se lucreze cu variabile standardizate, mai ales dacǎ variabilele iniţiale au unitǎţi de mǎsurǎ foarte diferite.

4. Definirea şi etichetarea (numirea) clusterelor. Aceasta se face , un general, studiind caracteristicile fiecǎrui cluster şi descriind un profil al indivizilor din fiecare grup un parte.

5. Validarea clusterelor. Mulţi analişti evitǎ aceastǎ ultimǎ etapǎ, deoarece este dificilǎ şi nu existǎ o metodǎ standard pentru realizarea sa. O posibilǎ metodǎ de validare este aceea de a aplica o analizǎ de discriminant pentru clusterele formate şi a vedea dacǎ aceste clustere sunt suficient de diferite untre ele din punctul de vedere al variabilelor folosite iniţial în clasificare.

În cele ce urmeazǎ vom da douǎ exemple de realizare a analizei cluster, pentru fiecare din cele douǎ categorii: ierarhicǎ şi nodalǎ.

51

Page 52: Cap 01 Mediul de Lucru SPSS

Realizarea analizei cluster în SPSS

Vom rula o analizǎ cluster de tip ierarhic pe o bazǎ de date numitǎ judete.sav, care cuprinde o serie de date economico-sociale despre judeţele ţǎrii şi despre municipiul Bucureşti. Din cele 23 de variabile prezente în fişier, am ales pentru analiza cluster circa 10, printre care: populaţia, suprafaţa, efectivul salariaţilor, salariul brut, numǎrul şomerilor etc. Vom apela urmǎtoarea comandǎ:

Analyze > Classify > Hierachical Cluster

Variabilele de analizǎ vor fi introduse un câmpul Variable(s). Pentru a alege metoda de grupare, se apasǎ butonul Method. Dintre metodele propuse de SPSS, vom alege Between-group linkage (gruparea poate fi realizatǎ succesiv prin mai multe metode şi compara eficienţa fiecǎreia). Întrucâd datele folosite de noi sunt de tip numeric, vom utiliza ca indicator de proximitate distanţa euclidianǎ.

Sǎ apǎsǎm acum butonul Statistics, pentru a preciza o serie de aspecte legate de outputul final. În cadranul Cluster Membership selectǎm opţiunea Range of solutions, iar în câmpurile From şi Through introducem valorile 2 şi 4, respectiv. Aceasta înseamnǎ cǎ îi cerem programului sǎ ne indice apartenenţa judeţelor la fiecare cluster pentru trei tipuri de soluţii posibile, având fiecare 2, 3 şi 4 grupuri respectiv.

În final, sǎ apǎsǎm butonul Save pentru a-i cere programului sǎ salveze ca variabile soluţiile finale, cu 2, 3 şi 4 grupuri respectiv (selectǎm exact aceleaşi opţiuni ca la butonul Statistics).

Tabelul cel mai important care se obţine în urma realizǎrii analizei de cluster de tip ierarhic este cel de mai jos:

Cluster MembershipCase 4 Clusters 3 Clusters 2 Clusters

1:teleorman 1 1 1 2:mehedinti 2 1 1

3:olt 1 1 1 4:arges 3 2 1

5:valcea 1 1 1 6:botosani 1 1 1 7:suceava 3 2 1

8:iasi 3 2 1 9:neamt 1 1 1

10:vaslui 1 1 1 11:bacau 3 2 1

12:vrancea 1 1 1 13:covasna 2 1 1

14:galati 3 2 1 15:braila 1 1 1

16:buzau 1 1 1 17:tulcea 2 1 1

18:harghita 2 1 1 19:constanta 1 1 1

20:calarasi 2 1 1 21:giurgiu 2 1 1

22:prahova 3 2 1

52

Page 53: Cap 01 Mediul de Lucru SPSS

23:ilfov 2 1 1 24:dolj 3 2 1

25:bucuresti 4 3 2 26:mures 3 2 1 27:brasov 3 2 1

28:ialomita 2 1 1 29:bistrita-

nasaud2 1 1

30:dambovita 1 1 1 31:gorj 1 1 1

32:sibiu 1 1 1 33:maramures 1 1 1

34:cluj 3 2 1 35:hunedoara 1 1 1 36:satu-mare 1 1 1

37:alba 1 1 1 38:bihor 3 2 1

39:caras-severin

2 1 1

40:timis 3 2 1 41:arad 1 1 1 42:salaj 2 1 1

Acest tabel ne indicǎ apartenenţa fiecǎrui judeţ la un cluster, pentru cele trei soluţii posibile (2-4 clustere). Se observǎ cǎ în fiecare situaţie municipiul Bucureşti aparţine unui cluster separat.

Alte tabele, precum şi dendrograma, vor fi discutate la orele de seminar.În afarǎ de generarea tabelelor, SPSS-ul a respectat opţiunea noastrǎ de a salva apartenenţa

fiecǎrui individ la clustere sub forma unor variabile categoriale. Aceste variabile pot fi folosite pentru a studia ulterior clusterele formate.

Sǎ rulǎm în cele ce urmeazǎ o analizǎ cluster de tip nonierarhic. Vom folosi pentru aceasta datele din fişierul World995.sav. Variabilele alese pentru analizǎ sunt: populaţia, procentajul locuitorilor de la oraşe, speranţa de viaţǎ pentru bǎrbaţi şi femei, procentajul populaţiei alfabetizate, PNB-ul pe locuitor şi numǎrul mediu de calorii asigurat zilnic unei persoane. Întrucât unitǎţile de mǎsurǎ sunt foarte diferite, am standardizat în prealabil toate aceste variabile. Pentru a realiza analiza, vom apela comanda:

Analyze > Classify > K-Means Cluster

Mai întâi vom introduce în câmpul Variables valorile standardizate generate anterior, iar în câmpul Label Cases by vom introduce variabile country.

Numǎrul de opţiuni disponibil aici este mult mai mic decât cel de la analiza tipologicǎ ierarhicǎ. În câmpul Number of clusters introducem valoarea 3 (aşadar, îi impunem programului) sǎ genereze trei grupuri). Metoda de grupare aleasǎ va fi Iterate and classify. Rǎmâne acum sǎ precizǎm o serie de elemente ale outputului final, astfel:

- apǎsǎm butonul Save şi selectǎm opţiunea Cluster membership (aceasta înseamnǎ cǎ programul va salva apartenenţa la clustere într-o variabilǎ categorialǎ);

- apǎsǎm butonul Options şi selectǎm opţiunea Cluster information for each case.

53

Page 54: Cap 01 Mediul de Lucru SPSS

Iatǎ cele mai importante tabele generate de aceastǎ analizǎ cluster.

Cluster MembershipCase

NumberCOUNTRY Cluster Distance

1 Afghanistan . . 2 Argentina 2 1.215 3 Armenia . . 4 Australia 2 1.349 5 Austria 2 1.665 6 Azerbaijan . . 7 Bahrain . . 8 Bangladesh 3 1.470 9 Barbados . .

10 Belarus . . 11 Belgium . . 12 Bolivia 3 1.560 13 Bosnia . . 14 Botswana 3 1.298 15 Brazil 2 2.416 16 Bulgaria . . 17 Burkina Faso 3 2.137 18 Burundi 3 1.780 19 Cambodia 3 1.485 20 Cameroon 3 .353 21 Canada 2 1.779 22 Cent. Afri.R 3 2.452 23 Chile 2 1.572 24 China 1 1.383 25 Colombia 2 1.619 26 Costa Rica 2 1.806 27 Croatia . . 28 Cuba . . 29 Czech Rep. . . 30 Denmark 2 1.731 31 Domincan R. 2 2.191 32 Ecuador 2 1.937 33 Egypt 3 2.136 34 El Salvador 3 1.717 35 Estonia . . 36 Ethiopia 3 2.027 37 Finland 2 1.217 38 France 2 1.680 39 Gabon 3 .884 40 Gambia . . 41 Georgia . . 42 Germany 2 1.520 43 Greece 2 1.437 44 Guatemala 3 1.219 45 Haiti 3 1.695 46 Honduras 3 1.838 47 Hong Kong . . 48 Hungary 2 1.351 49 Iceland . . 50 India 1 1.383

54

Page 55: Cap 01 Mediul de Lucru SPSS

51 Indonesia 3 1.959 52 Iran 3 2.394 53 Iraq 2 2.145 54 Ireland 2 1.439 55 Israel . . 56 Italy 2 1.490 57 Japan 2 1.884 58 Jordan 2 1.711 59 Kenya 3 .840 60 Kuwait 2 1.367 61 Latvia . . 62 Lebanon . . 63 Liberia 3 .924 64 Libya 2 2.065 65 Lithuania . . 66 Malaysia 2 1.954 67 Mexico 2 1.086 68 Morocco . . 69 N. Korea . . 70 Netherlands 2 1.497 71 New Zealand 2 1.091 72 Nicaragua 3 1.590 73 Nigeria 3 .531 74 Norway 2 1.430 75 Oman . . 76 Pakistan . . 77 Panama 2 1.761 78 Paraguay 2 1.787 79 Peru 3 2.356 80 Philippines 3 2.055 81 Poland . . 82 Portugal . . 83 Romania 2 1.397 84 Russia . . 85 Rwanda 3 2.098 86 S. Korea . . 87 Saudi Arabia 2 1.665 88 Senegal 3 .885 89 Singapore 2 1.438 90 Somalia 3 1.625 91 South Africa . . 92 Spain 2 1.098 93 Sweden 2 1.407 94 Switzerland 2 2.259 95 Syria . . 96 Taiwan . . 97 Tanzania 3 2.016 98 Thailand 3 2.431 99 Turkey 2 1.253

100 U.Arab Em. . . 101 UK 2 1.306 102 USA 2 2.816 103 Uganda 3 2.259 104 Ukraine . . 105 Uruguay 2 1.523

55

Page 56: Cap 01 Mediul de Lucru SPSS

106 Uzbekistan . . 107 Venezuela 2 1.645 108 Vietnam 3 2.014 109 Zambia 3 1.898

Acest tabel ne aratǎ în ce cluster se aflǎ fiecare ţarǎ (numai pentru ţǎrile pentru care nu existǎ date lipsǎ), precum şi distanţa (în abateri standard) de la fiecare ţarǎ la centrul clusterului cǎruia îi aparţine.

Final Cluster CentersCluster

1 2 3 Zscore: Population in thousands 6.88817 -.10045 -.09917

Zscore: People living in cities (%) -1.26130 .66244 -.97875 Zscore: People who read (%) -.58281 .53741 -.97188

Zscore: Gross domestic product / capita -.85403 .61702 -.77073 Zscore: Daily calorie intake -.56325 .65015 -.87343

Zscore: Average female life expectancy -.58230 .64508 -1.14375 Zscore(LIFEEXPM) Average male life

expe-.26070 .65596 -1.13562

Acest tabel conţine distanţele dintre media fiecǎrui cluster şi media generalǎ, exprimatǎ în abateri standard. De exemplu, se observǎ cǎ grupul 1 cuprinde ţǎri cu populaţie mare şi foarte mare – media populaţiei lor este cu 6.88 abateri standard mai mare decât media generalǎ – iar grupurile 1 şi 2 cuprind ţǎri cu populaţie mai redusǎ – media populaţiei lor este cu 0.10, respectiv 0.01 abateri standard mai micǎ decât media generalǎ.

Distances between Final Cluster CentersCluster 1 2 3

1 7.732 7.088 2 7.732 3.953 3 7.088 3.953

Acest tabel ne aratǎ cât de apropiate (asemǎnǎtoare) sau îndepǎrtate (diferite) sunt grupurile.

Se observǎ cǎ grupurile cele mai asemǎnǎtoare sunt 2 şi 3, iar cele mai diferite sunt 1 şi 2.

Number of Cases in each ClusterCluster 1 2.000

2 41.0003 31.000

Valid 74.000 Missing 35.000

Tabelul acesta indicǎ numǎrul de cazuri aflate în fiecare cluster şi nu necesitǎ, credem, explicaţii suplimentare.

La cererea noastrǎ, SPSS-ul a creat şi o variabilǎ categorialǎ specialǎ, care indicǎ apartenenţa fiecǎrei ţǎri la unul din clustere. Aceastǎ variabilǎ poate fi folositǎ pentru a face diferite tipuri de analize cu privire la fiecare grup descoperit prin analiza cluster.

56

Page 57: Cap 01 Mediul de Lucru SPSS

Capitolul 12

Analiza discriminantului

Aspecte teoretice

Analiza discriminantului este o tehnicǎ statisticǎ de tip explicativ – deşi poate fi inclusǎ şi în categoria celor descriptive. Ea are rolul de a analiza douǎ sau mai multe grupruri disctincte şi a stabili care sunt variabilele care diferenţiazǎ cel mai bine grupurile respective. Aşadar, spre deosebire de analiza cluster, la analiza discriminantului grupurile pentru care se face analiza sunt cunoscute (definite) dinainte.

În cercetǎrile sociale (respectiv în analiza resurselor umane), analiza discriminantului poate rǎspunde la întrebǎri de tipul:

- prin ce anume diferǎ angajaţii bǎrbaţi dintr-o firmǎ de angajaţii femei?- prin ce diferǎ agenţii de vânzǎri performanţi de cei neperformanţi?- existǎ diferenţe de performanţǎ între angajaţii familişti şi cei nefamilişti?În analiza discriminant intervin douǎ tipuri de variabile: o variabilǎ dependentǎ (sau de

grupare) şi una sau mai multe variabile independente. Variabile de grupare este de tip categorial, iar variabilele independente sunt metrice sau binomiale, şi ar trebui sǎ fie distribuite normal.

Analiza discriminantului este de douǎ categorii: pe douǎ grupuri, atunci când variabila dependentǎ are douǎ categorii, şi multiplǎ, caz în care variabila dependentǎ are trei sau mai multe categorii.

Discriminarea dintre grupuri se face cu ajutorul unei combinaţii liniare a variabilelor independente, numitǎ funcţie discriminant, de forma:

unde D este scorul discriminant, X sunt variabilele independente, iar b coeficienţii funcţiei discriminant.

Coeficienţii b sunt estimaţi astfel încât grupurile să difere maxim posibil in ceea ce priveşte valorile funcţiei discriminant. Aceasta are loc atunci când raportul dintre suma pătratelor inter-grupuri şi suma pătratelor intra-grupuri este maxim şi din orice altă combinaţie liniară a predictorilor va rezulta un raport mai mic.

Principalii indicatori statistici care rezultǎ în urma unei analize a discriminantului sunt:- testul F pentru compararea mediilor grupurilor;- corelaţia între scorurile discriminant şi fiecare variabilǎ în parte;- coeficienţii funcţiei discriminant;- testul lambda al lui Wilks, care ne aratǎ puterea funcţiei discriminant;- centroizii grupurilor.

Analiza discriminantului în SPSS

În cele ce urmeazǎ vom efectua o analizǎ a discrminantului pe douǎ grupuri, folosind variabilele din fişierul Employee data.sav. Dorim sǎ vedem în ce mǎsurǎ diferǎ bǎrbatii şi femeile

57

Page 58: Cap 01 Mediul de Lucru SPSS

din bancǎ, din punctul de vedere al urmǎtoarelor variabile: salariul actual, nivelul de educatie, vechimea în bancǎ (la actualul loc de muncǎ), vechimea la angajare.

Înainte de analiza propriu-zisǎ, am transformat variabila gender într-o variabilǎ de tip dummy (0 – femei, 1 – bǎrbaţi) denumitǎ de noi gendum.

Analiza discriminantului se apleazǎ cu ajutorul comenzii:

Analyze > Classify > Discriminant

Variabila gendum va fi variabila dependentǎ, iar variabilele independente sunt cele enumerate mai sus. Ele se introduc în câmpurile corespunzǎtoare. Ca metodǎ de analizǎ alegem metoda directǎ (Enter independents together). Aceasta înseamnǎ cǎ variabilele independente vor fi introduse simultan în model, indiferent de puterea lor de discriminare.

Pentru ca SPSS-ul sǎ ne furnizeze datele statistice esenţiale pentru analiza modelului, apǎsǎm butonul Statistics şi selectǎm urmǎtoarele: în chenarul Descriptives, opţiunea Univariate ANOVAs, iar în chenarul Function Coefficients, opţiunea Unstandardized. Apǎsǎm în continuare butonul Classify şi selectǎm opţiunea Summary Table din chenarul Display.

În final, pentru a salva scorurile discriminat, precum şi apartenenţa fiecǎrui caz la un grup anume, apǎsǎm butonul Save şi selectǎm douǎ opţiuni din caseta de dialog care apare: Predicted group membership şi Discriminant scores.

Iatǎ principalele tabele pe care ni le furnizeazǎ programul SPSS.

Tests of Equality of Group MeansWilks'

LambdaF df1 df2 Sig.

Current Salary .798 119.798 1 472 .000 Educational Level

(years).873 68.495 1 472 .000

Months since Hire .996 2.094 1 472 .148 Previous

Experience (months).973 13.186 1 472 .000

Acest tabel ne aratǎ care sunt variabilele pentru care existǎ diferenţe între grupuri, ca medie.

Se observǎ cǎ singura variabilǎ pentru care nu existǎ diferenţe este Months since Hire.

Structure MatrixFunction

1 Current Salary .838

Educational Level (years) .634 Previous Experience

(months).278

Months since Hire .111 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

Matricea de structurǎ ne aratǎ corelatiile dintre scorurile discriminant şi fiecare variabilǎ în parte. Cu cât aceastǎ corelaţie este mai mare, cu atât variabila respectivǎ discrimineazǎ mai bine cele douǎ grupuri.

58

Page 59: Cap 01 Mediul de Lucru SPSS

Canonical Discriminant Function CoefficientsFunction

1 Current Salary .00004614

Educational Level (years) .146 Months since Hire .006

Previous Experience (months)

.005

(Constant) -4.576 Unstandardized coefficients

Tabelul de mai sus conţine coeficienţii nestandardizati ai funcţiei discriminant. Cu ajutorul acestor coeficienţi sunt calculate scorurile discriminant.

Functions at Group CentroidsFunction

GENDUM 1 0 -.656 1 .549

Unstandardized canonical discriminant functions evaluated at group means

Centroizii fiecǎrui grup nu sunt altceva decât mediile scorurilor discriminant pentru fiecare grup.

Wilks' LambdaTest of

Function(s)Wilks'

LambdaChi-square df Sig.

1 .734 145.026 4 .000

Testul lambda al lui Wilks este foarte important pentru analiza discriminantului. El ne aratǎ proporţia din varianţa totalǎ care nu este explicatǎ de diferenţele dintre grupruri (în cazul nostru, 73%). Sig-ul din ultima coloanǎ ne aratǎ dacǎ existǎ diferenţe semnificative între centroizii celor douǎ grupuri.

Classification ResultsPredicted Group

MembershipTotal

GENDUM 0 1 Original Count 0 173 43 216

1 97 161 258% 0 80.1 19.9 100.0

1 37.6 62.4 100.0 a 70.5% of original grouped cases correctly classified.

59

Page 60: Cap 01 Mediul de Lucru SPSS

Tabelul de mai sus ne aratǎ, untr-o formǎ sinteticǎ, aparteneţa cazurilor din eşantion la un grup sau altul. Vom comenta acest tabel pe larg la seminar.

60


Recommended