regresia multipla - [Download PDF]

Regresia liniară multiplă

M. Popa

cuprins

1. Noțiuni de bază – regresia liniară simplă

2. Modelul de predicție multivariată

3. Obiectivele analizei de regresie multiplă

4. Condiţii şi limitări

5. Alegerea modelului de analiză

6. Volumul eșantionului

7. Regresia multiplă cu SPSS

– Operații preliminare

– Procedura de calcul

– Interpretarea rezultatelor

8. Validarea modelului de regresie

9. Raportarea rezultatelor

Corelația și Regresia

• Corelaţia– arată legătura (asocierea) dintre variabile

– nu descrie relaţia cauzală dintre variabile

– nu permite predicţia unei variabile pe baza celeilalte variabile

– nu există variabilă dependentă şi dependentă

• Regresia– metodă de predicţie a valorilor unei variabile pe baza valorilor altei

variabile

– variabila independentă• variabila “cauză”

• valorile ei “prezic” valorile variabilei dependente

• este denumită “predictor”

– variabila dependentă• variabila “efect”

• valorile ei sunt “prezise” pe baza valorilor variabilei independente

• este denumită şi “criteriu”

• Situaţia tipică în psihologie - examenele de selecţie 3

Tipuri de regresie liniară

• Regresia simplă

– o singură variabilă predictor

– se bazează pe corelaţia simplă

dintre criteriu şi predictor

• Regresia multiplă

– mai multe variabile predictor

– se bazează pe corelaţia multiplă

dintre criteriu şi predictori

– situaţia tipică în psihologie:

selecţia bazată pe baterii de teste

4

P C

P2 C

P3

P1

Predicţia perfectă

• r=±1

– zx=1.5

– zy’=1.5

– zy’ creşte sau scade cu

aceeaşi unitate cu cât

creşte sau scade zx

5

xyzz ='

z(x)

3,53,02,52,01,51,0,50,0

z(y

)

3,5

3,0

2,5

2,0

1,5

1,0

,5

0,0

Predicţia în cazul corelaţiei imperfecte

• corelaţiile sunt numai prin

excepţie perfecte

• în mod normal, r variază în jurul

lui 0

– exemplu: corelaţia între

cunoştinţele de matematică şi

rezultatele la statistică

6

xyzrz *' =

Noţiunea de regresie către medie

• Sir Francis Galton (1822-

1911)

• relaţia dintre înălţimea

medie a părinţilor şi

înălţimea copiilor (r=+0.67 )

7

34.12*67.0' ==yz

� văr cu Ch. Darwin

� descoperitorul amprentelor

digitale

� meteorolog, psiholog,

statistician, genetician,

explorator

SubiectQI

(X)

performanța școlară

(Y)

1 123 96

2 119 83

3 115 85

4 120 90

5 124 96

6 113 73

7 110 78

8 112 89

9 132 100

10 128 99

… un exemplu

Xa=123

Eroare de predicțieε=3.4

Valoare reală Ya=96

Valoare prezisă Y’a=92.6

A

B

Ycriteriu

Xpredictor

Satterplot bivariat cu dreapta de regresie

Ecuaţia dreptei de regresie

• Y’ → valoare prezisă (criteriu)

• ayx → originea dreptei; (punctul în care linia de regresie intersectează axa Oy).

• byx → panta liniei de regresie

– poate fi exprimată ca fracţiuni ale lui X determinate de r

• X → valoare predictor a variabilei Y

XbaY yxyx *'+=

10

Expresia grafică a regresiei

aceeaşi origine dar pante diferite

11

origini diferite, dar aceeaşi pantăorigini diferite, dar aceeaşi pantă

Modelul de regresie simplă

• Acuratețea predicției este dată de coeficientul de

regresie R (expresia lui r)

– Exemplul nostru: R=0.85

• Semnificația statistică se testează cu testul F

– Exemplul nostru: F=22.10; p=0.002

• Termenul liber (a)

– Exemplul nostru: -40.42 (ns… eșantion foarte mic…)

• Coeficientul de pondere (b)

– Exemplul nostru: 1.08 (p=0.002)

• Y=-40.42+1.08*X

Scor

inteligență

(predictor)

X

Performanța

școlară

(criteriu)

Y

Valoarea

prezisă

Y’

Eroare de

predicție

ε

110 78 78.5 -0.52

112 89 80.7 8.32

113 73 81.8 -8.76

115 85 83.9 1.07

119 83 88.3 -5.25

120 90 89.3 0.67

123 96 92.6 3.42

124 96 93.7 2.34

128 99 98.0 1.02

132 100 102.3 -2.31

Varianța predicției = eroarea standard a estimării

Xa=123

Eroare de predicțieε=3.4

Valoare reală Ya=96

Valoare prezisă Y’a=92.6

A

B

Ycriteriu

Xpredictor

Varianță neexplicată

(diferență reziduală)

Ya-Y ’=3.4

Media predicției Y’m=88.9

Varianță

explicată

Y’a-Ym=3.7

Varianța predicției

regresia nu este simetrică !

• dacă inversăm variabilele în ecuaţia de regresie se

va obţine o linie de regresie diferită

• dacă se inversează ordinea variabilelor în

calcularea corelaţiei, se obţine acelaşi coeficient r

15

Modelul de predicție multivariată

Unde

• Y’ este valoarea estimată pentru variabila criteriu (dependentă)

• ai este punctul de origine al liniei (constanta)

• b1, b2, b3... bk sunt coeficienţii b pentru cele k variabile predictor

• X1, X2, X3.... Xk sunt valorile celor k variabile predictor

kki XbXbXbXbaY *....*** 332211

'+++++=

Scatterplot trivariat

Ycriteriu

X1

predictor

X2

predictor

Planul de regresie multivariată

Ycriteriu

X1

predictor

X2

predictor

Indicatori ai intensității predicției

• R = coeficientul de corelație multiplă

• R2 = procentul de variaţie din VD (criteriu) determinat de variaţia

simultană a VI (predictori)

• R2adj=R2 corectat pentru numărul predictorilor

– R2adj > 75% - foarte bun (peste 90% rar… probabil un artefact)

– 50% - 75% - bun

– 25% - 50% - slab dar acceptabil

– sub 25% - foarte slab (probabil inacceptabil)

• Semnificaţia statistică a lui R este calculată cu ajutorul unui test

de varianţă (F)

• Cu cât contribuie fiecare predictor la estimarea criteriului?

– dificil de spus, fiindcă fiecare predictor acționează în prezența celorlalți

– o soluție … coeficienții beta (standardizați)

– corelația semi-parțială dintre criteriu și predictori (cursul urmator)

NOU

Utilitatea regresiei multiple

• Descrierea relațiilor dintre variabile

• Predicția în scop de selecție

• Dezvoltarea teoriei testării psihologice

Condiții și limitări

• Variabila dependentă (criteriu):

– Trebuie să fie măsurată pe scală de interval raport, cu

respectarea condiţiilor de aplicare a testului de corelaţie

(normalitatea distribuţiei, în special).

– Poate fi măsurată şi pe scală ordinală

– … în nici un caz pe scală nominală (în acest caz, se

utilizează alte tehnici de regresie – analiza de discriminare

sau regresia logistică)

Condiții și limitări

• Variabilele independente (predictori)

– vor fi măsurate pe scale de interval

– pot fi introduse în ecuație şi variabile măsurate la nivel

ordinal

– pot fi utilizate direct şi variabile nominale categoriale

dihotomice, codificate numeric (ex: masc.=0; fem.=1)

• mărimea coeficientului de regresie în acest caz, indică diferența

dintre cele două categorii

• ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7

unități decât al bărbaților (celelalte variabile fiind constante)

NOU

• Distribuţia variabilelor cantitative trebuie să fie

normală

– Dacă se abat grav de la această condiţie, se vor utiliza

proceduri adecvate de transformare.

• Relaţiile dintre VI și VD trebuie să fie liniare

– condiţie verificabilă cu ajutorul unui grafic scatterplot

• Omogenitatea pantei de regresie

Homoscedasticitate Heterodasticitate Heterodasticitate

multicoliniaritatea

• Variabilele predictor trebuie să fie

ortogonale

• Corelația dintre predictori se numește

multicoliniaritate

– este mereu prezentă (… contează mărimea ei)

• Efecte negative

– Diminuarea coeficientului de corelație multiplă

– Amplifică variabilitatea coeficienților de regresie

– Reduce precizia predicției

• Evaluare

– Corelații bivariate

– Matricea de scatterplot-uri

– Indicele de ”toleranță”

• ia valori între 0 şi 1

• valorile apropiate de 0 sunt un semn al coliniarităţii

• Dacă „toleranţa” este mai mică de 0.1 ridică o

problemă de coliniaritate

– VIF (Variation Inflation Factor) >5 sau 10 !

Soluții: • combinarea predictorilor sau eliminarea

• mărirea volumului eșantionului

• Variabilele vor fi măsurate fără erori, iar cazurile care

prezintă valori extreme vor fi analizate şi tratate

corespunzător

• Valorile reziduale (erorile de predicţie) se vor supune

următoarelor condiţii:

– media valorilor reziduale în studii de replicare să fie zero;

– erorile din cazul unei variabile independente nu au nici o

legătură cu erorile altei sau altor variabile independente;

– erorile nu corelează cu variabilele independente;

– varianţa valorilor reziduale pe toată distribuţia variabilelor

independente este omogenă (homoscedasticitate)

– erorile au o distribuţie normală;

• efectul valorilor extreme (outliers) asupra ecuaţiei

de regresie,

– poate fi considerabil

– uneori chiar şi una sau două valori excesive pot influenţa

analiza de regresie

– aceste valori vor fi identificate şi tratate corespunzător

înaintea calculării ecuaţiei de regresie multiplă

alegerea modelului de analiză

• Fixarea modului în care variabilele predictor sunt

introduse în modelul de regresie este una dintre

deciziile importante

• se referă în esență la:– stabilirea importanței predictorilor

– ordinea de introducere

– modul de tratare a acestora de către programul de regresie

• se vor utiliza:

– informații despre relația bivariată dintre predictori și criteriu

– rezultate ale unor cercetări anterioare sau modele teoretice validate

ori aflate în stadiul de ipoteză.

– metode de introducere a variabilelor predictor în ecuaţie

• Regresia multipla standard.

• Regresia multiplă secvenţială (regresie ierarhică).

• Regresia multiplă pas cu pas.

Regresia multiplă standard

• toate variabilele predictor sunt incluse în ecuaţie,

• efectul fiecăreia este evaluat după şi independent de

efectul tuturor celorlalte variabile introduse anterior

• fiecare variabilă independentă este evaluată numai

prin prisma contribuţiei proprii la explicarea

variabilei dependente

Regresia multiplă secvenţială (ierarhică)

• Variabilele independente sunt introduse în ecuaţie

într-o anumită ordine, în funcţie de opţiunile

analistului.

• Atunci când acesta are motive să creadă că o

anumită variabilă are o influenţă mai mare, o poate

introduce în ecuaţie înaintea altora.

Regresia multiplă pas cu pas

• utilizată în studii exploratorii, (nr. mare de predictori)

• trei variante:

– Selecţia anterogradă

– Selecţia pas cu pas

– Selecţia retrogradă

Selecţia anterogradă

• Toate variabilele predictor sunt corelate cu variabila criteriu după care variabila care are corelaţia cea mai mare este introdusă prima în ecuaţie.

• Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai mare, după ce a fost eliminat efectul variabilei anterioare.

• Procesul continuă până ce nivelul contribuţiei variabilelor predictor este prea mic pentru a mai fi luat în considerare.

• O variabilă odată introdusă în ecuaţie rămâne acolo.

Selecţia pas cu pas

• Este o variantă a metodei anterioare.

• la fiecare pas, fiecare variabilă deja introdusă este retestată pentru a se evalua efectul ei ca şi cum ar fi fost introdusă ultima.

• Dacă o variabilă nou introdusă are o contribuţie mai consistentă asupra variabilei dependente, va determina eliminarea unei variabile anterioare care se dovedeşte mai puţin predictivă.

Selecţia retrogradă

• Pasul iniţial este calcularea a unei ecuaţii de regresie în care toate variabilele predictor sunt incluse

• Ulterior, pentru fiecare variabilă predictor este efectuat un test de semnificaţie „F”, pentru a se evalua contribuţia fiecărui predictor la corelaţia de ansamblu.

• Valorile testului F sunt comparate cu o valoare limită prestabilită, variabilele care nu trec acest prag fiind eliminate din ecuaţie.

• Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este calculată şi un nou test F este efectuat pentru variabilele rămase, urmat de eventuala eliminare a unei alte variabile.

• Procesul continuă până când doar variabilele semnificative rămân în ecuaţie

Concluzii la alegerea metodei de

introducere a variabilelor

• metoda „secvenţială” şi cea „pas cu pas” sunt

superioare metodei „standard”.

– în cazul metodei secvenţiale, decizia de selecţionare a

variabilelor introduse în ecuaţie aparţine cercetătorului

– în cazul metodei pas cu pas, programul este cel care face în

mod automat selecţia, în funcţie de parametri fixaţi de

analist.

Analiza de putere pentru regresia multiplă

• stabilirea volumul eșantionului în funcție de:

– mărimea efectului

– numărul predictorilor

– puterea testului

• Recomandări:

– 15/1 (pentru 150 de subiecţi se poate miza pe cel mult 10

variabile independente (predictori)

– N≥50+8*m

• Mărimea efectului

– Mic = 0.02

– Mediu = 0.15

– Mare = 0.35

• G*Power

2

22

1 R

Rf

−=

Obiective de cercetare specifice analizei de regresie multiplă

• analiza de regresie multiplă este utilizabilă în situaţii de predicţie

– dorim să selectăm candidaţi pentru o anumită profesie pe baza performanţelor la un set de teste psihologice

– odată stabilită ecuaţia de regresie pentru eşantionul studiat, utilizăm bateria de teste pentru a face predicţii de adaptare în cazul altor subiecţi

• Întrebări tipice:– Care dintre indicatorii testelor utilizate are capacitatea de predicţie cea

mai ridicată?

– Există indicatori care nu au relevanţă pentru predicţia performanţei profesionale?

– Are ecuaţia de regresie astfel obţinută o capacitate sigură de predicţie?

– Care dintre indicatorii testelor utilizate pot fi incluse în ecuaţia de predicţie a performanţei profesionale?

– Are ecuaţia de regresie, astfel obţinută, o capacitate sigură de predicţie?

Efectuarea analizei de regresie cu SPSS

Validarea predicţiei...

Raportarea rezultatelor

• datele iniţiale şi eventualele eliminări sau transformări efectuate;

• indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaţie, graficele ilustrative pentru diferitele distribuţii;

• coeficienţii de regresie şi semnificaţiile lor (R2, R2adj şi gradele de libertate);

• dacă a fost utilizată metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas şi nivelul lor de semnificaţie;

• tabelul cu coeficienţii B (sau beta), coeficienţii r bivariaţi şi corelaţia parţială pentru fiecare variabilă independentă inclusă în model;

• se vor trage concluzii de ansamblu...

Download - regresia multipla