Regresia liniară multiplă
M. Popa
cuprins
1. Noțiuni de bază – regresia liniară simplă
2. Modelul de predicție multivariată
3. Obiectivele analizei de regresie multiplă
4. Condiţii şi limitări
5. Alegerea modelului de analiză
6. Volumul eșantionului
7. Regresia multiplă cu SPSS
– Operații preliminare
– Procedura de calcul
– Interpretarea rezultatelor
8. Validarea modelului de regresie
9. Raportarea rezultatelor
Corelația și Regresia
• Corelaţia– arată legătura (asocierea) dintre variabile
– nu descrie relaţia cauzală dintre variabile
– nu permite predicţia unei variabile pe baza celeilalte variabile
– nu există variabilă dependentă şi dependentă
• Regresia– metodă de predicţie a valorilor unei variabile pe baza valorilor altei
variabile
– variabila independentă• variabila “cauză”
• valorile ei “prezic” valorile variabilei dependente
• este denumită “predictor”
– variabila dependentă• variabila “efect”
• valorile ei sunt “prezise” pe baza valorilor variabilei independente
• este denumită şi “criteriu”
• Situaţia tipică în psihologie - examenele de selecţie 3
Tipuri de regresie liniară
• Regresia simplă
– o singură variabilă predictor
– se bazează pe corelaţia simplă
dintre criteriu şi predictor
• Regresia multiplă
– mai multe variabile predictor
– se bazează pe corelaţia multiplă
dintre criteriu şi predictori
– situaţia tipică în psihologie:
selecţia bazată pe baterii de teste
4
P C
P2 C
P3
P1
Predicţia perfectă
• r=±1
– zx=1.5
– zy’=1.5
– zy’ creşte sau scade cu
aceeaşi unitate cu cât
creşte sau scade zx
5
xyzz ='
z(x)
3,53,02,52,01,51,0,50,0
z(y
)
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0
Predicţia în cazul corelaţiei imperfecte
• corelaţiile sunt numai prin
excepţie perfecte
• în mod normal, r variază în jurul
lui 0
– exemplu: corelaţia între
cunoştinţele de matematică şi
rezultatele la statistică
6
xyzrz *' =
Noţiunea de regresie către medie
• Sir Francis Galton (1822-
1911)
• relaţia dintre înălţimea
medie a părinţilor şi
înălţimea copiilor (r=+0.67 )
7
34.12*67.0' ==yz
� văr cu Ch. Darwin
� descoperitorul amprentelor
digitale
� meteorolog, psiholog,
statistician, genetician,
explorator
SubiectQI
(X)
performanța școlară
(Y)
1 123 96
2 119 83
3 115 85
4 120 90
5 124 96
6 113 73
7 110 78
8 112 89
9 132 100
10 128 99
… un exemplu
Xa=123
Eroare de predicțieε=3.4
Valoare reală Ya=96
Valoare prezisă Y’a=92.6
A
B
Ycriteriu
Xpredictor
Satterplot bivariat cu dreapta de regresie
Ecuaţia dreptei de regresie
• Y’ → valoare prezisă (criteriu)
• ayx → originea dreptei; (punctul în care linia de regresie intersectează axa Oy).
• byx → panta liniei de regresie
– poate fi exprimată ca fracţiuni ale lui X determinate de r
• X → valoare predictor a variabilei Y
XbaY yxyx *'+=
10
Expresia grafică a regresiei
aceeaşi origine dar pante diferite
11
origini diferite, dar aceeaşi pantăorigini diferite, dar aceeaşi pantă
Modelul de regresie simplă
• Acuratețea predicției este dată de coeficientul de
regresie R (expresia lui r)
– Exemplul nostru: R=0.85
• Semnificația statistică se testează cu testul F
– Exemplul nostru: F=22.10; p=0.002
• Termenul liber (a)
– Exemplul nostru: -40.42 (ns… eșantion foarte mic…)
• Coeficientul de pondere (b)
– Exemplul nostru: 1.08 (p=0.002)
• Y=-40.42+1.08*X
Scor
inteligență
(predictor)
X
Performanța
școlară
(criteriu)
Y
Valoarea
prezisă
Y’
Eroare de
predicție
ε
110 78 78.5 -0.52
112 89 80.7 8.32
113 73 81.8 -8.76
115 85 83.9 1.07
119 83 88.3 -5.25
120 90 89.3 0.67
123 96 92.6 3.42
124 96 93.7 2.34
128 99 98.0 1.02
132 100 102.3 -2.31
Varianța predicției = eroarea standard a estimării
Xa=123
Eroare de predicțieε=3.4
Valoare reală Ya=96
Valoare prezisă Y’a=92.6
A
B
Ycriteriu
Xpredictor
Varianță neexplicată
(diferență reziduală)
Ya-Y ’=3.4
Media predicției Y’m=88.9
Varianță
explicată
Y’a-Ym=3.7
Varianța predicției
regresia nu este simetrică !
• dacă inversăm variabilele în ecuaţia de regresie se
va obţine o linie de regresie diferită
• dacă se inversează ordinea variabilelor în
calcularea corelaţiei, se obţine acelaşi coeficient r
15
Modelul de predicție multivariată
Unde
• Y’ este valoarea estimată pentru variabila criteriu (dependentă)
• ai este punctul de origine al liniei (constanta)
• b1, b2, b3... bk sunt coeficienţii b pentru cele k variabile predictor
• X1, X2, X3.... Xk sunt valorile celor k variabile predictor
kki XbXbXbXbaY *....*** 332211
'+++++=
Scatterplot trivariat
Ycriteriu
X1
predictor
X2
predictor
Planul de regresie multivariată
Ycriteriu
X1
predictor
X2
predictor
Indicatori ai intensității predicției
• R = coeficientul de corelație multiplă
• R2 = procentul de variaţie din VD (criteriu) determinat de variaţia
simultană a VI (predictori)
• R2adj=R2 corectat pentru numărul predictorilor
– R2adj > 75% - foarte bun (peste 90% rar… probabil un artefact)
– 50% - 75% - bun
– 25% - 50% - slab dar acceptabil
– sub 25% - foarte slab (probabil inacceptabil)
• Semnificaţia statistică a lui R este calculată cu ajutorul unui test
de varianţă (F)
• Cu cât contribuie fiecare predictor la estimarea criteriului?
– dificil de spus, fiindcă fiecare predictor acționează în prezența celorlalți
– o soluție … coeficienții beta (standardizați)
– corelația semi-parțială dintre criteriu și predictori (cursul urmator)
NOU
Utilitatea regresiei multiple
• Descrierea relațiilor dintre variabile
• Predicția în scop de selecție
• Dezvoltarea teoriei testării psihologice
Condiții și limitări
• Variabila dependentă (criteriu):
– Trebuie să fie măsurată pe scală de interval raport, cu
respectarea condiţiilor de aplicare a testului de corelaţie
(normalitatea distribuţiei, în special).
– Poate fi măsurată şi pe scală ordinală
– … în nici un caz pe scală nominală (în acest caz, se
utilizează alte tehnici de regresie – analiza de discriminare
sau regresia logistică)
Condiții și limitări
• Variabilele independente (predictori)
– vor fi măsurate pe scale de interval
– pot fi introduse în ecuație şi variabile măsurate la nivel
ordinal
– pot fi utilizate direct şi variabile nominale categoriale
dihotomice, codificate numeric (ex: masc.=0; fem.=1)
• mărimea coeficientului de regresie în acest caz, indică diferența
dintre cele două categorii
• ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7
unități decât al bărbaților (celelalte variabile fiind constante)
NOU
• Distribuţia variabilelor cantitative trebuie să fie
normală
– Dacă se abat grav de la această condiţie, se vor utiliza
proceduri adecvate de transformare.
• Relaţiile dintre VI și VD trebuie să fie liniare
– condiţie verificabilă cu ajutorul unui grafic scatterplot
• Omogenitatea pantei de regresie
Homoscedasticitate Heterodasticitate Heterodasticitate
multicoliniaritatea
• Variabilele predictor trebuie să fie
ortogonale
• Corelația dintre predictori se numește
multicoliniaritate
– este mereu prezentă (… contează mărimea ei)
• Efecte negative
– Diminuarea coeficientului de corelație multiplă
– Amplifică variabilitatea coeficienților de regresie
– Reduce precizia predicției
• Evaluare
– Corelații bivariate
– Matricea de scatterplot-uri
– Indicele de ”toleranță”
• ia valori între 0 şi 1
• valorile apropiate de 0 sunt un semn al coliniarităţii
• Dacă „toleranţa” este mai mică de 0.1 ridică o
problemă de coliniaritate
– VIF (Variation Inflation Factor) >5 sau 10 !
Soluții: • combinarea predictorilor sau eliminarea
• mărirea volumului eșantionului
• Variabilele vor fi măsurate fără erori, iar cazurile care
prezintă valori extreme vor fi analizate şi tratate
corespunzător
• Valorile reziduale (erorile de predicţie) se vor supune
următoarelor condiţii:
– media valorilor reziduale în studii de replicare să fie zero;
– erorile din cazul unei variabile independente nu au nici o
legătură cu erorile altei sau altor variabile independente;
– erorile nu corelează cu variabilele independente;
– varianţa valorilor reziduale pe toată distribuţia variabilelor
independente este omogenă (homoscedasticitate)
– erorile au o distribuţie normală;
• efectul valorilor extreme (outliers) asupra ecuaţiei
de regresie,
– poate fi considerabil
– uneori chiar şi una sau două valori excesive pot influenţa
analiza de regresie
– aceste valori vor fi identificate şi tratate corespunzător
înaintea calculării ecuaţiei de regresie multiplă
alegerea modelului de analiză
• Fixarea modului în care variabilele predictor sunt
introduse în modelul de regresie este una dintre
deciziile importante
• se referă în esență la:– stabilirea importanței predictorilor
– ordinea de introducere
– modul de tratare a acestora de către programul de regresie
• se vor utiliza:
– informații despre relația bivariată dintre predictori și criteriu
– rezultate ale unor cercetări anterioare sau modele teoretice validate
ori aflate în stadiul de ipoteză.
– metode de introducere a variabilelor predictor în ecuaţie
• Regresia multipla standard.
• Regresia multiplă secvenţială (regresie ierarhică).
• Regresia multiplă pas cu pas.
Regresia multiplă standard
• toate variabilele predictor sunt incluse în ecuaţie,
• efectul fiecăreia este evaluat după şi independent de
efectul tuturor celorlalte variabile introduse anterior
• fiecare variabilă independentă este evaluată numai
prin prisma contribuţiei proprii la explicarea
variabilei dependente
Regresia multiplă secvenţială (ierarhică)
• Variabilele independente sunt introduse în ecuaţie
într-o anumită ordine, în funcţie de opţiunile
analistului.
• Atunci când acesta are motive să creadă că o
anumită variabilă are o influenţă mai mare, o poate
introduce în ecuaţie înaintea altora.
Regresia multiplă pas cu pas
• utilizată în studii exploratorii, (nr. mare de predictori)
• trei variante:
– Selecţia anterogradă
– Selecţia pas cu pas
– Selecţia retrogradă
Selecţia anterogradă
• Toate variabilele predictor sunt corelate cu variabila criteriu după care variabila care are corelaţia cea mai mare este introdusă prima în ecuaţie.
• Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai mare, după ce a fost eliminat efectul variabilei anterioare.
• Procesul continuă până ce nivelul contribuţiei variabilelor predictor este prea mic pentru a mai fi luat în considerare.
• O variabilă odată introdusă în ecuaţie rămâne acolo.
Selecţia pas cu pas
• Este o variantă a metodei anterioare.
• la fiecare pas, fiecare variabilă deja introdusă este retestată pentru a se evalua efectul ei ca şi cum ar fi fost introdusă ultima.
• Dacă o variabilă nou introdusă are o contribuţie mai consistentă asupra variabilei dependente, va determina eliminarea unei variabile anterioare care se dovedeşte mai puţin predictivă.
Selecţia retrogradă
• Pasul iniţial este calcularea a unei ecuaţii de regresie în care toate variabilele predictor sunt incluse
• Ulterior, pentru fiecare variabilă predictor este efectuat un test de semnificaţie „F”, pentru a se evalua contribuţia fiecărui predictor la corelaţia de ansamblu.
• Valorile testului F sunt comparate cu o valoare limită prestabilită, variabilele care nu trec acest prag fiind eliminate din ecuaţie.
• Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este calculată şi un nou test F este efectuat pentru variabilele rămase, urmat de eventuala eliminare a unei alte variabile.
• Procesul continuă până când doar variabilele semnificative rămân în ecuaţie
Concluzii la alegerea metodei de
introducere a variabilelor
• metoda „secvenţială” şi cea „pas cu pas” sunt
superioare metodei „standard”.
– în cazul metodei secvenţiale, decizia de selecţionare a
variabilelor introduse în ecuaţie aparţine cercetătorului
– în cazul metodei pas cu pas, programul este cel care face în
mod automat selecţia, în funcţie de parametri fixaţi de
analist.
Analiza de putere pentru regresia multiplă
• stabilirea volumul eșantionului în funcție de:
– mărimea efectului
– numărul predictorilor
– puterea testului
• Recomandări:
– 15/1 (pentru 150 de subiecţi se poate miza pe cel mult 10
variabile independente (predictori)
– N≥50+8*m
• Mărimea efectului
– Mic = 0.02
– Mediu = 0.15
– Mare = 0.35
• G*Power
2
22
1 R
Rf
−=
Obiective de cercetare specifice analizei de regresie multiplă
• analiza de regresie multiplă este utilizabilă în situaţii de predicţie
– dorim să selectăm candidaţi pentru o anumită profesie pe baza performanţelor la un set de teste psihologice
– odată stabilită ecuaţia de regresie pentru eşantionul studiat, utilizăm bateria de teste pentru a face predicţii de adaptare în cazul altor subiecţi
• Întrebări tipice:– Care dintre indicatorii testelor utilizate are capacitatea de predicţie cea
mai ridicată?
– Există indicatori care nu au relevanţă pentru predicţia performanţei profesionale?
– Are ecuaţia de regresie astfel obţinută o capacitate sigură de predicţie?
– Care dintre indicatorii testelor utilizate pot fi incluse în ecuaţia de predicţie a performanţei profesionale?
– Are ecuaţia de regresie, astfel obţinută, o capacitate sigură de predicţie?
Efectuarea analizei de regresie cu SPSS
Validarea predicţiei...
Raportarea rezultatelor
• datele iniţiale şi eventualele eliminări sau transformări efectuate;
• indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaţie, graficele ilustrative pentru diferitele distribuţii;
• coeficienţii de regresie şi semnificaţiile lor (R2, R2adj şi gradele de libertate);
• dacă a fost utilizată metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas şi nivelul lor de semnificaţie;
• tabelul cu coeficienţii B (sau beta), coeficienţii r bivariaţi şi corelaţia parţială pentru fiecare variabilă independentă inclusă în model;
• se vor trage concluzii de ansamblu...