+ All Categories
Home > Documents > Regresie Multipla-Adrian Dusa

Regresie Multipla-Adrian Dusa

Date post: 03-Dec-2015
Category:
Upload: catiusa-iziumov
View: 79 times
Download: 8 times
Share this document with a friend
Description:
Regresie Multipla-Adrian Dusa
25
REGRESIA LINIARĂ MULTIPLĂ Adrian Duşa Universitatea din Bucureşti Facultatea de Sociologie şi Asistenţă Socială
Transcript
Page 1: Regresie Multipla-Adrian Dusa

REGRESIA LINIARĂ MULTIPLĂ

Adrian Duşa

Universitatea din Bucureşti

Facultatea de Sociologie şi Asistenţă Socială

Page 2: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.2 din 25

40 50 60 70 80 90

010

2030

4050

60

20

30

40

50

60

70

8

Varsta sotului

Var

sta

sotie

i

Num

ar a

ni d

e ca

sato

rie

REGRESIA LINEARĂ MULTIPLĂ A. Prezentare generală.

O mulţime de factori ne afectează viaţa, deciziile de zi cu zi. Cumpărăm pentru că produsul este bun, dar şi pentru că este ieftin, ori are o culoare care ne place etc. Votăm pentru că simpatizăm un anumit candidat, dar şi pentru că programul politic al acestuia este unul care se potriveşte cu aşteptările noastre etc.

Ecuaţia de regresie poate aşadar să conţină mai multe variabile independente; acţiunea simultană şi cumulată a acestora îmbunătăţeşte foarte mult acurateţea predicţiei. Forma generală a acestei ecuaţii este:

y = a + b1·x1 + b2·x2 + ··· + bk·xk + e

Pentru o demonstraţie a principiului pe care funcţionează aceasta, vom analiza cazul mai simplu a unei ecuaţii de regresie lineară multiplă cu două variabile independente (regresia trivariată):

y = a + b1·x1 + b2·x2 + e

Valorile prezise a lui y sunt calculate într-un mod similar cu cel din regresia simplă:

y’ = a + b1·x1 + b2·x2

Să ne reamintim de primul exemplu, cel al variaţiei veniturilor. Dacă încercăm să explicăm variaţia VENIT-urilor cu ajutorul variabilelor VÂRSTĂ şi EDUCAŢIE, ne folosim de mai multă informaţie pe care o avem pentru a efectua o predicţie. Atât prima variabilă independentă cât şi cea de a doua îşi aduc o contribuţie la explicarea cantităţii totale de variaţie a variabilei dependente. Având două surse de explicaţie în loc de una (ca în cazul regresiei lineare simple), eroarea asociată cu această predicţie va fi mai mică. Cantitatea de variaţie explicată se măreşte pe măsură ce cantitatea de eroare scade.

Ipoteza pe care se bazează acest model este una mai complexă, cumulând două ipoteze paralele: a. venitul depinde de vârstă: creşterea vârstei duce la o creştere a venitului b. venitul depinde de educaţie: mai mulţi ani de educaţie duc la un venit mai mare

sau într-o singură frază: venitul depinde de vârstă şi de educaţie.

Combinarea celor două sub-ipoteze sugerează că ar trebui să existe câte o relaţie liniară între variabila dependentă şi fiecare dintre cele două variabile independente. De altfel şi titlul acestui capitol arată acelaşi lucru: chiar dacă avem mai multe variabile independente, regresia este tot lineară. Ceea ce se schimbă la analizarea grafică a ecuaţiei [2] este forma norului de puncte; având trei variabile în acelaşi grafic, norul de puncte va trece de la reprezentarea în plan (specifică regresiei simple) la reprezentarea în spaţiu, mai exact într-un cub.

Figura 1. Spaţiul grafic în 3 dimensiuni în care va fi afişat norul de puncte

[1]

[2]

[3]

Page 3: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.3 din 25

Vom folosi pentru exemplificare aceeaşi relaţie între vârsta soţilor şi vârsta soţiilor, de această dată ambele fiind variabile independente, cu următoarea ipoteză: numărul de ani de căsătorie depinde de vârsta soţului şi de vârsta soţiei.

Am folosit date despre vârstele a 50 de cupluri căsătorite extrase în mod aleator din Barometrul de Opinie Publică mai 2003, în care vârsta soţului este de peste 40 de ani, deoarece numărul de ani de căsătorie nu există în această bază de date. Presupunând că vârsta la căsătorie este undeva în jurul vârstei de 20 de ani, am creat această variabilă prin extragerea aleatoare dintr-o distribuţie normală cu: - media calculată ca: vârsta soţului minus 30 de ani şi

- abaterea standard de 5 ani.

Raţiunea utilizării acestui algoritm o putem demonstra presupunând că dorim să estimăm numărul de ani de căsătorie pentru un bărbat cu vârsta de 40 de ani (cea mai mică vârstă în eşantionul nostru aleator). Extragerea unui număr de ani de căsătorie dintr-o distribuţie normală va avea media egală cu 40 - 30 = 10 ani, iar 95% dintre numerele extrase vor fi între +/- 2 abateri standard în jurul acestei medii, adică în intervalul (10 - 2·5 , 10 + 2·5) adică (0 , 20). Bărbaţii în vârstă de 40 de ani pot avea maxim 20 de ani de căsătorie, ceea ce este conform cu presupunerea noastră iniţială că vârsta medie la căsătorie este undeva în jur de 20 de ani. Sigur că există o probabilitate de 2,5% ca numărul de ani extras să fie mai mare de 20 de ani, însă nu există nici un pericol pentru că oamenii se căsătoresc şi la vârste mai mici (de exemplu 18 ani).

Setul de date rezultat are trei conţine astfel 3 variabile (pe coloane) şi 50 de cazuri (pe rânduri). Fiecare caz conţine 3 valori, pentru x1, x2 şi y. Mai jos este prezentat tabelul utilizat pentru analiza de regresie iar pe pagina următoare şi reprezentarea în 3 dimensiuni a norului de puncte. Fiecare punct afişat pe grafic va fi rezultatul a trei coordonate: una specifică variabilei dependente y (afişată pe axa verticală) şi celelalte corespondente celor două variabile independente x1 şi x2 (afişate pe cele două axe orizontale). La modul general, spunem că o figură în trei dimensiuni are coordonatele x, y şi z. Pentru a păstra însă relaţia cu ecuaţia de regresie, am înlocuit notaţia din sistemul de coordonate tradiţional cu notaţia x1, x2 şi y, în care z tradiţional şi y din noua notaţie se referă la axa verticală.

Tabel 1. Vârstele şi numărul de ani de căsătorie a 50 de cupluri, în ordinea crescătoare a vârstelor

Să luăm spre exemplu cea de-a 26-a gospodărie, în care vârsta soţului este de 58 de ani, vârsta soţiei este de 60 de ani, iar numărul de ani de căsătorie este de 38 de ani. În figura de mai jos, reprezentăm în spaţiu această gospodărie printr-un punct de culoare roşie; se observă că axa 0x1 porneşte de la cifra 40, iar axa 0x2 de la cifra 20 (în tabelul nostru, nu avem nici o vârstă mai mică de 40 ani la bărbaţi şi nici una mai mică de 20 de ani la femei).

Vârsta soţului

x1

Vârsta soţiei

x2

Număr ani de căsătorie

y 1 41 38 17 2 42 22 3 3 42 37 3

26 58 60 38

50 81 73 48

Page 4: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.4 din 25

Marginile vizibile ale cubului sunt prezentate cu linie continuă, iar cele trei margini ascunse cu linie întreruptă. Proiecţiile către cele trei planuri au o linie punctată; baza cubului este planul format de variabilele x1 şi x2. Norul de puncte pentru toate cele 50 de cazuri este prezentat în Figura 3. Se observă o variaţie atât pe axa 0x1 (pe lungimea cubului), cât şi pe axa 0x2 (pe lăţimea cubului) şi pe axa 0y (pe înălţimea cubului).

Norul de puncte are aşadar trei dimensiuni; forma lui este tot eliptică, însă în spaţiu. La fel ca la regresia simplă, va trebui să găsim o soluţie pentru aproximarea acestui nor de puncte. Aproximarea nu se mai poate face însă cu o simplă linie, deoarece există erori nu doar deasupra sau dedesubtul liniei, ci şi la stânga şi la dreapta. Soluţia este simplă: traversarea norului de puncte se va face cu ajutorul unui plan (să ne imaginăm o foaie de hârtie transparentă care trece prin nor). Planul va fi denumit în continuare planul de regresie.

Proiecţia punctului pe latura exterioară a cubului; echivalentul punctului de coordonate în 2 dimensiuni: x2 = 60; y = 38

Punctul de coordonate: x1 = 58; x2 = 60; y = 38

Proiecţia punctului pe baza cubului; echivalentul punctului de coordonate în 2 dimensiuni: x1 = 58; x2 = 60

Proiecţia punctului pe latura din faţă a cubului; echivalentul punctului de coordonate în 2 dimensiuni: x1 = 58; y = 38

40 50 60 70 80 90

010

2030

4050

60

20

30

40

50

60

70

80

Varsta sotului

Var

sta

sotie

i

Num

ar a

ni d

e ca

sato

rie

Figura 2. Reprezentarea grafică a celei de a 26-a gospodării

40 50 60 70 80 90

010

2030

4050

60

20

30

40

50

60

70

80

Varsta sotului

Var

sta

sotie

i

Num

ar a

ni d

e ca

sato

rie

40 50 60 70 80 90

010

2030

4050

60

20

30

40

50

60

70

80

Varsta sotului

Var

sta

sotie

i

Num

ar a

ni d

e ca

sato

rie

Figura 3. Reprezentarea grafică a norului de puncte

a. reprezentare simplă b. reprezentare a norului de puncte şi a proiecţiilor cu evidenţierea cuplului nr.26

Page 5: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.5 din 25

B. Planul de regresie.

Orice plan este determinat de două variabile (demonstraţia a fost deja făcută la regresia simplă); este normal deci să aproximăm norul de puncte printr-un plan deoarece avem două variabile independente. Planul nostru are două tipuri de înclinări (pante) parţiale: una pe lungime şi alta pe lăţimea acestuia. Să mai examinăm încă odată ecuaţia numărul [3]:

y’ = a + b1·x1 + b2·x2

După cum ştim de la regresia simplă, panta dreptei era dată de coeficientul de regresie b. În această ecuaţie avem un coeficient b1 care este panta parţială pe lungime a planului de regresie şi încă un coeficient b2 care este panta parţială pe lăţime a planului de regresie (în vom interpreta mai în detaliu puţin mai târziu).

Este destul de dificil de reprezentat o asemenea imagine într-un manual tipărit; am avea nevoie de un model fizic în trei dimensiuni pe care să-l putem roti pentru a observa toate aceste aspecte (există programe software care pot face o astfel de rotire, însă doar pe calculator). Vom folosi însă nişte mici convenţii, reprezentând punctele de sub plan într-o culoare mai închisă decât cele de deasupra planului. Următoarea figură va prezenta norul de puncte şi planul de regresie care îl aproximează, precum şi eroarea pentru primul cuplu de la valoarea observată şi cea prezisă a lui y.

Planul de regresie reprezintă predicţia noastră în ceea ce priveşte valoarea dependentei y. Punctele de predicţie se află pe suprafaţa planului, cu coordonatele date de a, b1·x1 şi b2·x2. Ca şi la regresia simplă, există mai multe planuri posibile care să aproximeze norul de puncte; valorile coeficienţilor care formează planul de regresie potrivit sunt calculate folosind aceeaşi metodă a celor mai mici pătrate: din infinitatea de planuri de regresie posibile, acela care aproximează cel mai bine norul de puncte este definit de un termen liber a şi de înclinările (pantele) parţiale b1 şi b2 în funcţie de care suma erorilor de la puncte la plan este un număr minim.

Spre exemplu, aplicarea modelului nostru de regresie a generat următoarele valori ale coeficienţilor de regresie: a = -36,9; b1 = 0,9; b2 = 0,3.

În Figura 4, pentru primul cuplu, valoarea prezisă a lui y1 este y1’ = -36,9 + 0,9·41 + 0,3·38 = 8,47. Valoarea observată a lui y1 este 17, în consecinţă eroarea este egală cu e1 = y1-y’1 = 17-8,47 = +8,53.

Înclinarea parţială (pe lăţime) a planului de regresie

Eroarea de la punctul corespunzător primului cuplu la planul de regresie

Înclinarea parţială (pe lungime) a planului de regresie

40 50 60 70 80 90

010

2030

4050

60

20

30

40

50

60

70

80

Varsta sotului

Var

sta

sotie

i

Num

ar a

ni d

e ca

sato

rie

Figura 4. Planul de regresie care secţionează norul de puncte

Page 6: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.6 din 25

IMPORTANT! În orice ecuaţie de regresie, putem defini un spaţiu cu k + 1 dimensiuni generat de toate variabilele care intră în ecuaţie: k variabile independente şi 1 variabilă dependentă. Predicţia se realizează în sub-spaţiul cu k dimensiuni (numit şi hiper-plan de regresie sau suprafaţă de regresie) corespunzător variabilelor independente.

Punctul observat se află deasupra planului de regresie. În acelaşi mod se pot trasa toate erorile de la puncte la plan:

Ceea ce trebuie observat este că unele erori sunt mai mici şi altele mai mari, unele pozitive şi altele negative. Acest lucru înseamnă că erorile variază, compunând o variabilă în sine. Pentru fiecare dintre cele i valori observate (în exemplul nostru, i = 50 de cupluri): yi, x1i şi x2i putem să calculăm o mărime a erorilor ei ca o combinaţie lineară (o rearanjare a ecuaţiei de gradul I) între variabilele existente:

ei = yi - (a + b1·x1i + b2·x2i), unde i = 1…50

de unde rezultă că variabila e se poate calcula simplu ca:

e = y - y’

Ecuaţia [5] este valabilă (poate fi generalizată) pentru oricâte variabile independente am avea în model, nu doar pentru două câte avem în exemplul nostru. Toate aceste reprezentări grafice sunt valabile doar pentru două variabile independente. Ce se întâmplă însă când avem trei sau mai multe? În cazul a trei variabile independente (plus o variabilă dependentă), avem în total patru dimensiuni. Posibilităţile de reprezentare grafică se opresc la trei dimensiuni, în consecinţă nu putem demonstra grafic acest tip de regresie. Putem însă să ne folosim imaginaţia, utilizând modelul tranziţiei de la două la trei dimensiuni: să ne imaginăm o formă geometrică în patru dimensiuni; predicţia în acest caz se realizează cu ajutorul celor trei variabile independente, într-un cub. Am pornit de la o dreaptă de regresie în două dimensiuni, am trecut la planul de regresie în trei dimensiuni, putem trece fără probleme la predicţia cu ajutorul cubului de regresie în patru dimensiuni ş.a.m.d.

[4]

[5]

Legendă: ● Punctul se află deasupra

planului de regresie ● Punctul se află sub planul

de regresie Eroare pozitivă Eroare negativă

40 50 60 70 80 90

010

2030

4050

60

20

30

40

50

60

70

80

Varsta sotuluiV

arst

a so

tiei

Num

ar a

ni d

e ca

sato

rie

Figura 5. Erorile de la puncte la planul de regresie

Page 7: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.7 din 25

C. Coeficientul de determinaţie multiplă. Coeficientul de corelaţie multiplă.

În regresia simplă, am folosit coeficientul de determinaţie (simplă) r2 pentru a calcula intensitatea asocierii dintre două variabile. Ne amintim că este contraindicată folosirea coeficientului de corelaţie în acest scop; dacă r = 0,5 (ceea ce ar indica o intensitate destul de mare) atunci r2 = 0,25 ceea ce înseamnă că de fapt variabila independentă nu explică decât un sfert din variaţia dependentei. În acelaşi mod, folosim coeficientul de determinaţie multiplă (notat aici cu R2) pentru a calcula intensitatea asocierii dintre trei sau mai multe variabile.

Coeficientul de corelaţie multiplă se poate calcula prin radical din coeficientul de determinaţie; măsoară corelaţia dintre valorile observate şi cele prezise (de către model) ale variabilei dependente. În interpretarea coeficientului de corelaţie multiplă, variabilele sunt standardizate pentru a elimina efectele unităţilor de măsură diferite ale variabilelor.

R2 este totodată şi proporţia din variaţia totală a lui y care este explicată de modelul de regresie, de acel sub-spaţiu cu k dimensiuni determinat de variabilele independente.

Determinaţia multiplă este întotdeauna cel puţin la fel de mare ca determinaţia simplă: R2 ≥ r2. Aceasta înseamnă că nu vom avea niciodată o predicţie mai slabă prin introducerea unei noi (sau a mai multor) variabile în ecuaţia de regresie lineară simplă. Acest lucru are o importanţă deosebită în evaluarea eficienţei modelului de regresie şi a gradului în care introducerea unei noi variabile influenţează acurateţea predicţiei.

Spre exemplu, dacă o regresie lineară simplă are un r2 = 0,7 iar prin introducerea unei a doua variabile independente R2 = 0,71 atunci variabila nou introdusă nu aduce aproape nimic în plus la explicarea variaţiei dependentei.

O valoare a lui R2 egală cu 1 înseamnă că variabilele independente explică perfect variaţia variabilei dependente; aceasta poate fi prezisă întotdeauna cu ajutorul unei funcţii lineare fără nici un fel de eroare. La capătul celălalt, dacă R2 = 0 avem două posibilităţi: fie nu avem nici un fel de variaţie a lui y pentru valori diferite ale independentelor, fie există variaţie însă aceasta nu se prezintă sub o formă lineară (caz în care nu se mai poate aplica acest tip de regresie multiplă).

Majoritatea programelor statistice nu mai afişează “r2” ci folosesc un singur “R2” generic pentru toate tipurile de regresie. Atunci când avem o singură variabilă independentă, R2 se interpretează ca un coeficient de determinaţie simplă; când avem două sau mai multe independente, R2 este coeficientul de determinaţie multiplă.

R2 tinde să supraestimeze cât anume poate să explice modelul, în special pentru eşantioanele mici. De aceea, programele statistice mai raportează şi un alt tip de R2, numit “Adjusted R2“. Acesta are valori diferite de R2 în funcţie de numărul de variabile independente din model şi în funcţie de mărimea eşantionului. Valoarea pe care noi trebuie să o considerăm corectă este R2 ajustat; cu alte cuvinte, o cantitate de variaţie explicată de modelul de regresie mai apropiată de realitate este egală cu valoarea acestui coeficient. Spre deosebire de R2, versiunea ajustată a acestuia poate să scadă atunci când sunt adăugate în model variabile cu putere slabă de explicaţie.

În cazul regresiei simple, având o singură variabilă independentă în model, R2 este aproximativ egal cu R2 ajustat.

[6]R2 = (yi – )2 ∑

i=1

n y

(yi’ – )2 ∑i=1

n

y 0 ≤ R2 ≤ 1

Page 8: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.8 din 25

IMPORTANT! Expresia “a controla cu o variabilă“ este echivalentă cu expresia “a ţine sub control o variabilă“, ambele referindu-se la menţinerea respectivei variabile la o valoare constantă.

D. Corelaţia parţială. Controlarea variabilelor. Interpretarea coeficienţilor de regresie.

Complementar cu noţiunea de corelaţie multiplă este cea de corelaţie parţială, care este corelaţia dintre două variabile atunci când o a treia variabilă este ţinută sub control. Să luăm în considerare trei variabile x1, x2, şi x3. Calcularea coeficientului de corelaţie simplă între x2 şi x3 (r23) ignoră complet valorile primei variabile. Să presupunem însă că am menţine valorile lui x1 la o valoare constantă; ce s-ar întâmpla cu corelaţia dintre x2 şi x3 în acest caz?

Cunoaştem deja fenomenul de corelaţie aparentă: atunci când x1 influenţează în mod direct atât pe x2 cât şi pe x3, vom avea o corelaţie între ultimele chiar dacă în realitate acestea nu au nimic în comun. Ţinând pe x1 constant, coeficientul de corelaţie r23 poate să dispară ori să se modifice substanţial. Un exemplu clasic este acela al corelaţiei dintre greutatea corporală şi coeficientul de inteligenţă. Dacă măsurăm greutatea şi inteligenţa copiilor dintr-o şcoală generală, vom observa fără îndoială o corelaţie pozitivă ridicată; această corelaţie se datorează faptului că ambele sunt influenţate de vârsta copilului. Dacă menţinem vârsta constantă (măsurăm spre exemplu greutatea şi inteligenţa doar pentru copii în vârstă de 10 ani) corelaţia dintre greutate şi inteligenţă dispare, sau cel puţin este redusă la valori foarte mici.

Metoda experimentului în ştiinţele sociale are o variantă numită experimentul de laborator; ideea de bază este că nu se pot face măsurători foarte precise în spaţiul public datorită influenţei unei mulţimi de factori care perturbă rezultatele. În laborator, se măsoară relaţia dintre două variabile în condiţii de izolare fată de orice factori perturbatori; acest lucru poartă numele de control. Altfel spus, se măsoară influenţa variabilei de interes asupra dependentei în condiţiile în care factorii perturbatori “sunt ţinuţi sub control”. De aceea există, de obicei, două grupuri: unul experimental şi unul de control. Prin compararea rezultatelor celor două grupuri, se poate calcula cât de mare este influenţa variabilei de interes asupra dependentei.

Regresia multiplă ne oferă un substitut foarte apropiat de experimentul de laborator, pentru că putem ţine constante (putem controla) variabilele care intră în ecuaţia de regresie. Acest lucru conferă analizei de regresie o importanţă deosebită în ştiinţele sociale. Diferenţa dintre cele două tipuri de control este că regresia oferă control statistic, diferit de controlul experimental. Controlul statistic este puţin mai slab, însă este foarte valoros deoarece uneori nu putem efectua control experimental, mai ales în eşantioane de mărimi foarte mari reprezentative la nivel naţional.

Reluăm ecuaţia [3]:

y’ = a + b1·x1 + b2·x2

Am dori să ştim care este influenţa variabilei x2 asupra lui y în condiţiile în care ţinem x1 la o valoare constantă. Coeficientul b1 fiind o constantă înseamnă că şi produsul b1·x1 este constant. Putem înlocui toate constantele prin: a’ = a + b1·x1, iar ecuaţia devine:

y’ = (a + b1·x1) + b2·x2

y’ = a’ + b2·x2

Ecuaţia [7] se poate generaliza pentru controlarea oricâtor variabile independente:

y’ = (a + b1·x1 + b2·x2 + ··· + bk-1·xk-1) + bk·xk

y’ = a’ + bk·xk

[7]

[8]

Page 9: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.9 din 25

IMPORTANT! Interpretarea este similară pentru oricare dintre coeficienţii de regresie parţiali bi: este schimbarea în medie a lui y asociată cu o schimbare de o unitate a lui xi, controlând cu toate celelalte variabile independente..

Interpretăm coeficientul de regresie b2 din ecuaţia [7] în următorul mod: este panta (înclinarea) într-o ecuaţie de regresie multiplă ţinând sub control toate celelalte variabile. Este o pantă a unei regresii liniare simple în condiţiile controlării tuturor celorlalte variabile independente (a căror efect intră în termenul liber a’).

În acest fel, efectul oricărei variabile xi asupra dependentei este separat de efectele celorlalte variabile xj, oricare ar fi i ≠ j.

În regresia multiplă, oricare bi se mai numeşte şi coeficient de regresie parţial, precum şi înclinare sau pantă parţială de regresie.

Interpretarea termenului liber este similară cu cea de la regresia simplă: a este valoarea medie a lui y când toate variabilele independente sunt egale cu zero.

De reţinut este faptul că valorile acestor coeficienţi nu pot fi comparate între ele deoarece se bazează pe variabile cu unităţi de măsură diferite. De aceea majoritatea programelor statistice prezintă atât valorile coeficienţilor bi cât şi valorile standardizate ale acestora; de obicei, ele sunt prezentate în fereastra de rezultate sub numele de “Unstandardized coefficients” (coeficienţi nestandardizaţi) şi “Standardized coefficients” (coeficienţi standardizaţi).

Mărimile coeficienţilor de regresie parţiali standardizaţi sunt comparabile ca efect asupra variabilei dependente; ei reprezintă de altfel şi corelaţia parţială dintre fiecare independentă şi dependentă.

Page 10: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.10 din 25

Valoare Eroare Standard t p (Termenul liber) -36,8691 3,3612 -10,969 1,49e-14 *** b1 (Vârsta soţ) 0,8652 0,1298 6,668 2,61e-08 *** b2 (Vârsta soţie) 0,2597 0,1220 2,128 0,0386 *

E. Inferenţa de la eşantion la populaţie. Intervalele de încredere şi semnificaţia coeficienţilor.

Aplicarea regresiei pe datele din tabel a dus la următorul rezultat:

Semnificaţia coeficienţilor de regresie o putem judeca fie după numărul de steluţe (a căror interpretare o găsim la regresia simplă), fie după valoarea lui t care este egal cu raportul dintre coeficient şi eroarea lui standard (numit uneori şi “raportul t”). Urmând aşa-numita “regulă a degetului mare“ (în limba engleză “rule of thumb“) dacă acest raport este mai mare ca 2 în valoare absolută (în modul), atunci coeficientul este considerat semnificativ, la un nivel maxim de semnificaţie de 5%.

După cum ştim, testul t este făcut pentru a verifica dacă un anumit coeficient este semnificativ diferit de zero. Spre exemplu, pentru b1 vom confrunta ipoteza de nul, care spune că în populaţie nu există nici un fel de relaţie între y şi x1, cu ipoteza alternativă conform căreia în populaţie există o legătură între cele două.

Atenţie însă: distribuţia t pe care se face testul depinde de numărul de grade de libertate, care depinde de numărul de variabile independente intrate în ecuaţie; mai multe detalii despre calcularea numărului de grade de libertate pot fi găsite în secţiunea “Eroarea standard a estimării” din finalul acestui capitol. Rezultatele din tabel arată că toţi coeficienţii sunt semnificativ diferiţi de zero, primii doi chiar foarte semnificativ.

Dacă dorim să ştim în ce interval se află o pantă parţială de regresie în populaţie; pentru coeficientul b1 spunem că β1 se află în intervalul (0,8652 - 1,96·0,1298 , 0,8652 + 1,96·0,1298) pentru un nivel de încredere de 95%, adică în intervalul (0,61 , 1,12). O altă dovadă a faptului că acest coeficient este semnificativ diferit de zero este faptul că intervalul calculat nu conţine valoarea 0: limita minimă este la 0,61. Dacă acest interval l-ar fi cuprins pe zero, ar fi însemnat că există posibilitatea ca parametrul β1 să fie egal cu zero în populaţie şi în consecinţă variabila x1 nu ar fi influenţat cu nimic variaţia lui y. Acest tip de inferenţă se poate generaliza pentru oricare dintre coeficienţii de regresie prezenţi în ecuaţie.

Ca şi la regresia simplă însă, noi dorim să prezicem o valoare a lui y pentru anumite valori ale independentelor. Spre exemplu, să prezicem numărul de ani de căsătorie pentru un cuplu în care bărbatul (x1) are 45 de ani iar femeia (x2) are 43 de ani. Calculul (cu rotunjire la 2 zecimale) se face în următorul mod:

y’ = a + b1·x1 + b2·x2 = -36,87 + 0,87·x1 + 0,26·x2 = -36,87 + 0,87·45 + 0,26·43 = 13,23 ani.

Această predicţie va fi un punct pe planul de regresie având coordonatele x1, x2, y: (45, 43, 13,23).

Page 11: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.11 din 25

F. Variabile “dummy”

Regresia lineară cere în analiză variabile cantitative, metrice. Cele mai multe dintre variabilele pe care noi le folosim în mod curent sunt însă calitative. Prin eliminarea acestora, analiza noastră este mult sărăcită, lipsită fiind de o mare parte a explicaţiei. Din fericire, există metode de a introduce acest tip de variabile în ecuaţia de regresie, prin transformarea categoriilor acestora în aşa-numitele variabile dummy.

Variabila care este în acelaşi timp şi calitativă (are categorii) şi cantitative (valorile acesteia au semnificaţie numerică, matematică) este variabila binară. După cum ştim, o variabilă binară este un tip special de variabilă dihotomică (are două categorii) a cărei valori sunt 0 şi 1. Acestea sunt variabile pentru fenomene de tipul: 1 (există) şi 0 (nu există); 1 (este) şi 0 (nu este); 1 (face) şi 0 (nu face); 1 (se întâmplă) şi 0 (nu se întâmplă) etc.

Avem spre exemplu variabila SEX, cu categoriile: 1 Femeie şi 2 Bărbat. Alegem un eşantion aleator de 50 de persoane şi înregistrăm valorile pentru această variabilă.

Tabel 2. Transformarea variabilei SEX în variabile dummy

Persoana SEX Persoana BĂRBAT FEMEIE

1 1 (Femeie) 1 0 1 2 2 (Bărbat) 2 1 0 3 2 (Bărbat) transformare 3 1 0 4 1 (Femeie) 4 0 1

50 2 (Bărbat) 50 1 0

Valorile acestei variabile (1 şi 2) nu au o semnificaţie numerică; faptul de a fi femeie nu este dublul faptului de a fi bărbat. În schimb, putem regândi aceste categorii în următorul fel: construim variabila dihotomică binară BĂRBAT cu valorile 1 Da şi 0 Nu; o persoană este bărbat (cod 1) sau nu este bărbat (cod 0), caz în care nu mai rămâne decât cealaltă alternativă (este femeie). Transformăm aşadar variabila Sex: toate codurile de 2 (Bărbat) devin cod 1 în noua variabilă şi tot ce nu e bărbat (cod 1, Femeie) devine cod 0. În mod similar se construieşte şi variabila binară FEMEIE. Se observă că valorile celor două variabile nou construite se exclud reciproc: valoarea 1 la variabila BĂRBAT implică automat valoarea 0 la variabila FEMEIE. Nu poate exista cod de 1 la ambele variabile; una şi aceeaşi persoană nu este în acelaşi timp şi femeie şi bărbat.

Revenim la exemplu cu variaţia veniturilor; un model cu două variabile independente este:

VENIT = a + b1·SEX + b2·EDUCAŢIE

O asemenea ecuaţie este incorectă, deoarece variabila SEX este calitativă şi nu poate fi folosită ca atare în modelul de regresie. În locul ei putem folosi însă variabila dummy nou creată, BĂRBAT:

VENIT = a + b1· BĂRBAT + b2·EDUCAŢIE

Nu se folosesc în acelaşi timp ambele variabile dummy nou create, pentru că se încalcă asumpţia de a nu avea multicolinearitate (prezentată la sfârşitul acestui capitol). Datorită faptului că variabila FEMEIE poate fi dedusă din variabila BĂRBAT (tot ce nu e bărbat e femeie), nu câştigăm nimic în explicaţie. Vom avea doar o altă variabilă în plus care ne încurcă analiza, astfel că este încălcat şi principiul simplităţii (prezentat la secţiunea Adecvarea modelului); preferăm modelul cu cele mai puţine variabile la aceeaşi cantitate de explicaţie.

Page 12: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.12 din 25

IMPORTANT! Pentru o variabilă cu un număr de c categorii sunt create un număr de c-1 variabile dummy. Categoria pentru care nu se creează variabilă dummy este denumită categorie de referinţă.

Ce se întâmplă cu efectul variabilei FEMEIE asupra variaţiei veniturilor?

Introducând în model doar variabila BĂRBAT ar putea să ne inducă în eroare şi să credem că ignorăm efectul variabilei FEMEIE. Răspunsul este simplu: efectul variabilei FEMEIE nu se pierde din analiză, ci intră în constanta de regresie a. Faptul de a fi femeie rămâne în ecuaţie prin valoarea 0 a variabilei BĂRBAT; categoria 1 a variabilei SEX (femeie) rămâne o categorie într-un fel ascunsă, pe care o denumim categorie de referinţă.

Categoria de referinţă este deci categoria a cărei variabilă dummy nu este introdusă în model.

Spre exemplu, dorim să prezicem venitul unui bărbat cu 12 ani de educaţie şi a unei femei cu 12 ani de educaţie. În primul caz, ecuaţia are forma:

VENIT = a + b1· BĂRBAT + b2·EDUCAŢIE = a + b1· 1 + b2·13 = a + b1 + b2·13

Iar în al doilea caz ecuaţia devine:

VENIT = a + b1· BĂRBAT + b2·EDUCAŢIE = a + b1· 0 + b2·13 = a + b2·13

Constanta a reprezintă aici coeficientul pentru categoria de bază a variabilelor dummy, iar diferenţa dintre veniturile bărbaţilor şi cele ale femeilor este făcută doar de coeficientul parţial de regresie b1.

Complicând puţin exemplul, adăugăm o variabilă MEDIU cu trei categorii: 1 Urban mare; 2 Urban mic şi 3 Rural. Ipoteza noastră spune că veniturile persoanelor depind şi de mediu; veniturile în urbanul mare sunt mai mari decât cele din urbanul mic, care la rândul lor sunt mai mari decât cele din rural.

Tabel 3. Transformarea variabilei MEDIU în variabile dummy

Persoana MEDIU Persoana UMARE UMIC RURAL

1 1 (Urban mare) 1 1 0 0 2 2 (Urban mic) 2 0 1 0 3 1 (Urban mare) transformare 3 1 0 0 4 3 (Rural) 4 0 0 1

… …

50 2 (Urban mic) 50 0 1 0

Un cod de 1 la oricare dintre cele trei variabile nou create implică un cod 0 la celelalte două. Considerând RURAL categorie de referinţă, ecuaţia devine:

VENIT = a + b1· BĂRBAT + b2·EDUCAŢIE + b3·UMARE + b4·UMIC

Nu introducem în ecuaţie variabila dummy RURAL pentru că poate fi dedusă din valorile simultane de 0 la UMARE şi UMIC; introducerea ei încalcă asumpţia de non-multicolinearitate şi principiul simplităţii.

În unele cazuri, coeficienţii uneia sau a alteia din variabilele dummy introduse în ecuaţie pot fi nesemnificativi. De obicei, dacă o variabilă nu are o influenţă semnificativă asupra dependentei, încercăm o nouă adecvare a modelului prin eliminarea acelei variabile din model. Lucrul acesta nu se poate întâmpla şi în cazul variabilelor dummy: acestea sunt introduse fie toate, fie deloc.

Page 13: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.13 din 25

IMPORTANT! Coeficientul de regresie a unei variabile dummy măsoară efectul de a fi într-o anumită categorie relativ la categoria de referinţă a variabilei transformate, ţinând sub control toate celelalte variabile. Nu se elimină din ecuaţie variabile dummy nesemnificative fără a se redefini categoria de referinţă prin recodificarea categoriilor.

Aşa cum se arată în căsuţă, dacă totuşi dorim să nu avem în ecuaţie o variabilă dummy nesemnificativă, singura soluţie este să re-definim categoria de referinţă pe baza căreia a fost creată; variabila dummy nesemnificativă va deveni categoria de referinţă, care după cum ştim nu apare în mod explicit în ecuaţia de regresie. Dacă mai multe variabile dummy ale unei variabile sunt nesemnificative, fie renunţăm la utilizarea acelei variabilei pentru explicaţie, fie încercăm o recodificare a categoriilor acesteia.

Page 14: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.14 din 25

IMPORTANT! Cel mai bun model de regresie nu este acela care explică totul, ci acela care are cea mai mare putere de explicaţie (criteriul eficienţei) cu cel mai mic număr de variabile independente (criteriul simplităţii).

G. Adecvarea modelului (model fit)

Problema cea mai grea în cazul regresiei nu este de a găsi spaţiul cu k dimensiuni în care facem predicţia (lucrul acesta îl face calculatorul), ci de a găsi cel mai bun model care să explice variaţia variabilei dependente. Aceasta înseamnă că trebuie să găsim acele variabile independente care au o putere mare de explicaţie. Un lucru care trebuie menţionat aici este că introducerea unei noi variabile independente măreşte automat proporţia variaţiei explicate. Soluţia pare a fi simplă: introducem în ecuaţie foarte multe variabile independente până când R2 va ajunge foarte aproape de 1 datorită unei forţări matematice generate de epuizarea gradelor de libertate (fiecare variabilă independentă scade câte un grad de libertate). Această soluţie naivă are marele dezavantaj că, deşi explică totul, de fapt nu explică nimic. Între acele prea multe variabile independente din “explicaţie” se strecoară cu siguranţă foarte multe care nu au nici o legătură cu variabila dependentă, iar cele care au într-adevăr o influenţă semnificativă sunt “ascunse” de celelalte. Ideal ar fi să găsim un număr mic de variabile independente care să fie puternic corelate cu variabila dependentă, iar explicaţia variaţiei să fie făcută doar pe baza acestora, chiar dacă mai rămâne o cantitate (preferabil mică) de eroare.

Variabilele pe care le introducem în modelul de regresie trebuie să se bazeze pe ipotezele teoretice pe care le formulăm înainte de analiză. În ştiinţele sociale ne confruntăm cu fenomene pe care încercăm să le explicăm. Facem acest lucru încercând să explicăm variaţia variabilei care reprezintă acel fenomen. Spre exemplu, fenomenul pe care sociologul îl observă este că venitul este diferit de la persoană la persoană. Întrebarea firească pe care ne-o punem este: Ce anume determină această variaţie? Care sunt factorii explicativi ai acestei variaţii a veniturilor?

Paşii cercetării sociologice urmează acest algoritm general: - se observă fenomenul - se elaborează o ipoteză (sau un set de ipoteze) asupra acelui fenomen - ipotezele sunt transpuse prin operaţionalizare într-un instrument de cercetare (pentru

cercetările predominant cantitative, de obicei chestionarul) - se testează statistic ipoteza enunţată pe baza de date rezultată din aplicarea instrumentului

pe teren.

În urma multiplelor cercetări efectuate de-a lungul timpului rezultă o mulţime de baze de date (multe dintre ele pot fi găsite la RODA – Arhiva Română de Date Sociale); datorită costurilor foarte mari pe care le presupune o cercetare (în special în cazul unei cercetări reprezentative la nivel naţional) există posibilitatea analizării bazelor de date deja existente, prin analiză secundară. Tentaţia cea mai mare în această abordare este aceea de a folosi variabilele deja existente pentru a explica variaţia dependentei. Este ca o excursie de “pescuit“ în care verificăm variabilă de variabilă şi adăugăm în ipoteză pe acelea care explică foarte mult. Aceasta este cea mai mare greşeală pe care un analist o poate comite; din fericire, comunitatea academică (colegii, profesorii, cercetătorii) observă imediat frauda deoarece modelul propus în acest fel nu se potriveşte cu ceea ce este stabilit deja din punct de vedere teoretic.

Lăsând datele să ne conducă analiza, ne pierdem calitatea de cercetător; abordarea corectă este cea care pleacă de la o ipoteză şi abia în final se testează acea ipoteză pe baza de date. Dacă vreuna din variabilele independente propuse în teorie nu se găseşte în baza de date construită de altcineva, atunci trebuie să căutăm surse alternative de informaţie pentru completarea celei deja existente.

Page 15: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.15 din 25

IMPORTANT! Decizia de introducere a unei variabile în model trebuie făcută pe criterii teoretice (cu alte cuvinte pe baza unei teorii), nu pe baza unei creşteri spectaculoase a lui R2. Nesusţinută teoretic, creşterea se poate datora şi unei întâmplări, posibil legată de metoda de eşantionare.

IMPORTANT! Introducerea sau eliminarea unei variabile din model modifică întotdeauna valorile coeficienţilor celorlalte variabile şi nivelurile acestora de semnificaţie.

Cu aceste lucruri în minte, nu ne rămâne decât să testăm modelul teoretic pe datele disponibile. Introducem în analiză acele variabile despre care noi credem că ar avea o influenţă semnificativă asupra dependentei şi analizăm tabelul de rezultate, cu valorile coeficienţilor de regresie şi nivelurile lor de semnificaţie.

Dacă vreunul dintre coeficienţi nu este semnificativ, căutarea modelului nu trebuie să se sfârşească; pot exista multe combinaţii de variabile independente care să ducă la o valoare cât mai mare a lui R2. Putem elimina temporar din model acea variabilă a cărui coeficient nu este semnificativ şi analizăm din nou tabelul de rezultate.

Nivelul de semnificaţie al coeficienţilor de regresie este într-o permanentă schimbare, din cauza multiplelor interacţiuni ale variabilelor independente. Acestea se influenţează reciproc; între ele pot exista corelaţii mai mari sau mai mici. Este un fel de chimie statistică, în care aruncăm într-un creuzet (modelul de regresie) tot felul de substanţe (variabilele din model) şi vedem ce se întâmplă.

De aceea, chiar dacă uneori coeficienţii sunt nesemnificativi, acest lucru se poate datora prezenţei altor variabile independente în model (care individual pot să aibă o putere mai slabă de explicaţie). Jocul acesta de introducere–analiză–modificare–analiză a modelului duce în final la un model stabil, cu putere rezonabilă de explicaţie. Acest proces este numit în limba engleză “model fit”.

Page 16: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.16 din 25

G.L. Suma Pătratelor Varianţa F p Regresie 2 7931,5 3965,7 200,3 0,000 *** Reziduuri 47 930,4 19,8

G.L. Suma Pătratelor Varianţa F p (între grupurile lui) X1 1 7841,8 7841,8 396,1 < 2e-16 ***(între grupurile lui) X2 1 89,6 89,6 4,5 0,03862 * Reziduuri 47 930,4 19,8

H. Tabelul ANOVA

În secţiunea E am verificat semnificaţia fiecărui coeficient de regresie, influenţa individuală a fiecăruia dintre aceştia asupra dependentei. Uneori, din pură întâmplare, valoarea lui R2 poate să fie mare chiar dacă în realitate modelul nu are nici o legătură cu variaţia dependentei y. În mod natural atunci ne întrebăm dacă variabilele independente din model explică într-adevăr variaţia dependentei: este modelul de regresie ca întreg semnificativ? Ca în orice test de semnificaţie (vezi capitolul ANOVA), ipoteza de nul este: “Y nu depinde de nici o variabilă independentă”, iar ipoteza alternativă: “Y depinde de cel puţin una dintre variabilele independente”. Altfel spus:

H0: β1 = β2 = ··· = βk = 0 HA: cel puţin unul dintre cei k coeficienţi β ≠ 0.

ANOVA din regresia multiplă ne oferă deci o informaţie asupra nivelului de semnificaţie a modelului de regresie ca întreg; uneori, coeficienţii pot fi nesemnificativi însă întreg modelul să fie semnificativ (mai ales atunci când ne confruntăm cu fenomenul de multicolinearitate, vezi asumpţiile regresiei multiple). Pe baza datelor din Tabelul 1, am obţinut următorul tabel ANOVA:

unde Regresie se referă la varianţa (între grupuri) explicată de modelul de regresie iar Reziduuri se referă la varianţa (în interiorul grupurilor) rămasă neexplicată de model. Valoarea lui p (mai mică decât un nivel de semnificaţie de 0,001), ne indică faptul că variabilele incluse formează un model foarte bun. A nu se confunda cu mărimea coeficientului de determinaţie multiplă R2 (care ne spune cât de mult explică modelul); ANOVA ne arată cât de bine explică modelul, cât de semnificativă este explicaţia oferită de model. Formula utilizată pentru testul F este cunoscutul raport dintre variaţia explicată (V.E.) supra variaţia neexplicată (V.N.):

unde S.P.R. înseamnă “Suma Pătratelor Regresiei” (pătratele distanţelor de la punctele prezise de suprafaţa de regresie la media variabilei dependente), S.P.E. înseamnă “Suma Pătratelor Erorilor” (pătratele distanţelor de la puncte la suprafaţa de regresie). Atât la numărător cât şi la numitor împărţim la un număr de grade de libertate: la numărător împărţim la k (numărul de variabile independente utilizate pentru explicarea variaţiei lui y), iar la numitor avem n-k-1 grade de libertate deoarece am folosit cele n observaţii pentru a estima cele k+1 constante din ecuaţia de regresie multiplă (a, b1, b2, … ,bk), ceea ce înseamnă că: n-(k+1) = n-k-1 (gradele de libertate de la numitor).

Unele programe software prezintă analize de varianţă parţiale pentru fiecare variabilă independentă:

iar semnificaţia coeficienţilor este virtual aceeaşi cu cei din tabelul de regresie pentru fiecare variabilă independentă

[9]F = V.N. V.E.

=(yi - y’i)2∑

i=1

n

n-k-1

k

(y’i - y)2 ∑i=1

n

=

S.P.R. k

S.P.E. n-k-1

Page 17: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.17 din 25

I. Interacţiunea statistică. Efectele de interacţiune.

Spuneam mai devreme că între variabilele independente există o mulţime de interacţiuni, acestea influenţându-se reciproc. Efectele de interacţiune din ecuaţia de regresie sunt relativ dificil de interpretat, pentru că semnificaţia coeficienţilor de regresie trebuie judecată în raport cu teoria de bază din care pleacă ipotezele cu care lucrăm; acest lucru presupune o anumită experienţă în lucrul cu datele şi o temeinică pregătire teoretică.

Interacţiunea statistică apare atunci când efectul (impactul) unei variabile independente asupra dependentei se modifică odată cu (sau depinde de) valorile unei alte variabile. Este posibil ca efectul să depindă de valorile mai multor variabile independente, caz în care avem interacţiune multiplă.

Exemplul clasic de astfel de efect este relaţia dintre EDUCAŢIE şi SEX asupra VENIT-urilor. Luate separat, atât educaţia cât şi sexul au fiecare câte o influenţă asupra venitului; în practică se poate constata că efectul anilor de studii asupra veniturilor este mărit de categoria “Bărbat“ a variabilei SEX. Veniturile pentru acelaşi număr de ani de studii cresc mai repede pentru bărbaţi decât pentru femei.

Este ştiut faptul că în general veniturile bărbaţilor sunt mai mari decât cele ale femeilor. Să presupunem că pornim de la momentul 8 pe axa anilor de educaţie, când salariul unui bărbat este de 700 de unităţi monetare iar salariul unei femei este de 500 de unităţi monetare. Relaţia dintre EDUCAŢIE şi VENIT este una lineară, monoton crescătoare astfel că la fiecare an de educaţie venitul creşte cu 100 de unităţi; dacă nu ar exista nici un fel de interacţiune între EDUCAŢIE şi SEX, ne-am aştepta ca pantele veniturilor pentru bărbaţi şi femei să fie paralele astfel încât la 12 ani de educaţie diferenţa dintre salariul femeilor şi al bărbaţilor să fie aceeaşi (200 de unităţi monetare).

Figura 6.a. ilustrează modelul fără nici o interacţiune, iar Figura 6.b. sugerează un model în care se efectul educaţiei este mai puternic la bărbaţi (panta veniturilor acestora este mai abruptă); fiecare an de educaţie în plus aduce un venit mai mare pentru bărbaţi (200 de unităţi monetare) decât pentru femei (100 de unităţi monetare); la 12 ani de educaţie, venitul unui bărbat este de 1500, diferenţa faţă de cel al unei femei fiind de 600 de unităţi monetare (triplu faţă de ceea ce ne aşteptam).

Pentru a introduce acest efect în ecuaţia de regresie, trebuie să specificăm o nouă variabilă care să conţină interacţiunea dintre educaţie şi sex, pe care o vom denumi SEXED. Calculul acestei variabile se face prin simpla înmulţire a celor două variabile cu efecte principale:

SEXED = SEX · EDUCAŢIE

Figura 6. Influenţa educaţiei asupra venitului

EDUCATIE

VE

NIT

8 9 10 11 12

500

700

900

1100

1300

1500

EDUCATIE

VE

NIT

8 9 10 11 12

500

700

900

1100

1300

1500

a. fără interacţiune b. cu interacţiunea dintre EDUCAŢIE şi SEX

bărbaţi

femei

bărbaţi

femei

Page 18: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.18 din 25

IMPORTANT! Oricare ar fi tipul variabilelor din perechea de interacţiune (metric-metric sau metric-calitativ), interacţiunea statistică arată cum gradul de asociere dintre două variabile se modifică (variază) în funcţie de nivelurile unei variabile de control.

Ecuaţia de regresie va arăta astfel:

VENIT = a + b1·EDUCAŢIE + b2·SEX + b3·SEXED + e

sau la modul general:

y = a + b1·x1 + b2·x2 + b3·x1·x2 + e [10]

Acest model se numeşte modelul saturat: conţine atât efectele principale (ale lui x1 şi ale lui x2) precum şi interacţiunea dintre cele două independente. Unii autori consideră că modelul saturat încalcă asumpţia de multicolinearitate (efectul variabilei de interacţiune poate fi dedus în mod direct din efectele principale) astfel că trebuie să renunţăm la unul din efectele principale (în cazul nostru, se propune scoaterea din ecuaţie a variabilei SEX). Alţi autori susţin că dimpotrivă, ecuaţia trebuie să conţină întotdeauna efectele principale alături de efectul de interacţiune, deoarece numai în acest fel se pot ţine sub control unul sau altul dintre efecte. Noi susţinem această abordare şi recomandăm utilizarea modelului saturat; decizia de a păstra sau nu un anume efect (o anumită variabilă) în model poate fi făcută după efectuarea regresiei şi analizarea tabelului de rezultate.

Spre exemplu, în cazul în care coeficientul b2 nu ar fi semnificativ, am putea să încercăm scoaterea variabilei SEX din analiză (efectul acesteia regăsindu-se oricum şi în variabila de interacţiune). Această decizie este oricum destul de sensibilă la critici de natură teoretică.

Două ipoteze pot fi avansate plecând de la teorie (Lewis-Beck, 1980):

1. Teoria discriminării: femeile au salariu mai mic pentru că sunt deliberat discriminate în raport cu bărbaţii. Această teorie este exprimată de modelul aditiv fără efecte de interacţiune: VENIT = a + b1·EDUCAŢIE + b2·SEX + e

2. Teoria eşecului individual: femeile au salariu mai mic pentru că nu reuşesc să-şi pună în valoare educaţia la fel de bine ca bărbaţii (consumă mai mult timp cu îngrijirea copiilor etc.). Modelul corespunzător acestei teorii cuprinde alături de modelul aditiv şi variabila de interacţiune: VENIT = a + b1·EDUCAŢIE + b2·SEX + b3·SEXED + e

În această prezentare a efectelor de interacţiune au fost utilizate o variabilă metrică (EDUCAŢIA) şi o variabilă calitativă, cu categorii (SEXUL). Este bine de ştiut că interacţiuni pot exista şi între două variabile metrice, însă complexitatea analizei creşte considerabil; din acest motiv, acest tip de interacţiuni nu fac parte din obiectul acestui curs.

Page 19: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.19 din 25

J. Asumpţiile regresiei multiple

Regresia multiplă se bazează pe aceleaşi asumpţii (puţin modificate pentru a lua în calcul mai multe variabile independente) ca şi regresia simplă, însă mai are câteva în plus

ASUMPŢII GENERALE:

1. Variabilele au un nivel de măsurare metric. Dacă dorim să folosim o variabilă cu categorii în ecuaţia de regresie, aceasta trebuie transformată într-un set de variabile dummy. În anumite circumstanţe, o variabilă independentă cu categorii ar putea fi interpretată ca o variabilă metrică. Spre exemplu, avem o variabilă numită “Orientarea partidului politic“ cu categoriile: 1. Dreapta; 2. Centru şi 3. Stânga. Am putea recodifica partidele în funcţie de poziţia lor descrescătoare faţă de dreapta: 2. Orientat spre dreapta; 1. Mai puţin orientat spre dreapta; 0. Deloc orientat spre dreapta. În acest fel, rezultă o variabilă metrică, însă utilizarea acestei strategii trebuie făcută cu foarte mare precauţie, pentru că se presupune că distanţele dintre cele trei categorii sunt egale. Este posibilă utilizarea unei variabile cu categorii ca variabilă dependentă, însă alte tipuri de regresie tratează acest caz. În ceea ce priveşte regresia liniară multiplă, este o bună practică să ne asigurăm că toate variabilele sunt măsurate la un nivel metric.

2. Să nu avem eroare de măsurare. Erori de măsurare la nivel de variabilă apar fie atunci când respondenţii nu oferă răspunsurile adevărate, fie când operatorii de teren nu înregistrează datele în mod corect ori când operatorii de calculator nu introduc datele aşa cum au fost înregistrate. Deşi este destul de dificil să eliminăm toate aceste probleme, o bună coordonare a cercetării prin verificări la toate etapele poate să ducă la o reducere substanţială a erorilor de acest tip.

3. Linearitatea. După cum am văzut la regresia liniară simplă, un plot între variabila dependentă şi cea independentă este necesar pentru verificarea acestei asumpţii. În cazul regresiei multiple, trebuie verificată relaţia lineară fie prin ploturi separate între fiecare independentă şi variabila dependentă, fie prin aşa numita matrice de scatterplot-uri.

X1

20 30 40 50 60 70

4050

6070

80

2030

4050

6070 X2

40 50 60 70 80 10 20 30 40 50

1020

3040

50Y

Figura 7. Matricea de scatterplot-uri între cele trei variabile din ecuaţie de regresie (QQ-plot-uri pe diagonala principală)

Page 20: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.20 din 25

În Figura 7 se observă că norii de puncte au o formă liniară, iar pe diagonala principală sunt prezentate Q-Q Plot-urile pentru verificarea normalităţii distribuţiilor celor trei variabile.

4. Să nu avem multicolinearitate. Multicolinearitatea apare atunci când există legături puternice între variabilele independente introduse în model; în acest caz, coeficienţii calculaţi sunt instabili (variază foarte mult de la eşantion la eşantion). Coeficientul de corelaţie dintre două variabile va fi aproape întotdeauna diferit de zero şi foarte rar egal cu 1 (o corelaţie perfectă între două variabile este foarte rar întâlnită). Legături între variabilele independente vor exista deci întotdeauna, însă nu multicolinearitatea nu apare decât odată cu apariţia unui coeficient de corelaţie foarte mare (aproape de 0,9), caz în care spunem că avem multicolinearitate înaltă. Pot exista cazuri în care legătura să fie perfectă (r =1), caz în care ne confruntăm cu multicolinearitate perfectă. Luăm ca exemplu următoarea ecuaţie generală pentru un model cu doi predictori:

y = a + b1·x1 + b2·x2 + e

Dacă între x1 şi x2 există o corelaţie perfectă, atunci vom putea să prezicem întotdeauna valorile uneia folosind valorile celeilalte, utilizând modelul determinist:

x2 = c + b12·x1

şi spunem că x2 nu este nimic altceva decât o combinaţie lineară de x1, de unde:

y = a + b1·x1 + b2·(c + b3·x1) + e = a + b1·x1 + b2·c + b2·b12·x1 + e

de unde rezultă că

y = (a + b2·c) + (b1+ b2·b12)·x1 + e

ceea ce este de fapt o ecuaţie de regresie simplă cu un termen liber egal cu (a + b2·c) şi un efect multiplicat al lui x1 (ceea ce înseamnă că efectul lui x1 pe distribuţia de eşantionare este deplasat de la efectul lui X1 din populaţie - conţine bias). Deoarece corelaţia dintre x1 şi x2 este perfectă, ecuaţia nici nu are o soluţie unică: toate punctele din norul de puncte bidimensional (pe planul definit de x1 şi x2) se vor alinia pe o dreaptă, iar în cazul tridimensional norul de puncte va fi aliniat pe un plan paralel cu axa pe verticală 0y. Orice plan de regresie care trebuie să aproximeze un astfel de nor de puncte este la fel de bun ca oricare altul (atât panta parţială, cât şi punctul de intersecţie cu axa 0y sunt determinate de b2).

Dintr-o altă perspectivă, ştim deja că b1 este efectul variabilei x1 atunci când variabila x2 este ţinută constantă. În măsura în care există o corelaţie perfectă între x1 şi x2, modificarea cu o unitate a variabilei x1 atrage imediat şi schimbarea variabilei x2 (conform ecuaţiei [10]); în aceste condiţii variabila x2 nu poate fi controlată, ceea ce înseamnă că nu putem separa efectul individual al variabilei x1 (exact ceea ce afirmă ecuaţia [11]).

Demonstraţia de mai sus a luat s-a bazat pe o corelaţie perfectă între variabilele independente (cazul multicolinearităţii perfecte). În practică însă este destul de rar un astfel de caz; mai des întâlnit este cazul multicolinearităţii înalte unde există o corelaţie puternică (dar nu perfectă) între variabilele independente. Teoria măsurării în ştiinţele sociale arată că o corelaţie puternică între un grup de variabile poate să indice existenţa unei dimensiuni latente (factor neobservabil, care nu poate fi măsurat în mod direct) care să le influenţeze pe toate în acelaşi mod. Atunci când se constată o corelaţie mare între un grup de variabile (prin calcularea aşa-numitei matrice de corelaţie) se recomandă utilizarea unei analize factoriale existenţa unei dimensiuni latente; dacă această ipoteză se confirmă, întreg grupul de variabile poate fi înlocuit în ecuaţia de regresie multiplă cu doar una singură: scorul factorial rezultat în urma analizei (un fel de substitut al măsurării directe a factorului latent dacă acesta ar fi direct măsurabil).

[10]

[11]

Page 21: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.21 din 25

5. Să nu existe erori de specificare. Eroarea de specificare poate să apară în două cazuri:

a. dacă în modelul de regresie au fost omise anumite variabile care au un efect semnificativ asupra dependentei

b. dacă în modelul de regresie au fost introduse anumite variabile care nu au nici un efect sau care au un efect foarte slab asupra variabilei dependente.

Berry (1993) aduce în discuţie un aspect foarte dezbătut, al existenţei unui model real, unic în funcţie de care să judecăm ce variabile vor fi sau nu incluse în model. Pe de o parte, modelul saturat, complet, care reflectă perfect realitatea este unul himeric, pe care nu-l vom afla niciodată. Cum atunci putem judeca dacă modelul include toate variabilele relevante (sau reversul, dacă include variabile irelevante)? Pe de altă parte, este discutabilă existenţa unui model real unic. Există opinii conform cărora pot exista mai multe modele reale care să explice la fel de bine variaţia dependentei. La care dintre acestea ne raportăm? Cum nici un model real nu poate fi cunoscut, este inutil atunci să ne raportăm la acestea. Adevărata problemă atunci este de a găsi un punct de reper în funcţie de care să judecăm cât de complet sau corect este modelul. Acest punct de reper stă în teoria care stă la baza analizei. Cu cât modelul teoretic este mai bine construit, respectând toţi paşii formulaţi de metodologie, cu atât avem mai multe şanse să judecăm corectitudinea unui model. Folosirea unei astfel de strategii aduce riscuri destul de mari, întrucât cercetătorii sunt în general tentaţi să-şi construiască modelul teoretic în funcţie de datele pe care le au la dispoziţie sau pe care le pot culege. Doar în măsura în care cercetătorul este capabil de a nu comite a asemenea greşeală putem considera modelul teoretic ca referinţă. Includerea unor variabile independente irelevante este relativ simplu de detectat, prin analizarea norilor de puncte bivariaţi cu variabila dependentă, precum şi prin analizarea nivelului de semnificaţie al coeficienţilor de regresie asociaţi. Atenţie însă: unii coeficienţi pot fi nesemnificativi în prezenţa anumitor variabile, şi semnificativi în prezenţa altora!

În general însă am putea să verificăm această asumpţie prin valoarea lui R2; această abordare are o puternică legătură cu metodele de adecvare a modelului (model fit). Atunci când coeficientul de determinaţie multiplă este mare putem să avem încredere că modelul nostru nu încalcă această asumpţie.

În practică, cercetătorul porneşte de la formularea unui model teoretic complet (sau cât mai complet; a nu se confunda cu modelul real). Un astfel de model însă este destul de greu de verificat, întrucât va conţine cu siguranţă un număr foarte mare de variabile independente; pentru o mare parte dintre acestea vom găsi cu greu date sau nu vom avea suficiente resurse să le recoltăm. Economia cercetării ne va obliga să ne rezumăm la un set limitat de variabile. În acest caz, este bine să includem în modelul care va fi testat empiric acele variabile despre care teoria spune că au o influenţă mare asupra dependentei; acestea vor fi denumite variabilele “tari“ care împreună formează aşa-numitul “nucleu tare“ al modelului de regresie.

În afară de acest nucleu, va trebui să includem în ecuaţia de regresie şi acele variabile cu o influenţă mai slabă asupra dependentei care însă au corelaţii mari cu unele sau altele din variabilele ce formează nucleul; în caz contrar, variabilele din nucleu vor fi corelate cu eroarea (de fapt cu o parte a acesteia în care intră variabilele omise din model).

Putem să renunţăm la variabilele care au o influenţă slabă asupra dependentei şi sunt slab corelate cu variabilele independente incluse în model; la urma urmei, nu trebuie să oferim un model perfect ci un model care să ofere o explicaţie cât mai mare cu un număr cât mai mic de variabile independente.

Page 22: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.22 din 25

ASUMPŢII CU PRIVIRE LA EROAREA DIN ECUAŢIA DE REGRESIE:

6. Media erorilor pentru fiecare valoare a fiecărei variabile independente (ţinând sub control valorile celorlalte) este egală cu zero. La regresia simplă am introdus noţiunea de medie condiţionată: media variabilei dependente pentru o anume valoare a independentei. Punctul de predicţie de pe dreapta de regresie este chiar media condiţionată (de valoarea independentei) a variabilei dependente. În cazul regresiei multiple, predicţia se realizează nu pe o dreaptă ci pe un sub-spaţiu de n-1 dimensiuni. Pentru a verifica această asumpţie pentru a anumită independentă, trebuie să verificăm relaţia dintre aceasta şi dependentă controlând valorile tuturor celorlalte independente (vezi secţiunea D. Controlarea variabilelor).

În general, media erorilor este zero dacă nu avem erori de specificare; în măsura în care variabile relevante au fost omise din model, variaţia acestora intră în cantitatea de eroare şi îi modifică comportamentul (în special dacă variabilele omise din model au un coeficient de corelaţie puternic cu variabilele incluse). Eroarea nu mai variază normal, ceea ce va duce cu siguranţă la medii condiţionate diferite.

7. Să nu avem autocorelaţie. După cum ştim, autocorelaţia se referă independenţa erorilor; se testează cu acelaşi Durbin-Watson, care trebuie să ia o valoare cât mai apropiată de 2 (detalii la asumpţiile regresiei liniare simple).

8. Normalitatea distribuirii erorilor. În regresia multiplă, pentru fiecare valoare a unei variabile independente xi (controlând pentru toate celelalte variabile independente xj, cu i≠j), erorile în jurul punctului de predicţie trebuie să fie distribuite normal (detalii la asumpţiile regresiei liniare simple).

9. Să nu avem heteroscedasticitate. În regresia simplă, abaterile standard a erorilor în jurul dreptei de regresie trebuie să fie egale pentru fiecare valoare a lui x. Luând ca exemplu o ecuaţie de regresie multiplă cu două variabile independente, predicţia se realizează după cum ştim cu ajutorul unui plan de regresie; în acest caz, abaterile standard a erorilor în jurul acestui plan trebuie să fie egale. Cu alte cuvinte, norul de puncte în trei dimensiuni trebuie să fie distribuit uniform în jurul planului de regresie (planul de regresie reprezentând un sub-spaţiu în cadrul celor trei dimensiuni, egal cu 3-1=2 dimensiuni). La modul general, norul de puncte trebuie să fie distribuit uniform în jurul sub-spaţiului de predicţie cu k dimensiuni.

10. Variabilele independente nu sunt corelate cu eroarea. Rezolvarea acestei cerinţe stă în găsirea modelului care explică cel mai bine variaţia dependentei (asumpţia este, deci, direct legată de asumpţia numărul 5: să nu avem erori de specificare). În cazul în care mai sunt şi alte variabile care o influenţează şi acestea nu sunt incluse în model, acestea vor intra în variabila eroare. Vom avea deci o corelaţie între variabilele incluse în model şi cele care au intrat în variabila eroare, ceea ce încalcă prezenta asumpţie. O valoare înaltă a lui R2 spune multe despre adecvarea modelului; important este să introducem în model acele variabile care au o influenţă mare asupra variaţiei dependentei. Putem să renunţăm la variabile slab corelate cu dependenta, chiar dacă acestea vor ’îngroşa’ eroarea; la urma urmei, dacă modelul explică mult, eroarea va fi mică.

Page 23: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.23 din 25

*** următoarea secţiune nu este obligatorie pentru materia de la curs ***

K. Eroarea standard a estimării în regresia multiplă. Intervalul de predicţie.

La fel ca în cazul regresiei lineare simple, avem o măsură a dispersiei norului de puncte în jurul planului de regresie. Cu cât această măsură este mai mică, cu atât planul aproximează mai bine norul de puncte. Formula generală de calcul este:

unde: n este numărul de puncte (de observaţii) iar k este numărul de variabile independente.

În cazul regresiei simple (bivariate), k = 1; în cazul nostru (al regresiei trivariate) k = 2, deci:

Pierdem trei grade de libertate corespunzătoare celor trei coeficienţi de regresie: a, b1 şi b2. După cum arată şi prima formulă, numărul de grade de libertate în regresia multiplă este egal cu (n – k – 1).

Folosirea erorii standard a estimării are o valoare deosebită în cazul operaţiunilor de imputare. Spre exemplu, avem multe non-răspunsuri în cazul unei variabile. Una din posibilităţile de a folosi acea variabilă este analiza cazurilor complete (adică scoatem din bază acele chestionare unde există non-răspunsuri). În acest caz însă renunţăm deliberat la foarte multe date în cazul altor variabile, ceea ce reprezintă nişte resurse în care am investit mult şi de pe urma cărora nu folosim nimic. Este preferată atunci înlocuirea valorilor lipsă (non-răspunsuri) cu nişte valori care să se potrivească cu distribuţia originală a variabilei în cauză. Practic, va trebui să prezicem ce valoare ar putea să aibă variabila în celula lipsă, pe baza asemănărilor cu cazuri similare. Predicţia se poate realiza prin analiza de regresie; ipoteza de la care plecăm este că grupuri similare de oameni sub mai multe aspecte generează rezultate similare la acea variabilă.

Pentru a ne asigura că nu greşim, ne interesează să ştim care este intervalul în care facem predicţia, cu limitele minime şi maxime ale acestuia. Acest interval de predicţie se calculează similar cu exemplul distribuţiei de eşantionare: este un interval în jurul valorii punctuale prezise, plus sau minus 1,96 erori standard (în cazul unui nivel de încredere de 95%).

În cazul nostru, se foloseşte eroarea standard a estimării (se), iar intervalul de predicţie de 95% este:

[y’ - 1,96·se , y’ + 1,96·se]

Ideea este simplă: se calculează abaterea standard a erorilor în jurul dreptei de regresie, ştiind că 95% dintre valorile prezise se află între +/- 1,96 astfel de abateri standard în jurul parametrului Y din populaţie.

1

)'(1

2

−−

−=∑=

kn

yys

n

iii

e

3

)'(1

2

−=∑=

n

yys

n

iii

e

Page 24: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.24 din 25

Glosar de termeni:

Coeficient de corelaţie multiplă (în engl. multiple correlation coefficient). Radical din coeficientul de determinaţie multiplă; măsoară corelaţia dintre valorile observate şi cele prezise de modelul de regresie.

Coeficient de corelaţie parţială (în engl. partial correlation coefficient). Corelaţia dintre orice variabilă xk şi y, ţinând sub control toate celelalte k-1 variabile independente.

Coeficient de determinaţie multiplă (în engl. coefficient of multiple determination). O măsură care arată proporţia din variaţia variabilei dependente care este explicată de modelul de regresie.

Coeficient de regresie parţial bk (în engl. partial regression coefficient). Coeficientul care arată efectul variabilei independente xk asupra variabilei dependente y, controlând efectele tuturor celorlalte k-1 variabile independente. Mărimea acestui coeficient depinde de unitatea de măsură a lui xk, şi specifică schimbarea în medie a lui y asociată cu schimbarea de o unitate a lui xk.

Coeficient de regresie parţial, standardizat (în engl. standardized partial regression coefficient). Echivalentul coeficientului de corelaţie dintre o variabilă xk şi y; prin standardizarea variabilelor coeficientul parţial de regresie devine egal cu coeficientul de corelaţie dintre xk şi y deoarece abaterile standard ale celor două variabile devin egale. În regresia multiplă, mărimile efectelor a mai multe variabile independente sunt comparabile numai prin intermediul acestui coeficient

Controlarea variabilelor (în engl. controlling for a set of variables). Operaţiunea prin care măsurăm efectul unei variabile independente asupra dependente, ţinând sub control (menţinând la valori constante) toate celelalte variabile din modelul de regresie.

Covariaţie (în engl. covariance). Variaţia comună a două variabile; în regresia multiplă avem o matrice de covariaţie, în care sunt prezentate pe fiecare celulă covariaţia dintre fiecare pereche de variabile incluse în model. Diagonala principală a matricei are toate elementele egale cu 1 deoarece prezintă covariaţia unei variabile cu ea însăşi.

Dummy (în engl. dummy). O variabilă care ia doar valori de 0 sau 1 cu ajutorul căreia putem include în ecuaţia de regresie multiplă şi variabile calitative, categoriale.

Eroare sau Reziduu (în engl. random error term sau residual). Diferenţa dintre valoarea observată şi cea prezisă a lui y.

Hiper-plan sau suprafaţă de regresie (în engl. regression hyper-plane sau regression surface) Sub-spaţiul cu k dimensiuni în care se face predicţia într-o ecuaţie de regresie multiplă cu k variabile independente plus 1 variabilă dependentă. A fost denumit suprafaţă sau hiper-plan ca o generalizare la k dimensiuni a planului de regresie (un sub-spaţiu de 2 dimensiuni) într-un spaţiu 3-dimensional (un cub).

Metoda celor mai mici pătrate (în engl. least squares method). O tehnică de potrivire a unui sub-spaţiu de k dimensiuni printr-un nor de puncte în k+1 dimensiuni în aşa fel încât suma pătratelor distanţelor dintre puncte şi sub-spaţiu este minimizată.

Model determinist (în engl. deterministic model). Model care dă o relaţie exactă între cele k+1 variabile. Cele k variabile independente determină cu exactitate variabila dependentă.

Page 25: Regresie Multipla-Adrian Dusa

Adrian Duşa – Universitatea din Bucureşti pag.25 din 25

Model probabilist (în engl. probabilistic model). Model care oferă o relaţie probabilă între k+1 variabile; cele k variabile independente nu prezic cu exactitate variabila dependentă, ci cu o certitudine mai mare sau mai mică, în funcţie de gradul de adecvare a modelului (mărimea coeficientului de determinaţie multiplă, în directă competiţie cu mărimea erorii).

Multicolinearitate (în engl. multicollinearity). O problemă care apare uneori în analiza de regresie multiplă, manifestată printr-o scădere a stabilităţii coeficienţilor de regresie atunci când există o corelaţie mare între variabilele independente incluse în model.

Nor de puncte – diagramă de împrăştiere – (în engl. scatterplot, scattergram sau scatter diagram). Un grafic de puncte pe un sistem de coordonate cu k+1 dimensiuni. De obicei, nu se pot reprezenta grafic nori de puncte în mai mult de trei dimensiuni. Comunitatea academică a făcut însă eforturi intense în ultimii ani pentru a dezvolta programe de calculator care să ofere vizualizări în mai mult de trei dimensiuni, folosind proiecţii din mai multe unghiuri ale norului de puncte într-un spaţiu cu trei sau chiar două dimensiuni. Ca exemplu intuitiv, proiecţia unei sfere (în trei dimensiuni) într-un plan (de două dimensiuni) este chiar un cerc.

Termenul liber (în engl. intercept). Punctul în care dreapta de regresie intersectează axa 0y (valoarea lui y când toate variabilele independente sunt egale cu zero).

Pantă parţială (în engl. partial slope). Este înclinarea sub-spaţiului de k dimensiuni generată de una din cele k variabile independente, în condiţiile în care celelalte k-1 variabile independente sunt ţinute sub control. Este o constantă, un coeficient al unei variabile independente în ecuaţia de regresie multiplă, a cărui valoare reprezintă cât de mult se schimbă variabila dependentă la o schimbare cu o unitate a variabilei independente, controlând pentru toate celelalte variabile independente.

Valoare observată (în engl. observed value). Valoarea înregistrată a lui y (pentru anumite valori înregistrate a celor k variabile independente) în urma aplicării unui instrument de cercetare.

Valoare prezisă / aşteptată (în engl. predicted / expected value). Valoarea calculată a lui y (pentru anumite valori înregistrate a celor k variabile independente), cu ajutorul modelului de regresie multiplă.

Variabilă dependentă (în engl. dependent variable). Variabila a cărei variaţie trebuie explicată, ori a cărei valoare trebuie prezisă în analiza de regresie.

Variabilă independentă (în engl. independent variable). Variabilă cunoscută, inclusă în analiza de regresie pentru a explica variaţia variabilei dependente.

Variaţie (în engl. variation). Suma abaterilor indivizilor de la medie. Pentru măsurarea ei utilizăm varianţa (în engl. variance) sau abaterea standard (în engl. standard deviation).

Variaţia explicată - VE (în engl. regression sum of squares). Porţiunea din VT explicată de modelul de regresie. Este suma pătratelor diferenţelor dintre valorile prezise a lui y şi media lui y.

Variaţia neexplicată - VN (în engl. error sum of squares). Porţiunea din VT rămasă neexplicată de modelul de regresie. Este suma pătratelor diferenţelor dintre valorile prezise şi cele observate ale lui y.

Variaţia totală - VT (în engl. total sum of squares). Suma pătratelor deviaţiilor valorilor observate a lui y de la media acestuia.


Recommended