+ All Categories
Home > Documents > Econometrie

Econometrie

Date post: 31-Oct-2014
Category:
Upload: negru-ramona-irina
View: 166 times
Download: 1 times
Share this document with a friend
Description:
Econometrie
Popular Tags:
343
Constantin ANGHELACHE Constantin MITRUŢ (coordonatori) Constantin Silviu ANGHELACHE Cristina Andreea MITRUŢ Cătălin DEATCU Mădălina DUMBRAVĂ Alexandru MANOLE Econometrie. Teorie şi studii de caz
Transcript
Page 1: Econometrie

Constantin ANGHELACHE Constantin MITRUŢ (coordonatori)

Constantin Silviu ANGHELACHE Cristina Andreea MITRUŢ

Cătălin DEATCU Mădălina DUMBRAVĂ

Alexandru MANOLE

Econometrie. Teorie şi studii de caz

Page 2: Econometrie

Redactor: Prof. univ. dr. Constantin ANGHELACHE

Coperta: Marian TONCIU

Revizie text: Prof. univ. dr. Constantin ANGHELACHE

Tehnoredactare: Lector univ. drd. Alexandru MANOLE

Descrierea CIP a Bibliotecii Naţionale a RomânieiELEMENTE DE ECONOMETRIE: NOTE DE CURS: PENTRU UZ

INTERNConstantin Anghelache, Constantin Mitruţ, Cristina

Andreea Mitruţ, … – Bucureşti: Editura Artifex 2006Bibliogr.

ISBN (10) 973-7631-16-1ISBN (13) 978-973-7631-16-9

I. Anghelache, ConstantinII. Mitruţ, ConstantinIII. Mitruţ, Cristina Andreea

330.43(075.8)

Page 3: Econometrie

Constantin ANGHELACHE Constantin MITRUŢ

Constantin Silviu ANGHELACHE Cristina Andreea MITRUŢ

Alexandru MANOLE

Elemente de econometrie - note de curs -

pentru uz intern

EDITURA ARTIFEXBUCUREŞTI 2006

Page 4: Econometrie

ISBN (10) 973-7631-16-1;ISBN (13) 978-973-7631-16-9

Copyright ©Editura ARTIFEX, 2006

Autorii poartă întreaga răspundere, faţă de editură şi terţe persoane, pentru conţinutul lucrării

EDITURA ARTIFEXCalea Plevnei nr. 47-48

Sector 1Bucureşti

Page 5: Econometrie

Cuprins Cuvânt înainte ……………………………………………......8Capitolul 1Noţiuni introductive..................................................................9

1.1. Aspecte generale.............................................................91.2. Concepte utilizate în econometrie.................................13

Capitolul 2Inferenţa statistică..................................................................17

2.1. Concepte de bază privind inferenţa statistică.................172.2. Distribuţia mediilor de eşantion....................................192.3. Estimarea mediei unei populaţii....................................21

2.3.1. Estimări punctuale..................................................212.3.2. Intervale de încredere.............................................25

2.4. Verificarea ipotezelor referitoare la media populaţiei..............................................................................29

2.4.1. Teste bilaterale.......................................................352.4.2. Tipuri de eroare......................................................37

2.5. Alte câteva teste statistice importante şi distribuţiile lor......................................................................42

2.5.1. Gradul de libertate..................................................432.5.2. Distribuţia χ2..........................................................442.5.3. Distribuţia t.............................................................48

Capitolul 3Regresia liniară simplă...........................................................51

3.1. Domenii de aplicare.......................................................513.2. Modele liniare de regresie rezultate din transformări de modele neliniare..........................................573.3. Prezentarea modelului liniar de regresie........................583.4. Estimarea (determinarea) parametrilor modelului liniar....................................................................63

3.4.1. Utilizarea metodei celor mai mici pătrate în estimarea parametrilor......................................................633.4.2. Utilizarea metodei verosimilităţii maxime în estimarea parametrilor......................................................68

3.5. Proprietăţile dreptei de regresie.....................................713.6. Coeficientul liniar de corelaţie.......................................81

Page 6: Econometrie

3.7. Analiza şi interpretarea variabilei reziduale..................88Capitolul 4Estimatori si metode de estimare..........................................92

4.1. Estimatori pentru eşantioane mici..................................934.1.1. Estimator nedeplasat...............................................934.1.2. Eficienţa..................................................................954.1.3. Estimatorul BLUE liniar nedeplasat şi eficient.....984.1.4. Eroarea medie pătratică..........................................99

4.2. Metode de estimare......................................................1014.2.1. Metoda momentelor..............................................1014.2.2. Metoda celor mai mici pătrate..............................1034.2.3. Estimarea probabilităţii maxime...........................1044.2.4. Cazul general........................................................1074.2.5. Exemplu cu o variabilă discontinuă......................1084.2.6. Exemplu cu o variabilă continuă..........................1114.2.7. Exemplu cu doi parametri.....................................113

Capitolul 5Unele precizări privind modelul clasic al regresiei cu două variabile...................................................................116

5.1. Ipotezele modelului clasic al regresiei de două variabile.....................................................................116

5.1.1. Ipoteze cu privire la variabila explicativă.............1175.1.2. Ipoteze cu privire la factor rezidual......................119

5.2. Proprietăţile estimatorilor OLS....................................1225.2.1. Liniaritatea............................................................1235.2.2. Nedeplasarea........................................................1245.2.3. Compatibilitatea...................................................1255.2.4. Cea mai bună nedeplasare liniară.........................1275.2.5. Eficienţa (eficienţa asimptotică)..........................1285.2.6. Normalitatea.........................................................1295.2.7. Estimarea probabilităţii maxime...........................130

5.3. Unele aspecte privind regresia neliniară.....................131Capitolul 6Inferenţa statistică în regresia simplă.................................134

6.1. Aspecte privind testarea semnificaţiei modelului de regresie...........................................................................134

Page 7: Econometrie

6.2. Compararea modelelor de regresie..............................1416.3. Verificarea normalităţii reziduului...............................1436.4. Predicţia prin modelul de regresie...............................1456.5. Metoda lui W.F. Sharpe (alegerea portofoliului).........1506.6. Metoda regresiei globale..............................................153

Capitolul 7Modelul clasic al regresiei multiple....................................158

7.1. Metoda celor mai mici pătrate (OLS) în regresia multiplă.................................................................159

7.1.1. Determinaţia în regresia multiplă.........................1707.1.2. Utilizarea criteriului Akaike.................................173

7.2. Ipotezele clasice în regresia multiplă...........................1757.2.1. Ipoteze cu privire la variabilele factoriale............1757.2.2. Ipoteze referitoare la variabila rezduală................178

7.3. Proprietăţile estimatorilor OLS....................................1797.3.1. Liniaritatea............................................................1807.3.2. Nedeplasarea........................................................1807.3.3. Compatibilitatea...................................................1827.3.4. Cel mai bun estimator liniar nedeplasat................1827.3.5. Alte proprietăţi.....................................................186

7.4. Inferenţa în regresia multiplă.......................................189Capitolul 8Regresia neliniară.................................................................192

8.1. Aspecte generale..........................................................1928.2. Modele liniarizabile prin logaritmare..........................1928.3. Aspecte privind modelul hiperbolic.............................1978.4. Unele aspecte privind modelul parabolic.....................1988.5. Elemente privind funcţiile de tip polinominal.............2008.6. Despre modelul multiplicativ......................................204

Capitolul 9Autocorelarea şi heteroscedasticitatea................................213

9.1. Unele aspecte privind autocorelarea erorilor...............2139.2. Aspecte esenţiale privind heteroscedasticitatea...........221

Bibliografie………………………………………………….233

Page 8: Econometrie
Page 9: Econometrie

Cuvânt înainte

Lucrarea „Elemente de econometrie” se adresează studenţilor din anul II, toate specializările, de la Universitatea „ARTIFEX” Bucureşti, fiind scrisă în conformitate cu programa analitică a cursului de „Econometrie”. La realizaera acestui curs s-au utilizat, cu adaptarea necesară, o serie de materiale scrise de autori români şi/sau străini în acest domeniu.

În principal, s-au preluat o serie de aspecte din lucrarea „Modern Econometrics – an introduction”, a autorului englez Thomas R.L., apărută în Editura „Financial Times – Prentice Hall”, ISBN 0-201-87694-9, în anul 1997

Lucrările şi alte materiale care au stat la baza acestor note de curs sunt menţionate în bibliografia selectivă prezentată la sfârşitul cărţii. Materialul publicat este de „uz intern”, destinat, în exclusivitate studiului studenţilor de la Universitatea „ARTIFEX” – Bucureşti

Pentru însuşirea temeinică a cunoştinţelor de specialitate se recomandă studenţilor să parcurgă şi culegerea de probleme „Econometrie - studii de caz”, apărută în Editura „Artifex”, precum şi principalele lucrări cuprinse în bibliografie.

Autorii

Page 10: Econometrie

Capitolul 1

Noţiuni introductive

1.1. Aspecte generale Econometria a fost definită ca fiind „aplicarea

statisticii matematice la datele economice în scopul constituirii unui suport practic pentru modelele construite prin matematici economice şi al obţinerii unor estimări numerice” (Samuelson et al., 1954, pg. 141-6). Prin prisma unei abordări mai succinte (Johnston, 1984, p 5), rezultă că principala sarcină a econometriei constă în „ a introduce substanţă practică în structurile teoretice”.

Teoria economică previzionează diferite corelaţii între variabile. De exemplu, o curbă a cererii, o funcţie de producţie, o funcţie de consum.

De regulă, un specialist în econometrie este preocupat de următoarele aspecte:(a) măsurarea unor corelaţii şi estimarea parametrilor pe care acestea le implică;(b) verificarea ideilor teoretice reprezentate de astfel de corelaţii;(c) utilizarea acestor corelaţii pentru previziuni sau prognoze cantitative.

Econometria presupune utilizarea concomitentă a elementelor de matematică economică, statistică economică

Page 11: Econometrie

Capitolul 1 Noţiuni introductive

şi inferenţă statistică. Matematicile economice exprimă teoriile şi ideile ştiinţelor economice în model matematic. Aceste forme matematice sunt calitative şi nu cantitative – respectiv, nu preiau ecuaţiile din matematicile economice pentru ca, prin confruntarea acestora cu datele economice, să încerce să utilizeze tehnicile inferenţei statistice pentru a conferi acestor ecuaţii o formă cantitativă.

Teoria monetară presupune că, în cadrul unei economii, cererea agregată pentru bani poate depinde de o variabilă de „scală”, cum ar fi venitul naţional sau avuţia naţională precum şi de variabila reprezentată de rata dobânzii, reprezentând costul oportunităţii deţinerii de bani. Aceasta se exprimă sub forma:

M = f(Y,r) (1.1.)

unde M, cerea pentru bani şi Y, variabila de scală, sunt definite în termeni reali iar r reprezintă rata dobânzii.

Corelaţia între valorile M şi Y este independentă de nivelul general de preţ. O creştere la nivelul variabilei de scală ar trebui să conducă la o creştere a cererii de bani în timp ce o creştere a ratei dobânzii ar trebui să conducă la o scădere a valorii M.

În al doilea rând, teoria nu ne spune nimic despre forma precisă a funcţiei definită prin ecuaţiei (1.1.). Este puţin probabil ca forma funcţiei definită prin ecuaţiei (1.1.) să fie de o formă lineară simplă, respectiv:

M = α +βY + γr, β > 0, γ < 0 (1.2)

În schimb, ar putea să fie de o formă convenabilă a elasticităţii:

11

Page 12: Econometrie

Elemente de econometrie

M = AYβ rγ , β > 0, γ < 0 (1.3)Există multe alte forme de funcţii nonlineare care sunt

în egală măsură compatibile cu situaţiile economice.Teoria ne pune la dispoziţie informaţii calitative cu

privire la modul în care Y şi r influenţează cererea de bani. De exemplu, să presupunem că se înregistrează o creştere de 5% a variabilei de scală Y. Teoria sugerează că aceasta va conduce la o creştere a cererii de bani fără a ne spune însă care va fi această creştere. Deci, nu ne oferă nici o informaţie cantitativă. Informaţiile cantitative cu privire la elasticităţile β şi γ, din (1.3) sunt importante pentru stabilirea politicii de urmat.

În teorie ne referim, în general, la ceea ce economiştii denumesc perspectiva pe termen lung. Aceasta înseamnă că înregistrăm o poziţie de echilibru. De exemplu, în condiţii de echilibru, cererea şi oferta de bani pot fi considerate ca fiind egale. Într-un astfel de context, utilizarea seriilor de date referitoare la oferta de bani pentru a reprezenta cererea de bani ar putea fi considerată a fi justificată. Totuşi, piaţa monetară este foarte rar în echilibru. Dar, în condiţii de dezechilibru, mai este justificată utilizarea datelor observate referitoare la oferta de bani pentru a reprezenta cererea de bani în ecuaţii cum sunt cele definite prin (1.1), (1.2) şi (1.3) . Datele economice se referă mai degrabă la procesul de ajustare decât la poziţiile succesive de echilibru.

Într-o oarecare măsură, econometria încearcă să ofere răspunsuri la întrebările de mai sus, lăsate de teoria economică fără răspuns. În particular, econometria încearcă să stabilească estimările numerice ale parametrilor din astfel de ecuaţii, cum ar fi (1.2.) şi (1.3.), vizând să testeze unele dintre ipotezele formulate de teorie. De exemplu, am văzut mai sus că teoria monetaristă implică faptul că funcţiile cererii de bani, ca cea redată prin ecuaţia (1.1.), sunt

12

Page 13: Econometrie

Capitolul 1 Noţiuni introductive

independente faţă de nivelul preţului general. Pentru a verifica această ipoteză teoretică, abordarea econometrică va consta în generalizarea ecuaţiilor de genul (1.2.) şi (1.3.) pentru a permite manifestarea efectelor de preţ. De exemplu, (1.2.) ar putea fi transformată în relaţia:

M = α + βY +γr + δP, (1.4.)

în care P reprezintă nivelul general al preţului. Dacă δ = 0, atunci nivelul de preţ nu are nici un efect asupra cererii de bani. Tehnicile statistice utilizate pentru a estima parametrii β şi γ pot fi de asemenea utilizate pentru obţinerea unei estimări pentru δ. Dacă acesta rezultă a fi semnificativ mai mare decât zero, atunci ipoteza teoretică este contrazisă.

Până în acest moment, modul în care am scris ecuaţiile sugerează caracterul exact sau determinant al corelaţiilor economice. Totuşi, virtual, acest aspect nu se întâlneşte niciodată deoarece comportamentul agenţilor economici nu este pe deplin previzibil. Acesta este motivul pentru care în econometrie se introduce o perturbare (reziduu)„aleatorie” în ecuaţiile (1.2.). În consecinţă, (1.2.) devine:

M = α + βY +γr + ε, (1.5.)

în care ε reprezintă termenul de perturbare, care ar putea fi pozitiv sau negativ. Includerea lui ε în ecuaţia (1.5.) înseamnă că aceleaşi niveluri date pentru Y şi r nu vor conduce întotdeauna la aceeaşi valoare pentru cererea de bani, M. Va exista o anumită variaţie aleatorie, care depinde de mărimea şi semnul rezidualului.

Existenţa perturbării evidenţiată de (1.5.) semnifică faptul că este dificil de măsurat cu exactitate parametri cum

13

Page 14: Econometrie

Elemente de econometrie

ar fi α , β şi γ. Aceasta este şi explicaţia faptului că ne-am referit anterior la utilizarea tehnicilor inferenţei statistice pentru a oferi estimări ale parametrilor.

1.2. Concepte utilizate în econometrieDupă cum am văzut, econometria combină teoria

economică cu matematicile şi inferenţa statistică. În ceea ce priveşte matematica, se presupune existenţa unor cunoştinţe de algebră şi calcul diferenţial de bază.

Înţelegerea diferitelor concepte privind calculul probabilităţilor şi inferenţa statistică este de dorit pentru orice proces de studiere a econometriei care să merite efortul.

Mai familiare sunt regresia de două variabile şi cele mai mici pătrate. De exemplu, să presupunem că am fi interesaţi de corelaţia dintre venitul la nivel de gospodărie, Y, şi cheltuielile respectivei gospodării pentru bunuri de consum, C. Vom lua în consideraţie ipoteza unei funcţii de consum lineare, de forma:

C = α +βY + ε (1.6.)

în care α şi β sunt parametri pe care vrem să îi estimăm. De exemplu, β reprezintă înclinaţia marginală pentru consum iar ε este perturbare/variabila reziduală.

Să presupunem că deţinem datele referitoare la veniturile şi consumul unui număr de 10 gospodării. Aceste date pot fi reprezentate prin 10 puncte într-un grafic de corelaţie, ca cel din Figura 1.1

14

Page 15: Econometrie

Capitolul 1 Noţiuni introductive

Figura 1.1. Grafic de corelaţie venituri – consum

Coordonatele fiecărui punct se referă la veniturile şi consumul unei gospodării. Analiza regresiei de două variabile presupune trasarea unei linii drepte într-un astfel de grafic de corelaţie. La rândul ei, această dreaptă oferă valorile estimate pentru parametrii α şi β. Cea mai cunoscută metodă de a estima o astfel de dreaptă este metoda celor mai mici pătrate, prin care dreapta este astfel aleasă încât să minimizeze suma pătratelor distanţelor verticale de la puncte la linie. Econometria generalizează proceduri de genul celei prezentate.

Ar trebui ca estimările pentru parametrii α şi β din ecuaţia (1.5.) să fie cât mai aproape de valorile reale. În acest

15

Page 16: Econometrie

Elemente de econometrie

sens avem în vedere valoarea estimatorilor şi varietatea metodelor de estimare.

De regulă, corelaţiile economice presupun mai mult decât cele două variabile din ecuaţia (1.6.). De exemplu, ecuaţiile referitoare la cererea de bani (1.1.), (1.2.) şi (1.3.) implică trei variabile.

Să presupunem că ne-am confrunta cu problema estimării parametrilor unei corelaţii ca cea exprimată prin (1.2.). În acest caz, parametru variabilei de scală, β, măsoară efectul asupra cererii de bani al creşterii cu o unitate a variabilei de scală Y, în ipoteza că rata dobânzii, r, este menţinută constantă. Ideal, pentru a estima valoarea β, am prefera să recurgem la un experiment de laborator în cadrul căruia să menţinem constantă rata dobânzii, r, dar să facem ca variabila de scală, Y, să varieze. Într-o astfel de situaţie, trebuie să ţinem seama de corelaţia:

M = (α + γr) +βY (1.7)

în care (α + γr) este constantă. Revenim la corelaţiile de două variabile şi am putea observa efectul asupra valorii M, produs de o unitate ceteris paribus de modificare a valorii Y. Prin trasarea unei diagrame de puncte de dispersie pentru M în raport cu Y, obţinem estimări pentru parametrul β. Pentru a obţine o estimare a parametrului corespunzător, rata dobânzii, y, ar fi necesar un al doilea experiment în cadrul căruia am menţine constanta variabila de scală Y, făcând să varieze rata dobânzii.

Abordarea de mai sus ar putea fi fezabilă în ştiinţele cu caracter tehnic. Din păcate, în cadrul ştiinţelor economice, experimentele, dacă există, sunt rare. Trebuie să ne descurcăm cu date non-experimentale în cazul cărora, de regulă, toate variabilele de interes variază simultan.

16

Page 17: Econometrie

Capitolul 1 Noţiuni introductive

În acest context, vom introduce modelul clasic al regresiei multiple. Acesta reprezintă o extensie a modelului regresiei de două variabile, în care este generalizată metoda celor mai mici pătrate, pentru a permite luarea în calcul a trei sau mai multe variabile. Regresia multiplă reprezintă substitutul experimentului de laborator din ştiinţele exacte. Virtual, toate analizele econometrice implică, într-o formă sau alta, regresia multiplă.

Din păcate, prezumţiile modelului clasic al regresiei multiple sunt mai degrabă restrictive. Rezultă că unele dintre aceste prezumţii se dovedesc uneori a nu fi valabile atunci când sunt aplicate unor date economice tipice.

17

Page 18: Econometrie

Capitolul 2

Inferenţa statistică

2.1. Concepte de bază privind inferenţa statisticăOri de câte ori dorim să observăm sau să investigăm

un fenomen sau o variabilă, există două tipuri fundamentale de surse de date pe care ar trebui să le utilizăm. În primul rând, ar trebui să avem acces la populaţie (colectivitate definită în sens statistic). Înţelegem prin aceasta să avem acces la toate observaţiile posibile, trecute, prezente şi viitoare, cu privire la variabila de interes. De exemplu, dacă variabila noastră ar fi câştigurile din luna martie 2005 realizate de un muncitor adult de sex masculin din industria siderurgică şi am avea acces la un studiu complet referitor la aceste câştiguri, am putea să emitem ipoteze privind populaţia ce face obiectul observaţiilor referitoare la această variabilă.

Din păcate, nu avem acces la populaţie. Am avea nevoie de un studiu complet cu privire la câştigurile din industria siderurgică dar acesta nu există.

Eşantionul reprezintă cel de al doilea tip de surse de date cu care ne-am putea întâlni. Pe baza eşantionului de care dispunem, trebuie să deducem fapte în legătură cu populaţia din care s-a prelevat eşantionul. Acest proces este cunoscut sub denumirea de inferenţă statistică.

Ca problemă tipică în inferenţa statistică, să presupunem că în 2004, câştigurile în industria siderurgică au fost complet monitorizate, astfel încât ştim că media

Page 19: Econometrie

Capitolul 2 Inferenţa statistică

acestora a fost de 600 RON Acum suntem în luna martie 2005 şi dorim să stabilim dacă media câştigurilor a crescut faţă de anul precedent. Nu avem acces la studiul pentru acest martie şi avem timp să intervievăm numai 100 de muncitori. Rezultă că acest eşantion de 100 de muncitori a înregistrat câştiguri medii lunare de 650 RON Putem oare deduce, în baza dovezii dată de acest eşantion, că media câştigurilor lunare a crescut pentru întreaga industrie, în ansamblu ?

Este clar că dacă media câştigurilor eşantionului ar fi fost de 650 RON, am fi putut aprecia că s-a înregistrat o creştere a câştigurilor la nivelul acestei industrii. Dacă media eşantionului ar fi fost de numai 600 RON, am fi concluzionat că respectivele câştiguri nu au crescut. Dar am obţinut o medie a eşantionului de 650 RON Ce putem deduce de aici ? Problema deducţiei devine o problemă de a decide cu cât trebuie să depăşească media eşantionului media din anul precedent a industriei sau a populaţiei, înainte de a putea afirma că se înregistrează o creştere a câştigurilor.

În ansamblul tuturor problemelor legate de inferenţa statistică, una majoră este cea denumită variabilitatea eşantionării. Înţelegem prin aceasta că diferitele eşantioane vor conduce la rezultate diferite. De exemplu, dacă în martie 2005 am lua un al doilea eşantion de 100 de muncitori siderurgi, acesta ar putea înregistra o medie a câştigurilor diferită de cea a primului eşantion prelevat. De o manieră similară, un al treilea eşantion ar putea conduce la o altă valoare a câştigurilor medii. Este clar că există pericolul că răspunsul la care ajungem cu privire la câştigurile respectivei industrii va depinde foarte mult de eşantionul pe care lucrăm de fapt.

Din fericire, cu condiţia de a preleva eşantionul de o anumită manieră, variabilitatea de selecţie urmează un model sistematic. Aceste eşantioane trebuie să fie aleatorii.

19

Page 20: Econometrie

Elemente de econometrie

Despre un eşantion de mărimea n se spune că este aleatoriu, atunci când orice combinaţie de n unităţi ale unei populaţii are şanse egale de a intra în eşantionul care este prelevat.

Prelevarea unui eşantion aleatoriu este o problemă esenţială. De exemplu, prelevarea unui eşantion aleatoriu de 100 de muncitori din industria siderurgică ar implica, în primul rând, obţinerea unei liste complete a muncitorilor din respectiva industrie. Următorul pas constă în alocarea unui număr fiecărui muncitor de pe listă şi, apoi, stabilirea unui procedeu pentru a selecta 100 de numere din această listă. Vom ignora, totuşi, unele aspecte şi vom presupune că toate eşantioanele cu care lucrăm au fost extrase aleatoriu.

2.2. Distribuţia mediilor de eşantion Distribuţia mediilor de selecţie are media μ, şi

dispersia σ2 . Aceasta înseamnă E(X) =μ şi Var(X) = σ2. Dispersia este pur şi simplu o măsură a gradului în care câştigurile muncitorilor individuali sunt dispersate sau „împrăştiate” în raport cu media lor, μ.

μ şi σ2 sunt cunoscute sub denumirea de parametri ai populaţiei. Aceştia sunt cantităţi fixe dar, de regulă, necunoscute.

Am notat media populaţiei şi variaţia cu aceleaşi simboluri ca şi în cazul utilizării mediei şi variaţiei unei distribuţii probabilistice. Aceasta se datorează faptului că, în condiţiile unei populaţii atât de mari, putem interpreta frecvenţa relativă cu care survine un anumit nivel de câştiguri

20

Page 21: Econometrie

Capitolul 2 Inferenţa statistică

ca fiind o probabilitate. Populaţia poate fi considerată a fi analoagă cu o distribuţie probabilistică pentru variabila X.

Să presupunem că din populaţia respectivă se extrage un eşantion aleatoriu de n muncitori. Aceasta se exprimă sub forma:

(2.1)

în care Xi reprezintă câştigurile muncitorului i din cadrul eşantionului iar suma acoperă toate valorile i.

Un singur eşantion extras din populaţie ar putea reprezenta o medie de eşantion, de exemplu, X = 600 RON Totuşi, după cum am menţionat mai sus, diferitele eşantioane conduc la rezultate diferite, astfel că un al doilea eşantion ar putea să indice = 658 RON, un al treilea = 670 RON, un al patrulea, = 658 RON etc. Imaginaţi-vă o situaţie în care foarte multe, poate mii de eşantioane, toate de aceeaşi mărime, n, au fost extrase din această singură populaţie. În astfel de condiţii ar putea deveni posibil să se construiască o distribuţie de frecvenţe relative pentru , media unui eşantion aleatoriu de mărime n. De exemplu, o medie de = 667 RON poate apărea cu o frecvenţă relativă de 0,18. Deoarece s-au extras foarte multe eşantioane, astfel de frecvenţe relative pot fi interpretate ca probabilităţi astfel că am putea afirma, de exemplu, că Pr ( = 665) = 0,18. În acest mod, este posibil să se construiască o distribuţie de probabilitate pentru . Aceasta ar putea să arate, de exemplu, aproximativ ca ilustraţia din Figura 2.1.

21

Page 22: Econometrie

Elemente de econometrie

Figura 2.1. Distribuţia mediei de selecţie

Distribuţia probabilistică pentru este cunoscută sub denumirea de distribuţie a mediei de selecţie pentru un eşantion aleatoriu de mărime n. Distribuţiile de selecţie de acest fel au o importanţă crucială în inferenţa statistică.

Desigur, în practică, distribuţiile de selecţie sunt rareori construite de o manieră empirică, ca în cele de mai sus. În mod normal, avem evidenţa unui singur eşantion şi nu se practică extragerea a „foarte multe” eşantioane.

2.3. Estimarea mediei unei populaţiiDacă un parametru al populaţiei este necunoscut

există două modalităţi prin care acesta poate fi estimat. În primul rând, putem estima respectivul parametru printr-o singură valoare (estimare punctuală) sau, în al doilea rând, putem specifica un interval în cadrul căruia suntem siguri că se găseşte parametrul real.

2.3.1. Estimări punctuale

Acestea sunt estimări exprimate printr-o singură valoare. De exemplu, am putea estima media câştigurilor lunare ale populaţiei de lucrători în siderurgie ca fiind de 680

y

x

22

Page 23: Econometrie

Capitolul 2 Inferenţa statistică

RON sau 720 RON De fapt, modalitatea evidentă de a estima o medie necunoscută a populaţiei, μ, constă în a cunoaşte media eşantionului . Există un avantaj din utilizarea estimatorului . Ştim că E( ) = μ. Aceasta înseamnă că ştim că, dacă am fi extras „foarte multe” eşantioane din populaţie, am fi putut obţine o distribuţie de selecţie asemănătoare celei din Figura 2.2 (a) şi „în medie”, am fi obţinut a valoare egală cu valoarea reală dar necunoscută a lui μ. Deşi în practică extragem numai un eşantion, este important să apreciem că nu există nici o eroare sistematică sau interferenţă în procedura de estimare.

Deoarece E( ) = μ, se spune că este un estimator punctual nedeplasat pentru μ.

Figura 2.2.a Distribuţia de selecţie pentru medii

23

Page 24: Econometrie

Elemente de econometrie

De asemenea, vor exista situaţii când dorim să estimăm o dispersie a populaţiei, σ2. Estimarea punctuală evidentă pentru σ2 este aceeaşi cu dispersie dată de formula:

(2.4)

De exemplu, având datele cu privire la câştigurile lunare ale unui eşantion aleatoriu format din n muncitori din siderurgie, folosim pur şi simplu expresia aferentă dispersiei unui set de n numere. Problema constă în aceea că, similar lui

, valorile pentru eşantioane diferite for fi şi ele diferite şi se poate demonstra că:

(2.5)

Aceasta înseamnă că distribuţia de selecţie pentru σ2

arată aproximativ ca în Figura 2.2.b. Şi în acest caz, dacă s-ar fi extras „foarte multe” eşantioane atunci „în medie” v2 ne-ar fi dat o valoare mai degrabă mai mică decât valoarea reală a lui σ2. Astfel, în acest caz, există o tendinţă sistematică spre eroare iar despre v2 se spune că este un estimator punctual deplasat pentru σ2.

24

Page 25: Econometrie

Capitolul 2 Inferenţa statistică

Figura 2.2.b Distribuţia de selecţie pentru σ2

Pentru a depăşi această problemă a interferenţei, σ2

este, în mod normal, estimată prin relaţia:

(2.6)

Aceasta datorită faptului că s2 = [n/(n – 1)]v2, astfel că:

(utilizând

(2.5))

Astfel, s2 devine o estimare punctuală nedeplasată pentru σ2

25

Page 26: Econometrie

Elemente de econometrie

2.3.2. Intervale de încredere

Uneori se va pune problema că un singur număr, sau estimare punctuală, pentru un parametru nu este suficient. Este posibil să vrem să specificăm într-un fel şi nivelul de încredere care se regăseşte în estimarea noastră. Una dintre căile pentru a realiza acest lucru constă în a încerca să găsim un „interval” de valori în cadrul căruia suntem „convinşi în proporţie de 95%” că se regăseşte respectivul parametru. Abordăm această problemă considerând media populaţiei, μ, în felul următor:

Să presupunem că dorim să găsim un interval de valori cuprinse între + E şi - E, astfel încât, înainte de a extrage eşantionul, există o probabilitate de 0,95 ca intervalul stabilit în cele din urmă să includă parametrul necunoscut μ.

Deoarece , respectiv eşantionul mediei, este un estimator nedeplasat al parametrului μ, a-l plasa în centrul intervalului pe care îl căutăm capătă sens. E este pur şi simplu o expresie, sau formulă, pe care trebuie să o găsim.

Dacă eşantionul este mare, atunci ştim din teoria referitoare la limita centrală că , este N(μ, σ2/n). Prin urmare, putem spune că:

urmează o distribuţie N(0,1)

(2.7)

Utilizarea tabelelor distribuţiei normale şi reprezentarea grafică 2.3.a indică faptul că:

Pr(-1,96 < Z < 1,96) = 0,95 (2.8)

26

Page 27: Econometrie

Capitolul 2 Inferenţa statistică

Utilizând relaţia (2.7) pentru substituirea lui Z în relaţia (2.8) ajungem la expresia:

(2.9)

Figura 2.3.a Intervale de încredere pentru z=1,96

Relaţia (2.9) se mai scrie:

(2.10)

Examinând (2.10) constatăm că am găsit exact ceea ce căutam: un interval care să garanteze cu probabilitatea de 0,95 că va conţine valoarea necunoscută μ. Expresia E pe care am căutat-o este de fapt egală cu .

Intervalul pe care l-am obţinut este denumit, în mod normal, intervalul de încredere de 95% pentru μ.

Singura problemă în legătură cu acest interval constă în aceea că E = depinde de valoarea σ care, ca şi μ,

27

Page 28: Econometrie

Elemente de econometrie

este o necunoscută. În practică, atunci când se calculează un interval de încredere, σ trebuie să fie înlocuit prin s, abaterea standard a eşantionului, obţinută prin utilizarea ecuaţiei (2.6) pentru a obţinere o estimare nedeplasată. Prin urmare, intervalul mare de încredere, 95%, al eşantionului se poate rescrie sub forma , sau:

(2.11)

Desigur, este posibil să dorim să fim „mai mult de 95% confidenţi” asupra faptului că intervalul nostru va conţine valoarea μ. Pentru a modifica nivelul de încredere, folosim valoarea corespunzătoare din tabelul distribuţiei normale standardizate. De exemplu, Figura 2.3.b indică faptul că, pentru a garanta un interval de încredere 99%, înlocuim valoarea de 1,96 cu 2,58 şi obţinem:

(2.12)

Odată stabilite expresiile de bază, intervalele de încredere sunt foarte uşor de calculat. De exemplu, dacă în cazul muncitorului nostru din industria siderurgică, un eşantion de mărimea n = 80 ar trebui să conducă la o medie a câştigurilor RON, cu s = 94, atunci , substituirea în relaţia (2.11) conduce la un interval de încredere 95% egal cu:

28

Page 29: Econometrie

Capitolul 2 Inferenţa statistică

Prin urmare, intervalul urmărit este cuprins între 553,4 şi 594,6.

Deşi intervalele de încredere sunt uşor de calculat, acestea sunt mult mai nesigure decât se poate imagina, atunci când se pune problema interpretării lor. Se impune reamintirea faptului că media populaţiei, μ, deşi necunoscută, reprezintă o constantă fixă. Prin urmare, trebuie să se găsească fie în intervalul 553,4 – 594,6 pe care l-am calculat, fie în afara acestuia. Dacă se regăseşte în cadrul intervalului, există probabilitatea de o unitate de a o găsi acolo. Dacă se află în afara intervalului, probabilitatea de a se regăsi în interiorul intervalului trebuie să fie zero. Prin urmare, nu putem spune că există o probabilitate de 0,95 ca aceasta să se regăsească în intervalul 553,4 – 594,6! Deci, ce semnificaţie are calculaţia noastră ?

Cheia acestei probleme rezidă în a ne aminti că diferitele eşantioane vor conduce la diferite medii şi la diferite abateri standard, s. Prin urmare, diferitele eşantioane vor prezenta, prin substituire în (2.11) diferite intervale de încredere. Dacă s-ar extrage „foarte multe” eşantioane, 95% dintre aceste intervale ar conţine necunoscuta μ, dar 5% nu ar conţine-o. Intervalele diferă de la eşantion la eşantion dar μ este fix.

După cum vom vedea, adesea calculăm intervale de încredere pentru parametrii ai populaţiei, alţii decât media μ. Totuşi, procesul este întotdeauna similar cu cel prezentat mai sus. Abaterea standard a distribuţiei de selecţie a unui estimator este cunoscută sub denumirea de eroare standard a estimării.

De exemplu, eroarea standard a estimării pentru este , respectiv abaterea standard a distribuţiei sale

29

Page 30: Econometrie

Elemente de econometrie

de selecţie. La o estimare punctuală nedeplasată dată şi, cu condiţia ca distribuţia sa de selecţie să fie simetrică, intervalele de încredere sunt de forma:

Estimare punctuală (valoare critică)(eroarea standard a estimării)

(2.13)

„Valoarea critică” din (2.13) este luată din tabelele de valori de distribuţie, cum ar fi tabelul distribuţiei normale standardizate. De exemplu, în (2.11) şi (2.12) estimarea punctuală este , valoarea critică se preia din tabelul distribuţiei normale standardizate iar eroarea standard este

.

2.4. Verificarea ipotezelor referitoare la media populaţieiVor exista situaţii când, în loc de a dori să estimăm un

parametru al populaţie, am putea fi interesaţi să stabilim dacă acest parametru ia sau nu o anumită valoare. La începutul acestui capitol, cu titlu de exemplu de problemă tipică de inferenţă, am considerat situaţia în care media câştigurilor muncitorilor din siderurgie, realizate în prima lună a unui an era cunoscută ca având valoarea de 540 RON Un an mai târziu, în aceeaşi lună, ne-am confruntat cu problema legată de cum am putea decide, numai pe baza unui eşantion de 100 de muncitori, dacă s-a înregistrat sau nu o creştere a mediei câştigurilor populaţiei în anul care a trecut. Pentru a soluţiona această problemă, începem prin a formula două ipoteze.

În primul rând, formulăm aşa-numita ipoteză nulă, conform căreia media câştigurilor populaţiei nu a crescut în anul precedent.

30

Page 31: Econometrie

Capitolul 2 Inferenţa statistică

Aceasta presupune că μ este în continuare egal cu 540 RON O ipoteză nulă este notată, de regulă, prin H0. Astfel, avem:

Ipoteza nulă H0 : μ = 540 (nici o modificare a câştigurilor)

(2.14)

A se reţine că valoarea μ la care se referă (2.14) este media populaţiei în anul iniţial considerat.

În faza următoare formulăm ipoteza alternativă, notată prin HA care acoperă toate alternativele rezonabile la cea nulă H0. Întrucât anii consideraţi au fost inflaţionişti, vom face abstracţie, pentru moment, de posibilitatea ca respectivele câştiguri să fi scăzut şi adoptăm ca alternativă, ipoteza că acestea au crescut:

Ipoteza alternativă HA: μ > 540 (creştere a câştigurilor)

(2.15)

Problema devine astfel una de a alege între H0 şi HA,

respectiv între ipoteza nulă şi cea alternativă. Trebuie să facem acest lucru pe baza informaţiilor date de un eşantion de mărime n = 100.

Odată eşantionul extras, vom cunoaşte valoarea mediei eşantionului, . Este evident că a respinge ipoteza nulă H0, conform căreia câştigurile nu au crescut, capătă sens dacă se dovedeşte că are o valoare „mai mare” decât valoarea din anul precedent, de 540 RON. O întrebare importantă în context se referă la cât de mare trebuie să fie

31

Page 32: Econometrie

Elemente de econometrie

înainte de a respinge H0 şi de a accepta alternativa HA, conform căreia câştigurile populaţiei au crescut.

Un instrument de care dispunem pentru a soluţiona această problemă este Teorema Limita Centrală. Întrucât eşantionul nostru este unul relativ mare, ştim că distribuţia mediilor de selecţie pentru urmează o distribuţie normală, N(μ,σ2/n).

Cantitatea ( - 540/ este cunoscută sub denumirea de test statistic (TS). Punctul crucial referitor la acest test statistic este dat de faptul că are o distribuţie N(0,1) numai atunci când ipoteza nulă H0 este adevărată.

Dacă H0 nu este adevărată ci falsă, atunci (2.16) nu se va verifica, deoarece μ nu va lua altă valoare decât 540 RON.

După cum se poate observa în Figura 2.4, distribuţia normală standardizată, sau N(0,1) este centrată în jurul valorii zero. Dacă ipoteza nulă este adevărată, în condiţii H0 există o mare probabilitate ca TS să ia o valoare în jurul valorii zero. Dacă ar lua o valoare diferită de zero, atunci vom fi înclinaţi să ne îndoim de faptul că H0 este adevărată. Dacă H0 este falsă, nu există nici un motiv pentru care TS nu ar trebui să ia o valoare depărtată de zero. Prin urmare, testul statistic oferă un mijloc de „testare” a măsurii în care H0 este adevărată.

32

Page 33: Econometrie

Capitolul 2 Inferenţa statistică

Figura 2.4. Distribuţia testului statistic

A se observa că TS se bazează pe diferenţa dintre şi valoarea de 540 RON care apare în cadrul H0. Cu cât este mai mare măsura în care media eşantionului depăşeşte 540 RON, cu atât mai mare (mai relevant) va fi testul statistic. Cu cât TS este mai semnificativ, cu atât vom fi mai înclinaţi să respingem H0 în favoarea lui HA şi să afirmăm că veniturile populaţiei au crescut.

Să presupunem că eşantionul nostru de 100 de muncitori este extras iar TS = . Să presupunem că TS > 1,64. Numărul 1,64 nu a fost ales de o manieră arbitrară. După cum se poate vedea din Figura 2.4, aria de sub curba standardului normal de la dreapta valorii 1,64 este egală cu 0,05.

Este TS > 1,64 suficient de mare pentru a ne face să avem dubii cu privire ipoteza nulă H0 care afirmă că nu au crescut câştigurile? Dacă TS > 1,64, trebuie să alegem una din două posibilităţi.

În primul rând, am putea continua să susţinem că H0

este adevărată. Totuşi, dacă adoptăm această poziţie, trebuie să acceptăm faptul că a survenit ceva mai degrabă neobişnuit. Dacă H0 este adevărată, atunci (2.16) este valabilă iar curbele din Figura 2.5 reprezintă distribuţia unui test statistic. Dacă aceasta este situaţia, atunci probabilitatea de a obţine a valoare TS mai mare de 1,64 este de numai 0,05, respectiv 1 la 20. Majoritatea oamenilor ar privi producerea unui eveniment care are numai o şansă de 1 la 20 de a se întâmpla ca pe ceva mai degrabă ciudat.

Ca alternativă, dacă TS > 1,64, am putea respinge H0

susţinând în schimb că HA este adevărată iar câştigurile au crescut. Dacă ipoteza alternativă este adevărată, conform HA,

33

Page 34: Econometrie

Elemente de econometrie

nu există nici un motiv pentru care Figura 2.4 ar trebui să reprezinte distribuţia testului statistic. TS ar putea fi distribuit în jurul valorii 1,5 sau 2, situaţie în care nu ar fi nimic neobişnuit în a obţine TS > 1,64. Dacă respingem H0 în favoarea lui HA, trebuie să ne amintim că va rămâne în continuare o mică probabilitate, de până la 0,05, ca H0 să fie de fapt adevărată. Aceasta înseamnă că, dacă respingem H0 şi susţinem creşterea câştigurilor, există o probabilitate, poate numai de 0,05, că am greşit în acest sens.

Atunci când un statistician obţine o valoare mai mare de 1,64 pentru testul statistic, în mod normal afirmă că „respinge ipoteza nulă de 0,05 nivel de semnificaţie”. Acesta este numai un jargon statistic pentru respingerea lui H0 , admiţându-se că există o probabilitate infimă, de 0,05, care să ateste că s-a procedat greşit. Nivelul de semnificaţie reprezintă probabilitatea unei erori atunci când se respinge H0. În mod normal, probabilitatea unui astfel de tip de eroare este reprezentată prin simbolul α. Aceasta conduce la relaţia:

Nivel de semnificaţie α = Pr (se respinge H0 când H0 este adevărată)

Pentru ca cele de mai sus să fie absolut clare, vom considera de o manieră uşor diferită ce anume este implicat atunci când „respingem H0” dacă TS > 1,64. Din (2.16) rezultă că dacă TS > 1,64 atunci:

(2.17)

Astfel, respingem H0 dacă depăşeşte un anumit nivel critic dat de partea din dreapta a ecuaţiei (2.17). Dată fiind o estimare σ, acest număr ar putea fi calculat. Însă dacă H0 este adevărată, atunci este N(540, σ2/n) iar

34

Page 35: Econometrie

Capitolul 2 Inferenţa statistică

probabilitatea ca (2.17) să se producă poate fi uşor calculată sub forma:

Astfel, dacă H0 este adevărată, există o probabilitate de numai 0,05 de a obţine o valoare care să depăşească valoarea critică din (3.17). Totuşi, chiar dacă obţinem o astfel de valoare, considerăm aceasta o întâmplare puţin probabilă de a fi „respins H0 la nivelul de semnificaţie 0,05”.

Nu este nimic special în mod deosebit în legătură cu numărul 1,64 sau cu un nivel de semnificaţie de 0,05. Alternativ, am putea decide să respingem H0 şi să menţinem afirmaţia conform căreia câştigurile au crescut în condiţiile în care TS > 2,33. Problema în legătură cu numărul 2,33 constă în aceea că aria de la dreapta acestuia de sub curba distribuţiei normale standardizată din Figura 2.4. este de 0,01. Urmând un acelaşi raţionament ca mai sus, pentru o valoare TS > 2,33, putem fie să acceptăm H0 ca fiind adevărată, dar să susţinem că un eveniment cu o probabilitate atât de redusă, ca cea de 0,01 s-a produs totuşi, fie să respingem H0. Totuşi, dacă respingem H0, trebuie să ne amintim că există în continuare o probabilitate de eroare, deşi acum aceasta este de numai 0,01. Deci, dacă TS > 2,33, „respingem H0 la nivelul de semnificaţie de 0,01”.

Introducerea unor numere în procesul de testare (verificare) a ipotezelor presupune ca eşantionul nostru de 100 de muncitori să se dovedească a avea o medie a câştigurilor = 564RON, cu o abatere standard a eşantionului de s = 75. Substituind în testul statistic (2.16) şi utilizând s în locul necunoscutei σ, rezultă :

35

Page 36: Econometrie

Elemente de econometrie

Astfel, testul statistic depăşeşte nu numai valoarea de 1,64 ci şi pe cea de 2,33. Prin urmare, putem respinge ipoteza nulă (conform căreia câştigurile au rămas neschimbate comparativ cu ultimul an) atât la nivelul de semnificaţie de 0,05 cât şi la cel de 0.01.

2.4.1. Teste bilaterale

În exemplul de mai sus am eliminat posibilitatea că veniturile ar fi putut să scadă. Să presupunem că nu am eliminat această posibilitate şi am dorit să verificăm dacă media câştigurilor s-a modificat. Putem proceda recurgând la aceeaşi ipoteză nulă ca în situaţia anterioară. Totuşi, ipoteza alternativă, care acoperă toate celelalte posibilităţi rezonabile trebuie să fie în acest caz aceea conform căreia media câştigurilor s-a modificat în raport cu valoarea de 540 RON din anul precedent. Aceasta înseamnă că acum avem:

Ipoteza nulă H0 : μ = 540 (nici o modificare a câştigurilor)

Ipoteza alternativă HA: μ ≠ 540 (modificare a câştigurilor)

Odată eşantionul extras, capătă sens să respingem H0, respectiv ipoteza conform căreia media câştigurilor populaţiei este în continuare egală cu 540 RON, atât în cazul în care media eşantionului este cu mult mai mare decât 540 RON, cât şi în cazul în care este cu mult mai mic decât 540 RON Să ne amintim că, în cazul precedent, am respins ipoteza H0

numai atunci când era cu mult mai mare decât 540RON

36

Page 37: Econometrie

Capitolul 2 Inferenţa statistică

Acest lucru a fost justificat de faptul că, în cazul precedent, a trebuit să eliminăm posibilitatea să se înregistreze câştiguri în scădere.

Interpretând criteriile noastre revizuite pentru respingerea lui H0 în termeni de test statistic (2.16), observăm acum că ar trebui să respingem H0 şi să susţinem că respectivele câştiguri s-au modificat, atât în cazul în care TS este cu mult mai mare decât zero (foarte pozitiv), cât şi în cazul în care TS este cu mult mai mic decât zero (foarte negativ). Cât de pozitiv sau cât de negativ trebuie să fie testul statistic este stabilit din nou prin raportare la tabelele de distribuţiei normale standardizate. De exemplu, din examinarea Figurii 2.5 rezultă că dacă adoptăm un nivel de semnificaţie de 0,05, atunci ar trebui să respingem H0 şi să susţinem modificarea câştigurilor, atât în cazul în care testul statistic este mai negativ decât -1,96, cât şi în cazul în care acesta este mai pozitiv decât +1,96.

Figura 2.5. Distribuţia absolută a testului statistic

Putem reformula decizia noastră, sau criteriul de verificare pentru acest test bilateral în termeni de valoare absolută a testului statistic, scriind:

„se respinge H0 la nivelul de semnificaţie 0,05 dacă |TS| > 1,96”

37

Page 38: Econometrie

Elemente de econometrie

De o manieră similară, din analiza figurii 2.5 rezultă că:

„se respinge H0 la nivelul de semnificaţie 0,01 dacă |TS| > 2,58”

În cel de al doilea caz probabilitatea de eroare de 0,01 este egal distribuită între cele două extreme ale distribuţiei distribuţiei normale standardizate.

2.4.2. Tipuri de eroare

În exemplul şi analiza de mai sus se află, în mod implicit şi o decizie sau criteriu de verificare de forma:

Se respinge H0 dacă |TS| > k dar se acceptă H0 dacă |TS| < k

(2.18)

Valoarea k este preluată din tabelele distribuţiei normale standardizate şi va depinde de nivelul de semnificaţie acceptat şi de măsura în care testul este unul cu o extremă sau unul cu două extreme. Respingerea lui H0

implică automat acceptarea alternativei HA, în timp ce acceptarea lui H0 implică respingerea lui HA.

În condiţiile unui criteriu de decizie (2.18) dat, există două tipuri de erori pe care le-am putea face atunci când procedăm la efectuarea unei verificări.

Este clar că, dacă acceptăm H0 când aceasta este adevărată sau respingem H0 când aceasta este falsă, nu comitem nici o eroare. Dacă însă respingem H0

când aceasta este adevărată, comitem o eroare de tip I. Probabilitatea de a comite acest tip de eroare este de fapt nivelul de semnificaţie al testului. Pe de

38

Page 39: Econometrie

Capitolul 2 Inferenţa statistică

altă parte, dacă acceptăm H0 când aceasta este falsă, comitem o eroare de tip II.

La modul ideal, ne-ar place să fim în măsură să optăm pentru acea valoare k din criteriul de test (2.18) care să conducă la valori cât mai mici posibile atât pentru Pr(eroare de tip I), respectiv Pr(eroare de tip II). Din păcate, acest lucru este foarte rar posibil datorită următoarelor motive.

În primul rând rezultă că dacă facem ca valoarea k să varieze în baza criteriului (2.18), cu cât facem ca valoarea Pr(eroare de tip I) să fie mai mică, cu atât devine mai mare Pr(eroare de tip II) şi vice versa. Nu este posibil, în mod normal să facem ca ambele probabilităţi să fie foarte mici în acelaşi timp. Pentru a înţelege acest lucru, să revenim la exemplul nostru cu muncitorii din siderurgie, unde am avut ipotezele nulă şi alternativă.

H0 : μ = 540 , HA: μ ≠ 540

Criteriul de decizie (2.18) implică respingerea lui H0

dacă

este fie > k, fie < - k

Putem rescrie acest lucru sub forma:

Se respinge H0 dacă >540+ sau dacă < 540-

(2.19)

39

Page 40: Econometrie

Elemente de econometrie

Valoarea k depinde, ca de regulă, de nivelul de semnificaţie ales.

Cunoaştem faptul că în condiţiile H0, μ = 540 astfel că media eşantionului este N(540, σ2/n). Această distribuţie este prezentată sub forma curbei din stânga din Figura 2.6, centrată în jurul valorii = 540. Punctele R’ şi R din Figura 2.6 se situează la nivelul 540 - k σ şi, respectiv, 540 + k σ

, pe axa . Criteriul nostru de decizie (2.19) este de aşa manieră încât, dacă media eşantionului ia o valoare la stânga lui R’ sau la dreapta lui R, respingem H0. Probabilitatea unei erori de tip I, respectiv respingerea lui H0

atunci când este adevărată iar curba din partea stângă reprezintă distribuţia lui , este egală cu suma ariilor de sub curbă la stânga faţă de R’ şi la dreapta lui R. Prin urmare, aceasta este egală cu de două ori aria care se desfăşoară la dreapta lui R.

Figura 2.6. Distribuţia mediei de selecţie

Acum să presupunem că HA şi nu H0 este adevărată. HA implică tocmai faptul că μ ≠ 540 dar ne permite să luăm cazul particular în care μ =560. Dacă μ= 560 , atunci media eşantionului, , este N(560, σ2 /n). Această distribuţie este

40

Page 41: Econometrie

Capitolul 2 Inferenţa statistică

prezentată prin curba din dreapta din Figura 2.6. Întrucât aceasta prezintă o aceeaşi variaţie ca şi prima curbă, însă o medie mai mare, forma sa este identică cu a primei curbe însă se deplasează spre dreapta de-a lungul axei .

În condiţiile criteriului nostru de decizie acceptăm H0

dacă ia o valoare cuprinsă între R’ şi R. Totuşi, dacă este mai degrabă adevărată HA decât H0 atunci distribuţia lui este dată de curba din dreapta. Deoarece, dacă HA este adevărată, probabilitatea de a accepta în mod incorect H0 este dată de aria punctată de sub curba din dreapta la stânga lui R. Prin urmare, această arie punctată reprezintă probabilitatea unei erori de tip II, respectiv, probabilitatea de a accepta H0

atunci când H0 este falsă.Acum este posibil să vedem de ce reducerea lui

Pr(eroare de tip I) face ca Pr(eroare de tip II) să crească şi vice-versa. Dacă facem ca valoarea k să varieze în cadrul criteriului nostru de decizie (2.19) (respectiv, modificăm nivelul de semnificaţie), aceasta face ca punctele R’ şi, mai important decât acsta, R din Figura 2.6 să se deplaseze. Dacă mărim valoarea k şi R este deplasat către dreapta atunci aria umbrită de sub curba din stânga este redusă aceasta implicând o diminuarea a Pr(eroare de tip I). Însă o deplasare a lui R spre dreapta face ca aria punctată de sub curba din dreapta să se mărească şi, prin aceasta, face ca Pr(eroare de tip II) să se reducă, crescând simultan Pr(eroare de tip I).

Mai există şi o a doua problemă în legătură cu criteriul de verificare de forma (2.18) şi (2.19). În Figura 2.7 am presupus că atunci când este adevărată HA mai degrabă decât H0, μ = 560. Însă HA afirmă numai că μ ≠ 540. Să presupunem, în schimb că HA este adevărată dar μ = 550. Curba din dreapta din Figura 2.6 se va afla acum mult mai aproape de curba din stânga. În consecinţă, cu R într-o poziţie

41

Page 42: Econometrie

Elemente de econometrie

dată, aceasta înseamnă că pentru o valoare Pr(eroare de tip I), va exista o valoare mai mare Pr(eroare de tip II).

În general, pentru o valoare dată Pr(eroare de tip I), ar trebui să fie clar faptul că Pr(eroare de tip II) va depinde de poziţia celei de a doua curbe şi, prin urmare, de valoarea luată de μ atunci când H0 este falsă. Însă cu ipoteze de genul celor de mai sus, dacă H0 este falsă, nu vom cunoaşte valoare lui μ. HA nu precizează această valoare – ea afirmă mai degrabă că μ ≠ 540. Astfel, în general, nu putem cunoaşte probabilitatea unei erori de tip II.

Apoi, mai există două probleme legate de criteriile de verificare de forma (2.18) şi (2.19). Prima constă în aceea că nu putem cunoaşte probabilitatea unei erori de tip II. Cea de a doua se referă la faptul că, cu cât facem ca probilitate unei erori de tip I să fie mai mică, cu atât mai mare devine probabilitatea unei erori de tip II.

În principiu, este posibil să evităm cea de a doua dintre aceste probleme prin creşterea dimensiunii eşantionului. În general, acest lucru va reduce Pr(eroare de tip II) pentru o valoare Pr(eroare de tip I) dată. În termenii Figurii 2.6, creşterea dimensiunii eşantionului conduce la o răspândire mai mică în ambele distribuţii prezentate.

2.5. Alte câteva teste statistice importante şi distribuţiile lor

Până în prezent am introdus conceptele de inferenţă statistică aproape exclusiv în contextul mediei populaţiei. Totuşi, sunt frecvente ocaziile în care dorim să facem deducţii cu privire la alţi parametri ai populaţiei – un exemplu evident este variaţia dispersiei σ2. În plus, după cum vom vedea, inferenţa statistică are un rol important în analiza regresiilor. De asemenea, am limitat analiza la eşantioane mari. În ştiinţele economice trebuie să operăm frecvent cu

42

Page 43: Econometrie

Capitolul 2 Inferenţa statistică

eşantioane mai mici decât cele pe care le-am avut în vedere până acum.

Înainte de a aborda problemele de mai sus, trebuie să ne ocupăm de distribuţiile/densităţile probabilistice, aceste funcţii implicând conceptul de „grade de libertate”.

2.5.1. Gradul de libertate

Să considerăm n variabile aleatorii continue: X1, X2, X3......Xn

şi suma pătratelor . Gradele de libertate reprezintă un concept asociat unor astfel de sume de pătrate.

De exemplu, să presupunem că n = 5 şi că există 2 restricţii lineare pe variabilele X. Acestea ar putea fi X1 + X2

+ X3 = 0 şi 2X4 + 3X5 = 8. Dacă selectăm valorile pentru trei dintre variabilele X, în condiţii restricţiilor date, valorile celei de a doua restricţii, X5 trebuie să ia valoarea 2. Atunci când selectăm valorile pentru Xs se afirmă că dispunem de numai trei grade de libertate întrucât numai trei astfel de valori pot fi selecţionate independent de celelalte. Se mai afirmă că suma asociată a pătratelor are trei grade de libertate.

În general, dacă avem n variabile şi r restricţii, vom avea n – r grade de libertate. Atunci şi despre suma pătratelor

se poate afirma că are n – r grade de libertate.Pentru exemplificare, să presupunem că avem o

populaţie de X valori din care extragem un eşantion de mărime n , constând din valorile X1, X2, X3......Xn. Presupunem apoi că am calculat suma pătratelor .

Deoarece , există o singură restricţie pentru

43

Page 44: Econometrie

Elemente de econometrie

cele n variabile . Astfel, despre suma se spune că are n – 1 grade de libertate.

Să presupunem, totuşi, că media populaţiei, μ, este cunoscută şi că, în loc să calculăm , calculăm

suma pătratelor . Deoarece nu există nici un

motiv pentru care ar trebui să fie egală cu zero,

nu există restricţii pentru cele n variabile , astfel încât

suma pătratelor dispune de „toate” cele n grade de libertate.

Înlocuirea parametrului μ al unei populaţii cu estimarea eşantionului său, , în suma pătratelor de mai sus conduce la „pierderea” unui grad de libertate. Ori de câte ori trebuie să înlocuim un parametru al unei populaţii prin estimarea eşantionului său pentru a calcula o sumă de pătrate, vom constata că aceasta implică formualrea unei restricţii pentru variabilele care sunt ridicate la pătrat şi însumate. Aceasta conduce la diminuarea cu unu a gradelor de libertate asociate sumei pătratelor. În cazul de mai sus, înlocuirea lui μ prin implică impunerea restricţiei pe variabilele care trebuie ridicate la pătrat şi însumate.

Având în vedere cele de mai sus, putem afirma că numărul de grade de libertate (g.l.) asociate sumei pătratelor este dat de numărul de observări utilizate pentru a calcula suma pătratelor minus numărul parametrilor care trebuie înlocuiţi prin estimaţiile pe baza eşantioanelor.

2.5.2. Distribuţia χ2

Dacă Z1, Z2, Z3......Zn sunt toate variabile

44

Page 45: Econometrie

Capitolul 2 Inferenţa statistică

distribuite independent distribuţiei normale standardizate sau N(0,1), atunci despre suma pătratelor se spune că are o distribuţie χ2

cu n grade de libertate.

Gradele de libertate asociate distribuţiei sunt date de suma pătratelor. Deoarece variabilele Z sunt independente, această sumă a pătratelor dispune de totalitatea n a gradelor de libertate. O variabilă χ2 cu n grade de libertate este scrisă sub forma .

Forma distribuţiilor χ2 selectate pentru diferite grade de libertate este prezentată în Figura 2.7.

Figura 2.7. Distribuţia χ2

Ariile de sub curbă pot fi interpretate ca fiind probabilităţi iar densităţile probabilistice pot fi măsurate pe axa verticală. Deoarece suma pătratelor nu poate fi niciodată negativă, distribuţiile se află întotdeauna în cuadrantul pozitiv. Distribuţiile sunt non-simetrice şi au extremităţi lungi în partea dreaptă.

45

Page 46: Econometrie

Elemente de econometrie

Media unei distribuţii poate fi derivată cu uşurinţă, pentru toate valorile i, rezultând:

Var (Zi) = E - (prin definiţie)

= (deoarece fiecare variabilă Zi are o

medie de zero)

Dar toate variabilele Zi sunt N(0,1) şi, prin urmare toate prezintă o variaţie de o unitate. Astfel, ajungem la

egalitatea = 1 pentru toate valorile i.

Media distribuţiei este egală cu gradul său de libertate. Datorită acestui fapt, cu cât numărul de grade de libertate asociate distribuţiei este mai mic, cu atât mai aproape de axa verticală se va afla vîrful său din Figura 2.7.

O utilizare a distribuţiei constă în elaborarea de inferenţe în legătură cu variaţia, σ2 . Să presupunem că avem un eşantion de n observări, X1, X2, X3......Xn dintr-o distribuţie N(μ, σ2). Rezultă că:

are o distribuţie N(0,1) pentru toate valorile i.

(2.21)

Din (2.21) rezultă că:

prezintă o distribuţie χ2 cu n g.l.

(2.22)

46

Page 47: Econometrie

Capitolul 2 Inferenţa statistică

deoarece reprezintă suma pătratelor pentru n variabile distribuţiei normale standardizate care vor fi distribuite independent dacă eşantionul valorilor X este aleatoriu.

Prin urmare, utilizând (2.22), obţinem:

prezintă o distribuţie χ2 cu n-1 g.l.

(2.23)Acum avem n – 1 grade de libertate, deoarece trecând

de la suma pătratelor din (2.23) la cea din (2.24) am înlocuit parametrul μ prin estimarea eşantionului său, .

Ceea ce implică (2.24) este că, dacă extragem multe eşantioane de mărimea n din populaţia N(μ, σ2), atunci vom obţine o distribuţie de selecţie de valori pentru s2. Aşa cum se evidenţiază valori diferite pentru , diferitele eşantioane vor conduce la valori diferite şi pentru s2. Dacă am calculat pentru fiecare eşantion s2 = (n-1)/σ2 , atunci distribuţia de selecţie a acestui indicator statistic va fi distribuţia χ2 cu n – 1 grade de libertate.

O caracteristică importantă a distribuţiilor χ2 este dată de teorema conform căreia:

Dacă şi sunt două distribuţii χ2

independente având u şi respectiv v grade de libertate, atunci + vor avea o distribuţie χ2 cu u + v grade de libertate. Celor două distribuţii χ2 independente le corespunde o distribuţie χ2 iar gradul de libertate asociat acestei noi distribuţii este egal cu suma gradelor de libertate asociate distribuţiilor

47

Page 48: Econometrie

Elemente de econometrie

originale.

Distribuţia χ2 este formată preluarea sumei a n variabile distribuţiei normale standardizate. Dacă toate aceste variabile sunt independente una de cealaltă, atunci distribuţia obţinută prezintă n grade de libertate. Dacă, totuşi, numai r dintre variabilele distribuţiei normale standardizate sunt independente , cu celelalte variabile depinzând de aceste r , atunci suma pătratelor va avea numai r grade de libertate. Astfel, şi distribuţia χ2 astfel formată va avea numai r grade de libertate.

2.5.3. Distribuţia t

Dacă Z1, Z2, Z3......Zn sunt toate variabile de distribuţiei normale standardizate distribuite independent, atunci despre mărimea

se spune că prezintă o distribuţie t cu n grade de libertate.

(2.25)

Se poate observa că în interiorul rădăcinii pătrate de la numitorul din (3.26) avem care reprezintă o variabilă χ2 împărţită la gradele sale de libertate. Prin urmare, o definiţie alternativă pentru t este ca aceasta reprezintă raportul dintre o variabilă de distribuţiei normale standardizate şi rădăcina pătrată a unei variabile

48

Page 49: Econometrie

Capitolul 2 Inferenţa statistică

independente χ2 care a fost împărţită la gradele sale de libertate. A se reţine faptil că distribuţia t îşi obţine gradele de libertate din distribuţia χ2 care apare la numitorul său.

Forma unei distribuţii t este ilustrată în Figura 2.8.

Figura 2.8. Distribuţia „t”

Aceasta înseamnă că ariile de sub curbă pot fi privite ca nişte probabilităţi, cu densităţi probabilistice măsurate pe axa verticală. Forma este foarte asemănătoare cu cea a distribuţiei distribuţiei normale standardizate, fiind simetrică în jurul lui zero dar cu o probabilitate ceva mai mare de a lua valorile extreme.

Forma precisă a distribuţiei t depinde de n, de gradele sale de libertate. Poate fi demonstrat că pe măsură ce n → ∞ forma tinde spre cea a distribuţiei distribuţiei normale standardizate. De fapt, pentru scopuri practice, pentru n > 50, diferenţele dintre cele două distribuţii pot fi ignorate.

49

Page 50: Econometrie

Elemente de econometrie

Deşi eşantioanele sunt mici, distribuţia de selecţie a mediei este în continuare N(μ, σ2 ). Dacă valoarea σ ar fi cunoscută, am putea în continuare să aplicăm un test statistic.

Deviaţia standard a variabilei, σ, este, totuşi, cunoscută de regulă şi trebuie înlocuită cu deviaţia standard a lui s. În cazul eşantioanelor mici, nu există nici un motiv pentru care ar trebui să fie o variabilă distribuţiei normale standardizateă. Totuşi, vom demonstra acum că, cu condiţia ca populaţia să fie normal distribuită,

are o distribuţie t cu n – 1 g.l. (2.26)

50

Page 51: Econometrie

Capitolul 3

Regresia liniară simplă3.1. Domenii de aplicareÎn practica analizei economice modelul liniar de

regresie are numeroase aplicaţii. Vom preciza pentru început câteva aplicaţii ale acestuia:

funcţia de consum din modelul lui Keynes este:

(3.1)unde:Ct este consumul pentru un anYt este venitul pentru aceeaşi perioadăa,b sunt parametrii modelului de regresie

relaţia liniară care există între pregătirea profesională şi venitul obţinut;

dependenţa liniară între gradul de dezvoltare a unei ţări şi gradul de corupţie din această ţară:

, (3.2)unde:Hi este indicele dezvoltării umane înregistrat de o ţară,CRi – nivelul corupţiei, ce se exprimă printr-un număr cu o zecimală din intervalul [1,10]. Nivelul cel mai scăzut al corupţiei este în cazul în care indicele este egal cu 10.

Cu privire la modelul liniar de regresie sunt necesare următoarele precizări:

Page 52: Econometrie

Elemente de econometrie

identificarea celor două variabile folosite pentru definirea modelului notate:

Y = simbolul pentru variabila rezultativă. Seria de date se notează prin ;

X = simbolul pentru variabila explicativă sau factorială definită de seria

…Cu cei doi parametri se defineşte o dependenţă deterministă între cele două variabile:Y= b + aX

(3.3)

Cei doi parametri sunt estimaţi prin intermediul seriilor de date constituite pentru cele două variabile. Estimatorii celor doi parametri se definesc prin şi . Parametrii modelului sunt stabiliţi într-o manieră stocastică, pe baza estimatorilor:

definirea variabilei reziduale. Notăm variabila reziduală prin . Aceasta este repartizată normal, având media 0 şi dispersia constantă. Variabila reziduală este inclusă model deoarece:

- în economie nu se întâlneşte întotdeauna o dependenţă liniară funcţională între două variabile, ci una de tip probabilist;

- seriile de date sunt afectate de erori de măsurare cu influenţă asupra estimării celor doi parametri;

- seriile de date se stabilesc prin observări asupra unor eşantioane.

52

Page 53: Econometrie

Capitolul 3 Regresia liniară simplă

utilizarea modelului de regresie. După natura seriilor de date, sunt două domenii de utilizare a modelului liniar de regresie:

- în analiza dependenţei dintre două variabile, în cazul în care seriile de date sunt înregistrate la nivelul unităţilor statistice ale populaţiei pentru o perioadă sau un moment, folosind notaţia:

, (3.4)unde:yi este caracteristica rezultativă (explicată),xi – caracteristica factorială (explicativă);- pentru evidenţierea dependenţei dintre două

variabile într-un anumit orizont de timp sunt folosite seriile de timp.

utilizarea setului de ipoteze. Pentru estimarea parametrilor şi utilizarea modelului de regresie sunt utilizate o serie de ipoteze:

- I1: seriile de date nu sunt afectate de erori de măsură;

- I2: variabila reziduală are media 0;- I3: dispersia variabilei reziduale este invariantă

în timp, adică are proprietatea de homoscedasticitate;

- I4: reziduurile nu sunt autocorelate;- I5: variabila factorială (explicativă) nu este

corelată cu variabila reziduală;- I6: .

Pentru testarea acestor ipoteze sunt folosite o serie de teste statistice.

În cazul în care dependenţa liniară este regăsită în urma efectuării de transformări asupra celor două variabile,

53

Page 54: Econometrie

Elemente de econometrie

vom spune că modelul de regresie este liniar în raport cu parametrii acestuia.

De exemplu, modelul Y = b + alnX este neliniar în raport cu variabila factorială, dar este un model liniar în raport cu cei doi parametri. În schimb, modelul de regresie Y = b + ln aX este liniar în raport cu variabila factorială, dar nu este liniar în raport cu cei doi parametri, a şi b, ci în raport cu b şi lna.

Pentru elucidarea acestor aspecte vom lua exemplul dependenţei dintre venitul disponibil şi consumul populaţiei care este de tip liniar, (coeficientul pantei este pozitiv1). De asemenea, modelul liniar pentru studierea dependenţei dintre rata de economisire şi rata investiţiei dintr-o ţară într-un orizont de timp. Într-un studiu efectuat de către Feldstein şi Horioka asupra unui număr de 21 de ţări în perioada 2000-2005, s-a stabilit următorul model liniar de regresie:

, R2 = 0,91În cadrul modelului de mai sus s-au folosit

următoarele notaţii:- reprezintă ponderea medie a investiţiilor în PIB

în perioada 2000-2005 pentru fiecare ţară inclusă în eşantion;- cuantifică ponderea medie a economiilor

populaţiei în PIB pentru fiecare ţară.Raportul de corelaţie demonstrează că între cele două

serii există o dependenţă puternică. În literatura economică se găsesc şi alte modele liniare de regresie, în analizele la nivel microeconomic sau macroeconomic.

În tabelul următor sunt prezentate valorile PIB real/locuitor şi ale salariului mediu real din perioada 1992-

1 Dornbusch, R., Fischer, S., Macroeconomics, 2005

54

Page 55: Econometrie

Capitolul 3 Regresia liniară simplă

2005, înregistrate în cazul României. Cei doi indicatori sunt exprimaţi în preţurile anului 1985.

Anul PIB real/locuitor (X), mii RON

Salariul real/locuitor(Y), RON

1992 35,892 28191993 36,517 28411994 36,617 28581995 36,325 28771996 34,093 30181997 32,093 29331998 27,952 21931999 25,924 19732000 26,349 17872001 27,406 17772002 29,420 19552003 30,672 20452004 28,635 16292005 26,588 1897

55

Page 56: Econometrie

Elemente de econometrie

1500

2000

2500

3000

3500

25 27 29 31 33 35 37 39

PIB/locuitor

Figura 3.1. Corelaţii dintre PIB/locuitor şi salariul mediu real

Graficul prezentat evidenţiază o dependenţă liniară între cele două variabile. Salariul mediu pe economie este direct corelat cu performanţele economiei, măsurate prin nivelul PIB/locuitor. Dependenţa dintre cele două variabile este stochastică. Vom scrie modelul liniar de regresie. Considerarea variabilei reziduale în cadrul acestui model este inevitabilă, deoarece nivelul salariului mediu din economie este o mărime determinată în mod cert de performanţele generale ale economiei, precum şi de alţi factori, care sunt cuantificaţi prin termenul rezidual. Alţi factori care influenţează salariul mediu pot fi: nivelul de instruire, vârsta persoanei, regiunea, profesia, domeniul etc.

56

Page 57: Econometrie

Capitolul 3 Regresia liniară simplă

3.2. Modele liniare de regresie rezultate din transformări de modele neliniare

Există diverse modele unifactoriale neliniare, care sunt liniarizate prin transformări ce sunt aplicate variabilelor modelului de regresie. Astfel de modele neliniare transformate în modele liniare sunt:

- se transformă într-un model liniar prin logaritmarea celor doi termeni ai egalităţii de mai sus:

(3.5)Rezultă un model liniar în raport cu variabilele

şi .- Modelul exponenţial sau modelul log definit prin

relaţia:yi = a * bx (3.6)se liniarizează prin logaritmare, rezultând modelul

liniar:(3.7)

Utilizarea modelului se recomandă când punctele sunt în jurul unei drepte.

O serie de modele neliniare nu pot fi scrise sub forma unor modele liniare prin aplicarea unor transformări elementare.

În alte cazuri, pentru estimarea parametrilor se folosesc alte tehnici de estimare. Neputând fi liniarizat prin transformări elementare, estimarea parametrilor se face prin metode numerice.

57

Page 58: Econometrie

Elemente de econometrie

3.3. Prezentarea modelului liniar de regresieEstimarea modelului liniar de regresie, se face pe baza

seriilor de date pentru cele două caracteristici. Acestea sunt reprezentate prin vectorii:

pentru caracteristica

explicativă (factorială).

pentru caracteristica

explicată (rezultativă).Un model liniar de regresie presupune cunoaşterea:

- metodelor folosite pentru estimarea celor doi parametri;

- metodelor utilizate pentru testarea proprietăţilor estimatorilor modelului de regresie;

- principalelor aspecte privind folosirea modelului de regresie în efectuarea de previziuni.În definirea regresie liniare sunt considerate o

serie de ipoteze. Luând în considerare relaţia yi = a * bxi se

observă că valoarea estimată a variabilei rezultative, estimatorilor parametrilor modelului şi proprietăţile acestora depind de caracteristicile variabilei independente şi proprietăţile variabilei reziduale. Cele patru ipoteze se referă la variabilele ce definesc modelul de regresie, precum şi la variabila reziduală.

a) Seriile de date nu sunt afectate de erori de înregistrare

Ipoteza postulează caracteristicile seriilor de valori ce sunt folosite pentru estimarea parametrilor. Plecăm de la faptul că estimarea parametrilor se realizează pe baza unui

58

Page 59: Econometrie

Capitolul 3 Regresia liniară simplă

eşantion de valori , ce reprezintă valori pentru cele două variabile. Stabilirea funcţiei analitice folosite pentru analiza dependenţei dintre cele două variabile are la bază un număr mare de observaţii statistice, astfel încât estimarea parametrilor se fundamentează pe legea numerelor mari. Considerăm că valorile pentru cele două variabile nu sunt afectate de erori semnificative de măsură care să distorsioneze calitatea estimatorilor parametrilor.

În cazul modelului clasic de regresie se consideră că valorile caracteristicii factoriale sunt deterministe (valori fixate). Valorile caracteristicii rezultative sunt stocastice.

Această proprietate este importantă în definirea şi stabilirea proprietăţilor modelului liniar de regresie. Vom spune că valorile caracteristicii factoriale sunt nestocastice dacă fiecărei valori a acestei caracteristici îi corespunde o familie de valori ale caracteristicii rezultative. Se calculează, pentru fiecare valoare xi a caracteristicii factoriale, o medie a familiei caracteristicii rezultative şi se determină seria de valori .

Pentru fiecare valoare fixată a caracteristicii factoriale, variabila reziduală este de medie zero, respectiv:

, pentru orice i (3.8)Pe baza acestei afirmaţii rezultă că ceilalţi factori

neînregistraţi, cu excepţia caracteristicii factoriale, nu au o influenţă sistematică asupra mediei caracteristicii rezultative. Dacă ipoteza este satisfăcută de modelul liniar de regresie, putem scrie:

(3.9)b) Ipoteza de homoscedasticitate - dispersia

reziduului este constantă

59

Page 60: Econometrie

Elemente de econometrie

Această proprietate arată că distribuţiile condiţionale (yi/x=xi) au aceeaşi dispersie, reprezentată prin egalitatea următoare:

, este constantă pentru orice i.

(3.10)Dacă variabilele reziduale nu satisfac această

proprietate, vom spune că modelul de regresie este heteroscedastic şi variabilele reziduale au varianţe diferite:

. (3.11)c) Lipsa corelării reziduurilorAceastă proprietate exprimă faptul că între termenii

reziduali nu se manifestă fenomenul de covarianţă. Această proprietate poate fi scrisă sub forma:

, pentru orice .

(3.12)Dacă variabila reziduală îndeplineşte ipotezele „b” şi

„c”, rezultă relaţia:(3.13)

O situaţie diferită este atunci când variabila reziduală prezintă o autocorelaţie de ordinul întâi, adică:

. (3.14)unde ut este zgomot alb.

d) Necorelarea variabilei reziduale cu variabila independentă.

În cazul când această ipoteză este îndeplinită, putem scrie:

60

Page 61: Econometrie

Capitolul 3 Regresia liniară simplă

, pentru orice j, ceea ce înseamnă că o creştere a valorilor variabilei factoriale nu duce automat la un spor al valorilor variabilei reziduale.

Valorile reziduale sunt distribuite după o repartiţie normală, de medie 0 şi dispersie . Pentru variabila

reziduală vom scrie atunci că .

Modelul liniar de regresie se prezintă în graficul 3.2.:

Figura 3.2. Modelul clasic liniar de regresie

Pe baza ipotezelor prezentate definim modelul liniar de regresie printr-una din cele două forme echivalente:

a) , i = 1,..,nIpotezele sunt formulate asupra variabilei reziduale:

; (3.15)

b) , i = 1,..,n

p()

x1

x2

y

y

61

Page 62: Econometrie

Elemente de econometrie

Ipotezele sunt formulate asupra variabilei rezultative:

. (3.16)

Când între cele două variabile există o dependenţă liniară, folosind serii de date (yi,xi), , valorile variabilei rezultative sunt estimate prin relaţia:

. (3.17)iar seria reziduurilor se estimează utilizând formula:

. (3.18)Apreciem că seria reziduurilor satisface egalitatea:

. (3.19)

3.4. Estimarea (determinarea) parametrilor modelului liniar

3.4.1. Utilizarea metodei celor mai mici pătrate în estimarea parametrilor

Valorile caracteristicii rezultative sunt estimate folosind relaţia:

,(3.20)

unde şi sunt estimatorii parametrilor dreptei de regresie.Valorile reale ale caracteristicii rezultative sunt egale

cu estimaţia obţinută cu ajutorul modelului de regresie, corectată cu eroarea reziduală, adică:

(3.21)Estimarea parametrilor are la bază (3.22)

62

Page 63: Econometrie

Capitolul 3 Regresia liniară simplă

condiţia ca suma pătratelor diferenţelor dintre valoarea reală şi cea estimată prin modelul de regresie să fie minimă:

.

Condiţiile de optim ale funcţiei conduc la următoarele ecuaţii:

(3.23)Ecuaţiile sunt stabilite aplicând metoda momentelor.

Cele două ecuaţii se obţin după cum urmează:- prima ecuaţie rezultă din condiţia ,

definind egalitatea:

sau ; (3.24)

- a doua ecuaţie a sistemului de ecuaţii se stabileşte plecând de la ipoteza de necorelare a seriilor valorilor variabilei factoriale cu cea a valorilor variabilei reziduale ( ), având egalitatea:

. (3.25)

În vederea determinării celor doi estimatori se rezolvă sistemul liniar de ecuaţii:

63

Page 64: Econometrie

Elemente de econometrie

. (3.26)

Testarea dacă soluţia sistemului îndeplineşte condiţiile de ordinul al doilea se face prin determinarea derivatelor de ordinul al doilea ale funcţiei:

= .

(3.27)Matricea astfel definită are două proprietăţi:

- este pozitiv definită;- determinantul matricei este pozitiv:

. (3.28)

Relaţiile de calcul ale celor doi estimatori, şi , rezultă din rezolvarea sistemul liniar de ecuaţii.

Coeficientului pantei dreptei de regresie se obţine din relaţia:

.

. (3.29)

Estimatorul pantei dreptei de regresie este o combinaţie liniară a valorilor caracteristicii rezultative:

. (3.30)

64

Page 65: Econometrie

Capitolul 3 Regresia liniară simplă

Seria de valori are proprietăţile:

Proprietatea a: ;

Proprietatea b:

;

Proprietatea c: .

(3.31)Formula de calcul a estimatorului

termenului liber al dreptei de regresie se determină prin rezolvarea sistemului de ecuaţii sau ţinând seama de faptul că dreapta de regresie trece prin centrul norului de puncte, adică:

.

(3.32)

Estimatorul parametrului b se obţine din relaţia:. (3.33)

Astfel, pentru estimarea parametrilor modelului de regresie să luăm situaţia în care:

Salariul mediu real=f(PIB real/locuitor)Calculăm prin metoda celor mai mici pătrate

mărimile: , , ,Sistemul liniar de ecuaţii devine:

.Prin rezolvarea sistemului de ecuaţii obţinem cei doi

estimatori:

65

Page 66: Econometrie

Elemente de econometrie

şi .Funcţia de regresie este acum definită:

.Calculele intermediare şi seriile de date estimate

folosite în sistemul de ecuaţii sunt cuprinse în tabelul următor:

Anii xi yi xiyi

1 35,892 2819 101164 1288,259 28514,0 -40,47102 36,517 2841 103737 1333,506 2931,0 -90,25783 36,617 2858 104639 1340,782 2942,5 -84,81094 36,325 2877 104494 1319,472 2908,8 -32,16265 34,093 3018 102894 1162,303 2651,6 366,50016 32,093 2933 94115 1029,944 2421,1 511,49947 27,952 2193 61290 781,3272 1943,9 248,82158 25,924 1973 51154 672,0616 1710,1 263,11029 26,349 1787 47087 694,2738 1759,1 27,959210 27,406 1777 48690 751,0730 1880,9 -104,243911 29,420 1955 57524 865,5274 2113,0 -157,734212 30,672 2045 62715 940,7704 2257,3 -212,642813 28,635 1629 46652 819,9827 2022,6 -393,397914 26,588 1897 50441 706,9039 2199,3 -302,1692

TOTAL 434,482 32600 1036595 13706,1900 32600,2 0,0000

Utilizarea metodei celor mai mici pătrate are şi unele inconveniente, dintre care amintim:

- nu oferă rezultate acceptabile dacă nu sunt satisfăcute ipotezele formulate;

- notând prin estimatorii determinaţi pe baza seriei (xi, yi), iar prin pe cei evaluaţi pentru seria de valori (xi, yi),

, rezultă că între cele două perechi de estimatori nu există o relaţie simplă de recurenţă;

66

Page 67: Econometrie

Capitolul 3 Regresia liniară simplă

- estimatorii sunt distorsionaţi dacă seriile de date prezintă schimbări majore, sub forma rupturilor de nivel.

3.4.2. Utilizarea metodei verosimilităţii maxime în estimarea parametrilor

Aplicarea metodei celor mai mici pătrate a luat în considerare o serie de ipoteze asupra variabilei reziduale , care nu s-au referit la forma repartiţiei variabile aleatorii .

Metoda verosimilităţii maxime are la bază tocmai specificarea funcţiei de repartiţie reziduale.

Considerăm că variabila reziduală are proprietatea:

. (3.34)

şi de aici rezultă . Modelul de regresie devine specificat când sunt determinaţi parametrii

şi . Avem, aşadar, relaţia:

. (3.35)

Pentru modelul liniar de regresie, funcţia de verosimilitate este dată de relaţia:

. (3.36)

Utilizând formula densităţii de repartiţie, funcţia de verosimilitate se poate scrie sub forma:

67

Page 68: Econometrie

Elemente de econometrie

(3.37)

Relaţiile de calcul pentru estimatorii parametrilor modelului de regresie, şi pentru cel al dispersiei variabilei reziduale rezultă din condiţia:

(3.38)

Scriem cele trei condiţii de maximum al funcţiei de verosimilitate:

. (3.39)

Mai simplu, determinarea formei estimatorilor se face utilizând condiţiile de maximum pentru logaritmul funcţiei de verosimilitate, adică:

.(3.40)

Pe baza proprietăţii funcţiei logaritm, obţinem:

. (3.41)

Constatăm că şi prin metoda verosimilităţii maxime acelaşi set de estimatori pentru parametrii modelului ca în cazul aplicării metodei celor mai mici pătrate.

În cazul utilizării metodei verosimilităţii maxime se obţine direct şi estimatorul dispersiei variabilei reziduale.

Expresia acestui estimator rezultă din condiţia

.

68

Page 69: Econometrie

Capitolul 3 Regresia liniară simplă

După efectuarea calculelor se obţine ecuaţia pentru determinarea formulei limitei estimatorului varianţei variabilei reziduale, respectiv:

. (3.42)

Ţinând seama de formula de calcul a erorilor de ajustare, dispersia variabilei reziduale se calculează pe baza formulei:

. (3.43)

3.5. Proprietăţile dreptei de regresie Relaţii între parametrii dreptelor reciproceConsiderăm dreapta de regresie definită pe baza

relaţiei:d1 : y i = b + axi

Definim dreapta de regresie reciprocă d2 utilizând relaţia:

xi = b’ + a’yi .Determinarea formulei estimatorului coeficientului

pantei dreptei de regresie se face pe baza relaţiei:

(3.44)

Egalitatea rezultă din relaţia de calcul a estimatorului dacă se împart numărătorul şi numitorul la volumul eşantionului. Pe baza relaţiei de mai sus, rezultă că estimatorul şi covarianţa calculată pentru cele două variabile au acelaşi semn, stabilind că.

- Între parametrii pantelor de regresie există relaţia:

. (3.45)

69

Page 70: Econometrie

Elemente de econometrie

- Cele două drepte, în acelaşi plan, se intersectează în centrul de greutate al norului de puncte, deci cele două drepte trec prin punctul .

Afirmaţia se poate demonstra dacă vom ţine seama de faptul că pentru fiecare model de regresie sunt valabile egalităţile:

- pentru modelul de regresie definit de d1 :

;

- pentru al doilea model de regresie, definit prin

d1 : .

Dacă împărţim la n termenii celor două egalităţi, care trece prin punctul , obţinem sistemul:

(3.46)Valoarea (mărimea) unghiului format de cele două

drepte arată intensitatea legăturii dintre cele două variabile. Cum dreptele coincid în cazul legăturii reciproce dintre cele două variabile, rezultă că, cu cât mărimea unghiului dintre acestea este mai mică, cu atât legătura liniară reciprocă dintre cele două caracteristici este mai puternică.

y

x

d2

d1

α

x

70

Page 71: Econometrie

Capitolul 3 Regresia liniară simplă

Figura 3.3. Unghiul format din dreptele d1 şi d2

Obţinem apoi formulele de calcul pentru termenii liberi ai celor două drepte dacă se cunosc cei doi coeficienţi ai pantelor de regresie: şi .

În final, din ecuaţiile celor două drepte şi din relaţiile de mai sus obţinem formele pentru cele două drepte de regresie:

,

. (3.47)

Din ecuaţia dreptei d2, x = b’ + a’y, determinăm

ecuaţia , care defineşte dreapta care se

reprezintă în acelaşi plan cu dreapta d1.Unghiul format prin intersecţia dreptelor reprezentate

în acelaşi plan are tangenta calculată pe baza relaţiei:

(3.48)

- Semnul coeficienţilor pantelor din modelul de regresie şi modelul reciproc de regresie coincid.

Semnul parametrului pantei de regresie exprimă sensul dependenţei dintre cele două variabile. În raport cu semnul estimatorului parametrului a, distingem:

71

Page 72: Econometrie

Elemente de econometrie

- dacă >0, dependenţa între cele două variabile este directă;

- dacă estimaţia parametrului a este egală cu zero, între cele două variabile nu există o dependenţă liniară;

- dacă coeficientul pantei de regresie este <0, atunci între cele două variabile se manifestă o dependenţă liniară inversă.

Semnul coeficientului pantei dreptei de regresie coincide cu cel al semnului varianţei calculate pentru cele două variabile.

- Estimatorul coeficientului pantei dreptei de regresie determinat prin aplicare metodei celor mai mici pătrate este un estimator nedeplasat şi de dispersie minimă. Deci, pentru estimatorul sunt valabile egalităţile:

. (3.49)

Pentru a demonstra cele două relaţii, luând în considerare relaţia de calcul a estimatorului, se observă că acesta este o combinaţie liniară a seriei de valori y1, y2, …, y1n. Vom folosi cele trei proprietăţi ale seriei de valori

Vom scrie relaţia echivalentă a estimatorului:

(3.50)Evidenţierea ipotezei că estimatorul obţinut în urma

aplicării metodei celor mai mici pătrate este nedeplasat, se aplică operatorul de medie termenilor egalităţii. Dacă

, pentru orice i, se obţin progresiv egalităţile:

72

Page 73: Econometrie

Capitolul 3 Regresia liniară simplă

(3.51)

Evidenţierea celei de-a doua egalităţi din cadrul proprietăţii „b” se realizează prin calculul dispersiei estimatorului considerând relaţia:

(3.52)Pe baza ipotezei „d” (variabilele reziduale nu sunt

corelate), şi a ipotezei homoscedasticităţii variabilelor reziduale, rezultă:

(3.53)

Din ultima relaţie, rezultă că disperia estimatorului este cu atât mai mică cu cât dispersia caracteristici factoriale este mai mare.

Teorema Gauss-Markov se poate demonstra considerând estimatorul definit ca o combinaţie liniară a seriei de valori înregistrate pentru caracteristica rezultativă. Rezultă egalitatea: . Este evident că ponderile combinaţiei liniare din ultima relaţie coincid cu cele ale seriei

. Deoarece , pentru toţi indicii i, rezultă:

(3.54)

Dar a doua restricţie a estimatorului se referă la faptul că este nedeplasat, rezultă două proprietăţi ce sunt satisfăcute de sistemul de ponderi , respectiv:

-

- .

73

Page 74: Econometrie

Elemente de econometrie

Pe baza acestor egalităţi, rezultă că estimatorul se obţine prin următoarea relaţie:

. (3.55)

Din relaţia (3.55) se obţine dispersia noului estimator:

(3.56)

Comparăm dispersiile celor doi estimatori nedeplasaţi ce sunt exprimaţi ca funcţii liniare ale valorilor variabilei rezultative. Observăm că între seriile de ponderi ale celor doi estimatori sunt verificate relaţiile ai = wi + di pentru orice i. Înlocuind apoi ai în ultima relaţie, obţinem:

. (3.57)

Demonstrăm că a treia sumă din ultima relaţie este nulă, ţinând seama de proprietăţile sistemului de ponderi ale primului estimator şi de restricţiile impuse sistemului de ponderi pentru cel de-al doilea estimator. Se obţine rezultatul următor:

.

(3.58)Din acest rezultat derivă inegalitatea între varianţele

celor doi estimatori:

(3.59)

- În cazul în care variabila reziduală urmează repartiţia normală, estimatorul urmează şi el o repartiţie

normală, de medie a şi abatere standard .

74

Page 75: Econometrie

Capitolul 3 Regresia liniară simplă

Am notat prin abaterea standard a variabilei factoriale, iar reprezintă abaterea standard a variabilei reziduale.

Cea mai bună estimaţie a dreptei de regresie se obţine prin reducerea pe cât posibil a abaterii standard a estimatorului pantei de regresie. Reducerea acestei mărimi are la bază posibilitatea de a scrie indicatorul sub forma:

. (3.60)

Aşadar, abaterea standard este direct proporţională cu dispersia observaţiilor y1, y2, …, y1n în jurul dreptei de regresie şi invers proporţională cu numărul de observaţii şi dispersia valorilor x1, x2, …, x1n.

Cu cât valorile variabilei factoriale sunt mai dispersate, cu atât precizia estimării este mai mare (gradul de dispersare a seriei valorilor caracteristicii exogene este măsurat prin abaterea medie standard a seriei).

Estimatorul termenului liber al dreptei de regresie obţinut prin aplicarea metodei celor mai mici pătrate este un estimator nedeplasat şi de dispersie minimă.

Se definesc următoarele două relaţii:

şi . (3.61)

Norul de puncte determină posibilitatea de a scrie egalităţile:

75

Page 76: Econometrie

Elemente de econometrie

(3.62)Din relaţia (3.62) rezultă că abaterea dintre parametru

şi estimator se exprimă ca o combinaţie liniară de variabile reziduale:

(3.63)

Ponderile combinaţiei liniare sunt .

Pentru a demonstra proprietăţile estimatorului termenului liber al modelului liniar de regresie considerăm proprietăţile seriei de valori , respectiv:

- ;

- ; (3.64)

- ;

- .

Demonstrăm că estimatorul termenului liber al modelului de regresie este nedeplasat, pornind de la faptul că ipotezele „b” şi „f” ale modelului liniar de regresie, se aplică operatorul de medie, rezultând că , ce se poate scrie sub forma:

(3.65)Pentru calculul dispersiei vom ţine seama de faptul că

estimatorul este nedeplasat şi se obţine relaţia:

76

Page 77: Econometrie

Capitolul 3 Regresia liniară simplă

(3.66)

Considerând ipotezele „b” şi „f” ale modelului liniar de regresie, rezultă forma de prezentare a dispersiei acestui estimator:

(3.67)

Acest estimator satisface teorema Gauss-Markov, ce se poate demonstra ca şi în cazul determinării estimatorului coeficientului pantei de regresie.

- Matricea de covarianţă a estimatorilor modelului liniar de regresie „ ” şi „ ” este reprezentată prin:

.

(3.68)Definirea matricei de covarianţă a estimatorilor are în

vedere relaţiile:

.Formula de calcul a covarianţei celor doi estimatori

ţine seamă de ipotezele modelului clasic de regresie, rezultând:

77

Page 78: Econometrie

Elemente de econometrie

(3.69)- Estimatorul „ ” converge în probabilitate către

parametrul „a”. În mod similar, estimatorul termenului liber al modelului clasic de regresie, „ ”, tinde în probabilitate către „b”. Afirmaţiile sunt evidente dacă avem în vedere că:

(3.70)

Covarianţa lui şi , pentru xi fixat, este nulă:

.

(3.71)

Dar

,

întrucât yi şi yj sunt variabile independente, dacă i j. vom avea atunci, luând în considerare proprietăţile seriei de valori

, următoarele egalităţi:

. (3.72)

78

Page 79: Econometrie

Capitolul 3 Regresia liniară simplă

3.6. Coeficientul liniar de corelaţieVom examina, prin intermediul coeficientului liniar

de corelaţie, dacă între variabilele modelului de regresie există o dependenţă liniară semnificativă. Considerăm că avem un eşantion de forma . Prin coeficientul liniar de corelaţie vom pune în evidenţă prezenţa sau absenţa legăturii liniare dintre cele două variabile ale modelului de regresie, sensul legăturii, precum şi intensitatea acesteia.

Pentru a studia caracteristicile dependenţei liniare dintre două se utilizează covarianţa. Această măsură se utilizează mai rar deoarece prezintă două neajunsuri majore:

- covarianţa nu este un indicator normalizat. Neîncadrându-se într-un anumit interval de valori, indicatorul nu va furniza informaţii exacte pentru caracterizarea intensităţii dependenţei;

- depinde de unităţile de măsură ale celor două variabile şi satisface relaţia:

. (3.73)De aceea, un indicator care să înlăture cele două

inconveniente trebuie să plece de la domeniul de valori al covarianţei:

. (3.74)Dacă împărţim termenii inegalităţii prin ,

rezultă:

. (3.75)

Am obţinut astfel un nou indicator ce depinde de unităţile de măsură ale celor două variabile, fiind şi o măsură statistică normalizată denumit coeficient liniar de corelaţie,

79

Page 80: Econometrie

Elemente de econometrie

introdus în statistică de K. Pearson. Indicatorul se calculează prin relaţia:

(3.76)

Coeficientul liniar de corelaţie este eficient pentru măsurarea intensităţii dependenţei dintre variabile numai dacă este de tip liniar.

În continuare vor fi prezentate proprietăţile coeficientului liniar de corelaţie, stabilind relaţiile de calcul pentru estimatorii parametrilor modelului liniar de regresie în funcţie de valoarea acestuia. Rezumativ putem evidenţia:

a) coeficientul liniar de corelaţie este o măsură simetrică, verificându-se egalitatea r(x,y) = r(y,x).

b) este invariant la transformarea datelor şi schimbarea originii şi unităţii seriilor de date.

Dacă dispunem de seriile de date şi , ce satisfac relaţiile ui = b + axi şi vi = c + dyi , cu

, atunci coeficienţii liniari de corelaţie calculaţi pentru cele două serii sunt egali.

Considerând şi proprietăţile covarianţei şi ale dispersiei, rezultă:

. (3.77)

Analiza modelului de regresie se poate face şi prin

utilizarea transformărilor şi

.

80

Page 81: Econometrie

Capitolul 3 Regresia liniară simplă

c) Estimatorul coeficientului pantei dreptei de regresie se calculează pe baza relaţiei:

(3.78)

Pentru dreapta reciprocă , vom utiliza relaţia:

. (3.79)

Constatăm că şi r au acelaşi semn putând distinge trei cazuri:

- dacă r > 0, atunci > 0, dependenţa dintre cele două variabile este directă;

- când r = 0 şi = 0, şi nu avem dependenţe liniare între variabile (modelul de regresie coincide cu o dreaptă paralelă cu axa ox);

- când r > 0, estimatorul pantei dreptei de regresie va avea o valoare negativă; dependenţa fiind inversă.

d) Dacă variabilele modelului liniar de regresie sunt liniar independente, atunci valoarea coeficientului liniar de corelaţie este zero.

Reciproca nu este întotdeauna adevărată, deoarece valoarea nulă a coeficientului liniar de corelaţie calculat pentru variabilele modelului nu implică în mod automat şi independenţa variabilelor.

Prima parte a afirmaţieise deduce din egalitatea:

. (3.80)

Variabilele sunt independente dacă dreptele de regresie reciproce sunt perpendiculare. Va rezulta că cei doi

81

Page 82: Econometrie

Elemente de econometrie

coeficienţi satisfac egalitatea = 0. Deci, în cazul în care variabilele sunt liniar independente, r = 0.

e) Coeficientul liniar de corelaţie nu este măsură tranzitivă. Astfel, dacă x este o variabilă y, iar la rândul său y este corelată cu z, nu implică în mod obligatoriu că între x şi z există o dependenţă lineară.

f) Pentru două variabile se verifică relaţia r2 = 1 dacă şi variabilele X şi Y sunt corelate funcţional.

Prima parte a afirmaţiei se demonstrează ţinând seama

de relaţia , când vom obţine egalitatea

. Din această egalitate rezultă că cele două drepte reciproce sunt paralele, fiind corelate funcţional. Reciproca acestei afirmaţii se demonstrează dacă considerăm că cele două variabile sunt independente. Dreptele de regresie reciproce sunt paralele şi satisfac relaţia r2 = 1.

Cu cât r2 este mai mare, cu atât intensitatea dependenţei liniare dintre cele două variabile este mai puternică. Valoarea coeficientului liniar de corelaţie este invers proporţională cu unghiul dintre cele două drepte reciproce de regresie.

g) Când variabilele X şi Y sunt liniar independente, atunci coeficientul liniar de corelaţie şi raportul de determinare satisfac egalitatea:

.

(3.81)

82

Page 83: Econometrie

Capitolul 3 Regresia liniară simplă

Valoarea coeficientului liniar de corelaţie se interpretează pe baza relaţiei:

. (3.82)

unde am notat , cuantifică acea parte a

dispersiei seriei explicate prin intermediul variabilei de

regresie; reprezintă acea parte a dispersiei

explicată prin acţiunea altor factori decât a variabilei

factoriale X; măsoară acţiunea tuturor

factorilor ce determină variaţia seriei pentru variabila Y.Proprietatea nu este reciprocă. Dacă dependenţa dintre

două variabile este liniară şi dacă pentru măsurarea intensităţii dependenţei se calculează ambii indicatori, atunci aceştia verifică relaţia de ordine:

Dacă seria de date se prezintă sub forma unui tabel cu dubă intrare, , coeficientul de corelaţie se calculează din relaţia:

(3.83)

Având seria de valori , realizările unui cuplu de variabile (X,Y) distribuite normal, atunci r reprezintă pentru fiecare serie de valori, realizările variabilei aleatorii Г. În cazul în care cele două variabile sunt liniar independente, ρ = 0, iar relaţia:

83

Page 84: Econometrie

Elemente de econometrie

. (3.84)

unde tn-2 este distribuţia Student cu n-2 grade de libertate.Pentru interpretarea valorilor coeficientului liniar de

corelaţie obţinut pentru o serie de valori avem în vedere:- utilizarea indicatorului pentru măsurarea intensităţii dependenţei dintre cele două variabile se va baza pe dimensiunea eşantionului care trebuie să fie suficient de mare. Dacă variabilele modelului sunt independente, pentru un volum al eşantionului mai mare ca 100, variabila Г este distribuită normal:

(3.85)

- pentru a fi o măsură semnificativă a intensităţii dependenţei, indicatorul se calculează numai dacă punctele sunt dispuse de-a lungul unei drepte.- coeficientul liniar de corelaţie este calculat pentru un eşantion de valori, iar semnificaţia acestuia va fi apreciată numai în context probabilistic. Limitele extreme ale intervalului de valori sunt determinate de: volumul eşantionului şi probabilitatea de garantare a rezultatelor. Apar următoarele două situaţii:

Dacă pragul de semnificaţie este , şi avem patru dimensiuni ale eşantionului, putem aprecia astfel:

Când seria de date este de volum redus (n = 20), coeficientul liniar de corelaţie diferă semnificativ de zero dacă ; dacă volumul eşantionului creşte la 40, rezultă că ; când n = 50, valoarea limită se micşorează, rezultând ; dacă n = 100, avem condiţia

.Dacă vom micşora probabilitatea de garantare a

rezultatelor, la nivelul , pentru această valoare a

84

Page 85: Econometrie

Capitolul 3 Regresia liniară simplă

pragului de semnificaţie analiza pe cele patru dimensiuni ale eşantionului conduce la: pentru eşantioanele de volum redus, n = 20, este satisfăcută condiţia ; când n = 40,

; dacă n = 50, ; dacă volumul n = 100, valoarea se reduce, satisfăcând relaţia .

În concluzie, putem aprecia că pe măsură ce volumul eşantionului creşte, pentru un prag de semnificaţie stabilit, valoarea critică a coeficientului liniar de corelaţie scade şi valoarea critică a indicatorului, în cazul în care volumul eşantionului este stabilit, creşte pe măsură ce pragul de semnificaţie scade.

În cazul în care ρ = 0, repartiţia variabilei Г este dificil de stabilit. În acest caz, pe măsură ce valoarea lui ρ se îndepărtează de zero, dispersia variabilei scade, iar repartiţia se îndepărtează tot mai mult de o repartiţie simetrică.

În acest caz, caracteristicile variabilei Г sunt:

şi (3.86)

În cazul în care seria de date este suficient de mare (n > 25),

. (3.87)

Folosind coeficientul liniar de corelaţie, vom spune că variabilele modelului de regresie sunt liniar independente,

dacă .

Se calculează mărimea:

(3.88)

85

Page 86: Econometrie

Elemente de econometrie

Pentru testul bilateral se respinge ipoteza nulă dacă este îndeplinită egalitatea . În cazul testului unilateral ρ > 0 se respinge ipoteza nulă dacă , iar pentru ρ < 0 se acceptă H1, dacă . Valoarea se va citi din tabelul repartiţiei Student în condiţiile stabilirii pragului de semnificaţie şi pentru n-2 grade de libertate.

3.7. Analiza şi interpretarea variabilei reziduale

În modelul liniar de regresie, reprezintă variabila reziduală, iar ei sau măsoară ecartul dintre valoarea reală yi

şi valoarea ajustată prin modelul de regresie. Definim .

Pentru a stabili o estimaţie pentru cei doi parametri ai dreptei de regresie vom determina o estimaţie pentru dispersia variabilei reziduale, cu următoarele proprietăţi:

- Pentru seria ecarturilor, suma termenilor acesteia este egală cu zero. Vom scrie în acest caz următoarea

egalitate: .

Vom ţine seama de formula de calcul a ecartului, de formula estimatorului termenului liber şi de faptul că suma ecarturilor termenilor unei serii în raport cu media este zero, rezultând:

(3.89)Proprietatea nu este valabilă pentru seria variabilelor

reziduale, ci numai în cazul în care este îndeplinită ipoteza pentru toţi indicii i.

86

Page 87: Econometrie

Capitolul 3 Regresia liniară simplă

Vom exprima ecartul unei valori faţă de valoarea ajustată în funcţie de variabila reziduală, rezultând egalităţile:

(3.90)Considerând relaţiile , şi

, obţinem:

. (3.91)

- Dispersia variabilei reziduale pentru modelul clasic de regresie (parametrii sunt estimaţi prin metoda celor mai mici pătrate) este estimată prin relaţia:

. (3.92)

Vom lua în consideraţie ipotezele ce stau la baza modelului clasic de regresie: , ,

şi pentru toţi indicii i. Calculând ei

2 şi aplicând operatorul de medie, rezultă pentru fiecare indice i egalitatea:

.(3.93)

Utilizând operatorul de însumare, ţinând seama de proprietăţile seriei , obţinem:

. (3.94)

87

Page 88: Econometrie

Elemente de econometrie

Determinăm estimatorul variaţiei reziduale, ce se

compară cu estimatorul , estimator nedeplasat.

- Pentru modelul liniar de regresie, mărimea dispersiei seriei ecarturilor este cu atât mai mare cu cât seria valorilor caracteristicii rezultative este mai mare, dar mai mică dacă dependenţa dintre cele două caracteristici este mai puternică.

Între dispersia seriei ecarturilor, a valorilor caracteristicii endogene şi coeficientul liniar de corelaţie se verifică egalitatea:

. (3.95)Vom demonstra ultima relaţie ţinând seamă de faptul

că, în cazul în care între cele două variabile dependenţa este

liniară, , unde SPT = SPR + SPE. Deoarece

şi din formula de calcul a dispersiei variabilei

reziduale obţinem:

(3.96)

S-a calculat dispersia ecarturilor prin formula:

. (3.97)

- Din ipoteza de normalitate a reziduului, rezultă:

(3.98)

Se poate determina un interval de încredere pentru dispersia variabilei reziduale dacă se fixează un prag de semnificaţie , intervalul de încredere fiind:

88

Page 89: Econometrie

Capitolul 3 Regresia liniară simplă

. (3.99)

şi sunt valori furnizate de repartiţia pentru n-2 grade de libertate şi un prag de semnificaţie stabilit.

Prin reprezentarea grafică a punctelor de coordonate , putem verifica empiric dacă este îndeplinită

ipoteza de homoscedasticitate. Prin reprezentarea grafică a seriei de date apar două cazuri: dacă punctele definesc un nor de puncte, atunci nu este satisfăcută ipoteza de homoscedasticitate; iar când punctele sunt dispuse sub forma unei benzi orizontale, ipoteza este valabilă pentru seria de date .

89

Page 90: Econometrie

Capitolul 4

Estimatori si metode de estimare

În precedentele capitole am subliniat faptul că parametrii populaţiei erau necunoscuţi. Am văzut că pot fi estimaţi cu două modalităţi: estimatorul punctual şi intervalul de încredere. Există multe situaţii în care precizarea unui anumit interval pentru un parametru necunoscut nu este suficientă şi se impune calculul unor estimări punctuale. Atunci când selectăm un estimator punctual, considerăm că estimarea obţinută este, într-un anumit sens, o estimare „bună”. Odată definit ceea ce înţelegem printr-un estimator „bun”, apare o problemă legată de cum ar trebui să identificăm astfel de estimatori

În vederea considerării unor proprietăţi ale estimatorilor, vom considera mai multe valori pentru o variabilă aleatorie, X. Valorile X sunt definite prin distribuţii probabilistice. Să presupunem că respectiva populaţie deţine, printre caracteristicile sale, şi parametrul θ. θ poate fi, de exemplu, media populaţiei sau dispersia populaţiei.

Să presupunem că θ trebuie să fie estimat dintr-un eşantion aleatoriu de n observări asupra lui X , pe care îl reprezentăm sub forma (X1, X2, X3......Xn). Prin urmare, Xi

reprezintă observarea „i”. Vom utiliza simbolul θ ca estimator al lui θ adevărat. Un astfel de estimator se va reda printr-o expresie sau formulă care implică unele sau toate valorile Xi. Aceasta înseamnă că va fi o funcţie a observărilor, respectiv:

Page 91: Econometrie

Capitolul 4 Estimatori şi metode de estimare

(4.1)

De exemplu, dacă ar fi media populaţiei, atunci

un posibil estimator ar fi media eşantionului, care este o funcţie a tuturor valorilor Xi. Aceasta înseamnă :

Atunci când ne referim la relaţii de genul celei din (4.1) cu titlul de estimatori, deşi de fapt nu facem decât să substituim valorile de eşantion în astfel de formule, este denumit estimator numărul unitar pe care îl obţinem astfel.

Este important de reţinut faptul că toţi estimatorii ca cel dat de (4.1) vor avea distribuţii de selecţie. Dacă sunt extrase mai multe astfel de eşantioane, obţinem o distribuţie

de valori pentru , cu propia sa medie E( ) şi dispersie E[

-E( )].

4.1. Estimatori pentru eşantioane mici

Proprietăţile estimatorilor se pot grupa, în funcţie de mărimea eşantionului, în două categorii: estimatori pentru eşantioane mici şi estimatori pentru eşantioane mari, sau asimptotice.

4.1.1. Estimator nedeplasat

Prima proprietate de mic eşantion pe care am dori să o deţină estimatorii este aceea de a fi eşantion nedeplasat. Am abordat acest aspect anterior în legătură cu media şi variaţia populaţiei.

91

Page 92: Econometrie

Elemente de econometrie

În general, se spune că un estimator este

un estimator nedeplasat al parametrului θ dacă:

E( ) = θ

(4.2)

Figura 4.1. Estimatorul nedeplasat

Dacă un estimator ca cel dat de (4.2) nu este adevărat atunci este definit ca fiind un estimator deplasat. Diferenţa

dintre E( ) şi θ este cunoscută sub denumirea de deplasare

(bias). Aceasta se exprimă astfel:

Bias ( ) = E( ) – θ (4.3)

Dacă tinde să se situeze peste θ „în medie” în

cazul mai multor eşantioane, atunci deplasarea este pozitivă.

92

Page 93: Econometrie

Capitolul 4 Estimatori şi metode de estimare

Dacă tinde să se situeze sub θ „în medie” în cazul mai

multor eşantioane, atunci deplasarea este negativă.Am întâlnit anterior exemple de estimatori deplasaţi şi

nedeplasaţi. Să ne amintim că media eşantionului, este un estimator nedeplasat pentru media populaţiei, μ, deoarece E(

) = μ. Totuşi, dispersia eşantionului, v2 , este un estimator deplasat pentru dispersia populaţiei, σ2 , deoarece E(v2) ≠ σ2 . În acest caz deplasarea a fost negativă deoarece v2 tinde să se situeze sub valoarea σ2.

În practică nu extragem decât un eşantion. Dacă am fi extras „mai multe” eşantioane am fi obţinut, „în medie”, răspunsul corect. Chiar dacă estimatorul nostru este nedeplasat, pentru unicul eşantion pe care l-am extras există,

prin urmare, o probabilitate de a obţine a valoare a undeva

departe de adevăratul θ. Este de preferat un estimator care în afară de a fi

nedeplasat, să prezinte şi o dispersie mică, adică dispersia distribuţiei de selecţie să fie cât mai mică posibil.

4.1.2. Eficienţa

Despre un estimator se spune că este un

estimator eficient al parametrului θ dacă (a) este

nedeplasat, respectiv E( ) = θ şi (b) nu există nici

un alt estimator nedeplasat al lui θ care să prezinte o dispersie mai mică.

Pentru stabilirea unui estimator eficient, trebuie să minimizăm probabilitatea de a obţine o estimare diferită de adevăratul θ. De reţinut faptul că, înainte de a putea fi eficient, un estimator trebuie să fie nedeplasat. Din acest

93

Page 94: Econometrie

Elemente de econometrie

motiv, un estimator eficient mai este uneori denumit şi cel mai bun estimator nedeplasat.

Demonstrarea eficienţei unui estimator nedeplasat implică verificarea dispersiei sale care trebuie să fie minimă în raport cu dispersiile tuturor celorlalţi estimatori nedeplasaţi. Din punct de vedere matematic, aceasta reprezintă o sarcină cu mult mai grea şi, din acest motiv, cuvântul „eficienţă” este utilizat şi în sens relativ. De exemplu, media eşantionului, reprezintă un estimator nedeplasat al mediei populaţiei, μ. Un estimator nedeplasat alternativ pentru μ este:

în care XL şi XS reprezintă cea mai mare, respectiv cea mai mică observare din cadrul eşantionului extras. Dacă sunt extrase multe eşantioane, se constată că variaţia lui este mai mică decât variaţia lui (distribuţiile lor de selecţie sunt ilustrate în Figura 4.2)

94

Page 95: Econometrie

Capitolul 4 Estimatori şi metode de estimare

Figura 4.2. Distribuţia de selecţie

Prin urmare, se spune despre că este relativ mai eficient decât . Prin aceasta, apreciem că dacă estimăm valoarea lui μ prin , va exista o probabilitate mai mică de a obţine o estimare „la mare distanţă” de μ decât în cazul în care am fi recurs la utilizarea estimatorului .

Dificultatea de a găsi acel estimator eficient se referă la faptul că, frecvent, se limitează pentru eficienţă la un subset al tuturor estimatorilor nedeplasaţi. Aceasta se datorează faptului că, de regulă, este mult mai uşor să găseşti cel mai eficient estimator printre toţi estimatorii liniari nedeplasaţi.

Un estimator liniar este acel estimator care poate fi exprimat printr-o funcţie liniară. Aceasta înseamnă că are forma următoare:

= a1X1 + a2X2 + a3X3 + .........anXn (4.4)

95

Page 96: Econometrie

Elemente de econometrie

în care valorile a sunt valori constante. De exemplu, media eşantionului, reprezintă un estimator liniar al mediei populaţiei, deoarece poate fi exprimat sub forma:

Nu există nici un motiv pentru care un estimator liniar ar trebui să fie cu necesitate un estimator „bun”, indiferent de sens. Deoarece valorile a din (4.4) ar putea lua orice valori, un astfel de estimator ar putea să fie serios deplasat. Totuşi, avantajul prezentat de estimatorii liniari constă în aceea că, din punct de vedere matematic, este mult mai uşor de lucrat cu aceştia decât cu estimatorii non-liniari.

4.1.3. Estimatorul BLUE liniar nedeplasat şi eficient

Despre un estimator se spune că este cel

mai bun estimator (BLUE) al parametrului θ dacă (a) este un estimator liniar, (b) este nedeplasat şi (c) nu există nici un alt estimator nedeplasat care să prezinte o dispersie mai mică.

Un BLUE nu este cu necesitate „cel mai bun” estimator, deoarece este posibil să mai existe alţi estimatori non-liniari cu o variaţie mai mică decât cea aferentă unui BLUE. În multe situaţii, estimatorul eficient se poate dovedi atât de dificil de găsit încât trebuie să acceptăm un BLUE. Dacă se întâmplă ca estimatorul eficient să fie un estimator liniar, atunci estimatorul BLUE şi estimatorul eficient vor fi identici.

96

Page 97: Econometrie

Capitolul 4 Estimatori şi metode de estimare

4.1.4. Eroarea medie pătratică

Până acum am definit trei proprietăţi pe care am prefera să le posede estimatorii noştri. În esenţă, n-am preocupat de două aspecte ale estimatorilor: variaţia lor, care preferăm să fie mică, şi dacă sunt sau nu nedeplasaţi. Să presupunem că nu este posibil să găsim un estimator care să fie nedeplasat şi să aibă, în acelaşi timp, o variaţie mică. Să luăm, de exemplu, cele două distribuţii de selecţie reprezentate în Figura 4.3.

Figura 4.3. Distribuţia de selecţie

Estimatorul 1 reprezintă estimatorul eficient pentru

θ. Prin urmare, este nedeplasat dar poate să aibă o variaţie

mare. Estimatorul 2 este (uşor) deplasat dar prezintă o

variaţie mult mai mică. Pe care dintre aceşti estimatori ar

trebui să-l preferăm ? Este adevărat că, în timp ce 1 este

nedeplasat, 2 tinde permanent să supra-estimeze parametrul

97

Page 98: Econometrie

Elemente de econometrie

θ (adică prezintă o uşoară influenţă pozitivă). Constatăm că ariile de sub curbele din Figura 4.3 sunt probabilistice. De aceea, pentru unicul eşantion extras suntem de departe mult mai în măsură să obţinem o estimare „departe” de adevăratul

θ dacă utilizăm 2.

În acest punct să definim eroare pătratului mediei unui estimator. Ca şi variaţia, eroarea pătratului mediei se raportează la dispersia distribuţiei de selecţie a unui estimator. În timp ce variaţia măsoară dispersia în jurul unei valori previzionate a estimatorului, eroarea pătratului mediei măsoară dispersia în jurul valorii reale a parametrului care este estimat.

Eroarea medie pătratică (MSE) este definită ca fiind:

MSE ( ) = E( - θ)2 (4.5)

Întrucât Var ( ) = E[ - E( )]2, variaţia şi MSE

vor avea aceeaşi valoare numai dacă E( ) = θ. Altfel spus,

numai dacă estimatorul este nedeplasat. În caz contrar, corelaţia dintre MSE şi variaţia poate fi prezentată sub forma:

MSE ( ) = Var ( ) + [Bias ( )]2 (4.6)

în care bias-ul este dat de (4.3). Astfel, MSE reprezintă suma dintre variaţie şi pătratul influenţei.

Din (4.6) deducem că MSE ne oferă o cale de formalizare şi compensarea între varianta de a avea o influenţă mică şi cea de a avea o variaţie mică. Pe cât posibil, selectăm estimatorul cu cea mai mică eroare a pătratului

98

Page 99: Econometrie

Capitolul 4 Estimatori şi metode de estimare

mediei. În acest fel, putem evita posibilitatea de a ne confrunta fie cu o influenţă prea mare, fie cu o variaţie prea mare. De asemenea, întrucât MSE reprezintă pătratul diferenţei medii dintre valoarea unui estimator şi valoarea reală a parametrului, minimizarea sa reprezintă o preocupare. Când doi estimatori sunt nedeplasaţi atunci, întrucât variaţiile şi MSE-urile sunt identice, a alege estimatorul cu cea mai mică MSE echivalează cu selectarea celui mai eficient estimator.

În abordarea proprietăţilor nu am făcut nici o referire la dimensiunile eşantionului extras. Dimensiunile eşantionului ar fi putut fi

4.2. Metode de estimarePână în acest moment am alocat mai mult spaţiu

descrierii proprietăţilor pe care am prefera să le aibă estimatorii fără ca, virtual, să nu spunem ceva despre cum obţinem aceşti estimatori. Există trei metode de bază pentru obţinerea estimatorilor, pe care le vom aborda în continuare.

4.2.1. Metoda momentelorDacă avem o mulţime de valori pentru o

variabilă aleatorie X, atunci cantitatea E(Xr) este cunoscută ca fiind al r-lea moment al populaţiei din preajma lui zero.

De exemplu, E(X), media populaţiei, este primul moment centrat, în timp ce E(X2) este al doilea moment centrat şi aşa mai departe.

Dacă media populaţiei E(X)=μ, atunci cantitatea E(X – μ)r este cunoscută sub denumirea ca fiind r-lea moment al populaţiei din preajma mediei. De exemplu, dispersia

99

Page 100: Econometrie

Elemente de econometrie

populaţiei, E(X – μ)2 este de asemenea cunoscută ca fiind al doilea moment în preajma mediei.

Fiind dat un eşantion de observări (X1, X2,X3,.......Xn), definim al r-lea moment al eşantionului din preajma lui zero prin . Media eşantionului este primul moment al eşantionului centrat .

În cadrul metodei momentelor, estimăm pur şi simplu momentele populaţiei din preajma lui zero şi a mediei, prin momentele corespunzătoare ale eşantionului. De exemplu, estimăm media populaţiei prin media eşantionului, , şi variaţia populaţiei prin variaţia eşantionului, v2, conform definiţiei de mai sus.

Este posibil să se demonstreze că:

În condiţii foarte generale, momentele eşantionului reprezintă estimatori compatibili ai momentelor corespunzătoare ale populaţiei.

Momentele eşantionului nu sunt cu necesitate estimatori nedeplasaţi.

În acest punct trebuie să remarcăm faptul că, aşa cum o variaţie de eşantion este un estimator compatibil al variaţiei populaţiei, tot aşa se poate demonstra că o co-variaţie a eşantionului este un estimator

compatibil al co-variaţiei populaţiei .

4.2.2. Metoda celor mai mici pătrate

Am recurs deja la această metodă de estimare în capitolul referitor la regresia de două variabile. Aceasta este o metodă generală de estimare a momentelor populaţiei centrat .

100

Page 101: Econometrie

Capitolul 4 Estimatori şi metode de estimare

Să considerăm al r-lea moment al populaţiei centrat , E(Xr), care se scrie, în general, sub forma μr.

În cazul metodei celor mai mici pătrate estimăm valoarea μr prin selectarea acelei valori care minimizează

suma pătratelor .

De exemplu, selectăm o valoare μ astfel încât să minimizăm

S = (4.12)

Pentru a minimiza (4.12) trebuie să facem calculul diferenţial în legătură cu μ şi să stabilim resultanta ....? egală cu zero. Aceasta conduce la relaţiile:

sau

(4.13)

Calculul din (4.13) pentru μ ne conduce la estimatorul

celor mai mici pătrate, desemnat prin , sub forma:

=

Calculăm apoi derivata de gradul doi şi aşa mai departe. Estimatorul

celor mai mici pătrate al populaţiei este media eşantionului.Nu poate fi vorba de certitudine cu privire la faptul că

metoda celor mai mici pătrate va conduce la estimatori care să posede proprietăţile discutate anterior. Proprietăţile

101

Page 102: Econometrie

Elemente de econometrie

estimatorilor celor mai mici pătrate trebuie să fie investigate pentru fiecare caz în parte.

4.2.3. Estimarea probabilităţii maxime

O metodă de estimare utilizată în econometrie este metoda probabilităţii maxime.

Pentru o înţelegere intuitivă a acestei metode, presupunem că avem o populaţie de muncitori într-o industrie care sunt fie în favoarea, fie contra unei acţiuni industriale într-o anumită problemă. Dorim să estimăm proporţia π a acelor muncitori care sunt în favoarea respectivei acţiuni. Să presupunem că extragem un eşantion aleatoriu de 17 muncitori din respectiva industrie şi constatăm că numai 2 dintre aceştia sunt în favoarea acţiunii.

În lumina acestei dovezi dată de eşantion, vom considera valori posibile pentru proporţia π în cadrul populaţiei. Pare extrem de puţin probabil ca o valoare π = 0,8 (80% în favoarea acţiunii), să fi condus la evidenţa eşantionului respectiv. Pare tot puţin probabil ca valoarea π = 0,5 să fie putut conduce la o astfel de situaţie. Este evident că o valoare π = 0,1 prezintă de departe cea mai mare „probabilitate” de a fi generat rezultatul eşantionului menţionat mai sus. În termeni curenţi, estimatorul probabilităţii maxime al valorii π este acea valoare care este „cea mai probabilă” sau prezintă „probabilitatea maximă” de a genera rezultatul dat de eşantion, respectiv 2 din 17 muncitori care sunt în favoarea acţiunii industriale. Această valoare a lui π care are cea mai mare probabilitate de a genera eşantionul este cea pe care am obţinut-o de fapt.

Întrucât muncitorii din cadrul populaţiei sunt fie pentru, fie împotriva unei acţiuni industriale, numărul de muncitori din cadrul eşantionului nostru care sunt în favoarea acestei acţiuni trebuie să aibă o distribuţie binomilă.

102

Page 103: Econometrie

Capitolul 4 Estimatori şi metode de estimare

Substituind n = 17 şi X = 2 (numărul celor în favoarea acţiunii) în (2.7) obţinem:Pr = Pr(2 muncitori în favoare în eşantionul de 17) = 136(π)2(1- π )15

(4.14)

Ceea ce ne spune (4.14) este faptul că probabilitatea de a obţine eşantionul pe care l-am obţinut depinde de proporţia necunoscută, π, a populaţiei. De exemplu, dacă π = 0,8, atunci (4.14) conduce la probabilitatea de Pr = 0,285 x 10-8. Aceasta nu face decât să verifice ceea ce am sugerat mai sus – faptul că este foarte puţin probabil ca eşantionul nostru să fi putut fi generat de o populaţie având π = 0,8.

De o manieră similară, dacă π = 0,5, (4.14) conduce la probabilitatea Pr = 0,00104, o valoare ceva mai mare decât cea pentru π = 0,8 dar în continuare foarte mică. În schimb, dacă π = 0,1, (4.14) conduce la o probabilitate mult mai mare, rspectiv Pr = 0,280. Aceasta verifică încă una dintre sugestiile de mai sus – aceea conform căreia o valoare π = 0,1 are de departe o probabilitate mult mai mare de a genera eşantionul dat.

MLE reprezintă acea valoare π care minimizează probabilitatea obţinută din (4.14). Funcţia (4.14) este prezentată grafic în Figura 4.4. Se poate observa că probabilitatea maximă (Pr maxim) survine de fapt atunci când π ia o valoare uşor mai mare decât 0,1.

103

Page 104: Econometrie

Elemente de econometrie

Figura 4.4. Funcţia MLE

Pentru a găsi valoarea exactă a lui π care să maximizeze (4.14), respectiv, valoarea exactă a MLE, calculăm diferenţialul lui Pr în raport cu π şi stabilim derivata rezultantă egală cu zero. Aceasta înseamnă că, utilizând regula pentru produse de diferenţiale, obţinem:

Rezultă că:

(4.15)

104

Page 105: Econometrie

Capitolul 4 Estimatori şi metode de estimare

Ecuaţia (4.15) poate fi acum soluţionată pentru a se găsi acea valoare π care maximizează (4.14). Astfel,

desemnând MLE pentru π prin ,

avem:

În loc să verificăm condiţia de ordin secund pentru un maximum, putem observa din Figura 4.4 că o valoare de 0,118 maximizează de fapt (4.14) în loc de a o minimiza.

Astfel, valoarea π care este cel mai probabil să fi generat rezultatul eşantionului nostru (2 din 17 muncitori în favoarea unei acţiuni industriale) este 2/17 sau 0,118. Reţinem faptul că maximul estimării probabilităţii cu privire la proporţia populaţiei π se dovedeşte a fi proporţia eşantionului, respectiv, proporţia eşantionului care este în favoarea unei acţiuni industriale.

4.2.4. Cazul general

În general, MLE este determinat prin derivarea, mai întâi, a unei funcţii de probabilitate. Aceasta este pur şi simplu o expresie matematică pentru probabilitatea de obţinere a rezultatului unui eşantion dat. În cazul considerat, funcţia de probabilitate a fost dată de (4.14).

În mod normal, rezultatul unui eşantion va consta din n observări cunoscute, pe care le vom nota cu (X1, X2,X3,.......Xn). Dacă populaţia este caracterizată printr-un singur parametru θ, atunci probabilitatea L, de a obţine un eşantion dat depinde, în primul rînd, de valoarea θ şi, în al doilea rând, de observările exacte din cadrul eşantionului.

105

Page 106: Econometrie

Elemente de econometrie

MLE aferent parametrului θ este acea valoarea a lui θ care maximizează funcţia de probabilitate.

(4.16)

Întrucât valorile Xi sunt constante cunoscute, odată stabilită forma algebrică precisă pentru (4.16), se poate recurge apoi la calculul diferenţial pentru a se obţine acea valoare θ care maximizează L.

Cel mai adesea, populaţiile vor poseda mai mulţi parametri. Probabilitatea de a obţine un eşantion dat va depinde în acest caz de valorile tuturor paremetrilor şi observărilor pe eşantionul dat. În această situaţie funcţia de probabilitate ia o formă mai generală, respectiv:

L = L(θ1, θ2, ..... θm, X1, X2,.......Xn), (4.17)

în care există m parametri în total. MLE-urile aferente parametrilor m pot fi stabilite prin calculul diferenţial parţial aplicat (4.17) în raport cu fiecare valoare θ pe rând şi, apoi, prin stabilirea tuturor derivatelor parţiale obţinute la zero.

4.2.5. Exemplu cu o variabilă discontinuă

Să presupunem că populaţia noastră cuprinde valorile unei variabile discontinue X care prezintă distribuţia probabilistică geometrică. Aceasta înseamnă:

p(X) = (1 – θ)θX, 0 < θ < 1 (4.18)

Ne situăm în cazul unei variante în care populaţia este caracterizată printr-un singur parametru, θ. Dorim să stabilim MLE aferent parametrului θ. Să presupunem că avem un eşantion de n observări aleatorii asupra lui X , pe care le

106

Page 107: Econometrie

Capitolul 4 Estimatori şi metode de estimare

scriem sub forma (X1, X2,X3,.......Xn). Utilizând (4.18), probabilitatea de a obţine observaţia i în cadrul eşantionului este dată de formula:

p(Xi) = (1 – θ) i = 1, 2, 3, , n (4.19)

Pentru un eşantion aleatoriu, cele n observări vor fi, toate, valori independente. Prin urmare, putem scrie probabilitatea obţinerii celor n observări sub forma:

L =p(X1)p(X2)p(X3)...........p(Xn)

sau, utilizînd (4.19):

(4.20)

Ecuaţia (4.20) este cea care oferă funcţia de probabilitate în acest caz. Valoarea MLE pentru θ este acea valoare a lui θ care maximizează (4.20).

Valorile Xi sunt valori cunoscute. Condiţia de prim ordin pentru un L maxim este prin urmare dL/dθ = 0. Aplicarea calculului diferenţial pentru L, aşa cum se prezintă, este anevoioasă şi, de aceea, este util ca în prealabil să stabilim logaritmul lui L. Acesta este de forma:

l=ln(L)= +

(4.21)

107

Page 108: Econometrie

Elemente de econometrie

Întrucât cu cât l =ln(L) este mai mare, cu atât mai mare este şi L, valoarea lui θ care maximizează (4.21) trebuie să maximizeze şi (4.20), respectiv funcţia de probabilitate.

Prin urmare, putem să stabilim valoarea MLE pentru θ prin maximizarea (4.21), aşa-numita funcţie de probabilitate logaritmică.

Aceasta se dovedeşte a fi o sarcină mai puţin anevoioasă decât maximizarea funcţiei de probabilitate originale.

Pentru a maximiza (4.21) se calculează diferenţialul în raport cu θ şi se stabileşte derivata rezultată la zero. Astfel:

sau

(4.22)

Ecuaţia (4.22) poate fi folosită acum pentru soluţionarea problemei legată de stabilirea MLE pentru θ,

notat prin :

(4.23)

unde este media eşantionului.

Ecuaţia (4.23) poate părea un estimator ciudat pentru parametrul θ. Totuşi, se poate demonstra că media distribuţiei

108

Page 109: Econometrie

Capitolul 4 Estimatori şi metode de estimare

geometrice (4.19) este E(X) = θ/(1 – θ). Prin re-aranjare se obţine valoarea adevărată a parametrului θ, sub forma:

(4.24)

Acum se poate observa că expresia pentru MLE (4.23) este analogul relaţiei populaţiei (4.24).

4.2.6. Exemplu cu o variabilă continuă

Dacă o variabilă aleatorie, X, este o variabilă continuă, atunci este mai indicat ca distribuţia sa probabilistică p(X) să fie denumită funcţie a densităţii probabilistice.

Să presupunem că avem o mulţime de valori pentru o variabilă continuă, X, care este dată de distribuţia exponenţială negativă. Aceasta înseamnă:

p(X) = θe-θX (4.25)

Şi în acest caz dorim să stabilim valoarea MLE pentru parametrul θ. Dacă din această populaţie se extrage un eşantion aleatoriu de mărime n, atunci, ca şi în cazul variabilelor discontinui, putem considera o funcţie de probabilitate pentru observările de eşantion, Xi :

L=p(X1)p(X2)p(X3)...........p(Xn) (4.26)

Întrucât acum lucrăm cu o variabilă continuă, nu putem considera că (4.25) ne oferă probabilitatea obţinerii celor n valori ale eşantionului. În schimb, (4.26) ne indică

109

Page 110: Econometrie

Elemente de econometrie

densitatea probabilistică din preajma acestor valori de eşantion. Această densitate probabilistică depinde în continuare de valoarea parametrului θ şi, prin urmare, a alege acea valoare θ care o maximizează capătă sens. Aceasta înseamnă că MLE pentru θ continuă să fie definit ca acea valoare θ care maximizează funcţia de probabilitate.

Utilizând ecuaţia (4.25) pentru substituire în (4.26) forma exactă a funcţiei de probabilitate în acest caz devine.

L = Şi de această dată este mai convenabil să se lucreze în

termeni de funcţie logaritmică de probabilitate:

sau

(4.27)

Ca şi în cazul exemplului precedent, maximizarea lui l echivalează cu maximizarea lui L. Prin urmare, MLE pentru θ poate fi obţinut prin calcularea diferenţialului în raport cu θ şi stabilirea derivatei rezultată la zero. Aceasta conduce la:

(4.28)

Soluţionând (4.28) pentru θ, obţinem MLE sub forma:

(4.29)

110

Page 111: Econometrie

Capitolul 4 Estimatori şi metode de estimare

unde este media eşantionului.

4.2.7. Exemplu cu doi parametri

Toate exemplele de probabilitate maximă pe care le-am luat în consideraţie până acum au implicat numai un singur parametru al populaţiei. Totuşi, după cum indică (4.17), metoda poate fi utilizată pentru estimarea mai multor parametri simultan.

Ca exemplu de estimare simultană pentru 2 parametri, să presupunem că avem o populaţie distribuită normal, de valori X, cu media μ şi variaţia σ2. Se urmăreşte stabilirea MLE pentru μ şi σ2.

Întrucât ln(e) = 1, aceasta înseamnă că:

= (4.30)

Funcţia de probabilitate pentru un eşantion aleatoriu de n observări asupra lui X are, ca de obicei, forma (4.26). Prin urmare, funcţia logaritmică de probabilitate are forma:

(4.31)

Utilizând (4.30), rezultă:

111

Page 112: Econometrie

Elemente de econometrie

=

(4.32)

În condiţiile observărilor de eşantion date, l este o funcţie de doi parametri, μ şi σ2.

Pentru a maximiza probabilitatea logaritmică, recurgem prin urmare la diferenţiale parţiale (4.32) în raport cu μ şi σ2 şi stabilim derivatele obţinute:

(4.33)

şi

(4.34)

Ecuaţiile (4.33) şi (4.34) reprezintă două ecuaţii pentru cele două necunoscute, μ şi σ2, care pot fi soluţionate pentru stabilirea MLE. În primul rând, întrucât σ2 trebuie să fie diferit de zero, din (4.33) obţinem:

sau

Soluţionând această ecuaţie pentru μ obţinem MLE sub forma:

(4.35)

112

Page 113: Econometrie

Capitolul 4 Estimatori şi metode de estimare

Astfel, estimatorul probabilităţii maxime a mediei unei populaţii, μ, este media eşantionului, .

Pentru a soluţiona σ2, înmulţim (4.34) cu 2σ4

obţinând:

Ştim că , şi rezultă că MLE pentru σ2 are

forma:

(4.36)

113

Page 114: Econometrie

Capitolul 5

Unele precizări privind modelul clasic al regresiei cu două

variabile

În prezentarea anterioară am avut în vedere utilizarea estimatorilor celor mai mici pătrate regulate (OLS = ordinary least squares) în analiza regresiei de două variabile. Am sublniat faptul că estimările obţinute prin metoda celor mai mici pătrate regulate din orice set de date sunt specifice respectivului set de date. Eşantioane diferite vor conduce la estimări diferite. Aceasta înseamnă că estimatorii OLS sunt afectaţi de variabilitatea eşantionării şi deţin distribuţii de selecţie. Subliniem încă o dată faptul că nu există nici o garanţie în sensul că estimatorii OLS şi distribuţiile lor de selecţie vor prezenta vreuna dintre proprietăţile dorite. Nu există nici un motiv pentru care estimatorii OLS ar trebui să fie cu necesitate, de exemplu, nedeplasaţi sau compatibili. Situaţia ar fi diferită dacă se poate demonstra că anumite condiţii se susţin.

5.1. Ipotezele modelului clasic al regresiei de două variabile

Modelul clasic al regresiei de două variabile s-a dezvoltat la începutul secolului trecut pentru a fi utilizat în ştiinţele fizice. După cum vom vedea, multe dintre ipotezele pe care este clădit sunt neadecvate atunci când se lucrează cu date privind ştiinţele sociale.

Page 115: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

Modelul clasic de referinţă reprezintă o corelaţie în care variabila dependentă, Y, este dependentă liniar de variabila explicativă, X, dar este influenţată şi de rezidualul ε. Prin urmare, avem:

Yi = α + βXi + εi pentru toate valorile i (5.1)

Când revenim la modelul clasic trebuie să recurgem la o serie de ipoteze, în primul rând referitoare la variabila explicativă şi, în al doilea rând, referitoare la REZIDUU.

5.1.1. Ipoteze cu privire la variabila explicativă

În modelul clasic se porneşte de la prezumţia că variabila explicativă:

Ipoteza A - este non-stochastică;Ipoteza B - are valori care sunt fixe în eşantioane

repetate;Ipoteza C - este de o asemenea natură încât, pe

măsură de n → ∞, variaţia sa , unde Q este o constantă finită fixă.

Aceste prezumţii vor necesita unele explicaţii. O variabilă stochastică este pur şi simplu o variabilă ale cărei valori sunt determinate de un mecanism întâmplător şi, de aceea, fac obiectul unei distribuţii probabilistice. Prin urmare, o variabilă non-stochastică are valori care nu sunt determinate la întâmplare. În contextul modelului clasic, aceasta presupune că valorile variabilei explicative X, sunt de fapt determinate de un cercetător. Amintim că acest model a fost dezvoltat pentru necesităţile ştiinţelor exacte, acolo unde experimentele de laborator sunt posibile. În astfel de condiţii, este rezonabil să se postuleze ca în cazul în care se selecţionează valorile pentru variabila X urmăreşte scopul

115

Page 116: Econometrie

Elemente de econometrie

experimentului. Ipoteza A presupune că valorile variabilei X au fost alese în acest fel. Desigur, în ştiinţele economice sociale este dificil să se efectueze experimente de laborator.

În acest punct ar trebui să se observe că, chiar dacă variabila X este non-stochastică, nu acelaşi lucru este valabil şi pentru variabila Y. Se poate constata că valorile lui Y depind nu numai de valorile lui X dar şi de valorile rezidualului. Întrucât rezidualul este în afara posibilităţii de control, variabila Y este stochastică, extrăgându-şi natura din cea a rezidualului.

Ipoteza B se referă la ce s-ar fi întâmplat în situaţia în care s-ar fi extras mai multe eşantioane. Se presupune că, dacă ar repeta experimentul, cercetătorul ar alege exact acelaşi set al valorilor X în fiecare împrejurare de acest fel. Aceasta înseamnă că în fiecare eşantion extras valorile X rămân neschimbate.

Faptul că valorile lui Y variază de la eşantion la eşantion înseamnă că diferitele eşantioane vor conduce în continuare la valori diferite ale estimatorilor OLS. Prin urmare, distribuţiile de selecţie pentru estimatorii OLS vor exista în continuare deşi ele trebuie privite ca survenind atunci când sunt extrase multe eşantioane cu acelaşi set de valori X.

Relevanţa ipotezei C presupune că, dacă dimensiunea eşantionului ar fi mărită, variaţia nu ar creşte nelimitat. Este clar că, pe măsură ce n creşte, suma pătratelor

trebuie să crească, întrucât avem mai multe valori de însumat. Nu este nevoie ca acest lucru să fie adevărat şi pentru , cu condiţia ca cercetătorul să fie atent cu valorile X pe care le alege.

Multe variabile economice prezintă trenduri ascendente continue. În astfel de cazuri, pe măsură ce

116

Page 117: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

dimensiunea eşantionului disponibil creşte iar acesta include tot mai multe perioade de timp, variaţia lui X, respectiv

, creşte la rândul său continuu, astfel încât ipoteza C nu se confirmă. Atunci, importanţa unor astfel de ipoteze constă în aceea că ele guvernează variabilele factoriale care manifestă trenduri semnificative. După cum vom vedea, apar probleme în a emite ipoteze în legătură cu acele corelaţii în cadrul cărora variabila explicativă prezintă un trend puternic.

5.1.2. Ipoteze cu privire la factor rezidual

În modelul clasic se porneşte de la ideea că rezidualul ε are următoarele proprietăţi:

(IIA) E(εi) = 0 pentru toate valorile i ;

(IIB) Var(εi) = E(εi - Eεi )2 = E = σ2 = constantă

pentru toate valorile i ;(IIC) Cov (εi, εj) = E(εi - Eεi ) (εj – Eεj ) = E (εi, εj) = 0

pentru toate valorile i ≠ j;(IID) Fiecare factor rezidual εi este distribuit normal

Aceste ipoteze se pot înţelege din Figura 5.1, în care s-a trasat linia de regresie a populaţiei, X6 reprezintă valoarea variabilei explicative, X, rezultată din cea de a şasea observare.

În condiţiile ipotezelor IA şi IB, X6 nu variază de la eşantion la eşantion.

117

Page 118: Econometrie

Elemente de econometrie

Figura 5.1. Ipoteze privind factorul rezidualRezidualul reprezintă distanţa verticală a unor astfel

de puncte de pe linia de regresie. Distanţa punctelor de pe linia X6 în raport cu linia populaţiei reprezintă, prin urmare, diferitele valori pentru ε6 , respectiv rezidualul asociat celei de a 6-a observări. Ipoteza IIA afirmă că în cazul mai multor eşantioane extrase, media unor astfel de reziduale este zero. Similar este de presupus că şi media valorilor reziduale ε3, ε12 etc., asociate cu valorile fixe X3, X12 etc., este zero. Această ipoteză implică faptul că, pentru oricare dintre liniile de valori fixe Xi, punctele obţinute atunci când se extrag, în mod repetat, eşantioane, sunt uniform repartizate deasupra şi sub linia de regresie.

Ipoteza IIB precizează că variaţia tuturor valorilor ε6

care ar putea fi obţinute dacă s-ar extrage eşantioane repetate, este identică cu variaţia tuturor valorilor ε3 obţinute care, la rândul său este este identică cu variaţia valorilor ε12

etc. Această variaţie constantă este redată prin simbolul σ2 . Reamintim că variaţia este o măsură a dispersiei sau împrăştierii unei distribuţii. Prin urmare, ipoteza IIB

118

Page 119: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

presupune că, atunci când se extrag multe eşantioane, dispersia punctelor din preajma liniei de regresie este aceeaşi pentru fiecare dintre valorile X.

Atunci cînd valorile reziduale se încadrează în ipoteza IIB, sunt denumite homoschedastice. Această ipoteză nu este întotdeauna valabilă pentru datele economice. Când este vorba de o mare variaţie a valorilor X, există tendinţa ca, în loc să rămână constante, variaţia rezidualului să crească pe măsură ce mărimea X creşte. Atunci când variaţia lor nu este constantă, valorile reziduale sunt denumite heteroschedastice.

Ipoteza IIC afirmă că între oricare două reziduale covariaţia şi, prin urmare, corelaţia este zero. Atunci când această ipoteză se susţine, valorile reziduale sunt denumite non-autocorelate. Această prezumţie presupune că, atunci când se extrag eşantioane repetate, nu există nici o tendinţă ca eşantioanele cu, valori pozitive mari pentru ε6 să prezinte, de asemenea, valori mari pentru ε3. Se elimină, de asemenea, şi corelaţiile negative. Nu trebuie să existe tendinţa ca valorile ε3 pozitive să fie asociate unor valori ε12 negative.

Ipoteza IID afirmă că valorile ε6 care s-ar obţine dintr-o selecţie repetată sunt distribuite normal în jurul mediei lor, respectiv zero, situaţie similară pentru toţi ceilalţi reziduali. Principala implicaţie a acestei afirmaţii este aceea că probabilitatea de a obţine reziduali „mici” este mult mai mare decât aceea de a obţine reziduali „mari”. Prin urmare există o probabilitate mai mare de a obţine puncte apropiate de linia de regresie decât probabilitatea de a obţine puncte îndepărtate de aceasta.

119

Page 120: Econometrie

Elemente de econometrie

Ipotezele IIA - IID pot fi sintetizate în afirmaţia conform căreia rezidualii εi sunt normal şi independent distribuiţi cu o medie zero şi o variaţie constantă σ2 . Aceasta înseamnă că:

εi este NID (0, σ2) pentru toate valorile i

(5.2)

5.2. Proprietăţile estimatorilor OLSExceptând ipotezele IIA şi IID, toate ipotezele

referitoare la modelul clasic sunt neverosimile atunci când se aplică datelor economice. Dacă estimatorii OLS dispun de proprietăţile amintite atunci este necesar ca măcar unele dintre ipotezele clasice să fie valabile. Se impune să stabilim o expresie alternativă pentru estimatorul OLS al pantei liniei de regresie a populaţiei, β, respectiv:

întrucât ?

unde:

pentru toate valorile i (5.4)

şi

(5.5)

De reţinut că, deoarece , iar ,

(5.6)

120

Page 121: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

Prin substituţie obţinem:

şi apoi

(5.7)

Ecuaţia reprezintă o expresie alternativă pentru .

Întrucât această espresie implică un factor rezidual necunoscut, ea este inutilă pentru scopuri de calculaţie însă reprezintă un aparent punct de pornire pentru o dezvoltare teoretică ulterioară.

În continuare să luăm în consideraţie proprietăţile estimatorilor OLS, concentrându-ne asupra estimatorului de

pantă, , deoarece acesta prezintă un interes mai mare decât

estimatorul intercept .

5.2.1. Liniaritatea

Pentru ca estimatorii OLS să fie estimatori liniari, este necesar a fi îndeplinite ipotezele IA şi IB. Amintim că aceste ipoteze presupun că trebuie să alegem valorile variabilei X şi că aceste valori sunt menţinute fixe pentru eşantioane repetate. Prin urmare, valorile X pot fi considerate ca fiind constante. Prin urmare, estimatorii OLS trebuie să fie numai funcţii lineare ale valorilor Y pentru a fi consideraţi estimatori lineari. Se poate observa cu uşurinţă că acest lucru este valabil în condiţiile date ale ipotezelor IA şi IB. Întrucât valorile Xi pot fi considerate a fi constante, acelaşi lucru este valabil şi pentru valorile xi. Prin urmare, şi valorile wi pot fi

121

Page 122: Econometrie

Elemente de econometrie

considerate tot constante. Astfel, rezultă că este o funcţie

liniară a lui Yi , respectiv a observărilor pe eşantion. Nu este dificil de demonstrat că, în condiţiile acestor ipoteze, şi estimatorul OLS pentru α este, de asemenea, un estimator liniar.

Reamintim că un estimator liniar nu este cu necesitate un „bun” estimator al parametrului care se estimează dar, din punct de vedere matematic, cu estimatorii liniari se lucrează mai uşor decât cu estimatorii non-liniari.

5.2.2. Nedeplasarea

Valoarea parametrilor distribuţiei de selecţie pentru estimatorii OLS este egală cu valorile reale aferente lui α şi β.

Dacă ne concentrăm atenţia asupra ecuaţiei lui , obţinem:

(5.8)

Pornind de la ipoteza că valorile wi pot fi considerate constante şi acestea pot fi neglijate şi avem:

(5.9)Conform ipotezei IIA, E(εi) = 0, pentru toate valorile

i, rezultă că:

(5.10)

Astfel, este un estimator nedeplasat al lui β.

Similar se poate demonstra că şi estimatorul OLS este un

estimator nedeplasat ale parametrului α, adică: .

122

Page 123: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

5.2.3. Compatibilitatea

Pentru a demonstra că estimatorii OLS sunt compatibili vom apela la ipotezee IA – IC şi IIA. Aceasta presupune că, pe măsură ce n → ∞, distribuţiile lor de selecţie se concentrează pe valorile reale ale parametrilor α şi β. Substituindu-l pe w1, obţinem:

(5.11)

Dacă avem în vedere limitele probabilistice, obţinem:

(5.12)

Am utilizat proprietatea limitelor probabilistice prezentată anterior şi faptul că limita probabilistică a oricărei constante este egală cu respectiva constantă, rezultând:

(5.13)

Considerând numărătorul celui de al doilea termen din partea dreaptă a ecuaţiei, rezultă:

(în condiţiile în care

)

Prin urmare, reprezintă covariaţia eşantionului între X şi ε.

În numitorul din partea dreaptă a relaţiei, reprezintă variaţia eşantionului pentru valorile X. În

123

Page 124: Econometrie

Elemente de econometrie

condiţiile date ale unui Xi non-stochastic, pentru a-i afla limita probabilistică, trebuie să luăm limita lui pe măsură ce mărimea eşantionului, n, tinde către infinit. Dar, având în vedere ipoteza IC, această limită este dată de constanta fixă Q.

Prin urmare, ecuaţia se reduce la forma:

Prin urmare, este un estimator compatibil. Aceasta

înseamnă că, pe măsură ce n → ∞, el converge probabilistic spre valoarea reală a lui β. Se poate demonstra, de asemenea,

că , astfel că estimatorul OLS, , este un estimator

compatibil al parametrului intercept α.

5.2.4. Cea mai bună nedeplasare liniară

După ce am demonstrat că, dacă ipotezele clasice referitoare la variabila explicativă şi primele două ipoteze referitoare la factor rezidual sunt valabile, atunci estimatorii OLS vor fi liniari şi nedeplasaţi. După cum am reţinut, numai nedeplasarea nu este o proprietate asiguratorie. Rezultă că pentru a considera că estimatorii OLS sunt cei mai buni estimatori liniari nedeplasaţi, vom recurge la ipotezele clasice IIB şi IIC. Aceasta înseamnă că rezidualul trebuie să prezinte o variaţie constantă şi o covariaţie zero.

O dovadă a faptului că estimatorul OLS al parametrului pantei, β, este BLUE este dificilă. Procedura de

124

Page 125: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

urmat constă în a reface estimarea, din punctul de pornire în care se situa pentru a se obţine efectiv valoarea BLUE a lui β, incorporând pe rând proprietăţile liniarităţii, neinfluenţării şi ale variaţiei minime.

Rezultă că formula pentru estimatorul BLUE astfel obţinut este identică cu expresia aferentă estimatorului OLS pentru parametrul β. Prin urmare, estimatorul OLS trebuie să fie BLUE.

Unul dintre avantajele metodei de estimare a celui mai bun estimator liniar nedeplasat constă în aceea că, atunci când se utilizează această metodă obţinem, ca un fel de sub-produs, o expresie pentru variaţia estimatorului avut în vedere. În cazul de faţă, variaţiile, scrise în mod normal sub

forma şi , sunt următoarele:

(5.14)

şi

(5.15)

unde σ2 este variaţia rezidualului.

Reamintim faptul că în cazul eşantionării repetate

obţinem distribuţii de selecţie pentru estimatorii OLS şi

.

Rădăcinile pătrate ale dispersiilor şi sunt

cunoscute sub denumirea de erori standard pentru şi,

respectiv, .

125

Page 126: Econometrie

Elemente de econometrie

5.2.5. Eficienţa (eficienţa asimptotică)

Dacă estimatorii OLS trebuie să aibă o dispersie minimă, dintre toţi estimatorii nedeplasaţi, liniari sau non-liniari, atunci se poate demonstra că ipoteza clasică IID trebuie să se susţină la rândul său.

Aceasta înseamnă că, pentru ca estimatorii OLS să fie eficienţi, toate ipotezele clasice, inclusiv cea referitoare la valorile reziduale normal distribuite, trebuie să se susţină. A dovedi acest lucru este dificil de realizat.

Întrucât eficienţa reprezintă o proprietate a unui eşantion mic, estimatorii OLS trebuie să fie eficienţi indiferent de mărimea eşantionului şi să rămână ca atare pe măsură ce mărimea eşantionului tinde spre infinit. Prin urmare, aceştia trebuie să fie şi asimptotic eficienţi. Astfel, dacă toate ipotezele clasice sunt valabile, estimatorii OLS trebuie să aibă nu numai proprietatea de mare eşantion referitoare la compatibilitate ci şi pe aceea referitoare la eficienţa asimptotică. Acest lucru presupune că, dintre toţi estimatorii compatibili, estimatorii OLS sunt cei a căror distribuţie de selecţie se concentrează pe valorile β şi α pe măsură ce dimensiunea eşantionului devine mai mare.

5.2.6. Normalitatea

Ipoteza IID, conform căreia valorile reziduale sunt distribuite normal, implică faptul că distribuţiile de selecţie

pentru şi sunt distribuţii normale.

Întrucât valorile Xi pot fi privite ca fiind constante stabilite, această ecuaţie implică faptul că fiecare valoare Yi

reprezintă suma dintre o constantă şi un factor rezidual distribuit normal. Prin adăugarea unei constante la o variabilă normal distribuită nu se modifică forma distribuţiei respectivei variabile ci distribuţia se deplasează de-a lungul

126

Page 127: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

axei orizontale. Prin urmare, fiecare valoare Yi prezintă o distribuţie normală. Dar estimatorii OLS sunt funcţii lineare ale lui Yi , având în vedere ipotezele IA şi IB. Deoarece, aşa cum am arătat anterior, orice funcţie lineară a variabilelor normal distribuite va prezenta ea însăşi o distribuţie normală,

rezultă că estimatorii OLS şi trebuie să aibă, de

asemenea, tot astfel de distribuţii.

În condiţiile în care şi sunt nedeplasaţi şi

prezintă dispersiile date, putem afirma că, dacă toate ipotezele clasice se susţin, atunci:

=> (5.16)

=> , (5.17)

unde şi sunt dispersiile cunoscute.

şi sunt importante dacă dorim să stabilim

limitele valorilor reale ale parametrilor regresiei populaţiei, β şi α.

5.2.7. Estimarea probabilităţii maxime

Odată făcută prezumţia cu privire la faptul că valorile reziduale sunt distribuite normal, devine posibilă aplicarea metodei probabilităţii maxime pentru estimarea parametrilor β şi α ai regresiei. Se impune sublinierea a două aspecte. În primul rând, estimarea probabilităţilor maxime pentru β şi α se dovedesc a fi identice cu estimatorii OLS.

127

Page 128: Econometrie

Elemente de econometrie

Astfel, în condiţiile ipotezelor clasice, estimatorii OLS sunt estimatori de probabilitate maximă.

Aceasta înseamnă că din toate valorile posibile pe care necunoscutele β şi α le-ar putea lua, cele care „par cel mai mult” a fi generat un anumit eşantion sunt cele obţinute atunci când se calculează estimatorii OLS.

În al doilea rând, metoda conduce la un estimator pentru celălalt parametru din cadrul modelului clasic cu două variabile, respectiv dispersia rezidualului, σ2 , estimator de forma:

(5.18)

reprezintă suma

pătratelor valorilor reziduale OLS. Întrucât una dintre proprietăţile acestor reziduali constă în aceea că suma lor şi, prin urmare, media lor este zero, de fapt aceasta este dispersia valorilor reziduale. Aceasta este logic deoarece, dacă considerăm rezidualii ca fiind acei estimatori care corespund unor perturbări necunoscute, este natural să estimăm dispersia perturbării prin dispersia rezidualului. Din păcate, nu este nedeplasat.

(5.19)

5.3. Unele aspecte privind regresia neliniarăAnterior am precizat proprietăţile estimatorilor OLS

şi am indicat acele ipoteze clasice necesare în cazul fiecărei proprietăţi. Apoi am văzut cum putem elabora inferenţe în

128

Page 129: Econometrie

Capitolul 5 Unele precizări privind modelul clasic…

legătură cu parametrii de regresie ai populaţiei, pornind de la premisa că ipotezele clasice se susţin. Nu se poate afirma că există o reprezentare corectă a corelaţiei reale ce se stabileşte între X şi Y. De exemplu, să presupunem că relaţia reală dintre X şi Y prezintă o formă non-liniară, astfel că ecuaţia regresiei ar fi de forma:

E(Y) = α + β ln (X) (5.20)

Este clar că nu ne putem aştepta ca estimatorii OLS care se bazează pe o linie de regresie liniară, să ofere valori sensibile pentru α şi β. Similar, dacă oricare dintre celelalte corelaţii non-liniare descrie adevărata corelaţie a populaţiei, atunci şi expresiile de calcul vor fi estimatori nevalabili. Mai mult, nu ne putem aştepta ca testul de verosimilitate să fie valabil dacă am definit greşit linia regresiei ca fiind liniară.

Dacă suntem siguri în legătură cu forma oricărei non-linearităţi din cadrul corelaţiei la nivelul populaţiei şi suntem în măsură ca, printr-o simplă transformare, să elimină non-linearitatea, atunci şi aici se pot aplica tehnicile normale. Dacă am fost în măsură să decidem asupra unei forme dublu-închisă pentru curba Engel, atunci lucrând în termeni de variabile transformate X* = ln (X) şi Y* = ln (Y), am putut să covertim curba Engel într-o formă lineară şi să calculăm ecuaţia de regresie.

Dacă suntem siguri în legătură cu specificaţia non-liniară pe care am ales-o atunci, nu numai că putem estima parametrii populaţiei de o manieră satisfăcătoare dar putem, de asemenea, să elaborăm inferenţe în ceea ce-i priveşte. De exemplu, să presupunem că în cazul curbei Engel am fi dorit să verificăm ipoteza conform căreia elasticitatea cheltuielilor pentru produse alimentare în raport cu cheltuielile totale este mai mică decât unitatea. Aceasta presupune verificarea

129

Page 130: Econometrie

Elemente de econometrie

ipotezei nule H0 : β = 1 în cadrul relaţiei de dublă închidere, în comparaţie cu alternativa HA. Pentru elasticitatea necesară

a fost , astfel că din blocurile construcţiei de bază

calculate mai jos, am obţinut:

s2 = 0,126/23=0,00549

Astfel, variaţia estimată pentru este:

49/7,403 = 0,000 742

Testul statistic este următorul:

Întrucât valoarea absolută a testului statistic depăşeşte cu puţin o valoare critică t ( cu n – 2 = 23 g.l.) de t0,05 = 1,714, respingem ipoteza nulă la nivelul de verosimilitate 0,05. Rezultă că elasticitatea pentru produsele alimentare este mai mică decât unitatea.

130

Page 131: Econometrie

Capitolul 6Inferenţa statistică în

regresia simplă

În acest capitol vom prezenta cele mai semnificative probleme legate de inferenţa statistică în cadrul modelului simplu de regresie; cum sunt: testarea semnificaţiei parametrilor; definirea de intervale de încredere; compararea caracteristicilor a două drepte de regresie; testarea normalităţii reziduului; predicţia valorilor variabilei rezultative; domenii de aplicare a regresiei simple; etc.

6.1. Aspecte privind testarea semnificaţiei modelului de regresie

Pentru testarea semnificaţiei modelului liniar de regresie sunt aplicate procedeele statistice: testul Student şi analiza variaţiei.

În prezentarea celor două procedee folosite pentru testarea ipotezelor formulate asupra parametrilor modelului de regresie facem precizările:

- estimatorii parametrilor modelului liniar de regresie sunt de dispersie minimă în clasa estimatorilor nedeplasaţi;

- dacă parametrii modelului sunt estimaţi prin metoda celor mai mici pătrate, atunci dispersia reziduului se estimează prin relaţia:

(6.1)

Page 132: Econometrie

Elemente de econometrie

Estimatorul varianţei variabilei reziduale este un estimator nedeplasat:

- variabila reziduală urmează o repartiţie normală .

Pornind de la proprietăţile estimatorilor parametrilor modelului liniar de regresie, estimatorii şi sunt combinaţii liniare de variabile aleatorii repartizate normal.

Pentru definirea statisticilor sunt considerate următoarele două situaţii:

dispesia variabilei reziduale este cunoscută.Ţinând seama de expresiile celor doi estimatori,

rezultă că aceştia satisfac următoarele două proprietăţi:

(6.2)

Considerând proprietăţile repartiţiei normale şi rezultatele de mai sus, se obţin următoarele rezultate:

(6.3)

Aceste rezultate sunt utile pentru testarea unor ipoteze formulate asupra parametrilor, precum şi pentru definirea

132

Page 133: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

intervalelor de încredere aferente. Acestea sunt prezentate pentru cazul care urmează.

dispersia variabilei reziduale nu este cunoscută.

Pentru a defini statisticile folosite pentru testarea semnificaţiei parametrilor modelelor liniare de regresie se ţine seama de:

- dacă , atunci

- dacă , atunci

- dacă iar , atunci

.

În aplicaţiile practice nu cunoaştem dispersia variabilei reziduale, aceasta este estimată prin relaţia (6.1). Luând în consideraţie relaţia de calcul a statisticii Student şi folosind cele trei proprietăţi, se obţin rezultatele:

- pentru coeficientul pantei dreptei de regresie:Pentru a testa H0: , cu alternativa H0: , se ţine

seama de faptul că:

(6.4)- pentru termenul liber

133

Page 134: Econometrie

Elemente de econometrie

Pentru a testa ipoteza nulă H0: , cu alternativa: H1:, se ţine seama de faptul că:

(6.5)

Aceste două rezultate sunt utile pentru testarea semnificaţiei şi definirea intervalelor de încredere pentru cei doi parametri ai dreptei de regresie.

Testarea ipotezei nule când avem un prag de

semnificaţie stabilit, dacă , atunci se respinge

ipoteza nulă. Acest test este folosit pentru a stabili dacă dependenţa liniară dintre cele două caracteristici este semnificativă. În acest caz se testează H0: a=0, cu alternativa

H1: . Se respinge ipoteza nulă dacă .

Definirea intervalului de încredere: Pentru un prag de semnificaţie α stabilit din tabelul repartiţiei Student se determină, pentru n-2 grade de libertate, valoarea .

Pentru fiecare parametru se defineşte câte un interval de încredere.

- Pentru parametrul a, intervalul de încredere este:(6.6)

- Pentru termenul liber se defineşte intervalul de încredere:

(6.7)

134

Page 135: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

Pentru a testa dacă dependenţa liniară dintre cele două variabile este semnificativă, deci dacă valoarea coeficientului pantei este diferită de zero, se recurge şi la analiza dispersiei.

Testăm separat fiecare parametru al modelului de regresie sau vom recurge la un procedeu pentru testarea simultană a acestora. Întrucât cei doi estimatori, şi , nu sunt variabile aleatorii independente, se apreciază că testarea succesivă a celor doi parametri nu este tocmai corectă. Se recomandă testarea simultană a celor doi parametri. Vom defini ipoteza testului:

Dacă notăm cu estimatorul matricei de covarianţă a estimatorilor parametrilor modelului liniar de regresie, atunci definim:

(6.8)Pentru testarea simultană a celor doi parametri, vom

înlocui în expresia lui Fa,b pe a,b prin a0, b0. Pentru un prag de semnificaţie α stabilit se citeşte din tabelul repartiţiei Fisher – Snedecor valoarea .

Dacă este îndeplinită inegalitatea Fcalculat > Ftabelat, atunci se respinge ipoteza nulă, acceptând că cel puţin un parametru diferă semnificativ de valoarea specificată.

Analiza dispersiei este un procedeu statistic de testare a calităţii modelului ce pleacă de la descompunerea varianţei totale în dispersie datorată factorului de regresie şi dispersie datorată acţiunii factorilor neînregistraţi.

135

Page 136: Econometrie

Elemente de econometrie

Definim notaţiile:

- reprezintă suma pătratelor

termenilor seriei variabilei endogene;

- cuantifică suma pătratelor

abaterilor termenilor estimaţi;

- reprezintă suma pătratelor erorilor

de estimaţie.Între cei trei termeni se verifică egalitatea

SPT = SPE + SPR (6.9)Pentru fiecare termen din ultima egalitate se

determină numărul gradelor de libertate. Astfel, pentru cei trei termeni acestea sunt egale cu n-1, n-2, 2-1.

Pentru a defini statistica testului se ţine seama de proprietatea variabilelor , care arată astfel:

Dacă x şi z sunt două variabile aleatorii independente ce au repartiţiile cu k2 grade de libertate, atunci:

Din proprietatea estimatorului , rezultă că:

(6.10)

Din proprietăţile variabilei reziduale se obţine:

(6.11)

Pentru a testa ipoteza nulă se defineşte:

136

Page 137: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

(6.12)

Se testează ipoteza nulă a=0, potrivit căreia variabila exogenă nu influenţează în mod semnificativ valorile caracteristicii endogene. Relaţia testului este:

(6.13)

Pentru a determina o formă echivalentă a ultimei statistici se ţine seama de faptul că, sub ipoteza nulă a independenţei celor două caracteristici, termenii egalităţii (6.9) au expresiile: , iar

.Testul F se scrie sub forma echivalentă:

(6.14)

Din ultima relaţie se deduce expresia statisticii F în funcţie de valoarea raportului de determinare R2:

. (6.15)

Pentru a stabili dacă dependenţa liniară dintre cele două variabile este semnificativă, se compară valoarea F evaluată pentru seriile de date constituite pentru cele două caracteristici cu valoarea tabelată a acestei statistici. Dacă este îndeplinită inegalitatea: atunci se respinge ipoteza nulă H0: a=0.

137

Page 138: Econometrie

Elemente de econometrie

Pentru pragul de semnificaţie α se stabileşte că între cele două variabile nu există o dependenţă liniară semnificativă.

Dacă între cele două variabile există o dependenţă liniară semnificativă, s-a demonstrat că R2 = r2. În aceste condiţii, relaţia (6.15) devine:

.

Rezultă o nouă statistică pentru testarea dependenţei liniare dintre cele două variabile:

.

6.2. Compararea modelelor de regresieÎn practică se pune problema de a stabili dacă diverse

modele liniare de regresie, ai căror parametri au fost estimaţi pentru datele înregistrate la nivelul diverselor populaţii, diferă semnificativ.

Considerăm disponibile seriile de date şi

pentru cele două caracteristici statistice, în cazul a două populaţii considerate.

Pe baza primei serii de valori s-au estimat parametrii modelului liniar de regresie, precum şi dispersia coeficientului pantei:

- modelul liniar de regresie: ;

- dispersia coeficientului pantei: .Pentru a doua populaţie, procedând în mod

asemănător, se obţin rezultatele următoare:- dreapta de regresie estimată este

- dispersia coeficientului pantei este

138

Page 139: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

Se pune problema de a stabili dacă cele două modele de regresie au caracteristici diferite în raport cu coeficientul pantei dreptei de regresie.Pentru a testa dacă cei doi coeficienţi de regresie diferă semnificativ utilizăm relaţia: (6.16)

Se defineşte variabila aleatorie d = a – a’ pentru a măsura diferenţa dintre pantele celor două drepte de regresie. Pentru a stabili dacă cele două drepte au aceeaşi valoare a pantelor de regresie definim:

- ipoteza nulă a testului H0: d = 0, cu alternativa H1: d ≠ 0 ;

- statistica testului: .

Dacă se ţine seama de faptul că cei doi estimatori sunt independenţi, atunci statistica testului este:

(6.17)Pentru a testa ipoteza nulă se stabileşte un prag de

semnificaţie α. Din tabelul repartiţiei Student se determină valoarea tabelată . Dacă valoarea calculată prin (6.17) este mai mare decât atunci se respinge ipoteza nulă. Se acceptă că cei doi coeficienţi diferă semnificativ.

6.3. Verificarea normalităţii reziduuluiTestele folosite pentru verificarea unor ipoteze

formulate asupra parametrilor modelului de regresie, precum şi pentru definirea intervalelor de încredere pentru aceştia şi

139

Page 140: Econometrie

Elemente de econometrie

pentru efectuarea de previziuni pornesc de la verificarea ipotezei repartizării normale a reziduului.

Relaţiile folosite pentru testarea caracteristicilor repartiţiei reziduului sunt definite ţinând seama de asimetria şi aplatizarea repartiţiei normale.

Pentru o variabilă aleatorie ce este repartizată normal valoarea coeficientului de asimetrie este zero, iar a celui de aplatizare este trei.

Se consideră modelul liniar de regresie , şi seria reziduului estimat ,

cu . Pentru seria reziduului se definesc doi indicatori folosiţi în statistica descriptivă pentru analiza asimetriei şi aplatizării unei serii de distribuţie:

- coeficientul de asimetrie

- coeficientul de aplatizare

Pentru a defini testele statistice folosite pentru verificarea repartizării reziduului după o distribuţie normală se utilizează următoarea proprietate a coeficienţilor de asimetrie şi aplatizare:

„Se consideră variabila aleatorie . Coeficienţii de asimetrie şi aplatizare calculaţi pentru o serie de date cu n valori, ce este definită pentru această variabilă, satisfac proprietăţile de mai jos:

,

140

Page 141: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

Pentru a verifica ipoteza nulă a repartizării normale a reziduului se recurge la unul dintre testele:

- teste pentru verificarea asimetriei şi aplatizării distribuţiei reziduului estimat;

- testul Jarque – Bera.

Pe baza seriei estimate se verifică dacă această distribuţie este normal repartizată. Folosind această serie, se estimează cei doi coeficienţi prin , respectiv .

Sub ipoteza nulă, H0: β1 = 0, rezultă:

.

Asemănător, dacă se defineşte ipoteza nulă asupra celui de-al doilea coeficient sub forma H0:β2=3, atunci:

Se acceptă ipoteza nulă potrivit căreia reziduul este uniform repartizat, dacă sunt îndeplinite simultan inegalităţile:

şi ,

unde este valoarea cuartilei repartiţiei N(0,1)

pentru pragul de semnificaţie α.Testul Jarque – Bera permite verificarea simultană a

proprietăţilor de asimetrie şi aplatizare ale seriei reziduurilor.

141

Page 142: Econometrie

Elemente de econometrie

Testul este definit în raport cu cei doi coeficienţi

şi , ţinând seama de repartiţia estimatorilor acestora, rezultând:

.

Sau sub forma echivalentă:

Pentru un prag de semnificaţie α se respinge ipoteza nulă a repartizării normale a variabilei reziduale, dacă este îndeplinită inegalitatea:

.

6.4. Predicţia prin modelul de regresie

Pe baza seriei de date s-au estimat parametrii dreptei de regresie. Se obţine seria valorilor estimate pentru variabila endogenă prin intermediul relaţiei:

În procesul de previziune, folosind modelul liniar de regresie, se pune problema de a rezolva următoarele două probleme:

- efectuarea de previziuni punctuale sau prin intervale de încredere. Se recurge, pentru efectuarea primei previziuni, la metoda punctuală, iar în cel de-al doilea caz, la previziunea printr-un interval de încredere;- verificarea încadrării unor puncte în tendinţa postulată de un model de regresie. Dacă sunt precizate valori pentru cele două caracteristici ale

142

Page 143: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

modelului de regresie, sub forma perechii (x0,y0), se pune problema de a stabili dacă acestea se încadrează în trendul definit de modelul de regresie. Vom verifica dacă valoarea caracteristicii endogene se încadrează în intervalul de previziune ce a fost definit pentru un nivel al caracteristicii exogene şi un prag de semnificaţie.Vom efectua previziuni punctuale sau prin interval de

încredere pentru o valoare a caracteristicii endogene y0 sau pentru media acesteia, E(y0 ). Pentru fiecare caz în parte sunt stabilite diverse formule de calcul pentru previziunea punctuală şi cea prin interval de încredere.

Pentru modelul liniar de regresie valoarea reală a caracteristicii endogene este specificată prin intermediul relaţiei:

(6.18)unde este realizarea unei repartiţii normale de

medie zero şi dispersie egală cu unu.Valoarea punctuală estimată prin modelul liniar de

regresie este definită prin relaţia:

De regulă, această valoare este utilizată pentru definirea unui interval de încredere. Pentru a defini intervalul de încredere, în condiţiile în care se specifică un nivel al pragului de semnificaţie, se ţine seama de faptul că, prin utilizarea modelului liniar de regresie pentru definirea previziunii punctuale, se comite o eroare de predicţie egală cu:

(6.19)

143

Page 144: Econometrie

Elemente de econometrie

Luând în considerare proprietăţile celor doi estimatori ai parametrilor dreptei de regresie, vom prezenta în cele ce urmează, principalele proprietăţi ale erorii de previziune.

Media erorii de previziune este egală cu zero. Se defineşte egalitatea:

E(e0)=0Rezultatul de mai sus este evident dacă se aplică

operatorul de medie termenilor egalităţii (6.19), luând în considerare proprietăţile celor doi estimatori şi ipoteza formulată asupra variabilei reziduale.

Dispersia erorii de previziune comise în cazul în care se doreşte efectuarea unei previziuni pentru valoarea caracteristicii endogene y0 este:

(6.20)

Pentru a obţine expresia varianţei erorii de previziune se aplică dispersia termenilor egalităţii (6.19). Se obţin rezultatele următoare:

Pentru construirea unui interval de predicţie pentru valoarea variabilei endogene, în condiţiile în care se fixează un nivel al caracteristicii exogene, se ţine seama de următoarele două rezultate:

144

Page 145: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

(6.21)

Am notat prin estimatorul abaterii medii standard a erorii de previziune comise în cazul în care se efectuează o previziune pentru mărimea y0. Aceasta este calculată prin relaţia următoare:

(6.22)

Dacă se fixează un anumit prag de semnificaţie α, atunci vom defini intervalul de predicţie pentru y0:

(6.23)Pentru un prag de semnificaţie stabilit, mărimea

intervalului de predicţie este funcţie de următoarele mărimi:- valoarea caracteristicii exogene pentru care se

previzionează valoarea caracteristicii endogene. Acest factor se cuantifică prin termenul ;

- numărul de termeni ai seriei ce au fost folosiţi pentru estimarea parametrilor modelului liniar de regresie. Eroarea de previziune este invers proporţională cu n;

- calitatea modelului de regresie ce este cuantificată prin dispersia variabilei reziduale;

- valoarea pragului de semnificaţie.

145

Page 146: Econometrie

Elemente de econometrie

În situaţia în care se efectuează o previziune asupra valorii medii E(y0), în condiţiile în care se stabileşte o valoare a caracteristicii exogene, dispersia erorii de previziune este:

(6.24)

Pentru demonstrarea ultimei relaţii se ţine seama de faptul că eroarea de previziune ce se comite în acest caz este:

Aplicând operatorul de medie termenilor egalităţii de mai sus, se obţine formula (6.24).

6.5. Metoda lui W.F. Sharpe (alegerea portofoliului)Această metodă se mai regăseşte în teoria economică

sub numele de metoda beta. Această metodă are o largă utilizare în studiul riscului unei acţiuni. În cadrul acestei metode, riscul se identifică prin variaţia randamentului acesteia. Astfel, cu cât randamentul portofoliului are un grad mai mare de variaţie, cu atât riscul acestuia este mai mare. Se va nota prin Rt randamentul total al unei acţiuni la un moment dat, iar prin ∆it se notează variaţia indicelui de la o perioadă la alta. Acesta este un element al modelului de regresie Sharpe.

Pentru a alege funcţia de regresie se reprezintă grafic, în sistemul cartezian de axe, punctele (Rt, ∆it) pentru toate perioadele t. se generează un nor de puncte ce stă la baza formării dependenţei dintre cele două variabile.

146

Page 147: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

Dacă aceste puncte sunt aliniate de-a lungul unei drepte, atunci dependenţa dintre cele două variabile este liniară:

Rt = α + β∆it+ εt (6.25)unde:

- parametrul α cuantifică componenta din randamentul total al acţiunii independentă de variaţia indicelui caracteristicii exogene din modelul liniar de regresie;

- parametrul β stabileşte în ce măsură modificarea indicelui caracteristicii exogene cu un procent determină creşterea sau scăderea randamentului acţiunii;

- εt reprezintă variabilă reziduală a modelului liniar de regresie, ce cuantifică variaţia aleatorie a randamentului acţiunii sub acţiunea altor factori decât cel înregistrat.

Prin intermediul acestui model, factorii ce acţionează asupra randamentului acţiunilor sunt împărţiţi în două clase:

- factori macroeconomici, ce acţionează, într-o măsură mai mare sau mai mică, asupra tuturor acţiunilor: rata inflaţiei din economie, indicatorii de performanţă ai mediului economic sau ai pieţelor financiare etc. Dintre aceşti factori este ales cel în funcţie de care definim modelul liniar de regresie;

- factori microeconomici, ce acţionează asupra randamentului unei acţiuni sau unui grup de acţiuni. Aceşti factori sunt cuantificaţi în cadrul modelului prin intermediul variabilei reziduale.

Pentru estimarea celor doi parametri ai dreptei de regresie se recurge la metoda celor mai mici pătrate. Pentru

147

Page 148: Econometrie

Elemente de econometrie

definirea estimatorilor se ţine seama de faptul că variabila reziduală (εt) satisface următoarele ipoteze:

- fiecare variabilă reziduală are speranţa matematică nulă, deci E(εt) = 0;

- variabilele ε’t şi εt sunt necorelate, întrucât se admite ipoteza de necorelare a riscurilor specifice ale acţiunilor din cadrul portofoliului, luate două câte două;

- variabilele reziduale sunt distribuite normal: .

În urma aplicării metodei celor mai mici pătrate se determină un estimator al coeficientului de volatilitate (β) prin relaţia:

(6.26)

unde: - este coeficientul liniar de corelaţie calculat

pentru a măsura dependenţa liniară dintre randamentul acţiunii şi indicele pieţei;

- reprezintă abaterea standard calculată în cazul randamentului acţiunii;

- este abaterea standard a indicelui pieţei financiare.

În funcţie de valoarea parametrului β, sunt identificate următoarele tipuri de acţiuni:

- dacă β < 0, atunci randamentul acţiunii evoluează diferit în raport cu tendinţa generală a pieţei financiare;

- în situaţia în care , atunci acţiunea are o volatilitate redusă. În acest caz variaţia randamentului acţiunii este mai redusă în raport cu

148

Page 149: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

modificarea indicelui pieţei de la o perioadă la alta. Astfel, un exemplu de acţiune puţin volatilă este în cazul în care indicele pieţei se modifică cu 8%, în condiţiile în care variaţia randamentului acţiunii este de 5%;

- în cazul în care β = 1 acţiunea este neutră. Pentru o acţiune neutră randamentul se modifică în aceeaşi proporţie cu indicele pieţei financiare. De exemplu, dacă indicele pieţei financiare înregistrează o variaţie de 2%, atunci şi randamentul acţiunii va înregistra aceeaşi creştere;

- dacă β > 1, atunci acţiunile au o volatilitate ridicată. Acţiunile din această clasă au o sensibilitate ridicată la variaţiile de ansamblu ale pieţei financiare. Aceste acţiuni prezintă un interes sporit pentru speculatorii de pe pieţele financiare. În acest caz riscul acţiunii este deosebit de mare. De exemplu, la o variaţie cu 3% a indicelui pieţei, pentru acţiunile acestei clase se înregistrează o variaţie a randamentului mai mare de 3%.

În practica financiară, rezultatele oferite de această metodă sunt privite cu rezervă, întrucât, în timp ce parametrul β se calculează pe baza unei serii de date din trecut, riscul se referă la o perioadă viitoare.

6.6. Metoda regresiei globale

Această metodă se fundamentează pe ipoteza că randamentul unei acţiuni oscilează în raport cu variaţia randamentului global al pieţei pe care se tranzacţionează sau în raport cu performanţele de ansamblu ale mediului economic.

149

Page 150: Econometrie

Elemente de econometrie

Astfel, dacă dependenţa este de tip liniar, atunci ecuaţia de regresie este:

(6.27)unde:

- RPj reprezintă randamentul global al pieţei la un moment dat;

- αi, βi sunt parametrii modelului de regresie ce este definit pentru acţiunea Ai; Parametrul βi, panta dreptei de regresie, măsoară în ce măsură oscilaţiile înregistrate de piaţa financiară sunt resimţite la nivelul acţiunii Ai.

Pentru fiecare acţiune, variabila reziduală ce cuantifică variaţiile randamentului acţiunii Ai sub influenţa altor factori decât modificările randamentului global al pieţei, satisface următoarele ipoteze:

- toate variabilele aleatorii sunt variabile care au media egală cu zero. Astfel, E( )= 0 pentru toţi indicii j;

- variabilele reziduale ce intervin în definirea modelului liniar de regresie au proprietatea de homoscedasticitate. Astfel, pentru orice indice j;

- variabilele reziduale ale modelului liniar de regresie sunt liniar independente. În această situaţie pentru orice j ≠ k. vom spune că riscurile specifice ale oricăror două acţiuni sunt necorelate;

- oricare variabilă reziduală nu este corelată cu randamentul global al pieţei: pentru orice indice j.

Pentru modelul de regresie definit pentru o anumită acţiune a portofoliului sunt stabilite o serie de proprietăţi. Acestea sunt utile în interpretarea rezultatelor obţinute prin aplicarea modelului regresiei globale.

150

Page 151: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

- Pentru fiecare acţiune din cadrul unui portofoliu se defineşte următoarea egalitate:

(6.28)Această proprietate arată că, pentru fiecare acţiune,

dreapta de regresie trece prin centrul de greutate al norului de puncte. Aceasta este de fapt o proprietate universal valabilă pentru orice model liniar de regresie.

- Dispersia oricărei acţiuni se descompune în două componente, cea datorată acţiunii factorului sistematic, pe de o parte, şi cea datorată factorilor aleatorii, pe de altă parte.

Aplicând operatorul de dispersie termenilor egalităţii (6.27), se obţine rezultatul următor:

(6.2

9)Ultimul termen al relaţiei de mai sus pune în evidenţă

faptul că riscul total al unei acţiuni se descompune în două componente: cea datorată riscului sistematic, pe de o parte, şi cea datorată riscului ce rezultă din schimbări aleatorii. În aceste condiţii se scrie următoarea egalitate:

(6.30)

Riscul total = riscul sistematic + riscul accidental- Covarianţa randamentelor a două acţiuni oarecare

din cadrul portofoliului este o mărime influenţată în mod direct de doi factori: coeficienţii modelelor liniare de regresie ce sunt definite pentru două acţiuni şi dispersia randamentului total al pieţei. Se calculează covarianţa acţiunilor unui portofoliu prin următoarea relaţie:

(6.31)

151

Page 152: Econometrie

Elemente de econometrie

Pentru a obţine relaţia (6.31) se ţine seama de formula de calcul a covarianţei, de forma modelului liniar de regresie şi de ipotezele formulate asupra variabilei reziduale. În aceste condiţii se obţin succesiv următoarele rezultate:

Potrivit ipotezelor formulate mai înainte rezultă că:

Înlocuind aceste rezultate în formula covarianţei se obţine relaţia (6.31).

Pentru fiecare dreaptă de regresie (6.28) parametrii sunt estimaţi prin metoda celor mai mici pătrate ţinând

seama de seria randamentelor acţiunilor şi ale pieţei financiare înregistrate într-o perioadă trecută.

Se stabilesc în cele ce urmează relaţiile de calcul ce există între parametrii modelului de regresie al fiecărei acţiuni, definit în funcţie de caracteristica pieţei financiare sau a mediului economic, şi parametrii modelelor de regresie definite pentru un portofoliu. Se consideră acţiunile din structura portofoliului ca fiind A1,…,Am.

- Pentru randamentul mediu al portofoliului caracterizat prin vectorul de structură f definim relaţia:

unde .

Această egalitate se deduce fără dificultate dacă ţinem seama de relaţia (6.29) şi de structura portofoliului. Luând în

152

Page 153: Econometrie

Capitolul 6 Inferenţa statistică în regresia simplă

considerare cele două elemente, se obţine pentru fiecare acţiune din portofoliu:

. Pentru toate acţiunile se adună aceste relaţii. Apoi, din

formula de calcul a mediei aritmetice, se obţine relaţia de mai sus.

- Riscul total al portofoliului, măsurat prin dispersia randamentului într-un orizont de timp, este constituit din riscul sistematic, la care se adaugă riscul aleatoriu ce se manifestă la nivelul pieţei financiare.

Ţinând seama de relaţia de calcul a riscului portofoliului şi de relaţiile (6.30) şi (6.31) se obţin rezultatele următoare:

.Riscul portofoliului se descompune în cele două

componente conform egalităţii următoare:

(6.32)

Risc total = risc sistematic + risc aleatoriuPentru determinarea unui portofoliu optim în situaţia

în care se specifică un nivel al randamentului, se rezolvă următoarea problemă de optimizare:

(6.33)

153

Page 154: Econometrie

Elemente de econometrie

Prin intermediul regresiei globale se reduce în mod simţitor numărul operaţiilor ce sunt necesare pentru calcularea randamentului global şi riscului total.

154

Page 155: Econometrie

Capitolul 7

Modelul clasic al regresiei multiple

Situaţia în care corelaţiile economice implică numai două variabile se întâlneşte foarte rar. Mai degrabă ne confruntăm cu situaţii în care o variabilă dependentă, Y, poate depinde de o întreagă serie de variabile factoriale sau regresori. De exemplu, cererea pentru o marfă nu depinde numai de preţul acesteia ci şi de preţurile mărfurilor substituente sau complementare, de nivelul general al preţurilor precum şi de resursele consumatorilor. Astfel, în practică, există, în mod normal, corelaţii de forma:

Y = β1 + β2 X2 + β3X3 + β4X4 +...+ βkXk + ε (7.1) unde valorile Xj (j = 2, 3, ..., n) reprezintă variabilele

factoriale, sau regresorii, valorile βj (j = 1, 2, 3, ...,k) reprezintă prametrii de regresie iar ε reprezintă factorul factor rezidual.

Factorul rezidual reflectă natura aleatorie a reacţiei umane şi a oricăror alţi factori, alţii decât Xj, care ar putea influenţa variabila Y.

A se observa că în (7.1) am adoptat notaţia uzuală, respectiv atribuind primului factor notaţia X2, celui de al doilea notaţia X3 etc. De fapt, după cum vom vedea, uneori este convenabil ca parametrul β să fie considerat acel coeficient al unei variabile X1 a cărui valoare este întotdeauna

Page 156: Econometrie

Econometrie – Teorie şi studii de caz

egală cu unitatea. Atunci devine posibil ca (7.1) să se rescrie sub forma:

Y = β1X1+β2X2 + β3X3 +...+ βkXk + ε (7.1a)

7.1. Metoda celor mai mici pătrate (OLS) în regresia multiplă

Dacă presupunem, ca şi în cazul regresiei cu două variabile, că E(ε) = 0, atunci, înlocuind în (7.1), pentru valori date ale variabilelor X, rezultă:

E(Y)=β1 + β2 X2 + β3X3 + β4X4 +...+ βkXk

(7.2)

Ecuaţia (7.2) este cunoscută sub denumirea de ecuaţia de regresie multiplă. Pentru moment, în mod convenţional, considerăm că este de formă liniară. Spre deosebire de cazul regresiei cu două variabile, nu putem reprezenta această ecuaţie printr-o diagramă cu două dimensiuni.

βJ reprezintă parametrii de regresie. Uneori mai sunt denumiţi şi coeficienţi de regresie. β1 este o constantă (intercept) iar β2 , β3 etc., sunt parametri ai pantei regresiei.

De reţinut faptul că β4 , de exemplu, măsoară efectele asupra E(Y) produse de modificarea cu o unitate a lui X4 , în condiţiile în care toate celelalte variabile factoriale rămân constante. Similar, β2 măsoară efectele asupra E(Y) produse de modificarea cu o unitate a lui X2 , în condiţiile în care toate celelalte variabile factoriale rămân constante.

Ordinary best squares

156

Page 157: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

Întrucât ecuaţia regresiei populaţiei este necunoscută, aceasta trebuie estimată pe baza datelor unui eşantion. Presupunem că avem la dispoziţie un eşantion de n observări, fiecare observare conţinând valori atât pentru variabila dependentă Y cât şi pentru fiecare dintre variabilele factoriale X. Vom scrie valorile pentru observarea i sub forma:

Yi , X2i , X3i , X4i ,..., Xki

Astfel, de exemplu, X37 reprezintă valoarea lui X3 în cea de a 7-a observare iar X24 reprezintă valoarea luată de X2

în cea de a 4-a observare. De o manieră similară, Y6

reprezintă valoarea variabilei Y în cea de a 6-a observare etc.În condiţiile în care se presupune că datele

eşantionului au fost generate prin corelaţia populaţiei (7.1), fiecare obvservare trebuie să implice un set de valori care să satisfacă (7.1).

Prin urmare, putem scrie:Yi = β1 + β2X2i + β3X3i + ...+ βkXki + εi

pentru toate valorile , unde εi reprezintă valoarea rezidualului pentru cea de a i-a observare.

(7.3)

Este mai convenabil să rescriem (7.3) sub o formă matriceală simplă, respectiv:

Y = Xβ + ε (7.4)unde putem utiliza forma vectorială (matriceală):

157

Page 158: Econometrie

Econometrie – Teorie şi studii de caz

Y = X =

, β= ,

ε =

X este o matrice de forma n x k conţinând o coloane cu valorile şi apoi toate valorile eşantionului de k – 1, X variabile. Astfel, cea de a patra coloană a lui X, de exemplu, conţine valorile lui X4 ale eşantionului n, cea de a şaptea coloană conţine valorile lui X7 şi aşa mai departe. β este un vector al coloanei k x 1 care conţine parametrii βj iar ε este un vector al coloanei n x 1 care conţine valorile rezidualului.

Presupunem că datele eşantionului au fost utilizate pentru estimarea ecuaţiei de regresie.

Metoda de estimare rămâne neprecizată şi presupunem că a fost estimată printr-o ecuaţie de regresie a eşantionului , pe care o scriem sub forma:

,

(7.5)

158

Page 159: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

unde reprezintă estimatori pentru βj iar

este cunoscut ca valoare previzionată a lui Y.

Dacă luăm a i-a observare a eşantionului şi înlocuim

valorile sale X în (7.5) atunci, întrucât reprezintă estimări

cunoscute, obţinem o valoare previzionată pentru Y aferentă

celei de a i-a observări, respectiv valoarea . Ca şi în cazul

regresiei cu două variabile, obţinem o valoare previzionată a lui Y pentru fiecare observare din cadrul eşantionului. Aceste valori pot fi scrise sub forma:

(7.6)

, pentru toate valorile i

Valorile efective ale lui Y nu vor coincide cu valorile previzionate ale lui Y şi, ca şi în cazul regresiei cu două variabile, diferenţele dintre acestea sunt cunoscute ca valori reziduale.

pentru toate valorile i

unde ei reprezintă rezidualul corespunzător celei de a i-a observări.

(7.7)

Ecuaţia (7.7) este de fapt identică cu relaţia aferentă regresiei cu două variabile însă, la modul general nu am fost

159

Page 160: Econometrie

Econometrie – Teorie şi studii de caz

în măsură să ilustrăm grafic ei. Utilizând (7.6) putem rescrie (7.7) sub forma:

Yi = (7.8)

pentru toate valorile i

Ecuaţia (7.8) mai poate fi scrisă şi sub formă matriceală astfel:

(7.9)

unde X şi Y sunt deja definite iar :

,

Există două aspecte ce trebuie reţinute referitor la valorile reziduale. În primul rând, indiferent de metoda utilizată pentru a estima ecuaţia regresiei (7.2), vom obţine astfel de valori reziduale – câte una pentru fiecare dintre observările eşantionului. În al doilea rând, deoarece odată

(7.2) estimată, devine cunoscut iar ecuaţia (7.8) poate fi

utilizată pentru calcularea acestora. Ca şi în cazul regresiei cu două variabile, valorile reziduale sunt cunoscute.

160

Page 161: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

Cea mai cunoscută metodă de estimare în cazul regresiei multiple este metoda celor mai mici pătrate. Ca şi în cazul regresiei cu două variabile, alegem funcţia de regresie a eşantionului şi minimizăm suma pătratelor valorilor reziduale.

Aceasta înseamnă că selectăm acele valori pentru

din (7.5) care să minimizeze relaţia:

(7.10)

unde este dat de (7.6).

Minimizarea ecuaţiei (7.10) implică calcularea

diferenţialului lui S în raport cu fiecare pe rând. Aceasta

este complicat în termeni de algrebră obişnuită astfel încât este mai bine ca în această etapă să lucrăm în termeni matriceali. Reţinem că . Astfel, utilizând (7.9), rezultă următoarele relaţii:

=

=

(7.11)

161

Page 162: Econometrie

Econometrie – Teorie şi studii de caz

=

unde ultimul pas este posibil deoarece

sunt scalari.Acum trebuie să calculăm diferenţiala pentru (7.11) în

raport cu vectorul şi egalăm rezultatul cu zero. O astfel de

matrice conduce la relaţia:

(7.12)

Ecuaţia (7.12) reprezintă un set de ecuaţii k care se pot scrise sub forma:

(7.13)

Ecuaţiile sunt ecuaţii normale în cazul

regresiei multiple şi sunt analoage cu ecuaţiile aferente regresiei cu două variabile. Reţinem că dacă îl substituim pe Y din (7.13) utilizând (7.9), obţinem:

Prin urmare:

X’e = 0 (7.14)

162

Page 163: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

Din definiţiile pentru X şi e se poate observa că (7.14) presupune următoarele:

, , etc. (7.14a)

Astfel, una dintre proprietăţile metodei estimatorilor OLS constă în aceea că valorile reziduale care rezultă satisfac corelaţiile (7.14a). Reamintim că există o corelaţie similară şi în cazul regresiei cu două variabile.

Impunând condiţia ca matricea X’X să fie non-singulară, ecuaţiile normale (7.13) pot fi rezolvate pentru a

obţine , respectiv vectorul pentru estimatorii uzuali ai celor

mai mici pătrate (OLS). Multiplicând (7.13) cu (X’X)-1

obţinem:

Prin urmare:

(7.15)

Ecuaţia (7.15), care este expresia estimatorilor OLS în cazul regresiei multiple, este cea mai cunoscută formulă din econometrie.

Pentru a calcula vectorul trebuie să parcugem

următoarele etape:(i) formăm matricea k x k pentru X’X

şi matricea k x 1 pentru X’Y;

163

Page 164: Econometrie

Econometrie – Teorie şi studii de caz

(ii) formăm matricea inversă k x k pentru (X’X)-1;

(iii) multiplicăm matricea k x k pentru (X’X)-1 în matricea k x 1 pentru X’Y.

Etapa (iii) de mai sus conduce la vectorul k x 1 al

estimărilor OLS, .

Etapa (ii) implică cel mai mare efort de calculaţie. Chiar şi cu numai două variabile factoriale X, k = 3, ne confruntăm cu inversarea unui număr de 3 x 3 matrici. Pe măsură ce numărul variabilelor factoriale creşte, dificultatea calculului creşte exponenţial. Din această cauză, calcularea expresiei (7.15) este în mod normal sarcina unui. Sunt disponibile pachete de estimatori OLS gata calculaţi pe computer.

Efortul de calcul implicat de obţinerea estimatorilor OLS poate fi diminuat dacă lucrăm în termeni de abatere a variabilelor de la media lor. După cum vom vedea, rezultă că în loc de a răsturna o matrice k x k, aşa cum este indicat în etapa (ii) de mai sus, trebuie să răsturnăm o matrice numai de ordinul (k - 1) x (k – 1).

Să considerăm din nou ecuaţia (7.8). Dacă însumăm această ecuaţie pentru toate valorile i şi împărţim rezultatul la n, obţinem:

(7.16)

164

Page 165: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

Trebuie să reamintim faptul că una dintre proprietăţile metodei OLS de estimare este aceea că şi, prin urmare,

, este egal cu zero. Aşa dar, dacă îndepărtăm (7.16) din (7.8), obţinem:

(7.8a)

pentru toate valorile i unde literele scrise cu minuscule reprezintă abaterile

variabilelor de la mediile lor. Aceasta înseamnă că iar etc.

Putem scrie

Yi = într-o formă similară cu

, respectiv:

y = x + e (7.9a)

În această variantă definim matricele aferente lui y ,

x şi sub forma:

165

Page 166: Econometrie

Econometrie – Teorie şi studii de caz

y , x =

, =

Ecuaţia y = x + e diferă de prin aceea că

valorile variabilelor sunt acum într-o formă deviată, coloanele unora dintre ele nu apare în matricea x, care este de

ordinul n x (k – 1) iar nu mai apare deloc în vectorul

care, acum, este de ordinul (k – 1) x 1. vectorul e rămâne ca în definiţia precedentă.

Problema este că, întrucât definiţia lui e rămâne neschimbată, suma pătratelor valorilor reziduale este în continuare e’e şi, utilizând (7.9a) poate fi exprimată într-o formă similară lui (7.11), excepţie făcând faptul că matricele x şi y înlocuiesc matricele X şi Y.

Făcând diferenţiala în raport cu vectorul redefinit

conduce la o expresie similară lui (7.15), cu excepţia faptului că valorile variabilelor se prezintă într-o formă modificată.

Aceasta înseamnă că: (x’x)-1x’y

Avantajul prezentat de (x’x)-1x’y faţă de

constă în aceea că matricea (x’x) este de ordinul

(k – 1) x (k – 1) faţă de k x k. Singura problemă care se ridică

este aceea că noul vector nu mai conţine o valoare pentru

. Din moment ce este cunoscut, se poate obţine o

166

Page 167: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

valoare pentru prin re-aranjarea ecuaţiei (7.16), pentru că

:

(7.17)

Sintetizând, putem calcula estimatorii OLS prin două modalităţi. Prima constă în utilizarea (7.15) însă presupune lucrul cu o matrice de ordinul k x k. Ca alternativă, putem lucra în termeni de abateri de la mediile variabilelor, utilizând (7.15a), care necesită numai inversarea unei matrice de ordinul (k – 1) x (k – 1). Această a doua metodă mai necesită

şi utilizarea ecuaţiei (7.17) pentru a stabili valoarea .

7.1.1. Determinaţia în regresia multiplă

În abordarea aspectelor privind regresia cu două variabile am definit coeficientul de determinare, care măsoară proporţia variaţiei determinată de variabila explicativă X în totalul variaţiei variabilei Y.

O măsurare similară a exactităţii armonizării poate fi definită şi pentru regresia multiplă.

Să considerăm ecuaţia (7.7). Prin eliminarea lui din fiecare parte a ecuaţiei obţinem:

pentru fiecare valoare i (7.18)

167

Page 168: Econometrie

Econometrie – Teorie şi studii de caz

Astfel, dacă măsurăm abaterile lui Y în jurul mediei sale, , putem afirma că, pentru fiecare observare, abaterea totală a lui Y poate fi împărţită într-o abatere explicabilă,

, şi o abatere reziduală, ei . Ecuaţia (7.18) este identică

cu cea aferentă regresiei cu două variabile. Ca şi în cazul regresiei cu două variabile, mai întâi

ridicăm la pătrat (7.18) şi apoi procedăm la însumarea tuturor observărilor.

Funcţia de regresie devine:

=

(7.19)

Astfel:

(7.20)

sau

SST = SSE + SSR

Ecuaţia (7.20) este identică cu cea aferentă regresiei cu două variabile. Ea implică faptul că, pe ansamblul măsurătorilor, rezultatul măsurării variaţiei totale a lui Y, SST, poate fi din nou divizat într-o măsurare a variaţiei factoriale a lui Y, SSE, şi o variaţie reziduală, SSR. Trebuie

168

Page 169: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

să subliniem că (7.20) este valabilă, ca şi în cazul regresiei cu două variabile, numai dacă metoda de estimare este OLS, deoarece corelaţia (7.14a) se susţine numai pentru această formă de estimare.

Putem defini coeficientul de determinaţie multiplă, R2, ca fiind proporţia variaţiei totale a lui Y ce poate fi atribuită variaţiilor tuturor variabilelor factoriale acţionând concertat.

Având în vedere (7.20), aceasta înseamnă:

(7.21)

Putem considera ca în cazul regresiei cu două variabile, astfel că:

(7.22)

Suma reziduurilor pătratelor din (7.22) poate fi apoi calculată prin extindere, ceea ce, demonstrabil, se susţine pentru regresia multiplă:

(7.23)

169

Page 170: Econometrie

Econometrie – Teorie şi studii de caz

7.1.2. Utilizarea criteriului Akaike O altă metodă care permite luarea în

consideraţie a numărului de variabile factoriale atunci când se stabileşte valabilitatea armonizării este dată de criteriul Akaike de informare (AIC). Acesta este definit astfel:

AIC =

(7.24)

În acest caz nu vom fi preocupaţi de bazele teoretice ale AIC, rezumându-ne la a menţiona că în acest caz criteriul constă în a include o variabilă suplimentară numai în măsura în care aceasta conduce la diminuarea AIC. Ca şi , AIC depinde de suma reziduală a pătratelor, , şi de numărul de parametri care trebuie estimaţi, k. Totuşi, în cazul unei scăderi la nivelul , care survine atunci când se include o variabilă explicativă suplimentară, este posibil ca aceasta să nu conducă cu necesitate şi la scăderea AIC. Variabila suplimentară înseamnă o creştere a lui k, respectiv a numărului parametrilor care trebuie estimaţi, iar aceasta conduce la creşterea AIC. Prin urmare, AIC scade numai dacă scăderea înregistrată de este suficient de mare pentru a contracara efectul creşterii lui k.

Pentru explificarea utilizării, atât a lui , cât şi a lui AIC, să revenim la ecuaţiile consumului unei gospodării, pentru care am obţinut deja valori pentru (neajustat), respectiv 0,691 şi 0,796.

Recurgând la relaţiile de calcul, obţinem:

170

Page 171: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

= 1 -

AIC =

Corelând cu situaţia adăugării unui factor suplimentar, cum ar fi pachetul de titluri lichide, cu = 0,3234 x 105 şi

k = 3, fără modificarea lui şi a lui n, se obţine:

= 1 -

AIC =

Se poate observa că adăugarea variabilei reprezentată de pachetul de titluri lichide în ecuaţia consumului gospodăriei face ca să crească iar AIC să descrească.

Printe modalităţile de măsurare a exactităţii armonizării în raport cu includerea unor variabile factoriale suplimentare se numără şi criteriul Schwartz , precum şi criteriul Amemiya.

7.2. Ipotezele clasice în regresia multiplăCa şi în cazul regresiei cu două variabile, OLS este de

departe cea mai populară şi mai bine cunoscută metodă de estimare a parametrilor regresiei multiple. Şi în acest caz, însă, este important să se sublinieze faptul că nu există nici o

171

Page 172: Econometrie

Econometrie – Teorie şi studii de caz

garanţie cu privire la faptul că estimatorii OLS vor fi, într-un sens sau altul, nişte estimatori „perfecţi”.

Ca şi în cazul regresiei cu două variabile, diferitele eşantioane vor conduce la estimări OLS diferite, astfel încât

fiecare valoare va avea propria distribuţie de eşantionare.

Modelul clasic de referinţă pentru regresia multiplă este corelaţia (7.1). Presupunem că această corelaţie este cea care a generat cele n observări ale eşantionului, astfel ca ecuaţia (7.3) să se susţină. Matricea echivalentă ecuaţiei (7.3) este dată de (7.4). Ca şi în cazul regresiei cu două variabile, prezumţiile sunt făcute cu privire la variabilele factoriale şi reziduale.

7.2.1. Ipoteze cu privire la variabilele factoriale

Presupunem că fiecare dintre variabilele factoriale:(IA) este non-stochastică;(IB) are valori care sunt fixe în eşantioane repetate;(IC) este de o asemenea natură încât, pe măsură de n

→ ∞, variaţia valorilor eşantionului său (1/n) , (j = 2, 3, ...,k) unde Qj sunt constante finite stabilite.

Similar regresiei cu două variabile, variabila dependentă Y, care depinde de factor rezidual dar şi de variabilele X, este stochastică. Ipoteza IB implică faptul că, dacă se extrag eşantioane repetate, acelaşi de valori pentru variabilele X ar trebui să fie selectate în fiecare eşantion. Aceasta implică la rândul său că X, aşa cum este definit mai jos (7.4), poate fi tratat, din punct de vedere al procesului de selecţie, ca o matrice de constante stabilite. Vectorul Y al valorilor eşantionului va varia de la eşantion la eşantion dar,

172

Page 173: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

întrucât conform (7.4) aceasta depinde nu numai de X ci şi de

vectorul de valori reziduale, ε, , vectorul estimatorilor

OLS, care depinde atât de X cât şi de Y, va varia şi el, prin urmare , de la eşantion la eşantion. Astfel, în ciuda ipotezelor IA şi IB, estimatorii OLS vor prezenta în continuare distribuţii de selecţie.

Ipoteza IC este o simplă extensie a ipotezei corespunzătoare aferentă regresiei cu două variabile şi se referă la variabilele factoriale care înregistrează trenduri categorice de-a lungul timpului. Semnificaţia acestui fapt va deveni mai clară ulterior dar, pentru moment, această ipoteză poate fi considerată ca reglementând orice problemă legată de corelaţii false.

În cazul modelului regresiei multiple mai există şi o a patra ipoteză referitoare la variabilele factoriale, care nu are un echivalent în cadrul regresiei cu două variabile. Aceasta presupune că:

(ID) - nu există nici o corelaţie lineară exactă între valorile eşantionului aferent uneia sau mai multor variabile explicative.

Prin ipoteza ID vrem să spunem că nu trebuie să fie cazul ca, spre exemplu, X2i = 3 + 4X3i pentru toate valorile i (aceasta însemnând că nu trebuie neapărat să fie cazul ca cea de a doua coloană a matricei X să fie egală cu de trei plus patru ori a treia coloană). Aceasta ar implica o corelaţie lineară exactă între valorile eşantionului pentru X2 şi X3. De o manieră similară, corelaţii cum ar fi X3i = 5 – 2X4i + 3X2i,

care presupun trei sau mai multe variabile X sunt excluse.Dacă aceasta ar fi situaţia, matricea inversă, ( X’X)-1

nu ar mai exista iar formula (7.15) aferentă estimatorilor OLS

173

Page 174: Econometrie

Econometrie – Teorie şi studii de caz

nu ar mai putea fi calculată. În realitate, ar fi imposibil de soluţionat ecuaţiile normale (7.13) iar estimatorii OLS nu ar mai exista pur şi simplu. Este extrem de rar cazul în care ipoteza ID se manifestă în practică dar, după cum vom vedea, condiţiile în care există corelaţii aproximativ lineare între variabilele X nu sunt deloc neobişnuite. Astfel de corelaţii pot avea consecinţe serioase.

Este util ca ipotezele IC şi ID să se exprime în termeni matriceali. Succint, aceasta se poate realiza prin a afirma că avem nevoie ca matricea x’x să nu fie singulară şi să fie astfel încât pe măsură ce n → ∞, (1/n)x’x →Q, unde Q este o matrice (non-singulară) de constante stabilite.

Pentru a vedea dacă această afirmaţie implică ipotezele IC şi ID, mai întâi trebuie reţinut că, dacă trebuie să existe corelaţii lineare între coloanele matricei X, atunci nu trebuie să existe astfel de corelaţii între coloanele matricei abaterilor de la medii, x. Astfel, ipoteza ID cere ca nu numai matricea (X’X)-1 să fie non-singulară ci şi matricea (x’x)-1 să fie la fel. Elementele matricei x’x sunt prezentate în (7.18). Se poate observa că elementele de pe diagonalele matricei (1/n)x’x sunt, prin urmare, variaţiile eşantionului (1/n) . În consecinţă, dacă pe măsură ce n → ∞, matricea (1/n)x’x → Q, în care Q este o matrice fixă, atunci ipoteza IC trebuie să se susţină. Valorile Qj din ipoteza IC sunt de fapt elementele de diagonală din Q.

7.2.2. Ipoteze referitoare la variabila rezduală

Ipotezele referitoare la factorul factor rezidual din modelul clasic al regresiei multiple sunt identice cu cele emise în cazul regresiei cu două variabile, şi anume:(IIA) E(εi) = 0 pentru toate valorile i ;

174

Page 175: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

(IIB) Var(εi) = E(εi - Eεi )2 = E = σ2 = constantă pentru

toate valorile i ;(IIC) Cov (εi, εj) = E (εi, εj) = 0 pentru toate valorile i ≠ j;(IID) Fiecare factor factor rezidual εi este distribuit normal

Astfel, factorii reziduali sunt normal distribuiţi cu medii zero şi sunt homoschedastici şi non-autocorelaţi. Întrucât sunt normal distribuiţi, având covariaţii zero, aceasta implică şi faptul că trebuie să fie distribuiţi independent.

Este necesar să se sintetizeze ipotezele IIA – IID în termeni de matrice variaţie – covariaţie:

(7.25)

Întrucât fiecare factor rezidual are media zero, elementele de diagonală din matricea simetrică (7.25) reprezintă variaţiile valorilor reziduale iar elementele din afara diagonalei reprezintă covariaţiile valorilor reziduale. Matricea (7.25) este matricea variaţie – covariaţie.

Utilizând ipotezele IIB şi IIC, observăm că modelul clasic presupune că:

(7.26)

unde In este matricea n x n de identitate.

175

Page 176: Econometrie

Econometrie – Teorie şi studii de caz

Întrucât ipoteza IIA implică E(ε) = 0, putem reprezenta toate cele patru ipoteze referitoare la factorul rezidual printr-o singură afirmaţie, respectiv:

ε este NID(0, σ2In) (7.27)

Afirmaţia (7.27) ar trebui interpretată în sensul că vectorul valorilor reziduale, ε, este normal şi independent cu o medie egală cu vectorul nul 0 şi o matrice variaţie-covariaţie σ2In.

7.3. Proprietăţile estimatorilor OLSCa şi în cazul regresiei cu doua variabile, proprietăţile

estimatorilor OLS depind foarte mult de care anume dintre ipotezele clasice este valabilă. De fapt, modelul urmat în această secţiune este foarte apropiat de cel cu două variabile. Presupunem că, pe ansamblu, ipoteza ID se susţine deoarece, în caz contrar, estimarea nu ar putea fi realizată. Tot ca în cazul regresiei cu doua variabile ne vom concentra, în principal, asupra estimatorilor parametrilor pantei βj (j = 2, 3, ..., k), şi mai puţin asupra parametrului de intercept, β1. În activitatea practică, parametrii pantei sunt, în mod normal, de interes.

7.3.1. Liniaritatea

Vor fi considerate drept constante valorile stabilite în condiţiile acestor ipoteze, prin observări de eşantion înţelegând numai valorile Y.

Expresia aferentă estimatorilor OLS conduce la:

(X’X)-1X’Y = CY

unde, întrucât X este o matrice de constante

(7.28)

176

Page 177: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

stabilite, C = (X’X)-1X’ este, de asemenea, tot o astfel de matrice.

Proprietatea de linearitate este indusă de (7.28), deoarece ecuaţia poate fi rescrisă în termeni scalari, astfel:

pentru toate valorile j

unde Yi reprezintă observările de eşantion iar cji

reprezintă constantele stabilite pentru rândul j al matriţei k x n C.

7.3.2. Nedeplasarea

Ipotezele IA, IB şi IIA sunt suficiente pentru a demonstra faptul că estimatorii OLS nu sunt deplasaţi. Situaţia este astfel identică cu cea din regresia cu două variabile, exceptând faptul că acum avem mai mult decât un singur factor non-stochastic. Introducând (7.4) în (7.15) avem:

(X’X)-1X’(Xβ + ε)

= (X’X)-1X’ Xβ + (X’X)-1X’ ε = Iβ + Cε = β + Cε

(7.29)

unde C este matricea constantelor stabilite. În termeni

scalari, (7.29) se exprimă sub forma:

(7.29a)

pentru toate valorile j unde cji reprezintă tot rândul j al matriţei C.

177

Page 178: Econometrie

Econometrie – Teorie şi studii de caz

Eliminând aşteptările din (7.29a), în condiţiile în care cji sunt constante, prin ipotezele IA şi IB obţinem:

pentru toate valorile j Conform ipotezei IIA, E(εi) = 0 pentru toate valorile i.

Astfel: pentru toate valorile j (7.30)

Prin urmare, estimatorii OLS, , sunt nedeplasaţi.

Alternativ, putem lucra în termeni de algebră matriceală şi obţinem:

E( ) = β + CE(ε) (7.30a)

Ipoteza IIA poate fi scrisă şi sub forma E(ε) = 0. Prin urmare, rezultă:

E( ) = β (7.30b)

7.3.3. Compatibilitatea

Ipotezele IA, IB, IC şi IIA sunt suficiente pentru a

dovedi compatibilitatea estimatorilor OLS , . Aceasta

înseamnă că recurgem la toate ipotezele clasice referitoare la variabilele factoriale şi la prima dintre ipotezele referitoare la

factorul rezidual . Aceasta presupune că dacă sunt

compatibili atunci, pe măsură ce mărimea eşantionului, n → ∞, aceştia converg probabilistic spre valoarea reală βj.

Aceasta înseamnă că distribuţiile de selecţie pentru se

178

Page 179: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

concentrează pe βj real. Astfel, p Lim ( ) = βj pentru toate

valorile j.

7.3.4. Cel mai bun estimator liniar nedeplasat

Am văzut că, în condiţiile ipotezelor IA şi IB, estimatorii OLS sunt atât lineari cât şi nedeplasaţi. Pentru ca aceştia să prezinte aceeaşi variaţie minimă a tuturor estimatorilor lineari şi nedeplasaţi, respectiv pentru a face parte din categoria BLUE, este necesar ca şi ipotezele clasice IIB şi IIC să fie valabile. Ca şi în cazul regresiei cu două variabile, aceasta înseamnă că factorii reziduali trebuie să fie homoschedastici şi non-autocorelaţi.

O demonstraţie matriceală generală cu privire la caracteristicile BLUE în cazul regresiei multiple este în afara scopului propus. Ne vom limita numai la găsirea expresiilor pentru variaţiile şi covariaţiile estimatorilor OLS. După cum vom vedea, aceste expresii sunt importante dacă dorim să elaborăm inferenţe în legătură cu parametrii regresiei multiple.

Să considerăm matricea simetrică k x k.

=

(7.31)

179

Page 180: Econometrie

Econometrie – Teorie şi studii de caz

Întrucât pentru toate valorile j, putem scrie

(7.31) sub forma:

(7.32)

Matricea (7.32) este cunoscută sub denumirea de matrice variaţie – covariaţie a vectorului , care, de regulă, se scrie sub forma Var ( ). De reţinut faptul că, în josul principalei sale diagonale, aceasta conţine variaţiile vectorului j. Elementele din afara acestei diagonale reprezintă covariaţiile dintre diferitele valori j care ar rezulta în cazul extragerii mai multor eşantioane. Este clar că, dacă trebuie să elaborăm inferenţe referitor la valoarea reală a lui βj se impune găsirea unei expresii pentru această matrice.

Din (7.29) avem:-β = Cε = (X’X)-1X’ε

Prin urmare, întrucât (X’X)-1 este simetrică,

E( -β )( -β )’ = E[(X’X)-1 X’ε][ ε’X(X’X)-1]= (X’X)-1 X’(ε ε’)X(X’X)-1 (7.33)

întrucât X poate fi considerată o matrice de

constante.

180

Page 181: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

Totuşi, E(εε’) reprezintă matricea variaţie-covariaţie a factorilor reziduali care, în condiţiile ipotezelor IIB şi IIC este dată de (7.26) ca fiind egală cu σ2In. Prin substituire în (7.33), obţinem:Var( ) = E( -β )( -β )’ = (X’X)-1

X’(σ2In)X(X’X)-1

= σ2(X’X)-1X’X(X’X)-1 = σ2(X’X)-1

(7.34)

Ecuaţia (7.34) este tocmai expresia pentru matricea

variaţie-covariaţie a vectorului OLS .Vom scrie elementul din rândul i şi coloana j din

matricea inversată (X’X)-1 sub forma Xij. Întrucât (X’X)-1 este simetrică, vom avea Xji = Xij. Comparaţia între (7.34) şi (7.32) ne indică faptul că variaţia lui , pe care o scriem sub forma

este dată de:

= Var ( ) = σ2Xjj , j = 1, 2, ..., k (7.35)

Astfel, pentru a găsi variaţia lui , trebuie să preluăm elementul j de pe diagonala matricei (X’X)-1 şi să-l înmulţim cu variaţia obişnuită a valorilor reziduale, σ2. Rădăcina pătrată pentru Var ( ) este cunoscută sub numele de eroare

standard a lui şi este notată cu .

Comparând mai departe (7.34) şi (7.32), rezultă că:

Cov ( ) = σ2 Xij pentru toate valorile i ≠ j (7.36)

Expresiile (7.35) şi (7.36) sunt de o importanţă considerabilă pentru inferenţa în regresia multiplă.

181

Page 182: Econometrie

Econometrie – Teorie şi studii de caz

Este posibil să obţinem expresii echivalente pentru (7.35) şi (7.36) dacă lucrăm în termeni de abateri ale variabilelor de la mediile lor. Nu este necesar decât să lucrăm în termeni de matrice răsturnată (x’x)-1 în loc de matricea (X’X)-1. O derivare completă s-ar dovedi repetitivă însă nu este dificil de demonstrat că:

= Var ( ) = σ2xjj , j = 1, 2, ..., k (7.35a)

şi

Cov ( ) = σ2xij (7.36a)pentru toate valorile i ≠ junde xij este elementul din rândul (i – 1) şi coloana (j

– 1) a matricei (x’x)-1. Expresiile (7.35a) şi (7.36a) sunt alternative pentru (7.35) şi (7.36), adesea utile în scopuri de calcul. Trebuie reţinut faptul că (7.35a) nu conduce la o expresie pentru Var ( ).

În cazul special al regresiei cu două variabile, (x’x)-1

din (7.18) nu este decât scalarul astfel încât x22= 1/

. Astfel, (7.35a) ne conduce tocmai la :

Var ( ) = σ2/

Aceasta este identică cu expresia aferentă variaţiei estimatorului OLS pentru panta parametrului din regresia cu două variabile.

7.3.5. Alte proprietăţi

Ca şi în cazul regresiei cu două variabile, dacă trebuie ca estimatorii OLS să fie, în principal, nu numai nedeplasaţi

182

Page 183: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

ci şi eficienţi sau asimptotic eficienţi, este necesar ca ipoteza IID din modelul clasic să se susţină – aceasta însemnând că valorile reziduale trebuie să fie normal distribuite. Prin urmare, dacă estimatorii OLS trebuie să aibă aceste proprietăţi, este necesar ca toate ipotezele clasice să fie valabile. O dovadă a proprietăţii de eficienţă este în afara scopului pe care ni l-am propus. Reamintim doar că eficienţa presupune ca estimatorii OLS să aibă variaţia minimă a tuturor estimatorilor nedeplasaţi - nu numai a estimatorilor lineari nedeplasaţi.

Normalitatea valorilor reziduale mai prezintă alte două consecinţe importante pentru regresia OLS. În primul rând, aceasta înseamnă că distribuţiile de selecţie ale estimatorilor OLS vor fi distribuţii normale. O demonstrare a acestei afirmaţii este analoagă celei din cazul regresiei cu două variabile. Totuşi, rezultă că, întrucât, în condiţiile tuturor ipotezelor clasice, fiecare este nedeplasat, cu o variaţie dată de (7.35),

este N(βj, σ2Xjj), j = 1, 2, 3, ..., k (7.37)

O cunoaştere exactă a distribuţiilor de selecţie ale estimatorilor OLS, respectiv , este de o importanţă vitală pentru inferenţă.

Adesea este util ca (7.37) să fie exprimată în forma sa alternativă, lucrând în termeni de abateri ale variabilelor X de la mediile lor. Utilizând (7.35a) în loc de (7.35) vom obţine:

este N(βj, σ2xjj), j = 1, 2, 3, ..., k (7.37a)

183

Page 184: Econometrie

Econometrie – Teorie şi studii de caz

Cea de a doua consecinţă a prezumţiei unor factori reziduali normal distribuiţi este, ca şi în cazul regresiei cu două variabile, aceea că estimatorii OLS devin estimatori de probabilitate maximă. Ca şi în cazul regresiei cu două variabile, MLE aferent lui σ2 se dovedeşte a fi :

(7.38)

unde este suma pătratelor factorilor reziduali. Totuşi, se dovedeşte a fi un estimator deplasat al σ2 real. De fapt, se poate demonstra că, în cazul regresiei multiple:

E( (7.39)

Ecuaţia (7.39) este o generalizare a rezultatului regresiei cu două variabile.

Întrucât, în condiţiile ipotezelor clasice, estimatorii OLS şi ML ai parametrilor , sunt identici, în acest punct poate părea că estimarea ML contribuie prea puţin la analiza noastră asupra ecuaţiilor regresiei.

Estimarea de probabilitate maximă capătă relevanţă maximă atunci când ipotezele clasice sunt infirmate.

De exemplu, această metodă este frecvent utilizată în cazurile în care ecuaţia regresiei este nonlineară. Mai este, de asemenea, de mare importanţă atunci când ipotezele clasice referitoare la variabilele factoriale şi/sau cele referitoare la reziduali sunt infirmate. După cum am văzut, dacă ipotezele clasice nu sunt valabile, atunci estimatorii OLS pierd unele, sau chiar toate, dintre proprietăţile dorite. Se dovedeşte că, în

184

Page 185: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple

astfel de condiţii, estimatorii OLS şi estimatorii ML nu sunt identici. Într-o atare situaţie, estimatorii ML prezintă avantajul că îşi menţin în continuare proprietăţile, respectiv compatibilitatea şi eficienţa asimptotică.

7.4. Inferenţa în regresia multiplăCu condiţia ca toate ipotezele clasice să fie valabile,

inferenţele referitoare la parametrii pantei în regresia multiplă se pot baza pe rezultatul (7.37a), care implică faptul că, pentru j = 1, 2, 3, ..., k,

are o ditribuţie N(0, 1) (7.40)

Erorile standard sunt date de (7.35a). Ne vom concentra asupra parametrilor pantei care sunt de interes. Inferenţa cu privire la parametrul β1 , trebuie să se bazeze pe (7.37), cu j = 1.

Problema care se ridică în legătură cu (7.40) constă în aceea că erorile standard, sunt necunoscute, deoarece şi variaţia valorilor reziduale, σ2 este necunoscută.

Aceasta rezultă din (7.39), deoarece E(s2) = [n/(n-k)]E( ) = σ2. Suma reziduală a pătratelor se calculează cel mai uşor prin (7.23).

Estimările nedeplasate ale variaţiilor estimatorilor OLS sunt, utilizând (7.35a), următoarele:

, j = 2, 3, ..., k (7.41)

185

Page 186: Econometrie

Econometrie – Teorie şi studii de caz

Atunci când înlocuim în (7.40) prin estimatorii

lor nedeplasaţi, , ca în regresia cu două variabile, trebuie să schimbăm distribuţia t. Se poate demonstra că:

are o distribuţie t, cu n – k g.l. (7.42)

Inferenţa se poate baza pe (7.42). De exemplu, la un interval de încredere 95% pentru oricare valoare, βj (j = 2, 3, ...,k) este:

(7.43)

valoarea lui depinzând de n – k, respectiv numărul gradelor de libertate. Pentru a obţine un interval 99% , se înlocuieşte cu .

Verificarea verosimilităţii poate continua de-a lungul liniilor similare celei stabilită în regresia cu două variabile.

Pentru a testa ipoteza nulă de genul H0 : βj = 0 (j = 2, 3, ...,k), trebuie să afirmăm că, în condiţiile ipotezei nule, (7.42) implică: prezintă o distribuţie t cu n – k grade de libertate

Prin urmare, putem utiliza ca test statistic şi respinge ipoteza nulă conform căreia variabila Xj nu influenţează variabila Y dacă valoarea absolută a acestui test statistic este suficient de mare. Ca şi în cazul regresiei cu două variabile, testul statistic este adesea denumit coeficientul t.

186

Page 187: Econometrie

Capitolul 7 Modelul clasic al regresiei multiple 187

Page 188: Econometrie

Capitolul 8

Regresia neliniară

8.1. Aspecte generaleEvoluţia fenomenelor economice nu evoluează după

traiectorii liniare, putând avea şi traiectorii neliniare. Analiza corelaţiilor dintre variabilele economice se

poate face şi după funcţii neliniare, care prin transformări sunt liniarizate. Procedăm astfel pentru prezentarea modelului neliniar într-o formă echivalentă simplă şi uşor de interpretat valorile parametrilor, sau pentru estimarea acestora.

Astfel, dacă dependenţa dintre două variabile este

reprezentată prin modelul neliniar de regresie, , , prin

logartimare, obţinem modelul de regresie liniar .

În estimarea parametrilor unui model neliniar de regresie procedăm astfel:

- estimăm parametrii aplicând metoda celor mai mici pătrate;

- prin transformări, liniarizăm funcţia neliniară, apoi se estimează parametrii prin aplicarea metodei celor mai mici pătrate;

- determinăm parametrii prin metode numerice.

8.2. Modele liniarizabile prin logaritmarePrezentăm modelele semilogaritmic şi cel dublu

logaritmic, ce se pot liniariza.

Page 189: Econometrie

Capitolul 8 Regresia neliniară

Modelul dublu logaritmic poate fi fără termen liber sau cu termen liber.Modelul fără termen liber (log-log) este de forma dependenţei, respectiv: (8.1)

În acest modelului a iar . În funcţie de semnul parametrului b se stabilesc proprietăţile caracteristicii rezultative. Dacă acest parametru este pozitiv, caracteristica rezultativă are o traiectorie crescătoare. Tendinţa descrescătoare a caracteristicii rezultative este evidenţiată, prin modelul neliniar de regresie, de valoarea negativă a exponentului caracteristicii rezultative.

Logaritmând relaţia (8.1) rezultă modelul dublu logaritmic

log yi = log a + blog xi + log εi (8.2)

Utilizând substituţiile , modelul liniar de

regresie devine:

Estimăm cei doi parametri ai modelului iniar de

regresie şi determinăm parametrul a ce apare în modelul neliniar de regresie:

Modelul cu termen liber (log-log) are în plus un termen liber şi se prezintă sub forma următoare:

(8.3)

189

Page 190: Econometrie

Econometrie – Teorie şi studii de caz

În cazul acestui model nu mai este posibilă aplicarea procedeului anterior de liniarizare. Pentru estimarea parametrilor, se aplică una dintre următoarele două metode:

- când se specifică o valoare a termenului liber al modelului, atunci, utilizând notaţiile şi , se va obţine modelul de regresie (8.1). Pentru acesta se estimează parametri, conform cazului modelului dublu logaritmic;

- estimăm apoi cei trei parametri ai modelulului (8.3) prin metode numerice. Se poate recurge la transformarea modelului într-unul liniar folosind dezvoltarea seriei Taylor.

Prezentăm câteva proprietăţi ale parametrilor ce sunt necesari pentru interpretarea parametrilor modelului şi a caracteristicilor variabilei factoriale în raport cu valorile parametrilor. Interpretările sunt realizate în contextul utilizării modelului (8.1). Pentru acest model precizăm:

- dacă b < 0, funcţia log-log este descrescătoare în

raport cu caracteristica factorială. În acest caz .

În situaţia modelului cu termen liber, ;

- dacă b > 0, funcţia neliniară este crescătoare iar

;

- indiferent de semnul parametrului b, acesta este egal cu elasticitatea variabilei rezultative calculată în raport cu variabila factorială, adică:

: ; (8.4)

190

Page 191: Econometrie

Capitolul 8 Regresia neliniară

când derivata de ordinul al doilea este

, rezultă: , funcţia analitică este

crescătoare şi concavă; b = 1, modelul de regresie se reduce la modelul simplu liniar, fără termen liber; b > 1, funcţia este crescătoare şi convexă.

Modelul exponenţial se utilizează în cazul în care norul de puncte rezultat în urma reprezentării grafice a seriei de valori este orientat de-a lungul curbei unei funcţii exponenţiale.

Modelul exponenţial, cu paametrii a şi b, este definit prin relaţia:

(8.5)

Estimarea parametrilor modelului exponenţial se face prin transformări de date prin logaritmare, parcurgând etapele:

- prin logaritmarea termenilor egalităţii se obţine modelul liniar de regresie:

(8.6) Modelul devine liniar prin substituirea lui

şi ;- Estimăm parametrii modelului liniar de regresie,

folosind metoda celor mai mici pătrate; obţinem estimatorii şi ;

191

Page 192: Econometrie

Econometrie – Teorie şi studii de caz

- se determină estimatorii parametrilor modelului de regresie neliniar:

şi

În final se calculează valorile ajustate pe baza modelului neliniar de regresie estimat:

Modelul exponenţial se utilizează când valorile variabilei rezultative cresc în progresie aritmetică iar valorile variabilei factoriale cresc în progresie geometrică.

Pentru a interpreta semnificaţia parametrului b avem în vedere că:

(8.7)

Se observă că parametrul b defineşte rata de creştere a caracteristicii rezultative în funcţie de variabila factorială X.

În modelul exponenţial deosebim situaţiile:- b este rata de creştere sau scădere a caracteristicii

Y în raport cu X;- dacă b > 1, evoluţia caracteristicii Y este

crescătoare;- când , caracteristica Y înregistrează o

scădere în raport cu variabila X; - valorile caracteristicii Y sunt numai pozitive şi

parametrul a satisface proprietatea de pozitivitate.

192

Page 193: Econometrie

Capitolul 8 Regresia neliniară

8.3. Aspecte privind modelul hiperbolicModelul reciproc de regresie este folosit şi pentru a

studia dependenţa dintre rata şomajului şi rata inflaţiei. Curba de regresie construită în acest caz se numeşte curba Phillips.

Modelul reciproc de regresie, cu panta curbei negativă, se foloseşte de regulă pentru analiza dependenţei consumului unui produs de veniturile disponibile pentru consum.

Valoarea –b/a este abscisa punctului în care graficul se intersectează cu axa Ox. Valoarea corespunde venitului minim ce permite achiziţionarea produsului solicitat pentru consum.

Modelul reciproc are egalitatea:

(8.8)

Interpretarea parametrilor modelului reciproc (hiperbolic) se face astfel:

- calculăm panta curbei după relaţia: Funcţia este descrescătoare când parametrul b este

pozitiv şi crescătoare dacă b este negativ.- indiferent de semnul parametrului b, pentru

modelul reciproc

193

Page 194: Econometrie

Econometrie – Teorie şi studii de caz

Estimarea celor doi parametri se face parcurgând etapele:

- Parametrii a, b sunt estimaţi prin metoda celor mai

mici pătrate. Din condiţia = minim se

obţine sistemul liniar de ecuaţii:

Rezolvăm sistemul liniar de ecuaţii având necunoscutele şi .

- Calculăm valorile ajustate , şi seria erorilor

de ajustare.

8.4. Unele aspecte privind modelul parabolic

Acest model se utilizează în cazul în care ritmul de evoluţie caracteristic urmează o funcţie liniară, având coeficientul pantei egal cu constanta a. Punctele sunt dispuse în jurul curbei descrisă de o parabolă.

De exemplu, curba Laffer este reprezentată sub formă unei parabole şi defineşte relaţia dintre veniturile guvernamentale şi rata de impozitare. Precizăm unele caracteristici ale curbei Laffer:

- Veniturile statului = f (rata de impozitare);- Curba Laffer se descompune în două regiuni: regiunea

unui comportament normal, cuprinsă între 0 şi acel nivel al ratei de impozitare (t%) unde venitul statului este maxim;

194

Page 195: Econometrie

Capitolul 8 Regresia neliniară

regiunea cuprinsă între t% şi 100% numită şi zonă inadmisibilă în care, la o creştere a ratei de impozitare, nu se realizează o creştere corespunzătoare a veniturilor statului.

- Între venitul din impozitul pe inflaţie şi rata inflaţiei există o dependenţă de tip parabolic. În acest caz, se constată că există un nivel al inflaţiei până la care se apreciază că statul îşi sporeşte profitul,după care, o creştere a inflaţiei conduce la o diminuare a veniturilor statului.

Modelul parabolic de regresie ce este definit de parametrii este

(8.9)

Fiind o funcţie liniară în raport cu cei trei parametri, a, b şi c, pentru estimarea acestora se utilizează metoda celor mai mici pătrate. Se pune condiţia ca valoarea exoresiei

să fie minimă, rezultând sistemul

liniar de ecuaţii:

Din sistemul de ecuaţii rezultă seria valorilor ajustate . Pentru a evalua calitatea modelului estimat se

determină seria reziduurilor , unde .

195

Page 196: Econometrie

Econometrie – Teorie şi studii de caz

8.5. Elemente privind funcţiile de tip polinominal

Un model de regresie neliniar este reprezentat adesea prin intermediul funcţiilor polinomiale de un anumit ordin.

Dacă funcţia polinomială este de ordinul k, atunci acesta este prezentat prin

(8.10)

unde variabilele reziduale satisfac ipotezele modelului clasic de regresie iar sunt valorile caracteristicii pentru un număr de perioade.

În acest caz, funcţia (8.10) este neliniară în raport cu variabilele factoriale dar este liniară în raport cu parametrii modelului de regresie.

Pentru estimarea corectă a parametrilor funcţiei polinomiale trebuie să existe o relaţie de multicoliniaritate între variabilele X, X2, ...Xk. Alegerea gradului funcţiei polinomiale se face ţinând seama de:

- multicoliniaritatea este frecventă în situaţia în care seria de date conţine un număr redus de date;

- se recomandă folosirea unor funcţii polinomiale ce au grad mai mic sau egal cu 4;

- notăm cu raportul de determinare calculat pentru funcţia polinomială de ordinul k. Dacă dimensiunea seriei de date este n, atunci .

Din cele trei observaţii, rezultă că puterea de predicţie a funcţiei polinomiale scade în raport cu numărul de parametri ce trebuie estimaţi.

196

Page 197: Econometrie

Capitolul 8 Regresia neliniară

Ca exemplu putem considera definirea costului unui proces de producţie (Y) în funcţie de cantitatea producţiei realizate într-o anumită perioadă (X):

(8.11)

Considerând ultimafuncţie polinomială, definim patru tipuri de costuri:

a) costul mediu al producţiei pentru o perioadă (ct):

(8.12)

b) costul fix mediu al producţiei, care este reprezentat prin primul termen al relaţiei (8.12) prin care definim costul mediu:

c) costul variabil mediu, reprezentat prin al doilea termen al relaţiei (8.12):

(8.13)

d) costul marginal al producţiei:

(8.14)

197

Page 198: Econometrie

Econometrie – Teorie şi studii de caz

Aceştia sunt indicatori importanţi în caracterizarea performanţelor unui proces de producţie.

În estimarea parametrilor modelului (8.10) vom recurge la transformările de date Z1 = X, Z2 = X2 . . . Zk = Xk, rezultând modelul liniar de regresie:

(8.15)

În cazul modelului de regresie de tip polinomial va trebui să determinăm gradul polinomului şi să stabilim dacă variabilele Z1, Z2, ...Zk sunt corelate în ansamblu sau două câte două şi în ce măsură multicoliniaritatea influenţează mărimea dispersiei estimatorilor.

Modelele de regresie neliniare continue pot fi transformate prin seriile Taylor de ordinul k în modele polinomiale de ordinul k iar, apoi, prin substituiri de variabile, rezultă modelul liniar (8.15).

Considerăm că modelul neliniar de regresie este definit prin funcţia , diferenţiabilă de ordinul k într-un punct (a, b) iar ordinea de calculare a derivatelor parţiale mixte până la ordinul k nu este importantă, rezultând:

- polinomul Taylor de ordinul k ataşat funcţiei f(x1, x2) în punctul (a, b) este definit prin relaţia:

(8.16)

198

Page 199: Econometrie

Capitolul 8 Regresia neliniară

unde

este diferenţiala de ordinul i pentru funcţia în punctul (a,b);

- dacă reprezintă restul de ordinul k al seriei Taylor, atunci:

(8.17)

- dacă a = b = 0, din relaţia (8.17) se obţine formula lui MacLaurin, care defineşte egalitatea:

(8.18)

unde este un polinom de gradul p x1 şi x2.

8.6. Despre modelul multiplicativModelul multiplicativ, definit prin

intermediul variabilelor exogene X1, X2, . . . , Xk , este reprezentat prin relaţia:

unde este o variabilă reziduală ce are o repartiţie normală de medie zero şi dispersie σ2.

(8.19)

Modelul multiplicativ (8.19) se liniarizează prin logaritmare. Se obţine modelul echivalent:

199

Page 200: Econometrie

Econometrie – Teorie şi studii de caz

Caracteristica principală a acestui model este dată de relaţia care există între coeficienţii variabilelor exogene şi elasticităţi. Fiecare parametru este egal cu un coeficient de elasticitate, de forma:

Un model multiplu neliniar este cel reprezentat prin funcţia de producţie Cobb-Douglas, reprezentat printr-o funcţie de două variabile care include şi variabila timp.

Prima formă de reprezentare sau funcţia Cobb-Douglas fără progres tehnic. În acest caz, variabila timp nu este inclusă explicit în cadrul funcţiei. Funcţia este definită prin relaţia:

(8.20)

unde:Yt cuantifică producţia sau costul producţiei;Kt – capitalul fix;Lt – forţa de muncă;A,α,β- parametrii reali; εt - variabilă reziduală.

200

Page 201: Econometrie

Capitolul 8 Regresia neliniară

A doua formă de reprezentare sau funcţia Cobb-Douglas cu progres tehnic, variabila timp fiind inclusă explicit în cadrul funcţiei, definită prin relaţia:

(8.21)

Cei doi parametri, α şi β, oferă informaţii importante asupra caracteristicilor procesului de producţie, fiind parametrii elasticităţii parţiale în raport cu fiecare factor al procesului de producţie.

Parametrul α reprezintă elasticitatea parţială a producţiei în raport cu capitalul fix:

Parametrul β exprimă elasticitatea parţială a producţiei în raport cu capitalul uman:

Elasticitatea scalei este egală cu suma celor două elasticităţi:

e = eL + eK = α + β

201

Page 202: Econometrie

Econometrie – Teorie şi studii de caz

Pentru funcţia de producţie Cobb-Douglas, elasticitatea scalei se calculează numai în raport cu cei doi parametri, existând trei situaţii:

- proces de producţie cu randament de scală descrescător, când elasticitatea scalei este mai mică decât 1:

α + β < 1

- proces de producţie cu randament de scală constant, elasticitatea scalei fiind unitară:

α + β = 1

Dacă cele două intrări cresc, atunci şi ieşirile cresc în aceeaşi proporţie.

- proces de producţie cu randament de scală crescător, elasticitatea scalei fiind supraunitară:

α + β > 1

Pentru a testa dacă randamentul de scală al procesului este constant, se definesc două ipoteze:

H0: α + β = 1H0: α + β ≠ 1

Pentru testarea ipotezei nule folosim testul Student, respectiv:

202

Page 203: Econometrie

Capitolul 8 Regresia neliniară

Pentru un prag de semnificaţie stabilit, dacă , atunci se acceptă ipoteza nulă, potrivit căreia

procesul este de randament de scală descrescător.Se scrie funcţia Cobb-Douglas sub forma echivalentă

(8.22)

Pentru definirea formei intensive a funcţie de producţie Cobb-Douglas definim următoarele două mărimi:

capitalul unitar pe unitatea de capital de muncă, ;

productivitatea muncii, .

Se defineşte forma intensivă a funcţie de producţie Cobb-Douglas prin relaţia:

(8.23)

Se verifică dacă funcţia de producţie intensivă îndeplineşte următoarele perechi de proprietăţi:

1.

203

Page 204: Econometrie

Econometrie – Teorie şi studii de caz

2. şi

Pentru a estima parametrii modelului (8.21) se face liniarizarea prin logaritmare şi se estimează parametrii funcţiei translog, folosind metodele:

- liniarizăm funcţia (8.21) prin logaritmare, obţinând un model triplu logaritmic:

(8.24)

Parametrii modelului de regresie (8.24) se estimează aplicând metoda celor mai mici pătrate.

- utilizăm funcţia de producţie Cobb-Douglas (8.21) printr-o funcţie translog:

(8.25)

Relaţia (8.25) reprezintă seria Taylor a funcţiei (8.24) în punctul (1, 1).

Modelul neliniar reprezentat prin funcţia de producţie CES este definit prin relaţia de mai jos:

(8.26)

204

Page 205: Econometrie

Capitolul 8 Regresia neliniară

unde:Yt - variabila ce cuantifică ieşirile din cadrul

sistemului;Kt - capitalul fix;Lt - capitalul uman;γ,δ,μ,θ - parametrii modelului;εt - variabila reziduală ce are repartiţia N(0, )Parametrii modelului CES au următoarele semnificaţii

şi domenii de valori: γ > 0 reprezintă pentru această funcţie de

producţie parametrul de eficienţă al procesului de producţie; este parametru de distribuţie al

procesului de producţie; este parametrul de scală pentru proces; este parametrul de substituţie a celor doi

factori în cadrul procesului.În cazul în care θ = 0, se obţine funcţia de producţie

Cobb-Douglas.Forma generalizată a funcţiei de producţie CES definită prin intermediul variabilelor factoriale X1, X2, ..., Xn este:

unde

(8.27)

Dacă funcţia incorporează progres tehnic, variabila timp apare într-o manieră explicită în cadrul modelului de regresie. Funcţia CES este reprezentată prin relaţia:

205

Page 206: Econometrie

Econometrie – Teorie şi studii de caz

Pentru funcţia CES sunt valabile proprietăţile:

- Elasticitatea substituţiei celor doi factori este constantă, aceasta fiind determinată de valoarea parametrului de substituţie, θ:

- Randamentul scalei este stabilit în funcţie de valoarea parametrului μ, rezultând: funcţia de producţie este de randament de scală descrescător dacă ; pentru μ = 1, funcţia de producţie are randament de scală constant; dacă μ > 1, dispunem de o funcţie de producţie de randament de scală crescător.

Pentru estimarea parametrilor funcţie CES se aplică algoritmii:- Estimarea parametrilor folosind funcţia de verosimilate, presupune: logaritmarea funcţiei definită prin relaţia (8.26), rezultând funcţia de producţie:

(8.28);

scriem funcţia de verosimilitate pentru funcţia de producţie definită prin relaţia (8.28); determinăm cele patru estimaţii din condiţiile de maximum al funcţiei de verosimilitate.

- Estimarea parametrilor folosind reprezentarea translog, înseamnă: se scrie funcţia translog pentru (8.28) care este, de fapt, un polinom de ordinul al doilea al acestei funcţii în

206

Page 207: Econometrie

Capitolul 8 Regresia neliniară

punctul (1,1). Se obţine atunci un model liniar în raport cu parametrii modelului:

(8.29);

estimăm parametrii modelului de regresie (8.28) aplicând MCMMP; determinăm estimatorii modelului de regresie (8.28) luând în considerare următoarele patru relaţii definite pentru parametrii CES şi translog:

(8.30)

207

Page 208: Econometrie

Capitolul 9

Autocorelarea şi heteroscedasticitatea

În utilizarea seriilor de date reale, nu de puţine ori, una sau mai multe ipoteze nu sunt respectate. Astfel, de regulă, nu sunt verificate ipotezele:

- variabilele reziduale sunt autocorelate;- variabilele reziduale nu au dispersie constantă;- variabilele exogene nu sunt liniar independente;- valorile variabilelor ce definesc modelul liniar de

regresie sunt afectate de erori de observare.Acestea afectează calitatea estimatorilor şi modelul

liniar de regresie în ansamblul său. Metoda celor mai mici pătrate nu oferă cele mai bune

rezultate în procesul de estimare a parametrilor şi de aceea se recomandă utilizarea şi altor metode pentru estimarea parametrilor.

9.1. Unele aspecte privind autocorelarea erorilorÎn regresia clasică variabilele reziduale sunt

necorelate. De exemplu, pentru modelul liniar de regresie y = Xβ + ε, matricea de covarianţă a variabilelor reziduale este definită prin:

Page 209: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Dacă reziduurile sunt autocorelate, atunci există indici i ≠ j astfel încât

Dacă variabilele reziduale sunt de medie zero şi de dispersie constantă, matricea de covarianţă este definită prin intermediul coeficienţilor liniari de corelaţie:

unde , reprezintă coeficientul de autocorelaţie de ordinul k. Dacă variabilele reziduale sunt homoscedatice, coeficientul de autocorelaţie de ordinul k se determină prin relaţia:

k = 1,2, ..., n – 1

În analiza autocorelării reziduurilor trebuie să se procedeze la: identificarea surselor de apariţie a corelării

209

Page 210: Econometrie

Econometrie – Teorie şi studii de caz

reziduurilor; stabilirea consecinţelor pe care le generează corelarea reziduurilor în estimarea parametrilor; investigarea testelor statistice folosite în procesul de analiză a corelării reziduurilor; alegerea celei mai potrivite metode pentru estimarea parametrilor.

Analiza autocorelării valorilor reziduale este o etapă în analiza unei serii de timp. Pentru o serie atributivă, analiza reziduului pentru depistarea autocorelării se recomandă în situaţia în care unităţile sunt ordonate crescător sau descrescător în raport cu valorile unei caracteristici exogene.

Autocorelarea erorilor are următoarele surse:- neincluderea uneia sau mai multor variabile

factoriale importante.Dacă variabila rezultativă este explicată prin două

variabile factoriale, modelul de regresie este definit prin:

Dacă este omisă o a treia variabilă factorială, notată prin x3, variabilele reziduale sunt autocorelate. În aceste condiţii reziduul va fi explicitat prin intermediul variabilei omise:

(9.1)unde ui , i = 1, ..., n, sunt variabile reziduale ce

satisfac ipotezele modelului clasic de regresie.

- Modelul liniar de regresie nu exprimă corect relaţia de dependenţă dintre variabila rezultativă şi variabilele factoriale, deoarece: modelul se exprimă sub forma unei combinaţii liniare de variabile în condiţiile în care o specificare corectă a modelului trebuie să fie exprimată

210

Page 211: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

printr-o combinaţie liniară de logaritmi de variabile exogene; modelul este corect specificat dacă se exprimă sub forma unei combinaţii liniare de diferenţe de ordinul întâi de valori absolute sau relative; nu toate seriile de date valorice ce corespund variabilelor incluse în model sunt exprimate în valori nominale etc.

Pentru depistarea autocorelării variabilelor reziduale sunt folosite o serie de procedee statistice. Cel mai simplu mijloc pentru detectarea autocorelării este cel al reprezentării grafice a seriei valorilor reziduale. Se întocmeşte graficul pentru seria reziduurilor estimate , unde . O regularitate a graficului semnalează o corelare a reziduului. Un astfel de mijloc de semnalare a autocorelării nu este potrivit în toate cazurile şi de aceea, pentru aprofundarea analizei sunt folosite teste statistice, dintre care menţionăm:

Testul Durbin – Watson este cel mai utilizat în analiza autocorelării variabilelor reziduale.

Prin acest test se detectează autocorelarea de ordinul întâi a reziduului estimat prin metoda celor mai mici pătrate.

Variabila reziduală satisface ecuaţia unui proces autoregresiv de ordinul întâi dacă

unde este un zgomot alb.Se testează ipoteza nulă Ho: ρ = 0, ce corespunde

cazului în care reziduurile sunt necorelate, cu alternativa H1 = ρ ≠ 0, pentru situaţia în care reziduurile verifică un proces autoregresiv de orinul întâi.

211

Page 212: Econometrie

Econometrie – Teorie şi studii de caz

Statistica testului este evaluată în raport cu seria reziduurilor , determinată în situaţia în care parametrii modelului de regresie sunt estimaţi prin metoda celor mai mici pătrate. Statistica testului este definită prin:

(9.2)

Între statistica testului Durbin-Watson şi estimatorul parametrului ρ din modelul de regresie (9.1) se verifică relaţia de mai jos: (9.3)

Pentru a demonstra relaţia de mai înainte se ţine seama de expresia estimatorului parametrului ρ:

(9.4)

Statistica testului se scrie succesiv sub următoarea formă:

212

Page 213: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Valoarea statisticii testului pentru un model de regresie este inclusă în intervalul [0, 4]. O valoare în apropierea lui 2 scoate în evidenţă necorelarea valorilor reziduale.

Valoarea acestei statistici este dificil de interpretat întrucât aceasta depinde nu numai de seria valorilor reziduale, ci şi de numărul de variabile factoriale incluse în modelul de regresie (p) , precum şi de lungimea seriei de date (n). De altfel, valoarea medie a statisticii depinde de cele două elemente:

(9.5)

Valorile critice ale statisticii depind de numărul de variabile factoriale din cadrul modelului (p) , de numărul de observaţii (n) şi de pragul de semnificaţie ales, (α). Tabelele de valori critice cuprind pentru elementele specificate câte o pereche de valori dL şi dU. În testarea ipotezei nule întâlnim situaţiile: valoarea statisticii este mai mică decât dL se respinge ipoteza nulă. Reziduurile prezintă o autocorelare pozitivă de ordinul întâi; valoarea statisticii este mai mare

213

Page 214: Econometrie

Econometrie – Teorie şi studii de caz

decât 4 - dL se respinge ipoteza nulă. Reziduurile prezintă o autocorelare negativă de ordinul întâi; dU < DW < 4 - dU

se acceptă ipoteza nulă a necorelării printr-un proces autoregresiv de ordinul întâi al valorilor reziduale; dL > DW > dU sau 4 - dU < DW < 4 - dL, testul Durbin-Watson nu este concludent.

Prezentarea procesului de testare a autocorelării valorilor reziduale printr-un proces regresiv de ordinul întâi este cuprinsă în tabelul de mai jos:

Valoarea statisticii Decizia testului1. 0 < DW < dL Se respinge H0 ρ > 02. dL < DW < dU Indecizie3. dU < DW < 4 – dU Se acceptă H0

4. 4 – dU < DW < 4 – dL Indecizie5. 4 – dL < DW < 4 Se respinge H0 ρ < 0

Testul Durbin-Watson nu poate fi aplicat decât în anumite condiţii, cum sunt: modelul de regresie trebuie să cuprindă termen liber; matricea X trebuie să fie nestocastică. Modelul de regresie nu trebuie să includă printre variabilele factoriale variabila rezultativă cu decalaj. În cazul în care modelul de regresie cuprinde printre variabilele factoriale variabila rezultativă cu decalaj, pentru testarea autocorelării se utilizează testul Breusch-Godfrey sau unele forme derivate ale testului Durbin-Watson; testul Durbin-Watson nu are nici o relevanţă în cadrul modelelor de regresie pentru serii de date atributive; acest test nu este folosit decât pentru depistarea autocorelării de ordinul întâi-

214

Page 215: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Pentru testarea ipotezei nule considerăm condiţia ca matricea X să nu fie stochastică. Tabelele cu valori critice pentru această statistică sunt constituite în cele două ipostaze: modelul de regresie are sau nu un termen liber.

- Testul Breusch-Godfrey este utilizat pentru a verifica dacă rezidualul este reprezentat printr-un model autoregresiv de ordinul r. Acest test se aplică în cazul în care matricea X este stocastică, deci dacă variabila se explicitează în raport cu variabile cu decalaj.

Prin acest test se verifică dacă reziduul se reprezintă sub forma:

unde este un zgomot alb.Se testează ipoteza nulă H0: ρ1=...= ρr reziduul nu este corelat. cu ipoteza alternativă: H1: εi admite o reprezentare autoregresivă de ordinul

r.

Sub ipoteza H1, modelul liniar de regresie se prezintă prin:

a) Aplicarea acestui test se face astfel: se estimează seria valorilor reziduale , unde parametrii modelului liniar de regresie se estimează prin metoda celor

215

Page 216: Econometrie

Econometrie – Teorie şi studii de caz

mai mici pătrate; se estimează prin metoda celor mai mici pătrate parametrii mdelului liniar de regresie:

;

se testează ipoteza H0 formulată mai înainte, prin utilizarea testului F sau LM (multiplicatorul Lagrange). În ultimul caz, statistica testului este: , unde este raportul de determinare calculat pentru modelul de regresie în care reziduul admite o reprezentare autoregresivă de ordinul r. Pentru un prag de semnificaţie stabilit, dacă valoarea statisticii LM este superioară valorii critice a repartiţiei χ2, se respinge ipoteza nulă.

Dacă reziduul prezintă o autocorelare de un anumit ordin, estimatorii parametrilor sunt încă nedeplasaţi şi consistenţi, dar nu mai sunt eficienţi. Pentru corectarea influenţei generate de autocorelarea erorilor sunt folosite o serie de proceduri, cum sunt: metoda Cochrane-Orcutt de estimare a parametrilor; metoda Durbin; metoda Hildreth – Lu; metoda generalizată a celor mai mici pătrate; metoda verosimilităţii maxime.

9.2. Aspecte esenţiale privind heteroscedasticitateaCând modelul liniar de regresie nu verifică ipoteza de

homoscedasticitate, acesta are următoarea reprezentare:

y = Xβ + ε, unde

(9.6)

216

Page 217: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Pentru acest model se ridică două aspecte:- cum se estimează cei n + p parametri ai modelului

liniar de regresie prin intermediul seriei de date cu n componente ?

- care sunt consecinţele pe care le generează nerespectarea acestei ipoteze în procesul de estimare şi utilizare a modelului liniar de regresie ?

Pentru estimarea celor p parametri şi n varianţe se formuleză o serie de ipoteze asupra variabilei reziduale. Pentru estimarea matricei covarianţelor reziduului, se utilizează seria reziduurilor ce este estimată prin metoda celor mai mici pătrate. Astfel, matricea covarianţelor este estimată prin:

De multe ori, nerespectarea ipotezei homoscedasticităţii se întâlneşte în cazul folosirii datelor agregate. Se notează prin g numărul de grupe şi prin ni, i = 1, ..., g, dimensiunea grupelor.

217

Page 218: Econometrie

Econometrie – Teorie şi studii de caz

În urma determinării mediilor pe grupe, se obţine seria de date ce este folosită pentru estimarea parametrilor modelului liniar de regresie. Această serie are reprezentarea:

(9.7)

Pe baza acestei serii de date se estimează parametrii modelului de regresie:

(9.8)

unde:

iar

Pentru a corecta heteroscedasticitatea se aplică una strategiile:

- se estimează parametrii modelului prin metoda celor mai mici pătrate generalizată;

- se transformă modelul sub forma echivalentă:

(9.9) unde:

218

Page 219: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Dacă parametrii sunt obţinuţi prin metoda celor mai mici pătrate, obţinem: media reziduului este zero; modelul verifică ipoteza de homoscedasticitate:

var(MεM) = Mvar(εεM’) = MΩεM’ = Ig

Rezultatele permit aplicarea metodei celor mai mici pătrate modelului (9.9) pentru care estimatorii sunt:

Aceştia corespund estimatorilor metodei celor mai mici pătrate generalizate.

Dacă heteroscedasticitatea este indusă în cadrul modelului prin intermediul unei variabile exigene într-o manieră multiplicativă, dispersia reziduului se defineşte prin:

(9.10)

unde α este un scalar real iar Xj este o variabilă exogenă ce determină modificarea varianţie reziduului de la o observaţie la alta. În raport cu valoarea parametrului α, sunt aplicate strategiile pentru eliminarea herescedasticităţii şi estimarea parametrilor. Prezentăm câteva cazuri particulare:

219

Page 220: Econometrie

Econometrie – Teorie şi studii de caz

- În cazul în care α = 0, se obţine modelul care verifică ipoteza homoscedasticităţii;

- Valoarea reziduului este proporţională cu valoarea unei variabile exogene, rezultând:

(9.11)

Obţinem un model de regresie care verifică ipoteza de homoscedasticitate, împărţind toţi termenii modelului liniar de regresie prin xji.

(9.12)

Care se poate scrie sub forma echivalentă:

unde

(9.13)

Reziduul modelului (9.12) verifică ipotezele modelului clasic de regresie:

220

Page 221: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Pentru estimarea parametrilor se recurge la metoda celor mai mici pătrate aplicată modelului transformat sau la metoda celor mai mici pătrate generalizată aplicată modelului iniţial, în condiţiile în care:

(9.14)

- Dispersia variabilei reziduale se reprezintă prin , iar în această situaţie, pentru obţinerea unui model

care să verifice ipoteza homoscedasticităţii, se împart toţi termenii ce definesc modelul (9.6) prin .

Se obţine un model de regresie ce verifică ipotezele modelului clasic:

(9.15)

- Dacă dispersia este definită cu α ≠ 0, modelul iniţial se transformă într-un model MY = MXβ + Mε, care verifică ipoteza de homoscedasticitate.

221

Page 222: Econometrie

Econometrie – Teorie şi studii de caz

Matricea M este definită prin:

Utilizarea metodei celor mai mici pătrate pentru estimarea parametrilor în situaţia în care ipoteza de homoscedasticitate nu se verifică are consecinţe imediate asupra calităţii estimării parametrilor modelului prin intervale de încredere, precum şi asupra validării unor ipoteze formulate asupra acestui model de regresie. În aceste condiţii, dispersia reziduului este subestimată sau supra estimată. Astfel, în această situaţie, sunt validate ipoteze false sau, din contră, sunt respinse ipoteze ce sunt corect formulate. Pornind de la aceste afirmaţii, se pune o primă problemă, aceea de a stabili în ce măsură varianţele variabilelor reziduale stabilite în condiţiile utilizării metodei celor mai mici pătrate se abat de la varianţele estimate în condiţiile unui model homoscedastic. În al doilea rând, trebuie identificate testele statistice ce pot fi utilizate pentru verificarea valabilităţii ipotezei de homoscedasticitate.

Testul White are la bază explicitarea seriei

în raport cu una sau mai multe variabile factoriale. Astfel, se reprezintă seria pătratelor reziduurilor în

raport cu valorile variabilelor exogene, cu pătratele lor sau cu diverse combinaţii de ordinul întâi ale acestora. Modelul de regresie este definit prin relaţiile:

222

Page 223: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

- în raport cu unele variabile factoriale şi pătratele acestora:

(9.16)

- în raport cu unele variabile factoriale, pătratele acestora şi diverse combinaţii de ordinul întâi ale acestora. Astfel, dacă pentru explicarea varianţei variabilei reziduale se utilizează două variabile factoriale, atunci se defineşte modelul de regresie:

(9.17)

În ambele situaţii, pentru a stabili dacă ipoteza homoscedastisticităţii este valabilă, se recurge la un test Student sau la statistica LM.

În primul caz (9.17) definim ipotezele testului:

H0: a1 = ... = ak = b1 = ... = bk = 0 model homoscedatic

sau model heteroscedatic

Dacă se respinge ipoteza nulă, atunci trebuie corectată heteroscedastisticitatea înaintea testării ipotezelor formulate asupra modelului liniar de regresie.

La aplicarea statisticii LM avem în vedere proprietatea asimptotică a acesteia:

223

Page 224: Econometrie

Econometrie – Teorie şi studii de caz

unde:n - dimensiunea seriei folosite pentru estimarea

parametrilor şi reziduuluiR2 - raportul de determinare evaluat pentru unul dintre

aceste modeler - numărul de parametri din cadrul acestor modele

În utilizarea acestei proceduri de testare trebuie să se ţină seama de faptul că o creştere exagerată a valorii lui r duce implicit la diminuarea puterii testului.

Testul Goldfeld-Quandt se aplică în situaţia în care o singură variabilă factorială esta cauza heteroscedastisticităţii.

Pentru aplicarea acestei proceduri de testare se parcurg etapele: se ordonează crescător seria de date în raport cu valorile caracteristicii exogene ce generează heteroscedastisticitatea; sunt excluse din cadrul seriei un număr de c valori centrale. Se obţin două subserii de valori:

prima, la începutul seriei, cuprinde valori, iar a doua

este constituită din ultimele valori. Seria de date ce

corespunde variabilei exogene are următoarea reprezentare:

224

Page 225: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Valoarea lui c influenţează în mod direct puterea

testului. De regulă, se recomandă sau .

Folosind seriile de date pentru cele două subgrupe extreme, se estimează parametrii modelelor de regresie: pentru prima subserie se defineşte modelul de regresie

, , cu

pentru a doua subgrupă se defineşte un model de regresie echivalent:

,

,cu

se defineşte statistica testului

S-a notat prin numărul de termeni din cadrul fiecărei subserii.

Testul Glesjer, presupune a se identifica una sau mai multe funcţii pentru explicitarea varianţei reziduului.

Astfel, dispersia reziduului se explicitează prin

225

Page 226: Econometrie

Econometrie – Teorie şi studii de caz

(9.18)

unde f este o funcţie analitică, Z este un vector de variabile exogene sau combinaţii de variabile exogene ce cauzează violarea ipotezei homoscedasticităţii.

Testul Glesjer stabileşte dacă ipoteza homoscedasticităţii este validă pentru testarea semnificaţiei modelului de regresie (9.18). Aplicarea acestui test constă în parcurgerea etapelor următoare:- se estimează, prin metoda celor mai mici pătrate, parametrii şi seria reziduului modelului liniar de regresie,

;

- se explicitează seria reziduurilor printr-un model de regresie definit în raport cu variabilele exogene ce generează heteroscedasticitatea. În acest sens sunt utilizate diverse strategii: se explicitează seria pătratelor reziduului printr-un model de regresie constituit după regulile definite în cadrul testului White; se explicitează seriile sau prin diverse metode de regresie liniară sau neliniară. În raport cu caracteristicile modelului de regresie folosit în acest sens, se precizează tipul heteroscedasticităţii.

În tabelul următor sunt prezentate câteva cazuri particulare de funcţii de regresie. În toate situaţiile, heteroscedasticitatea este explicitată printr-o singură variabilă exogenă.

Modelul de regresie Tipul heteroscedasticităţii

1.

2.

226

Page 227: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

3.

Pentru testarea ipotezei nule se recurge la testul Student sau Wald. În cazul testului Student, se acceptă ipoteza nulă în situaţia în care parametrul ce corespunde variabilei exogene nu diferă semnificativ de zero. În situaţia alternativă, se alege acel model ce oferă cea mai corectă explicitare a variabilei reziduale.

227

Page 228: Econometrie

Bibliografie

Anghelache, C. Statistică teoretică şi economică – teorie şi aplicaţii, Editura Economică, Bucureşti, 2004

Anghelache, C. Sistemul European al Conturilor – note de curs, Editura ARTIFEX, Bucureşti, 2004

Anghelache, C. şi colaboratorii

Analiză macroeconomică, Editura Economică, Bucureşti, 2006

Anghelache, C. şi colaboratorii

Econometrie – studii de caz, Editura ARTIFEX, Bucureşti, 2006

Anghelache, C. şi colaboratorii (2007)

Elemente de econometrie – note de curs, Editura ARTIFEX, Bucureşti

Anghelache, C.,Capanu, I.

Indicatori macroeconomici – calcul şi analiză economică, Editura Economică, Bucureşti, 2003

Andrei, T. Statistică şi econometrie, Editura Economică, Bucureşti, 2003

Bardsen, G. şi colaboratorii (2005)

The Econometrics of Macroeconomic Modelling, Oxford University Press

Biji, M., Biji, M.E., Lilea, E.,Anghelache, C.,

Tratat de statistică, Editura Economică, Bucureşti, 2002

Capanu, I.,Anghelache, C.

Indicatori economici pentru managementul micro şi macroeconomic – calcul, prezentare, analiză, Editura Economică, Bucureşti, 2003

Capanu, I., Wagner, P., Mitruţ, C.

Sistemul Conturilor Naţionale şi Agregatemacroeconomice, Editura ALL, Bucureşti, 2004

Dobrescu, E. Macromodels of the Romanian Transition

Page 229: Econometrie

Capitolul 9 Autocorelarea şi heteroscedasticitatea

Economy, Editura Expert, Bucureşti, 1996Dougherty, C. (2007)

Introduction to Econometrics, Oxford University Press

Gilbert, M., Kravis, I.

An International Comparison of National Product and Purchasing Power of Currencies, OEEC, Paris, 1954

Isaic-Maniu, Al., Mitruţ, C., Voineagu, V.

Macroeconomie şi analiză macroeconomică, Editura „Constantin Brâncoveanu”, Rm. Vâlcea, 1995

Isaic-Maniu, Al., Antonescu, C.,Korka, M.Mitruţ, C., Voineagu, V.

Statistică Generală şi economică, Editura „Constantin Brâncoveanu”, Rm. Vâlcea, 1994

Florea, I.,Parpucea, I.

Statistică inferenţială, Editura Continental, Alba Iulia, 2000

Georgescu-Roegen. N,

Metoda Statistică, Ediţia a II-a, Editura Expert, bucureşti, 1998

Georgescu-Roegen. N,

Legea entropiei şi produsul economic, Editura Politică, bucureşti, 1979

Sargent, T. Macroeconomic Theory, 2nd Edition, Boston, Academic Press, 1999

Thomas, R.L. Modern econometrics – an introduction, Editura „Financial Times – Prentice Hall”, 1997

Tovissi, L.,Scarlat, E.,Taşnadi, Al.

Metode şi modele ale analizei economice structurale, Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1979

*** Scandinavian Journal of Statistics. Theory and Applications, Volume 34, Nr. 1, March 2007, ISSN 0303-6898

229

Page 230: Econometrie

Econometrie – Teorie şi studii de caz

*** Statistical Methodology, Volume 4, Issue 2, April 2007, ISSN 1572-3127

*** Journal of multivariate analysis, Volume 98, Number 3, March 2007, ISSN 0047-259X

*** Stoochastic processes and their applications, VLume 117, Issue 4, Aprilie 2007, ISSN 0304-4149

*** Law, Probalbility and Risk, Volume 5, Number 1, March 2006, ISSN 0957-4824

*** ISI Newsletter, Volume 31, Number 2(92) 2007

230


Recommended