Problema Regresie Liniara Simpla Cu Rezolvare

Problema pentru regresia liniară simplă

O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri:

Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)

1 3,4 26,22 1,8 17,8

3 4,6 31,3

4 2,3 23,1

5 3,1 27,5

6 5,5 36,0

7 0,7 14,1

8 3,0 22,3

9 2,6 19,6

10 4,3 31,3

11 2,1 24,0

12 1,1 17,3

13 6,1 43,2

14 4,8 36,4

15 3,8 26,1

Cerintele sunt:1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este

variabila explicativă şi care este variabila explicată;2. Pe baza datelor din eşantion, determinaţi coeficienţii modelului de regresie adecvat analizei

dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie

Pearson;5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia şi interpretaţi rezultatul

obţinut;6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;7. Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de

semnificaţie de 5%;8. Determinaţi intervalele de încredere 95% pentru parametrii modelului;9. Rezolvaţi problema în Excel;10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul

incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri (prognoza sau previziunea punctuală şi prin interval de încredere).

REZOLVARE1. Variabilele sunt:

X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci de km (variabila independentă sau variabila explicativă sau variabila exogenă)

Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro (variabila dependentă sau variabila explicată sau variabila endogenă)

CorelogramaSintaxa Excel: Insert

ChartXY(Scatter)

1

Corelograma

0.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

40.0

45.0

50.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

Valorile variabilei independente X(distanta de la locul incendiului la statia de pompieri, in zeci km)

Val

ori

le v

aria

bil

ei d

epen

den

te Y

(val

oar

ea p

reju

dic

iulu

i, i

n m

ii E

ur)

Corelograma sugerează că există legătură directă şi liniară între cele două variabile.Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, , o funcţie

liniară .Modelul liniar de regresie este .

2. Coeficienţii modelului de regresie liniră simplăPentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-

se astfel seria de date sau . Pe baza acestui eşantion vom

determina estimatorii a şi b ai parametrilor şi ai modelului de regresie. Estimatorii a şi b reprezintă soluţia sistemului ecuaţiilor normale:

Rezolvarea sistemului folosind metoda determinanţilor: si ,

unde este determinantul matricei sistemului de ecuaţii,

iar , sunt minorii corespunzători celor două necunoscute.

2

Calculele intermediare sunt prezentate în tabelul de mai jos:Valorile xi ale variabilei X

Valorile yi ale variabilei Y

x1=3,4 y1=26,2 (x1)2=11,56 (y1)2=686,44 x1·y1=89,08x2=1,8 y2=17,8 (x2)2=3,24 (y2)2=316,84 x2·y2=32,04x3=4,6 y3=31,3 (x3)2=21,16 (y3)2=979,69 x3·y3=143,98

2,3 23,1 5,29 533,61 53,133,1 27,5 9,61 756,25 85,255,5 36,0 30,25 1296,00 1980,7 14,1 0,49 198,81 9,873,0 22,3 9,00 497,29 66,92,6 19,6 6,76 384,16 50,964,3 31,3 18,49 979,69 134,592,1 24,0 4,41 576,00 50,41,1 17,3 1,21 299,29 19,036,1 43,2 37,21 1866,24 263,524,8 36,4 23,04 1324,96 174,72

x15=3,8 y15=26,1 (x15)2=14,44 (y15)2=681,21 x15·y15=99,18

Se obţine:

,

prin urmare dreapta de regresie este de ecuaţie ,ecuaţia de regresie liniară în eşantion este ,iar valorile ajustate ale observaţiilor prin regresie sunt

.

Interpretarea valorilor coeficienţilor b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de

pompieri creşte cu o unitate, adică 10 km a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă

staţia de pompieri.

3. Validitatea modelului de regresiePentru testarea validităţii modelului se formulează cele două ipoteze:

H0: modelul de regresie este nevalid statistic, cu alternativa

H1: modelul de regresie este valid statistic.

3

Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:

,

unde k este numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem un model de regresie liniară unifactorială sau simplă, adică cu o singură variabilă explicativă).

Fie α’ nivelul sau pragul de semnificaţie al testului, iar 1-α’ este nivelul de încredere al testului.Dacă nu se specifică, vom considera în general că α’=0,05 (sau α’·100=5%),iar 1-α’=0,95 (sau (1-α’)·100=95%).Pentru calculul statisticii folosim tabelul ANOVA:

Sursavariaţiei

Suma pătratelor(SS-Sum of Squares)

Grade de libertate

(df - degrees of freedom)

Media pătratelor(MS- Mean of

Squares)Dispersiile corectate

Valoarea statisticii F Fcritic

Datorată regresiei

(Regression)k

Reziduală(Residual)

n – k – 1

Totală n – 1

Regula de decizie: dacă , adică Fcalc se găseşte în regiunea critică, atunci

respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.

Calculele intermediare sunt prezentate în tabelul următor:

4

26,2 27,0035 -0,80 -0,21 0,05 0,6456 0,317,8 19,1326 -1,33 -8,61 74,19 1,7759 53,031,3 32,9067 -1,61 4,89 23,88 2,5814 42,223,1 21,5923 1,51 -3,31 10,98 2,2732 23,227,5 25,5277 1,97 1,09 1,18 3,8898 0,836,0 37,3341 -1,33 9,59 91,90 1,7797 119,314,1 13,7214 0,38 -12,31 151,62 0,1433 161,122,3 25,0358 -2,74 -4,11 16,92 7,4846 1,919,6 23,0681 -3,47 -6,81 46,42 12,0276 11,231,3 31,4309 -0,13 4,89 23,88 0,0171 25,224,0 20,6084 3,39 -2,41 5,82 11,5027 33,717,3 15,6891 1,61 -9,11 83,05 2,5949 115,043,2 40,2856 2,91 16,79 281,79 8,4936 192,436,4 33,8905 2,51 9,99 99,73 6,2974 55,926,1 28,9712 -2,87 -0,31 0,10 8,2440 6,5

Tabelul ANOVA

Sursavariaţiei

Suma pătratelor(SS-Sum of Squares)

Grade de libertate

(df - degrees of freedom)

Media pătratelor(MS - Mean of

Squares)Valoarea statisticii F Fcritic

Datorată regresiei

(Regression)k = 1

Reziduală(Residual)

n – k – 1 = 13

Totală n – 1 = 14

Cum , respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic

(modelul este semnificativ statistic sau modelul este corect specificat).

5

4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson

Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de 1, arată că între cele două variabile există o legătura liniară directă şi puternică.

5. Calculaţi raportul de corelaţie, testaţi validitatea acestuia şi interpretaţi rezultatul obţinut.

Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea

H0: Raportul de corelaţie este nesemnificativ statistic

(variabila X nu are influenţă semnificativă asupra lui Y)

cu alternativa

H1: Raportul de corelaţie este semnificativ statistic

(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).

Statistica testului este .

Valoarea calculată a statisticii testului este ,

acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.

Daca testearea se realizeaza la un prag de semnificaţie α’=0,05, atunci

.

Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul de

corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă asupra

variabilei Y (prejudiciul).

6. Coeficientul de determinaţie este

6

sau şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de

incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).

7. Testarea semnificatiei parametrului α al modelului linear de regresie :

H0: α=0 (parametrul este nesemnificativ statistic)

H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)

Statistica testului este ,

unde este abaterea standard (eroarea standard) a

estimatorului a, este disperia reziduala, iar este abaterea standard reziduală (eroarea standard

reziduală sau a erorilor).

Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică α=0, este

, deci , cu sa=1,42.

Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este

.

Cum , atunci , deci respingen H0

şi concluzionăm ca α este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (să respingem H0 când aceasta este adevărată).

Observaţie: Valoarea , care se citeşte din tabelul cu cuantilele repartiţiei Student, se mai

notează cu tcritic.

Testarea semnificaţiei parametrului β al modelului linear de regresie :

H0: β=0 (parametrul este nesemnificativ statistic)

H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)

Statistica testului este ,

unde este abaterea standard (eroarea standard) a estimatorului b,

este disperia reziduală, iar este abaterea standard reziduală (eroarea standard reziduală).

Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică β=0, este

, deci , cu sb=0,39.

Dacă nivelul de semnificaăţie este α’=0,05, atunci regiunea critică a testului este

.

Cum , atunci , deci respingen H0 şi

concluzionăm ca β este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (să respingem H0 când aceasta este adevărată).

7

8. Intervalul de încredere (1-α’)·100% = 95% pentru parametrul α al modelului linear de regresie , determinat pe baza eşantionului observat, este:

,

unde sa este eroarea standard a estimatorului a.

În cazul nostru, a=10,2779, sa=1,42, α’=0,05, , deci intervalul [7,2;

13,3] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori [7,2; 13,3] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă staţia de pompieri.

Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de regresie

, determinat pe baza eşantionului observat, este:

,

unde sb este eroarea standard a estimatorului b.

În cazul nostru, b=4,9193, sb=0,39, α’=0,05, , deci intervalul [4,07;

5,76] acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.

Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

9. Rezolvarea in Excel:

În Excel, există modulul Data Analysis, opţiunea Regression care furnizează într-un output specific toate aceste calcule prezentate până acum.

Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru

n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se

lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data

Analysis şi apoi Regression.

8

În fereastra care va apare, trebuie:- să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care este şirul de valori corespunzătoare variabilei independente X (Input X Range),- să specificaţi nivelulde încredere al testului, de obicei 95%,- să precizaţi celula din foaia de lucru de la care se vor afişa rezultatele, adică outputul (Output Range),- să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.

9

Output-ul este prezentat în tabelul următor:

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,96098 = R = raportul de corelaţieR Square 0,92348 = R2 = coeficientul de determinaţieAdjusted R Square 0,91759

Standard Error 2,31635 = se = eroarea standard sau abaterea standard a erorilorObservations 15 = n = numărul de perechi de observaţii din eşantion

ANOVA df SS MS F Significance F

Regression 1 = k 841,766 841,766 156,886 1,2478E-08

Residual 13 = n-k-1 69,751 5,365

Total 14 = n-1 911,52

CoefficientsStandard

Errort Stat P-value

Lower 95%(Limita inferioară a

intervalului de încredere 95%)

Upper 95%(Limita superioară a intervalului încredere

95%)

Intercept 10,2779=a 1,42=sa 7,237= 6,59E-06

7,210= 13,346=

X Variable 1 4,9193=b 0,39=sb 12,525= 1,25E-08

4,071=

5,768=

RESIDUAL OUTPUT

ObservationPredicted Y Residuals

1 27,0037 -0,80372 19,1327 -1,33273 32,9068 -1,60684 21,5924 1,50765 25,5279 1,97216 37,3342 -1,33427 13,7215 0,37858 25,0359 -2,73599 23,0682 -3,4682

10 31,4311 -0,131111 20,6085 3,391512 15,6892 1,610813 40,2858 2,914214 33,8907 2,509315 28,9714 -2,8714

10

11

Date post:	11-Aug-2015
Category:	Documents
Upload:	adina-tudor
View:	331 times
Download:	2 times

Problema Regresie Liniara Simpla Cu Rezolvare

Documents