Date post: | 11-Aug-2015 |
Category: |
Documents |
Upload: | adina-tudor |
View: | 331 times |
Download: | 2 times |
Problema pentru regresia liniară simplă
O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri:
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,22 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerintele sunt:1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este
variabila explicativă şi care este variabila explicată;2. Pe baza datelor din eşantion, determinaţi coeficienţii modelului de regresie adecvat analizei
dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson;5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia şi interpretaţi rezultatul
obţinut;6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;7. Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de
semnificaţie de 5%;8. Determinaţi intervalele de încredere 95% pentru parametrii modelului;9. Rezolvaţi problema în Excel;10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul
incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri (prognoza sau previziunea punctuală şi prin interval de încredere).
REZOLVARE1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci de km (variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro (variabila dependentă sau variabila explicată sau variabila endogenă)
CorelogramaSintaxa Excel: Insert
ChartXY(Scatter)
1
Corelograma
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X(distanta de la locul incendiului la statia de pompieri, in zeci km)
Val
ori
le v
aria
bil
ei d
epen
den
te Y
(val
oar
ea p
reju
dic
iulu
i, i
n m
ii E
ur)
Corelograma sugerează că există legătură directă şi liniară între cele două variabile.Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, , o funcţie
liniară .Modelul liniar de regresie este .
2. Coeficienţii modelului de regresie liniră simplăPentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-
se astfel seria de date sau . Pe baza acestui eşantion vom
determina estimatorii a şi b ai parametrilor şi ai modelului de regresie. Estimatorii a şi b reprezintă soluţia sistemului ecuaţiilor normale:
Rezolvarea sistemului folosind metoda determinanţilor: si ,
unde este determinantul matricei sistemului de ecuaţii,
iar , sunt minorii corespunzători celor două necunoscute.
2
Calculele intermediare sunt prezentate în tabelul de mai jos:Valorile xi ale variabilei X
Valorile yi ale variabilei Y
x1=3,4 y1=26,2 (x1)2=11,56 (y1)2=686,44 x1·y1=89,08x2=1,8 y2=17,8 (x2)2=3,24 (y2)2=316,84 x2·y2=32,04x3=4,6 y3=31,3 (x3)2=21,16 (y3)2=979,69 x3·y3=143,98
2,3 23,1 5,29 533,61 53,133,1 27,5 9,61 756,25 85,255,5 36,0 30,25 1296,00 1980,7 14,1 0,49 198,81 9,873,0 22,3 9,00 497,29 66,92,6 19,6 6,76 384,16 50,964,3 31,3 18,49 979,69 134,592,1 24,0 4,41 576,00 50,41,1 17,3 1,21 299,29 19,036,1 43,2 37,21 1866,24 263,524,8 36,4 23,04 1324,96 174,72
x15=3,8 y15=26,1 (x15)2=14,44 (y15)2=681,21 x15·y15=99,18
Se obţine:
,
prin urmare dreapta de regresie este de ecuaţie ,ecuaţia de regresie liniară în eşantion este ,iar valorile ajustate ale observaţiilor prin regresie sunt
.
Interpretarea valorilor coeficienţilor b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de
pompieri creşte cu o unitate, adică 10 km a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă
staţia de pompieri.
3. Validitatea modelului de regresiePentru testarea validităţii modelului se formulează cele două ipoteze:
H0: modelul de regresie este nevalid statistic, cu alternativa
H1: modelul de regresie este valid statistic.
3
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:
,
unde k este numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem un model de regresie liniară unifactorială sau simplă, adică cu o singură variabilă explicativă).
Fie α’ nivelul sau pragul de semnificaţie al testului, iar 1-α’ este nivelul de încredere al testului.Dacă nu se specifică, vom considera în general că α’=0,05 (sau α’·100=5%),iar 1-α’=0,95 (sau (1-α’)·100=95%).Pentru calculul statisticii folosim tabelul ANOVA:
Sursavariaţiei
Suma pătratelor(SS-Sum of Squares)
Grade de libertate
(df - degrees of freedom)
Media pătratelor(MS- Mean of
Squares)Dispersiile corectate
Valoarea statisticii F Fcritic
Datorată regresiei
(Regression)k
Reziduală(Residual)
n – k – 1
Totală n – 1
Regula de decizie: dacă , adică Fcalc se găseşte în regiunea critică, atunci
respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate în tabelul următor:
4
26,2 27,0035 -0,80 -0,21 0,05 0,6456 0,317,8 19,1326 -1,33 -8,61 74,19 1,7759 53,031,3 32,9067 -1,61 4,89 23,88 2,5814 42,223,1 21,5923 1,51 -3,31 10,98 2,2732 23,227,5 25,5277 1,97 1,09 1,18 3,8898 0,836,0 37,3341 -1,33 9,59 91,90 1,7797 119,314,1 13,7214 0,38 -12,31 151,62 0,1433 161,122,3 25,0358 -2,74 -4,11 16,92 7,4846 1,919,6 23,0681 -3,47 -6,81 46,42 12,0276 11,231,3 31,4309 -0,13 4,89 23,88 0,0171 25,224,0 20,6084 3,39 -2,41 5,82 11,5027 33,717,3 15,6891 1,61 -9,11 83,05 2,5949 115,043,2 40,2856 2,91 16,79 281,79 8,4936 192,436,4 33,8905 2,51 9,99 99,73 6,2974 55,926,1 28,9712 -2,87 -0,31 0,10 8,2440 6,5
Tabelul ANOVA
Sursavariaţiei
Suma pătratelor(SS-Sum of Squares)
Grade de libertate
(df - degrees of freedom)
Media pătratelor(MS - Mean of
Squares)Valoarea statisticii F Fcritic
Datorată regresiei
(Regression)k = 1
Reziduală(Residual)
n – k – 1 = 13
Totală n – 1 = 14
Cum , respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
5
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson
Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de 1, arată că între cele două variabile există o legătura liniară directă şi puternică.
5. Calculaţi raportul de corelaţie, testaţi validitatea acestuia şi interpretaţi rezultatul obţinut.
Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea
H0: Raportul de corelaţie este nesemnificativ statistic
(variabila X nu are influenţă semnificativă asupra lui Y)
cu alternativa
H1: Raportul de corelaţie este semnificativ statistic
(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).
Statistica testului este .
Valoarea calculată a statisticii testului este ,
acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.
Daca testearea se realizeaza la un prag de semnificaţie α’=0,05, atunci
.
Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul de
corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă asupra
variabilei Y (prejudiciul).
6. Coeficientul de determinaţie este
6
sau şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de
incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).
7. Testarea semnificatiei parametrului α al modelului linear de regresie :
H0: α=0 (parametrul este nesemnificativ statistic)
H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)
Statistica testului este ,
unde este abaterea standard (eroarea standard) a
estimatorului a, este disperia reziduala, iar este abaterea standard reziduală (eroarea standard
reziduală sau a erorilor).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică α=0, este
, deci , cu sa=1,42.
Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este
.
Cum , atunci , deci respingen H0
şi concluzionăm ca α este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (să respingem H0 când aceasta este adevărată).
Observaţie: Valoarea , care se citeşte din tabelul cu cuantilele repartiţiei Student, se mai
notează cu tcritic.
Testarea semnificaţiei parametrului β al modelului linear de regresie :
H0: β=0 (parametrul este nesemnificativ statistic)
H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)
Statistica testului este ,
unde este abaterea standard (eroarea standard) a estimatorului b,
este disperia reziduală, iar este abaterea standard reziduală (eroarea standard reziduală).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică β=0, este
, deci , cu sb=0,39.
Dacă nivelul de semnificaăţie este α’=0,05, atunci regiunea critică a testului este
.
Cum , atunci , deci respingen H0 şi
concluzionăm ca β este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (să respingem H0 când aceasta este adevărată).
7
8. Intervalul de încredere (1-α’)·100% = 95% pentru parametrul α al modelului linear de regresie , determinat pe baza eşantionului observat, este:
,
unde sa este eroarea standard a estimatorului a.
În cazul nostru, a=10,2779, sa=1,42, α’=0,05, , deci intervalul [7,2;
13,3] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori [7,2; 13,3] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă staţia de pompieri.
Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de regresie
, determinat pe baza eşantionului observat, este:
,
unde sb este eroarea standard a estimatorului b.
În cazul nostru, b=4,9193, sb=0,39, α’=0,05, , deci intervalul [4,07;
5,76] acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
9. Rezolvarea in Excel:
În Excel, există modulul Data Analysis, opţiunea Regression care furnizează într-un output specific toate aceste calcule prezentate până acum.
Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se
lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data
Analysis şi apoi Regression.
8
În fereastra care va apare, trebuie:- să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care este şirul de valori corespunzătoare variabilei independente X (Input X Range),- să specificaţi nivelulde încredere al testului, de obicei 95%,- să precizaţi celula din foaia de lucru de la care se vor afişa rezultatele, adică outputul (Output Range),- să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.
9
Output-ul este prezentat în tabelul următor:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,96098 = R = raportul de corelaţieR Square 0,92348 = R2 = coeficientul de determinaţieAdjusted R Square 0,91759
Standard Error 2,31635 = se = eroarea standard sau abaterea standard a erorilorObservations 15 = n = numărul de perechi de observaţii din eşantion
ANOVA df SS MS F Significance F
Regression 1 = k 841,766 841,766 156,886 1,2478E-08
Residual 13 = n-k-1 69,751 5,365
Total 14 = n-1 911,52
CoefficientsStandard
Errort Stat P-value
Lower 95%(Limita inferioară a
intervalului de încredere 95%)
Upper 95%(Limita superioară a intervalului încredere
95%)
Intercept 10,2779=a 1,42=sa 7,237= 6,59E-06
7,210= 13,346=
X Variable 1 4,9193=b 0,39=sb 12,525= 1,25E-08
4,071=
5,768=
RESIDUAL OUTPUT
ObservationPredicted Y Residuals
1 27,0037 -0,80372 19,1327 -1,33273 32,9068 -1,60684 21,5924 1,50765 25,5279 1,97216 37,3342 -1,33427 13,7215 0,37858 25,0359 -2,73599 23,0682 -3,4682
10 31,4311 -0,131111 20,6085 3,391512 15,6892 1,610813 40,2858 2,914214 33,8907 2,509315 28,9714 -2,8714
10
11