+ All Categories
Home > Documents > Www.aseonline.ro Probleme Rezolvate REGRESIE

Www.aseonline.ro Probleme Rezolvate REGRESIE

Date post: 14-Jul-2015
Category:
Upload: antonescu-ioana
View: 669 times
Download: 13 times
Share this document with a friend

of 22

Transcript

1. n tabelul urmtor avem date referitoare la 15 ageni de asigurri angajai ai unei companii de asigurri de via i anume: timpul mediu, n minute, petrecut de un agent cu unpotenial client inumruldepoliencheiatentr-osptmn. DacXreprezint timpul mediu, iar Y reprezint numrul de polie, avem datele sistematizate astfel:X Y2523302520331821223026262729201011141281891010151115121411Se cere:a) s se estimeze parametrii modelului liniar de regresie;b) s se testeze semnificaia parametrilor modelului pentru un prag de semnificaie = 5%;c) s se determine erorile reziduale;d) s se testeze validitatea modelului de regresie pentru un nivel de semnificaie = 5%;e) msuraiintensitatealegturii dintre cele dou variabile folosind un indicator adecvat i testai semnificaia acestuia pentru un nivel de ncredere de 0,5%;f) efectuai oprevizionare punctualipe interval dencredere a numrului de polie ncheiate de un agent care petrece n medie 24 de minute cu un potenial client.Rezolvare:Pentru a determina forma modelului de regresie se va construi corelograma:681012141616 18 20 22 24 26 28 30 32 34OYtimpul mediuOXnumar polite1 cm OY = 5 polie1 cm OX = 2 minutea) i 1 0ix a a y + Parametrii a i b se determin cu ajutorul metodei celor mai mici ptrate:( ) ( ) min x a a y min y yi2i 1 0 ii2i i' + + n1 ii in1 i2i1n1 ii 0n1 iin1 ii 1 0y x x a x ay x a na15 n Pentru a rezolva sistemul vom folosi urmtorul tabel n care sunt prezentate valorile intermediare:ixiy2ixi iy x2iy( )2iy y ( )2ix x 2523302520331821223026262729201011141281891010151115121411625529900625400108932444148490067667672984140025025342030016059416221022045028639032440622010012119614464324811001002251212251441961214140163694491904104250256449169251141625375xi 180yi 9639x2i 4645y xi i2262y2i 102 264' + +4645 9639 a 375 a180 375 a a 151 01 0' 5492 , 0 a73 , 1 a10Deci:iix 5492 , 0 73 , 1 y + b) Testarea semnificaiei parametrilor modelului:Ecuaia de regresie la nivelul colectivitii generale este:ii 1 0iu x y + + iar la nivelul eantionului este:ii 1 0iu x a a y + + Testarea semnificaiei parametrului 1:1) se stabilete ipoteza nul:H0 : 1 = 02) se stabilete ipoteza alternativ:H1:1 0, adic1estesemnificativdiferit dezero, adic1este semnificativ statistic.3) se calculeaz testul statistic:deoarece n = 15 < 30 avem eantion de volum redus i pentru testare vom utiliza testul t:8 , 608 , 05492 , 0sas0 asat1 1 1a1a1a1 1 ( )0064 , 02647199 , 1x xssi2i2u 2ai ( )7199 , 12 1535 , 221 k ny ysi2i i2u k reprezint numrul variabilelor factoriale (n cazul modelului unifactorialk = 1).251537515xx151 ii Pentru un prag de semnificaie de 5% valoarea tabelat a testului este:t0,05/2; 13 = t0,025; 13 = 1,35Testarea semnificaiei parametrului 0:1) se stabilete ipoteza nul: H0: 0 = 0;2) se stabilete ipoteza alternativ:H1: 0 0;3) se calculeaz testul statistic: 84 , 0096 , 273 , 1sas0 asat0 0 0a0a0a1 0 ( )186 , 42642515171 , 1x xxn1s si2i22u2a01]1

+ 1111]1

+ 35 , 1 t 84 , 0 t2 n ; 2 / calc > se accept ipoteza nul, adic parametrul a0 nu este semnificativ statistic.c) Erorile reziduale sunti i iy y u i sunt prezentate n tabelul de mai jos:ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70d) Testarea validitii modelului de regresie:1) se stabilete ipoteza nul: H0: mprtierea valorilortydatorate factorului nu difer semnificativ de mprtierea acelorai valori datorate ntmplrii, deci modelul nu este valid.2) se stabilete ipoteza alternativ:H1: modelul este valid;3) se calculeaz testul F:3 , 4671 , 164 , 79ssF2u2x ( )64 , 79164 , 79ky ysi2i2x ( )71 , 12 1535 , 221 k ny ysi2i i2u 121518015yy151 ii 67 , 4 F F F13 , 1 ; 05 , 0 1 k n ; calc Deoarece Fcalc > Ftab modelul este valid.e) Intensitatea legturii dintre cele dou variabile se face cu coeficientul de corelaie liniar:( ) [ ] ( ) [ ][ ][ ]0 1 88 , 0180 2262 15 375 9639 15180 375 4645 15y y n x x ny x y x nr2 22i2i2i2ii i i i> Rezult c ntre cele dou variabile exist o legtur direct foarte puternic.Testarea semnificaiei coeficientului de corelaie:- se stabilete ipoteza nul:H0: nu este semnificativ statistic;- se stabilete ipoteza alternativ:H1: este semnificativ statistic;- se calculeaz testul t:75 , 688 , 0 113 88 , 0r 12 n rsrt2 2r 16 , 2 t t t13 ; 05 , 0 1 k n ; calc > Coeficientul de corelaie este semnificativ statistic.Msurarea intensitii legturii cu raportul de corelaie R:( )( )88 , 0y yy yRn1 i2in1 i2iDeoarece R = r = 0,88, apreciem c exist o legtur liniar, puternic i direct ntre cele dou variabile.Testarea raportului de corelaie se face cu testul F:09 , 4611378 , 0 178 , 0k1 k nR 1RF22 Cum:67 , 4 F F13 ; 1 ; 05 , 0 calc >R este semnificativ statistic.f) 12 ~ 45 , 11 24 5492 , 0 73 , 1 y1 n + +polie (aceasta este estimarea punctual).Pentru estimarea pe interval de ncredere vom avea:1 n 1 ny 1 k n ; 2 / 1 n 1 n y 1 k n ; 2 / 1 ns t y y s t y+ + + + + +35 , 1 t 12 y 35 , 1 t 1213 ; 025 , 0 1 n 13 ; 025 , 0 + +( )( )82 , 1264) 25 24 (1511 71 , 1x xx xn11 s s2i2i21 n 2u2y1 n11]1

+ + 1111]1

+ + ++35 , 1 s1 ny+8225 , 13 y 1775 , 101 n +Intervalul de ncredere pentru numrul de polie ncheiate este:14 y 101 n +Rezolvarea problemei cu ajutorul programului informatic EXCEL:Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi Regression i se deschide urmtoarea fereastr:i se obin urmtoarele rezultate:SUMMARY OUTPUTRegression StatisticsMultiple R 0.883621R Square 0.780786Adjusted R Square0.763923Standard Error 1.311483Observations 15.000000ANOVAdf SS MS F Significance FRegression 1.000000 79.640152 79.64015246.3027270.000013Residual 13.000000 22.359848 1.719988Total 14.000000 102.000000CoefficientsStandard Errort Stat P-value Lower 95%Upper 95%Intercept -1.731061 2.046120-0.846021 0.412843-6.151434 2.689313X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619RESIDUAL OUTPUTObservation Predicted YResiduals1.000000 12.000000 -2.0000002.000000 10.901515 0.0984853.000000 14.746212 -0.7462124.000000 12.000000 0.0000005.000000 9.253788 -1.2537886.000000 16.393939 1.6060617.000000 8.155303 0.8446978.000000 9.803030 0.1969709.000000 10.352273 -0.35227310.000000 14.746212 0.25378811.000000 12.549242 -1.54924212.000000 12.549242 2.45075813.000000 13.098485 -1.09848514.000000 14.196970 -0.19697015.000000 9.253788 1.746212Explicitarea datelor din tabelele de mai sus:SUMMARY OUTPUTRegression StatisticsMultiple RRaportul de corelatie (R) 0.883621( )( )( )( ) n1 i2in1 i2i in1 i2in1 i2iy yy y1y yy yx , RyR SquareCoeficientul (gradul ) de determinaie0.780786( )( ) n1 i2in1 i2i2y2e2y2x / y2y yy y1 RAdjusted R SquareValoarea ajustat a coeficientului de determinaie0.7639231 n /1 k n /1 R2y2u2 Standard ErrorAbaterea medie ptratic a erorilor n eantion1.311483( )2 ny y2 nsn1 i2i i2uuObservationsNumrul observaiilor (n)15Tabel 2.ANOVASursa variaieidf(grade de libertate)SS (variana)(suma ptratelor)MS =SS/df(media ptratelor)(dispersia corectat)F Significance FRegression (variaia datorat regresiei)1 (k)SSR=( ) n1 i2i2xy y= 79.640152ks2x 2x= 79.640152Testul F=46.302727F=2xs /2us0.000013< 0.05(resping H0 model valid)Residual (variaia rezidual)13 (n-k-1)SSE=( ) n1 i2i i2uy y = 22.3598481 k ns2u 2u =1.719988Total (variaia total)14 (n-1)SST=( ) n1 i2i2yy y = 102.000000SST=SSR + SSE 1 ns2y2y Tabel 3 Coefficients(Coeficieni)Standard Error(Abaterea medie patratic)t Stat P-value Lower 95% Upper 95%Limita inf.a intervaluluide ncredereLimita sup. a intervaluluide ncredereIntercept(termenul liber)a0= -1.7310610as =2.0461200at= -0.8460210.412843> 0,05-6.151434 2.689313Timpul mediua1 = 0.5492421as =0.0807161 at= 6.8046110.000013< 0,050.374866 0.723619Tabel 4.RESIDUAL OUTPUTObservationPredictediy Numrul de polieResidualsi iy y 1 338.5796 -14.99862 371.2542 -27.57223 376.1748 -0.91084 332.8525 18.38955 311.8281 16.58896 310.6962 7.37287 325.9235 5.03558 287.8659 -20.62999 310.9763 9.906710 382.3073 27.227711 336.2188 -19.956812 369.2938 -17.487813 338.7504 -5.095414 367.2528 5.426215 346.0917 16.7043Interpretare rezultate din tabelul SUMMARY OUTPUT : R= 0.883621 arat c ntre numrul de polie ncheiate i timpul mediu petrecut cu un potenial client exist o legtur puternic. R2=0.780786arat c 78%din variaia numrului de polie ncheiate este explicat de timpul mediu petrecut de un agent cu un potenial client. Abatereamediepatraticaaerorilor us=1.311483. ncazul ncareacest indicator este zero nseamn c toate punctele sunt pe dreapta de regresie.Interpretare rezultate din tabelul ANOVA :n acest tabel este calculat testul F pentru validarea modelului de regresie. ntruct F=46.302727, iar SignificanceF(pragul desemnificatie)este0.000013(valoaremai mica de 0.05) atunci modelul de regresie construit este valid i poate fi utilizat pentru analiza dependenei dintre cele dou variabile.Interpretarea rezultatelor din tabelul 4: Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber estepunctul ncarevariabilaexplicativ(factorial) este0. Deci numrul de polie ncheiate, dac timpul petrecut este 0. Deoarece 0at= -0.846021iar pragul desemnificaieP-valueeste0.412843>0,05nseamncacest coeficient este nesemnificativ. Dealtfel faptul climitainferioaraintervalului dencredere (-6.151434 02.689313) pentru acest parametru este negativ, iar limita superioar este pozitiv arat c parametrul din colectivitatea general este aproximativ zero. Coeficientul a1 este 0.549242, ceea ce nsemn c la creterea timpului petrecut cu unminut, numrul depoliencheiatevacretecu0,549242. Deoarece1 at= 6.804611iar pragul desemnificaieP-valueeste0.000013 0 (panta dreptei) deoarece legtura dintre cele dou variabile este direct.b) Pentru estimarea parametrilor modelului de regresie utilizm metoda celor mai mici ptrate:20 , 1 i u x a a yi 1 0i + + i 1 0ix a a y + ( ) ( ) min x a a y min y yi2i 1 0 ii2i i' + +68864 53 , 31991 a 1 , 733 a5 , 1557 a 1 , 733 a 201 01 0 ' 2997 , 2 a4201 , 6 a10Deci, modelul este:iix 2997 , 2 4201 , 6 y + 2997 , 253 , 31991 1 , 7331 , 733 2068864 1 , 7335 , 1557 20x xx ny x xy na2iiii i ii1 4201 , 6 x a y a1 0 c) Ipotezele metodei celor mai mici ptrate:c1)Variabilele observate nu sunt afectate de erori de msur.Aceast ipotez se poate verifica cu ajutorul urmtoarelor relaii:x i xs 3 x x s 3 x + < < y i ys 3 y y s 3 y + < < unde:( )99 , 152074 , 5119nx xsn1 i2ix ( )07 , 402044 , 32116ny ysn1 i2iy 655 , 36201 , 73320xnxx201 iin1 ii 875 , 77205 , 155720yy201 ii 99 , 15 3 655 , 36 x 99 , 15 3 655 , 36i + < < 625 , 84 x 315 , 11i < < (adevrat)07 , 40 3 875 , 77 y 07 , 40 3 875 , 77i + < < 085 , 201 y 335 , 42i < < (adevrat)Ipoteza poate fi acceptat fr nici un dubiu.c2) Variabila aleatoare (rezidual) u este medie nul i dispersia variabilei reziduale este constant i independent de variabila factorial (ipoteza de homoscedasticitate).Ipoteza de homoscedasticitate poate fi verificat cu metoda grafic (corelograma).Sereprezint grafic peaxa OX valorile variabilei factoriale x, iar pe axa OY se reprezint valorile variabilei reziduale u.Va trebui s calculm valorile variabilei reziduale:i i iy y u Rezultatele sunt prezentate n tabelul de mai jos:iyiu33,8279,82102,8251,07121,2174,0729,2321,1867,1790,8657,9745,3251,0761,42143,06110,8683,9669,4797,07166,061,18-19,32-14,3219,433,79-11,070,778,82-2,17-10,8617,0324,688,933,586,94-10,86-8,96-29,47-22,0733,94-30-25-20-15-10-5051015202530350 20 40 60 80OYxiOXuiDeoarece graficul punctelor prezint o evoluie oscilant putem accepta ipoteza c variabila factorial i cea rezidual sunt independente.c3) Valorile variabilei reziduale nu sunt autocorelate, adic sunt independente ntre ele:Verificarea acestei ipoteze se poate face prin:- metoda grafic (corelograma);- testul Durbin-Warson.Prinmetodagraficseconstruietecorelogramatrecndu-sepeaxaOXvalorile variabilei rezultative yi, iar pe axa OY valorile variabilei reziduale:-30-25-20-15-10-5051015202530350 20 40 60 80 100 120 140 160 180OYyiOXuiDistribuia erorilor este oscilant, adic nu avem alternativ sistematic sub form de dini de fierstru, deci putem accepta ipoteza c erorile sunt independente, adic nu sunt autocorelate.Testarea ipotezei cu ajutorul testului Durbin-Watson:- se stabilete ipoteza nul:H0: variabila rezidual nu este autocorelat.- se stabilete ipoteza alternativ:H1: variabila rezidual este autocorelat.- se calculeaz testul Durbin-Watson:( )48 , 126 , 504087 , 7508uu udn1 i2in1 i21 i icalc Pentru a efectua calculul lui d vom prezenta rezultatele intermediare n urmtorul tabel:iu1 iu ( )21 i iu u2iu1,18-19,32-14,3219,433,79-11,070,778,82-2,17-10,8617,0324,688,933,586,94-10,86-8,96-29,47-22,0733,94-1,18-19,32-14,3219,433,79-11,070,778,82-2,17-10,8617,0324,688,933,586,94-10,86-8,96-29,47-22,07-420,1925,041138,90244,71220,80140,3064,86120,7975,47777,7758,47248,1428,6311,29317,003,62420,6654,813137,411,38373,21204,94377,4314,34122,530,6077,864,71117,88289,97608,9579,7012,8148,16118,0480,25868,48486,931152,107508,87 5040,26- se compar dcalccu cele dou valori d1i d2din tabelul testului Durbin-Watson pentrupraguldesemnificaie =0,05 pentrunumrulvariabilelorexogenek = 1i pentru n = 20:d1 = 1,20 d2 = 1,412 calc 2d 4 d d < se respinge ipoteza nul i se accept alternativa, deci modelul este valid. f) Intensitatea legturii dintre cele dou variabile se apreciaz cu ajutorul:- coeficientului de corelaie;- raportului de corelaie.Coeficientul de corelaie:918 , 0y y n x x ny x y x nr2iii2i2iii2iiiiiii ix / y11]1

,_

11]1

,_

Deoarece ry/x = 0,918 1, apreciem c ntre cele dou variabile exist o legtur liniar, direct, foarte puternic.Testarea semnificaiei coeficientului de corelaie pentru colectivitatea general:- se stabilete ipoteza nul:H0: = 0 (nu este semnificativ statistic);- se stabilete ipoteza alternativ:H1: 0 (este semnificativ statistic);- coeficientul de corelaie la nivelul colectivitii generale- se calculeaz testul t:82 , 9918 , 0 118 918 , 0r 12 n rt2 2calc- se compar calct cu 878 , 2 t t18 ; 1 , 0 2 n ; Deoarece 18 ; 1 , 0 calct t > respingemipotezanuli acceptmalternativa, deci coeficientul de corelaie este semnificativ statistic.Raportul de corelaie R:( )( )918 , 044 , 3211626 , 50401y yy y1 R1 i2i1 i2i i Deoarece R = ry/x, apreciem c ntre cele dou variabile exist,ntr-adevr, o legtur liniar.Testarea semnificaiei raportului de corelaie:- se stabilete ipoteza nul:H0: R nu este semnificativ statistic;- se stabilete ipoteza alternativ:H1: R este semnificativ statistic;- se calculeaz testul F:5 , 94918 , 0 1918 , 0118R 1Rk1 k nF2222calc - se compar calcF cu 28 , 8 F F18 ; 1 ; 1 , 0 1 k n ; k ; Deoarece 18 ; 1 ; 1 , 0 calcF F > se respinge ipoteza nul i se accept alternativa, deci raportul de corelaie este semnificativ statistic.g) 5679 , 85 40 2997 , 2 4201 , 6 y1 n + +euro (estimarea punctual)Pentru estimarea pe interval de ncredere vom avea:1 n 1 ny 1 k n ; 2 / 1 n 1 n y 1 k n ; 2 / 1 ns t y y s t y+ + + + + +16 , 17 t 5679 , 85 y 16 , 17 t 5679 , 85552 , 2 18 ; 025 , 0 1 n 552 , 2 18 ; 025 , 0 + + ( )( )59 , 29475 , 5119) 655 , 36 40 (2011 01 , 280x xx xn11 s s2n1 i2i21 n 2u2y1 n11]1

+ + 11111]1

+ + ++

Deci, intervalul de ncredere pentru taxele pltite pentru un venit de 40 mii euro la nivelul populaiei este:) euro ( 36 , 129 y ) euro ( 77 , 411 n +Rezolvarea problemei cu ajutorul programului informati c EXCEL :Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi Regression i se va deschide urmtoarea fereastr:i se obin urmtoarele rezultateSUMMARY OUTPUTRegression StatisticsMultiple R0.918184588R Square0.843062937Adjusted R Square0.834344212Standard Error16.73363108Observations 20ANOVA df SS MS FSignificance FRegression 127076.1781427076.18 96.695661.15588E-08Residual 185040.259363280.0144Total 19 32116.4375 CoefficientsStandard Error t Stat P-valueLower 95%Upper 95%Intercept -9.353374888 -0.6864 0.501209 - 13.230586.4201424826.07086914X Variable 1 (Venitul)2.2996901510.2338653259.833395 1.16E-081.808356955 2.791023RESIDUAL OUTPUTObservationPredicted Y Residuals133.82443516 1.17556484279.81823818-19.318238183102.8151397-14.31513969451.0721112919.427888715121.21266093.787339107674.0690128 -11.0690128729.225054860.774945141821.176139338.823860669967.16994235-2.1699423481090.8567509 -10.85675091157.9711817417.028818261245.3228859124.677114091351.072111298.9278887081461.420716973.57928302915143.05971736.94028267416110.8640552-10.864055211783.95768045-8.9576804491869.4696325 -29.46963251997.06591431-22.0659143120166.056618833.94338117Explicitarea datelor din tabelele de mai sus:SUMMARY OUTPUTRegression StatisticsMultiple RRaportul de corelaie (R) 0.918184588( )( )( )( ) n1 i2in1 i2i in1 i2in1 i2iy yy y1y yy yx , RyR SquareCoeficientul (gradul ) de determinaie0.843062937( )( ) n1 i2in1 i2i2y2e2y2x / y2y yy y1 RAdjusted R SquareValoarea ajustat a coeficientului de determinaie0.8343442121 n /1 k n /1 R2y2u2 Standard ErrorAbaterea medie ptratic a erorilor n eantion16.73363108( )2 ny y2 nsn1 i2i i2uuObservationsNumrul observaiilor (n)20Tabel 2.ANOVASursa variaieidf(grade de libertate)SS (variana)(suma ptratelor)MS =SS/df(media ptratelor)(dispersia corectat)FSignificance FRegression (variaia datorat regresiei)1 (k)SSR= ( ) nii xy y122 = 27076.17814ksxx22= 27076.18Testul F=96.69566F=2xs /2us1.15588E-08< 0.05(resping H0 model valid)Residual (variaia rezidual)18 (n-k-1)SSE= ( ) nii i uy y12 2= 5040.259363122 k nsuu=280.0144Total (variaia total)19 (n-1)SST= ( ) n1 i2i2yy y = 32116.4375SST=SSR + SSE122nsyy Tabel 3.Coefficients(Coeficieni)Standard Error(Abaterea mediepatratic)t Stat P-value Lower 95% Upper 95%Limita inf. a intervalului de ncredereLimita sup.a intervaluluide ncredereIntercept(termenul liber)a0=-6.420142480as =9.3533748880at=-0.68640.501209>0,05 -26.07086914 13.23058Venitula1 =2.2996901511as =0.2338653251 at=9.8333951.16E-080,05 nseamn c acest coeficient este nesemnificativ. De altfel faptul c limita inferioar a intervalului de ncredere (-26.07086914 013.23058) pentru acest parametru este negativ, iar limita superioar este pozitiv arat c parametrul din colectivitatea general este aproximativ zero. Coeficientul a1 este 2.299690151, ceea ce nsemn c la creterea venitului cu o mie euro, taxele vor crete cu 2,299690151 euro. Deoarece 1 at= 9.833395 iar pragul de semnificaie P-value este 1.16E-08


Recommended