+ All Categories
Home > Documents > Statistică

Statistică

Date post: 14-Apr-2016
Category:
Upload: diana-draghici
View: 216 times
Download: 1 times
Share this document with a friend
Description:
probleme
43
Anul I, CSIE 2011-2012 Statistica I Exercitii pregatitoare pentru testul de la seminar si pentru examen – partea I Ex. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile: a) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei; b) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei; c) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei; d) pentru 75% dintre obiecte s-a obtinut un pret de cel putin 36 sute lei; e) precizati care dintre urmatoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers in raport cu datele initiale. Rezolvare: Cele n=13 valori ale seriei de date se ordonează crescător: x (1) =32, x (2) =33, x (3) =35, x (4) =37, x (5) =48, x (6) =51, x (7) =54, x (8) =57, x (9) =60, x (10) =61, x (11) =63, x (12) =67, x (13) =72. Q 1 – cuartila de ordinul 1 sau cuartila inferioara Locul lui Q 1 este n +1 4 1= 13 +1 4 1=3 , 50 ∉ N, dar 3 < 3,50 < 4 x ( 3) Q 1 x ( 4) si Q 1 = x ( 3) +x (4 ) 2 = 35+37 2 = 36 sute lei. x ( 1 ) x ( 2 ) x ( 3 ) 25% ¿¿¿ ¿ Q 1 ¿¿¿¿ 36 ¿¿¿ x (4 ) ¿ x (5 ) ¿ x ( 6) ¿ x ( 7) ¿ x ( 8) ¿ x ( 9) ¿ x (10) ¿ x ( 11) ¿ x ( 12) ¿ x ( 13) 75 % ¿
Transcript
Page 1: Statistică

Anul I, CSIE 2011-2012Statistica I

Exercitii pregatitoare pentru testul de la seminar si pentru examen – partea I

Ex. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.Stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile:

a) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;b) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;c) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;d) pentru 75% dintre obiecte s-a obtinut un pret de cel putin 36 sute lei;e) precizati care dintre urmatoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt

outliers in raport cu datele initiale.

Rezolvare:Cele n=13 valori ale seriei de date se ordonează crescător:x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72.

Q1 – cuartila de ordinul 1 sau cuartila inferioara

Locul lui Q1 este

n+14

⋅1=13+14

⋅1=3 ,50∉N, dar 3 < 3,50 < 4

⇒ x (3 )≤Q 1≤x ( 4 ) si Q1=

x ( 3 )+x ( 4 )

2=35+37

2=36

sute lei.

x ( 1 )≤x (2 )≤x (3 )⏟25%

¿ ¿ ¿↑ ¿

Q1 ¿¿ ¿¿36 ¿¿¿ x (4 )¿ x (5 )¿ x (6 )¿ x (7 )¿ x (8 )¿ x ( 9)¿ x (10 )¿ x (11 )¿ x (12 )¿ x (13)⏟75 %

¿

Cu interpretarea: 25 % dintre termenii seriei au valori mai mici decat 36 sute lei (Q1 este percentila de

ordinul 25), iar 75% dintre termenii seriei au valori mai mari ca 36 sute lei;sau

25% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 36 sute lei, iar restul de 75% dintre ele s-au vandut cu un pret mai mare de 36 sute lei.

Q2=Me – cuartila de ordinul 2 sau mediana seriei de date statistice.

Locul lui Q2=Me este

n+12

=13+12

=7∈N ⇒Me=x (7 )=54 sute lei

x (1 )≤x (2 )≤x (3 )≤x ( 4 )≤x ( 5 )≤x ( 6 )≤x ( 7 )≤x( 8 )≤x (9 )≤x (10 )≤x ( 11 )≤x (12 )≤x (13 )

⏟50 %

¿

¿Me ¿

¿ 54 ¿¿¿⏟50%

¿¿

Cu interpretarea: jumatate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de

Page 2: Statistică

ordinul 50), iar restul au valori mai mari ca 54 sute lei;sau

jumatate dintre lucrarile de grafica licitate s-au vandut cu mai putin de 54 sute lei, iar restul s-au vandut cu un pret mai mare de 54 sute lei.

Q3 – cuartila de ordinul 3 sau cuartila superioara

Locul lui Q3 este

n+14

⋅3=13+14

⋅3=10 ,50∉N, dar 10 < 10,50 < 11

⇒ x ( 10)≤Q3≤x (11 ) si Q3=

x( 10 )+x ( 11 )

2=61+63

2=62

sute lei.

x ( 1 )≤x ( 2 )≤x ( 3 )≤x ( 4 )≤x( 5 )≤x( 6 )≤x (7 )≤x (8 )≤x ( 9 )≤x ( 10)⏟25%

¿ ¿ ¿↑¿

Q3 ¿¿ ¿¿62 ¿¿¿ x (11 ) ¿x ( 12)¿ x (13)⏟75%

¿

Cu interpretarea: 75 % dintre termenii seriei au valori mai mici decat 62 sute lei (Q3 este percentila de

ordinul 75), iar 25% dintre termenii seriei au valori mai mari ca 62 sute lei;sau

75% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 62 sute lei, iar restul de 25% dintre ele s-au vandut cu un pret mai mare de 62 sute lei.

x ( 1 )≤x (2 )≤x (3 )⏟25 %

¿ ¿ ¿↑ ¿

Q1 ¿¿ ¿¿36 ¿¿¿ x (4 )¿ x (5 )¿ x (6 )¿ x (7 )¿ x (8 )¿ x ( 9)¿ x (10 )⏟50 %

¿ ¿ ¿↑ ¿

Q3 ¿¿ ¿¿62 ¿¿¿ x (11 )¿ x (12 ) ¿ x (13 )⏟25%

¿

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.

Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei.

Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca:x<Q1−1,5⋅IQR sau x>Q3+1,5⋅IQR

sauvaloarea x este outlier pentru un set de date statistice daca daca se gaseste in afara

intervalului[Q1−1,5⋅IQR ; Q3+1,5⋅IQR ] .

In cazul nostru, [Q1−1,5⋅IQR ; Q3+1,5⋅IQR ]=[−3 ; 101 ] , deci numai valoarea 124 este outlier in raport cu setul initial de date statistice.

In concluzie, a) fals; b) adevarat; c) adevarat; d) adevarat; e) numai valoarea 124 sute lei este outlier in raport cu seria initiala de date.

Ex. 2. Se considera urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei).

Page 3: Statistică

Unde A – nivelul cel mai slab, E – nivelul cel mai inalt.

Construiti distributia de frecvente absolute si reprezentati-o grafic.Studiati tendinta centrala a distributiei folosind indicatori adecvati.Calculati media si dispersia unei variabile alternative, a carei stare favorabila este data de copiii care au atins cel mult nivelul C al jocului.

Alegeti afirmatiile false:a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei.b) Abaterea intercuartilica este de 10 mil. lei;c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si

56.d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. leie) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers.f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar

fi 396.

Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:

A11%

B13%

C20%

D34%

E22%

Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul castigarii premiului:

50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.

Se cere:a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei

serii de date;b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker),

punand in evidenta daca seria are valori extreme;c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;d) analizati asimetria;e) Descriptive Statistics.

Rezolvare: a)

Page 4: Statistică

o Populatia statistica este multimea actritelor care au castigat premiul Oscar.o Unitatea statistica este o actrita.o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la

momentul obtinerii premiului; variabila numerica, discreta.o Pentru un esantion de volum n=39 de actrite se cunosc valorile variabilei X, adica

{x1=50, x2=44, x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice numerice.

o Media unei serii simple de date numerice {x1 , x2 , .. . , xn} estex=

x1+x2+. ..+xn

n=∑i=1

n

x i

n .In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar

este x=

x1+x2+. ..+x39

39=∑i=1

39

x i

39=1486

39=38 , 1025

ani.o Pentru a determina mediana, vom proceda astfel:

- seria simpla de date se ordoneaza crescator x (1 )≤x (2 )≤.. .≤x ( n ) , unde x (i ) , i=1 , n

este elementul cu rangul i din seria ordonata crescator,

- locul medianei este

n+12

=20∈N ⇒Me=x ( 20 )=34 ani.

Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani).

o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrite fiecare.

Nr. crt. Varsta actritelorx i Varsta actritelor, in ordine crescatoare

x (i )

1 x1=50 x(1)=212 x2=44 x(2)=243 x3=35 x(3)=254 x4=80 x(4)=265 x5=26 x(5)=266 28 267 41 268 21 279 61 28

10 38 x(10)=30=Q1

11 49 3012 33 3113 74 3114 30 3315 33 3316 41 3317 31 3418 35 3419 41 3420 42 x(20)=34=Me

Page 5: Statistică

21 37 3522 26 3523 34 3524 34 3725 35 3726 26 3827 61 3928 60 4129 34 4130 24 x(30)=41=Q3

31 30 4232 37 4433 31 4934 27 x(34)=5035 39 x(35)=6036 34 x(36)=6137 26 x(37)=6138 25 x(38)=7439 x39=33 x(39)=80

o Pentru determinarea cuartilelor procedam astfel:

- locul cuartilei de ordinul 1, Q1, este

n+14

⋅1=10∈N ⇒Q1=x (10 )=30 ani;

un sfert dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar restul la cel putin 30 de ani;

- locul cuartilei de ordinul 3, Q3, este

n+14

⋅3=30∈N ⇒Q3=x ( 30)=41 ani;

trei sferturi dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar restul la cel putin 41 de ani.

o Abaterea intercuartilica esteIQR=Q3−Q1=11 ani si arata lungimea intervalului in care se gasesc jumatate dintre valorile din mijlocul seriei de date.

b) Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau outliers:

- cuartila inferioara sau de ordinul 1, Q1=30 ani;- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;- limita sau marginea inferioara a diagramei box-plot este cea mai mica

dintre valorile seriei de date cu proprietatea ca este mai mare sau egala cu Q1−1,5⋅IQR , adica

lim infbox− plot=min {x (i ) , i=1 , n | x( i )≥Q1−1,5⋅IQR }:o Q1−1,5⋅IQR=13 ,5o cea mai mica dintre valorile seriei de date, cu proprietatea ca este

¿13 , 5 , este x(1)=21 ani, deci marginea inferioara este egala cu 21

ani, lim infbox−plot=21=x ( 1 ) ;

Page 6: Statistică

30(Q1)

34(Me)

41(Q3)

50 60 61 74 80

* * * **

- limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile seriei de date cu proprietatea ca este mai mica sau egala cu Q3+1,5⋅IQR , adica

lim supbox− plot=max {x (i ) , i=1 , n | x (i )≤Q3+1,5⋅IQR }:o Q3+1,5⋅IQR=57 ,5o cea mai mare dintre valorile seriei de date, cu proprietatea ca este

¿57 ,5 , este x(34)=50 ani, deci marginea superioara este egala cu 50

ani, lim supbox−plot=50=x (34 ) .

Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot, adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand valorile x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.

Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in

afara intervalului [Q1−1,5⋅IQR ; Q3+1,5⋅IQR ]=[ 13 ,5 ; 57 ,5 ] , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor fi reprezentate distinct in diagrama box-plot.

Fig. …. Diagrama box-plot sau diagrama cu mustati (box-and-whisker).

21

Page 7: Statistică

Fig. …. Diagrama box-plot in SPSS.

c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este

sx2=

(x1− x )2+. ..+( xn− x )2

n−1=∑i=1

n

(xi− x )2

n−1 ,

adica sx

2=∑i=1

39

(x i− x )2

39−1=6791 ,5897

39−1=178 ,7260

,

abaterea standard (standard deviation) este sx=√sx2=13 ,3688 ani.

Coeficientul de variatie este vx=

sx

x⋅100=35 ,09 %>35 %

, ceea ce indica faptul ca seria de date nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale.

Page 8: Statistică

Nr. crt. Varsta actritelor x i x i− x (x i− x)2

1 x1=50 11,8974 141,54892 x2=44 5,8974 34,77973 x3=35 -3,1026 9,62594 x4=80 41,8974 1755,39515 x5=26 -12,1026 146,47206 28 -10,1026 102,06187 41 2,8974 8,39518 21 -17,1026 292,49779 61 22,8974 524,2925

10 38 -0,1026 0,010511 49 10,8974 118,754112 33 -5,1025 26,036113 74 35,8974 1288,625914 30 -8,1025 65,651515 33 -5,1025 26,036116 41 2,8974 8,395117 31 -7,1025 50,446418 35 -3,1025 9,625919 41 2,8974 8,395120 42 3,8974 15,190021 37 -1,1025 1,215622 26 -12,1025 146,472023 34 -4,1025 16,831024 34 -4,1025 16,831025 35 -3,1025 9,625926 26 -12,1025 146,472027 61 22,8974 524,292528 60 21,8974 479,497729 34 -4,10256 16,831030 24 -14,1025 198,882331 30 -8,1025 65,651532 37 -1,1025 1,215633 31 -7,1025 50,446434 27 -11,1025 123,266935 39 0,8974 0,805336 34 -4,1025 16,831037 26 -12,1025 146,472038 25 -13,1025 171,677139 x39=33 -5,1025 26,0361

∑i=1

39

x i=1486

∑i=1

39

( xi− x )=0

∑i=1

39

( xi− x )2=6791,5897

x= 38,1025 sx2= 178,7260

sx=√sx2=

13,3688

Page 9: Statistică

vx= 35,09%

d) Asimetria unei serii de distribuţie de frecvenţe se poate stabili:- prin compararea indicatorilor tendintei centrale,- prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara,- prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie,- se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor.

- Cum Me=34<38 ,1025= x , atunci concluzionam ca seria de date prezinta asimetrie pozitiva.

- Cum mediana este mai apropiata de Q1 decat de Q2, adica Me−Q1<Q3−Me , asa cum se poate vedea din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date predominand valorile mici.

- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS=

∑i=1

n

(x i− x)3

n⋅(sx )3 , al carui semn si marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date,CAS=1 , 5734 , o valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata.

- Sistematizarea printr-o serie de distributie de frecvente pe r=6 intervale de variatie de marime egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii premiului Oscar:

Nr. crt. Intervalul k de variatie(clasa de varsta)

Frecventa absolutanka intervalului k de variatie

(numarul de actritedin fiecare clasa de varsta)

Centrulxkal intervalului k de

variatie

1 20-30 ani 11 252 30-40 ani 16 353 40-50 ani 7 454 50-60 ani 1 555 60-70 ani 2 656 70-80 ani 2 75

∑k=1

6

nk=39=n

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si poligonul frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele cu varste relativ mai mici.

Page 10: Statistică

Histograma - distributia celor n=39 de actrite dupa variabila ce arata varsta la momentul castigarii premiului

Oscar

11

16

7

12 2

0

2

4

6

8

10

12

14

16

18

20-30ani

30-40ani

40-50ani

50-60ani

60-70ani

70-80ani

Varsta (intervalele sau clasele de varsta)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ac

trite

)

Poligonul frecventelor pentru seria de distributie de frecvente

11

16

7

12 2

0

2

4

6

8

10

12

14

16

18

0 10 20 30 40 50 60 70 80

Varsta, in ani (centrele intervalelor)

Num

arul

de

actri

te

e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:

Output-ul Descriptive Statistics in Excel Output-ul Descriptive Statistics in SPSSVarsta actritelor

Mean (media) x= 38.1025Standard Error 2.1407

Median Me=34Mode Mo=26

Standard Deviation(abaterea standard) sx=√sx

2=13.3688

Sample Variance(dispersia de selectie) sx

2= 178.7260Kurtosis 2.3830

Skewness(coeficientul de asimetrie) CAS= 1.5734

Range(Amplitudinea)

Ax=xmax−xmin= 59

Minimum xmin= 21

Maximum xmax= 80

Sum ∑i=1

39

xi=1486

Count n=39

Statistics

Varsta actritelor Oscar

N Valid 39

Missing 0

Mean x= 38.10

Std. Error of Mean 2.141

Median Me=34.00

Mode Mo=26a

Std. Deviation sx=√sx2=

13.369

Variance sx2= 178.726

Skewness CAS= 1.573

Std. Error of Skewness .378

Kurtosis 2.383

Std. Error of Kurtosis .741

Range Ax=xmax−xmin= 59

Minimum xmin= 21

Maximum xmax= 80

Sum ∑i=1

39

x i=1486

Page 11: Statistică

Percentiles 25 Q1=30.00

50 Q2=Me=34.00

75 Q3= 41.00

a. Multiple modes exist. The smallest value is shown

Observatie: Analiza boltirii/aplatizăriiBoltirea(kurtosis, în engl.) exprimă înălţimea curbei („cocoaşei”) comparativ cu distribuţia normală teoretică. Întâlnim, astfel distribuţii leptocurtice, ascuţite (cu „cocoaşa” înaltă) şi distribuţii platicurtice, aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăştierii fiecărei observaţii în jurul unei valori centrale şi se determină, pe eşantion, cu formula:

CBA=∑i=1

n

(x i− x )4

n⋅(sx2)2

−3, unde

sx2=

∑i=1

n

(x i− x )2

n−1 .

Definiţia este bazată pe momentul centrat de ordinul 4.

Interpretarea valorii coeficientului de aplatizare si boltire: Dacă CBA>0 , avem distribuţie leptocurtică, valorile varibilei fiind concentrate în

jurul indicatorilor tendinţei centrale Dacă CBA<0 , avem distribuţie platicurtica, valorile varibilei fiind dispersate în

raport cu indicatorii tendinţei centrale Dacă CBA=0 , avem distribuţie mezocurtică, adică distribuţia normală.

In cazul acestei serii de date statistice,CAB=2 , 383>0 , ceea ce indica o distributie leptocurtica (cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor).

Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:

a) Construiţi seria de distribuţie de frecvenţe şi analizaţi grafic tendinţa de normalitate a acesteia.

b) Caracterizaţi omogenitatea şi asimetria distribuţiei contractelor în funcţie de valoarea primelor anuale.

c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime anuale de valoare mai mica sau egala cu 90 Eur.

Rezolvare: a)o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul

companiei W.o Unitatea statistica este un contract de asigurare de locuinta.

Page 12: Statistică

o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila numerica, continua.

o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:

Nr.crt.

Valoarea xk Eura unei prime anuale

Numarul de contracte, nk ,(frecventa absoluta)

1 x1= 50 Eur n1= 2 contracte

2 x2=60 Eur n2= 3

3 x3=70 Eur n3= 6

4 x4= 90 Eur n4=9

5 x5=120 Eur n5= 16

6 x6=130 Eur n6= 8

7 x7=140 Eur n7= 6

∑k=1

7

nk=50=n contracte

sauX :( x1=50 Eur x2=60 x3=70 x4=90 x5=120 x6=130 x7=120

n1=2 contracte n2=3 n3=6 n4=9 n5=16 n6=8 n7=6 ),

unde ∑k=1

7

nk=50=n contracte.

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.

Page 13: Statistică

Poligonul frecventelor absolute - distributia celor 50 de contracte incheiate de agentul de asigurari dupa valoarea primei anuale

0

2

4

6

8

10

12

14

16

18

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala de asigurare a unui contract, in Eur

Frec

vent

a ab

solu

ta (n

umar

ul d

e co

ntra

cte)

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.

o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative

Nr.crt.

Valoarea xk Eur

a unei prime anualeNumarul de contracte,

nk ,(frecventa absoluta) Frecventa relativa

nk¿=

nk

n∈ [ 0,1 ]

1x1= 50 Eur

n1= 2 contracte n1¿= 0,04

2x2=60 Eur

n2= 3 n2¿= 0,06

3x3=70 Eur

n3= 6n3

¿=0,12

4x4= 90 Eur

n4= 9 n4¿ = 0,18

5x5=120 Eur

n5= 16n5

¿=0,32

6x6= 130 Eur

n6= 8n6

¿=0,16

7x7= 140 Eur

n7= 6 0,12

∑k=1

7

nk=50=n contracte

∑k=1

7

nk¿=1

*7n

Page 14: Statistică

Poligonul frecventelor relative

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala, in Eur, pentru un contract de asigurare

Frec

vent

a re

lativ

a

b)o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de

interes este

x=x1⋅n1+ .. .+xr⋅nr

n1+. . .+nr=∑k=1

r

xk⋅nk

n ,

unde {xk , k=1 , r } sunt variantele distincte observate ale variabilei, iar ∑k=1

r

nk=n volumul

esantionului.

In cazul nostru, x=

∑k=1

7

xk⋅nk

50=5310

50=106 , 2

Eur este valoarea medie a unei prime anuala corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.

o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand urmatorii pasi:

Cele r variante distincte sunt ordonate crescator x1<x2<. ..<xr .

Se determina locul medianei, adica

n+12

=25 , 5.

Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincteF ck=n1+. ..+nk , k=1 ,r .

Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata crescator este prima care depaseste locul medianei

Page 15: Statistică

Fc1=2<25 ,5Fc2=5<25 , 5Fc3=11<25 , 5Fc4=20<25 ,5

si Fc5=36≥25 ,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana

sau valoarea mediana: Me=x5=120 Eur, adica jumatate dintre contractele incheiat de agentul de vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur.

Nr.crt.

Valoareadistincta,xk Eur

nk ,(frecventaabsoluta)

xk⋅nk Fck=n1+. ..+nk (xk− x )2⋅nk

1x1= 50

n1= 2x1⋅n1= 100

Fc 1=n1= 2 (x2− x )2⋅n1=6316,88

2x2=60

n2= 3x2⋅n2= 180

Fc2=n1+n2=5(x2− x )2⋅n2=

6403,32

3x3=70

n3= 6 420Fc3=n1+n2+n3= 11 7862,64

4x4= 90

n4= 9 810Fc4=n1+. ..+n4= 20 2361,96

5x5=120

n5= 16 1920Fc5=n1+. . .+n5= 36 3047,04

6x6= 130

n6= 8 1040Fc6=n1+ .. .+n6= 44 4531,52

7x7= 140

n7= 6 840Fc7=n1+ .. .+n7=n=

50(x7− x )2⋅n7=

6854,64

∑k=1

7

nk=50=n ∑k=1

7

xk⋅nk=5310

∑k=1

7

(xk− x )2⋅nk=

37378

x= 106,2 sx2= 762,8163265

sx=√sx2=

27,61912972vx= 26,01%

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:

Frecventa absoluta cea mai mare este:16=n5=max {nk , k=1 ,r }.

valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a

variabilei de interes, Mo=x5=120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale pentru contractele incheiate de respectivul agent.

o Relatia in care se gasesc indicatorii tendintei centrale, x<Me=Mo , ca si reprezentatrea grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.

Page 16: Statistică

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

sx2=

(x1− x )2⋅n1+. ..+( xr− x)2⋅nr

(n1+. ..+nr )−1=∑k=1

r

(xk− x )2⋅nk

n−1 ,

unde {xk , k=1 , r } sunt variantele distincte observate ale variabilei, ∑k=1

r

nk=n volumul

esantionului.

In cazul nostru,sx

2=∑k=1

7

(xk− x )2⋅nk

50−1=37378

50−1=762 , 8163

, iar abaterea standard sau

abaterea medie patratica este sx=√sx2=27 , 6191 Eur, care arata cu cat se abat, in medie,

valorile observate fata de nivelul mediu in esantion al primelor anuale.

o Coeficientul de variatie in esantion este vx=

sx

x⋅100=27 ,6191

106 ,2⋅100=26 ,01 %<30 %

, ceea ce arata ca distributia este omogena si media este reprezentativa pentru colectivitate.

c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime anuale sunt de valoare mai mica sau egala cu 90 Eur este

Y :( 0 1n−m m )

,

unde Y=1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion care verifica evenimentul favorabil, m=n1+n2+n3+n4=20 contracte,

iar Y=0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n−m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n−m=30 de contracte cu prime anuale mai mari de 90 Eur.

Media variabilei alternative estey=m

n=20

50=0,4

, adica 40% dintre contracte au valori ale primelor anuale mai mici sau egale cu 90 Eur.

Dispersia variabilei alternative este s y

2=mn⋅(1−m

n )=0 ,24, iar abaterea standard

s y=√ mn⋅(1−m

n )≃0 , 48

Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:

Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi1 [7200; 12500] 302 (12500; 17800] 69

Page 17: Statistică

3 (17800; 23100] 3024 (23100; 28400] 3085 (28400; 33700] 2636 (33700; 39000] 957 (39000; 44300] 208 (44300; 49600] 69 (49600; 54900] 5

10 (54900; 60200] 111 (60200; 65500] 1

Se cere:a) sa se reprezinte grafic aceasta serie de distributie;b) sa se determine si sa se interpreteze indicatorii tendintei centrale;c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se

estimeze proportia absolventilor care:i) au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea

studiilor,ii) au obtinut un salariu mai mic decat media in primul an de dupa finalizarea

studiilor,iii) au castigat in primul an intre 25000 $ si 40000 $,iv) au castigat mai mult de 52000 $;

d) sa se stabileasca daca media este reprezentativa pentru colectivitate;e) sa se analizeze asimetria acestei distributii.

Rezolvare: a) Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor

1989 si 1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS.

Unitatea statistica este un absolvent. Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui

absolvent, in $, din primul an de dupa finalizarea studiilor, variabila numerica, continua. Pentru un esantion de volum n=1100 de absolventi s-au inregistrat valorile variabilei, iar

setul de date s-a sistematizat intr-o serie de distributie de frecvente pe r=11 intervale de variatie de marime egala, data in enuntul problemei.

Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza prin histograma si poligonul frecventelor absolute.

Nr.crt.

Intervalul k de variatie(Salariul anual al unui

absolvent, in $)

Frecventa absolutank a intervalului k

(numarul de absolventi)

Limita inferioarax ( k ) inf

a intervalului k

Limita superioarax ( k ) sup

a intervalului k

Centrul xk

al intervalului k

1 [7200; 12500] 30 7200 12500 98502 (12500; 17800] 69 12500 17800 151503 (17800; 23100] 302 17800 23100 204504 (23100; 28400] 308 23100 28400 257505 (28400; 33700] 263 28400 33700 310506 (33700; 39000] 95 33700 39000 363507 (39000; 44300] 20 39000 44300 416508 (44300; 49600] 6 44300 49600 469509 (49600; 54900] 5 49600 54900 5225010 (54900; 60200] 1 54900 60200 5755011 (60200; 65500] 1 60200 65500 62850

Page 18: Statistică

∑k=1

11

nk=n=1100

Histograma

30

69

302 308

263

95

206 5 1 1

0

50

100

150

200

250

300

350

[7200

; 125

00]

(125

00; 1

7800

]

(178

00; 2

3100

]

(231

00; 2

8400

]

(284

00; 3

3700

]

(337

00; 3

9000

]

(390

00; 4

4300

]

(443

00; 4

9600

]

(496

00; 5

4900

]

(549

00; 6

0200

]

(602

00; 6

5500

]

Salariul, in $ (intervalele de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Fig. ..... Histograma – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

Page 19: Statistică

Poligonul frecventelor absolute

30

69

263

95

302308

206 5 1 1

0

50

100

150

200

250

300

350

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (centrele intervalelor de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Fig. ..... Poligonul frecventelor absolute – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

b) Indicatorii tendintei centrale: media, mediana si modul.

Nr.crt.

Intervalul k(Salariul anual al

unuiabsolvent, in $)

Centrul xk

Frecventa absoluta nk

(numarul de absolventi)xk⋅nk

Frecventa absolutacumulata crescator

a intervalului k,Fck=n1+. ..+nk

1 [7200; 12500] 9850 30 295500 302 (12500; 17800] 15150 69 1045350 993 (17800; 23100] 20450 302 6175900 4014 (23100; 28400] 25750 308 7931000 7095 (28400; 33700] 31050 263 8166150 9726 (33700; 39000] 36350 95 3453250 10677 (39000; 44300] 41650 20 833000 10878 (44300; 49600] 46950 6 281700 10939 (49600; 54900] 52250 5 261250 1098

10 (54900; 60200] 57550 1 57550 109911 (60200; 65500] 62850 1 62850 1100

∑k=1

11

nk=n=1100

∑k=1

11

xk⋅nk=28563500

x= 25966,82

o Media pentru o serie de distributie de frecvente pe r intervale de variatie este

x=x1⋅n1+ .. .+xr⋅nr

n1+. . .+nr=∑k=1

r

xk⋅nk

n ,

Page 20: Statistică

unde {xk , k=1 , r } sunt centrele celor r intervale, iar ∑k=1

r

nk=n volumul esantionului.

⇒ x=∑k=1

11

xk⋅nk

1100=28563500

1100=25966 ,82

$ a castigat, in medie, un absolvent in primul an.

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand urmatorii pasi:

Se determina locul medianei, adica

n+12

=550 ,5.

Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatieFck=n1+. ..+nk , k=1 ,r .

Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata crescator depaseste locul medianeiFc 1=30<550 ,5Fc 2=99<550 ,5Fc 3=401<550 , 5

si Fc4=709≥550 , 5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul median.

Me=x inf Me+hMe⋅

n+12

−F c Me−1

nMe=

=23100+5300⋅550 ,5−401

308=25672 ,56

$, adica jumatate dintre absolventi au castigat cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza astfel:

Se determina intervalul cu frecventa absoluta cea mai mare:308=n4=max {nk , k=1 , r } ,deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.

Mo=x inf Mo+hMo⋅

Δ1

Δ1+Δ2=

=23100+5300⋅308−302

(308−302 )+(308−263 )=23723 ,52

$, aceasta este valoarea cea mai des intalnita a castigului salarial al unui absolvent intr-un an.

c) Introducem functia Fc :R→R+ definita astfelFc ( x )= numarul de unitati statistice din esantion pentru care valoarea observata a

caracteristicii de interes X este mai mica sau egala cu xsau

Page 21: Statistică

frecventa cumulata a lui x.

Frecventa absoluta cumulata crescator a intervalului k de variatie, Fck=n1+. ..+nk ,

k=1 ,r , reprezinta numarul de unitati statistice din esantion pentru care valoarea observata a

variabilei de interes X este mai mica sau egala decat limita superioara x ( k ) sup a intervalului k

de variatie, adica Fck=Fc (x ( k ) sup ) , k=1 ,r .Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator

vom pune in evidenta limitele superioare x ( k ) sup

ale intervalelor de variatie si frecventele lor

absolute cumulate, impreuna cu limita inferioara a primului interval de variatie x (1 ) inf

, in cazul

nostru 7200 $, a carui frecventa absoluta cumulata este 0, Fc ( x (1 ) inf )=Fc (7200 )=0

, deoarece

pentru nicio unitate statistica din esantion, nivelul variabilei nu este mai mic decat x (1 ) inf

.

Limitele superioare aleintervalelor de variatie,

x ( k ) sup

Fc ( x ( k ) sup )=Fck=n1+.. .+nk , adicanumarul de absolventi din esantion

care au castigat un salariu mai mic sau egal cu x ( k ) sup $x (1 ) inf =7200

Fc ( x (1 ) inf )=Fc (7200 )=0x (1 ) sup =12500

Fc ( x (1 ) sup )=Fc (12500 ) =30x ( 2 ) sup=17800

Fc ( x (2 ) sup )=Fc (17800 ) =99x (3 ) sup =23100

Fc ( x (3 ) sup )=Fc (23100 )=401

x ( 4 ) sup =28400Fc ( x (4 ) sup )=Fc (28400 )

=709x (5 ) sup =33700

Fc ( x (5 ) sup )=Fc (33700 ) =972x ( 6 ) sup =39000

Fc ( x (6 ) sup )=Fc (39000 )=1067

x (7 ) sup =44300Fc ( x (7 ) sup )=Fc ( 44300 )

=1087x ( 8) sup =49600

Fc ( x ( 8 ) sup )=Fc ( 49600 )=1093

x ( 9 ) sup =54900Fc ( x ( 9 ) sup )=Fc (54900 )

=1098x (10 ) sup =60200

Fc ( x (10 ) sup )=Fc (60200 )=1099

x (11 ) sup=65500Fc ( x (11 ) sup)=Fc (65500 ) =1100

Page 22: Statistică

Poligonul freventelor absolute cumulate crescator

99

709

972

1100

1099

1098109310871067

401

300

0

200

400

600

800

1000

1200

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (limitele superioare ale intervalelor de variatie)

Frec

vent

ele

abso

lute

cum

ulat

e(n

umar

ul c

umul

at d

e ab

solv

enti)

i) Fc (21000 ) este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor.

Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iarFc (21000 ) se determina prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura de mai jos:

21000−1780023100−17800

=Fc (21000 )−Fc (17800 )Fc (23100 )−Fc (17800 )

⇒32005300

=Fc (21000 )−99401−99

⇒Fc (21000 )=281,33≃281 absolventi, adica o proportie de

2811100

⋅100=25 ,54 %

dintre cei 1100 de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.

Page 23: Statistică

Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.

ii) F c (25966 ,82 ) este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu x= 25966,82 $ al salariului in esantion.

Din relatia25966 , 82−2310028400−23100

=Fc (25966 ,82 )−Fc (23100 )

Fc (28400 )−Fc (23100 ) ,

obtinem ca Fc (25966 ,82 )=567 , 8≃568 absolventi,

adica o proportie de

5681100

⋅100=51 ,63 % dintre cei 1100 de absolventi din esantionul

considerat au avut un salariu anual mai mic de nivelul mediu.

iii) Fc (40000 )−Fc (25000 )=559 ,35≃559 este numarul de absolventi care au castigat in primul an intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi.

iv) n−Fc (52000 )=1100−Fc (52000 )=4 ,73≃5 absolventi au castigat mai mult de 52000 $, adica o proportie de 0,45%.

Page 24: Statistică

d) Media variabilei de interes in esantion este x= 25966,82 $.

Nr.crt.

Intervalul k(Salariul anual al

unuiabsolvent, in $)

Centrul xk

Frecventa absoluta nk

(numarul de absolventi)(xk− x )2⋅nk

1 [7200; 12500] 9850 30 (x1− x )2⋅n1= 77925566072 (12500; 17800] 15150 69 80732480493 (17800; 23100] 20450 302 91914614804 (23100; 28400] 25750 308 14479361,025 (28400; 33700] 31050 263 67955830746 (33700; 39000] 36350 95 102419905577 (39000; 44300] 41650 20 49192426988 (44300; 49600] 46950 6 26417630579 (49600; 54900] 52250 5 3454027755

10 (54900; 60200] 57550 1 997497258,911 (60200; 65500] 62850 1 1360368967

∑k=1

11

nk=n=1100

∑k=1

11

(xk− x )2⋅nk=55482218864

sx2= 50484275,58

sx= 7105,2287

Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

sx2=

(x1− x )2⋅n1+. ..+( xr− x)2⋅nr

(n1+. ..+nr )−1=∑k=1

r

(xk− x )2⋅nk

n−1 ,

unde {xk , k=1 , r } sunt centrele celor r intervale, ∑k=1

r

nk=n volumul esantionului.

⇒ sx2=

∑k=1

11

( xk− x)2⋅nk

1100−1=55482218864

1100−1=50484275 , 58

, iar abaterea standard este sx=7105 , 2287 $, care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.

Coeficientul de variatie in esantion este

vx=sx

x⋅100=7105 ,2287

25966 , 82⋅100=27 ,36 %<30 %

, ceea ce arata ca media este reprezentativa pentru colectivitate.

e) Asimetria unei serii de distribuţie de frecvenţe se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor, si prin modalitatea în care sunt situaţi, unul faţă de celălalt, indicatorii tendinţei centrale.

Page 25: Statistică

Histograma

30

69

302 308

263

95

206 5 1 1

0

50

100

150

200

250

300

350

[7200

; 125

00]

(1250

0; 17

800]

(1780

0; 23

100]

(2310

0; 28

400]

(2840

0; 33

700]

(3370

0; 39

000]

(3900

0; 44

300]

(4430

0; 49

600]

(4960

0; 54

900]

(5490

0; 60

200]

(6020

0; 65

500]

Salariul, in $ (intervalele de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Poligonul frecventelor absolute

30

69

263

95

302308

206 5 1 1

0

50

100

150

200

250

300

350

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (centrele intervalelor de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in seria de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este asimetrica spre dreapta (cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica).

Indicatorii tendintei centrale se gasesc in urmatoarea relatie Mo< Me< x , ceea ce indica faptul ca distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici.

Gradul de asimetrie prezent în serie poate să fie şi măsurat printr-un indicator specific, numit coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de variatie se calculeaza dupa

CAS x=∑k=1

r

( xk− x )3⋅nk

n⋅(s x )3 ,

unde {xk , k=1 , r } sunt centrele celor r intervale, ∑k=1

r

nk=n volumul esantionului.

Nr.crt.

Intervalul k(Salariul anual al unui

absolvent, in $)

Centrul xk

Frecventa absoluta nk

(numarul de absolventi)(xk− x )3⋅nk

1 [7200; 12500] 9850 30 -1,25591E+142 (12500; 17800] 15150 69 -8,73269E+133 (17800; 23100] 20450 302 -5,07076E+134 (23100; 28400] 25750 308 -31394150565 (28400; 33700] 31050 263 3,45432E+136 (33700; 39000] 36350 95 1,06344E+147 (39000; 44300] 41650 20 7,71494E+138 (44300; 49600] 46950 6 5,54326E+139 (49600; 54900] 52250 5 9,07828E+13

10 (54900; 60200] 57550 1 3,15041E+1311 (60200; 65500] 62850 1 5,01747E+13

∑k=1

11

nk=n=1100

∑k=1

11

(xk− x )3⋅nk=1,82302E+14

CAS= 0,462

Page 26: Statistică

Cum 0<CAS<1 , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie predominând valorile mici (modul < mediana < media).

Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a rambursarii creditelor. Datele au fost sistematizate astfel:

Intervale de variatiea numarului de zile de intarziere a platii

Ponderea cumulataa debitorilor (%)

mai putin 25 de zile 2525-35 de zile 7535-45 de zile 8545-55 de zile 9355-65 de zile 98

peste 65 de zile 100Se cere:

a) sa se scrie distributia de frecvente pe intervale de variatie;b) sa se reprezinte grafic distributia de frecvente absolute;c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca

durata medie de intarziere a platilor este reprezentativa;d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza

debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor.

Rezolvare: a)o Populatia statistica – mutimea debitorilor cu intarziere in efectuarea platilor pentru

rambursarea unor credite.o Unitatea statistica – un debitor.o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de

intarziere a efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.o S-a realizat o selectie de volum n=500 de debitori restantieri pentru care s-a inregistrat

numarul de zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente per=6 intervale de variatie de marime egala.

Notam cu:

nk , k=1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care numarul de zile de intarziere apartine intervalului k de variatie),n1+ .. .+nr=n ;

nk

¿=nk

n∈ [ 0;1 ] , k=1, r

, frecventa relativa a intervalului k de variatie,n1¿+ .. .+nr

¿=1 ;

nk

¿ %=100⋅nk

n, k=1 ,r

, frecventa relativa exprimata procentual a intervalului k de variatie sau ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa

k, n1¿ %+. ..+nr

¿%=100 % ;

Fck=n1+. ..+nk , k=1, r , este frecventa absoluta cumulata crescator a intervalului k;

Fck¿ =n1

¿+. ..+nk¿ , k=1, r , este frecventa relativa cumulata crescator a intervalului k;

Fck¿ %=n1

¿ %+.. .+nk¿ %, k=1 ,r , este frecventa relativa exprimata procentual cumulata

crescator a intervalului k (ponderea cumulata a intervalului k).

Page 27: Statistică

Nr.crt.

Intervalul k devariatie a

numarului de zilede intarziere a

platii

Ponderea cumulataa debitorilor (%)

Fck¿ %=n1

¿ %+.. .+nk¿ %

Ponderea intervalului k,

nk¿ %

Frecventa relativa,

nk¿=

nk¿ %

100

Frecventa absoluta,

nk=n⋅nk¿=

=500⋅nk¿

1 15-25 de zile Fck¿ %=n1

¿ %=25% 25% n1¿= 0,25 n1=125

2 25-35 de zile Fc2¿ %=n1

¿ %+n2¿ %=75% n2

¿ %=50% n2¿= 0,50 n2= 250

3 35-45 de zile Fc3¿ %=n1

¿ %+. . .+n3¿ %=85% n3

¿ %=10% n3¿= 0,10 n3= 50

4 45-55 de zile F c4¿ %=n1

¿ %+.. .+n4¿ %=93% n4

¿ %=8% n4¿ =0,08 n4=40

5 55-65 de zile Fc5¿ %=n1

¿ %+. . .+n5¿ %=98% n5

¿ %=5% n5¿= 0,05 n5= 25

6 65-75 de zileFc6

¿ %=n1¿ %+. . .+n6

¿ %=100%

n6¿ %=2%

n6¿= 0,02 n6= 10

∑k=1

6

nk¿ %=

100%∑k=1

6

nk¿=

1∑k=1

6

nk=500=n

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de distributie de frecvente pe intervale:

Nr.crt.

Intervalul k de variatiea numarului de zilede intarziere a platii

Numarul de debitori(frecventa absoluta),

nk

Centrul xk al intervalului k

de variatie1 15-25 de zile n1=125 debitori x1= 202 25-35 de zile n2= 250 x2=303 35-45 de zile n3= 50 x3=404 45-55 de zile n4=40 x4=505 55-65 de zile n5= 25 x5=606 65-75 de zile n6= 10 x6=70

∑k=1

6

nk=500=n debitori

b)

%*1n

Page 28: Statistică

Histograma

125

250

5040

2510

0

50

100

150

200

250

300

15-25de zile

25-35de zile

35-45de zile

45-55de zile

55-65de zile

65-75de zile

Numarul de zile de intarziere

Num

arul

de

debi

tori

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii

Poligonul frecventelor absolute

0

50

100

150

200

250

300

0 10 20 30 40 50 60 70 80

Numarul zilelor de intarziere

Num

arul

de

debi

tori

Fig. .... Poligonul frecventelor absolute pentru distributia celor 500 de debitori dupa numarul de zile de intarziere a platilor

c)Nr.crt. Intervalul k

Numarul de

debitori, nk

Centrulxk

xk⋅nk Fck (xk− x )2⋅nk

1 15-25 de zilen1= 125 x1= 20 x1⋅n1= 2500

Fc1=125 19220

2 25-35 de zilen2= 250 x2=30 7500

Fc2=375 1440

3 35-45 de zile n3= 50 x3=40 2000Fc3=425 2888

4 45-55 de zile n4= 40 x4= 50 2000 465 12390,4

5 55-65 de zile n5= 25 x5=60 1500 490 19044

6 65-75 de zilen6= 10 x6= 70 x6⋅n6= 700

Fc6= 500 14137,6

∑k=1

6

nk=500=n ∑k=1

6

xk⋅nk=16200

∑k=1

6

(xk− x )2⋅nk=

=69120

x= 32,4 sx2= 138,5170

sx=√sx2=

11,7693vx= 36,33%

o Media este x=

x1⋅n1+ .. .+xr⋅n6

n1+. . .+n6=∑k=1

6

xk⋅nk

n=16200

500 , deci x=32 ,4 zile este numarul mediu de zile de intarziere a platilor pentru un debitor restantier.

Page 29: Statistică

o Locul medianei este

n+12

=250 , 5; primul interval cu proprietatea ca

Fck≥n+1

2 este

intervalul 25-35 de zile, deoarece Fc1=125<250 , 5 , dar Fc2=375≥250 , 5 , deci:

Me=x inf Me+hMe⋅

n+12

−Fc Me−1

nMe=

=25+10⋅250 , 5−125250

=30 , 02 zile, adica jumatate dintre debitorii restantieri

au intarziat cel putin 30 de zile cu efectuarea platilor.

o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai

mare 250=n2=max {nk , k=1,6} , atunci

Mo=x inf Mo+hMo⋅Δ1

Δ1+Δ2=

=25+10⋅250−125(250−125 )+(250−50 )

=28 ,84zile; numarul cel mai intalnit de zile

de intarziere a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.

o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo< Me< x , ceea ce indica o asimetrie pozitiva.

o Dispersia in esantion este sx

2=(x1− x )2⋅n1+. ..+( x6− x )2⋅n6

(n1+ .. .+n6 )−1=∑k=1

6

(xk− x )2⋅nk

500−1=69120

500−1 ,

deci sx2=138 ,5170 , iar abaterea standard sx=√sx

2=11 ,7693 zile, care arata cu cate zile se abat, in medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.

o Coeficientul de variatie in esantion este vx=

sx

x⋅100=11 ,7693

32 , 4⋅100=36 ,33 %>35 %

, ceea ce arata ca distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru colectivitate.

d) Definim “evenimentul favorabil” ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de

zile cu efectuarea platilor esteY :( 0 1

n−m m ),

unde Y=1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion pentru care se verifica evenimentul

favorabil, m=n4+n5+n6=75 debitori,iar Y=0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil,

n−m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n−m=425 debitori.

Page 30: Statistică

Media variabilei alternative estey=m

n=75

500=0 ,15

, adica 15% dintre debitori au intarziat mai mult de 45 de zile.

Dispersia variabilei alternative estes y

2=mn⋅(1−m

n )=0 ,1275, iar abaterea standard

s y=√ mn⋅(1−m

n )≃0 ,36.

Ex. 8. Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în studiu un număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul scurs de la angajarea iniţială a unui salariat în firmă până la prima promovare a acestuia. Firmele au fost grupate după mărime, iar datele înregistrate sunt:

Mărimea firmelor

Număr de săptămâni de la angajare până la prima promovare

Mici 30; 26; 30; 32; 38; 24; 32; 28;Medii 34; 32; 25; 36; 33Mari 47; 41; 43; 48; 40; 49; 40.

Se cere:a) să seprecizeze care este grupa de firme cu un grad mai ridicat de omogenitate;b) sa se determine in ce proportie marimea companiei influenteaza variatia timpului pana

la prima promovare a unui salariat.

Rezolvare: a)o Populatia statistica este multimea companiilor producatoare de tehnologie de varf.o Unitatea statistica este o companie (firma).o Caracteristicile urmarite sunt:

X - variabila ce arata marimea unei firme;- variabila nenumerica avand r=3 categorii sau variante de raspuns: firme mici, firme

mijlocii si firme mari:aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume:

Grupa 1 (grupa firmelor mici),Grupa 2 (grupa firmelor mijlocii),Grupa 3 (grupa firmelor mari);

- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.

si

Y - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat al unei firme producatoare de tehnologie de varf;

- variabila numerica de interes.

Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1=8 firme pentru care se inregistreaza valorile variabilei Y:

Page 31: Statistică

{y1, 1=30 ; y1, 2=26 ; y1, 3=30 ; y1, 4=32; y1 , 5=38; y1 , 6=24 ; y1 , 7=32; y1 , 8= y1, n1=28}

saptamani.

Media de selectie de grupa este y1=

y1 , 1+ y1 , 2+.. .+ y1 , n1

n1=∑j=1

n1

y1 , j

n1=240

8=30

saptamani,dispersia de selectie de grupa este

s12=

( y1 , 1− y1)2+( y1 , 2− y1)2+ .. .+( y1 , n1− y1 )2

n1−1=∑j=1

n1

( y1 , j− y1 )2

n1−1=18 , 2857

,

abaterea standard de selectie de grupa este s1=√s12=√18 ,2857=4 ,2762 saptamani,

iar coeficientul de variatie al acestei grupe este v1=

s1

y1⋅100= 4 , 2762

30⋅100=14 , 25 %

.

Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2=5 firme pentru care se inregistreaza valorile variabilei Y:{y2, 1=34 , y2 , 2=32 , y2, 3=25 , y2, 4=36 , y2, 5= y2 , n2

= 33} saptamani.

Media de selectie de grupa este y2=

y2, 1+ y2 , 2+. ..+ y2 , n2

n2=∑j=1

n2

y2 , j

n2=160

5=32

saptamani,

dispersia de selectie de grupa este

s22=

( y2 , 1− y2 )2+( y2, 2− y2)2+. ..+( y2, n2− y2 )2

n2−1=∑j=1

n2

( y2 , j− y2 )2

n2−1=17 ,5

,

abaterea standard de selectie de grupa este s2=√s22=√17 ,5=4 ,1833 saptamani,

iar coeficientul de variatie al acestei grupe este v2=

s2

y2⋅100=4 ,1833

32⋅100=13 , 07 %

.

Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3=7 firme pentru care se inregistreaza valorile variabilei Y:{y3, 1=47 ; y3 , 2=41 ; y3 , 3=43 ; y3, 4=48 ; y3 , 5=40 ; y3, 6=49 ; y3, 7= y3 , n2

=40}

saptamani.

Media de selectie de grupa este y3=

y3, 1+ y3, 2+. . .+ y3 , n3

n3=∑j=1

n3

y3 , j

n3=308

7=44

saptamani,dispersia de selectie de grupa este

s32=

( y3 , 1− y3 )2+ ( y3 , 2− y3 )2+ .. .+ ( y3 , n3− y3 )2

n3−1=∑j=1

n3

( y3 , j− y3 )2

n3−1=15 ,3333

,

Page 32: Statistică

abaterea standard de selectie de grupa este s3=√s32=√15 ,3333=3 , 9158 saptamani,

iar coeficientul de variatie al acestei grupe este v3=

s3

y3⋅100=3 , 9158

44⋅100=8 , 89 %

.

Cum coeficientii de variatie pentru cele trei grupe sunt mai mici ca 30%-35%, atunci toate grupele sunt omogene. Grupa 3 (grupa firmelor mari) este mai omogena in privinta duratei de timp de la angajare la prima promovare a unui salariat deoarece are cel mai mic

coeficient de variatie v3<v2<v1 .

Problema poate fi rezolvata in Excel dupa cum urmeaza: Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum

apare in Figura 1; In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege

Descriptive Statistics; In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege

Descriptive Statistics;

Figura 1. Introducerea datelor si alegerea Descriptive Statisticsdin submeniul Data Analysis.

Fereastra de dialog este prezentata in Figura 2.

Page 33: Statistică

Figura 2. Fereastra de dialog pentru Descriptive Statistics.

Output-ul consta din urmatorul tabel, corepunzator prelucrarii datelor din cele trei grupe:

Grupa 1(firme mici)

Grupa 2(firme mijlocii)

Grupa 3(firme mari)

Mean 30= y1 32= y2 44= y3Standard Error 1,5119 1,8708 1,4800Median 30 33 43Mode 30 #N/A 40

Standard Deviation4,2762=

s1=√s12

4,1833=s2=√s2

23,9158=

s3=√s32

Sample Variance 18,2857=s12

17,5=s22

15,3333=s32

Kurtosis 0,9406 2,9143 -2,3115Skewness 0,5846 -1,5367 0,2332Range 14 11 9Minimum 24 25 40Maximum 38 36 49

Sum240=

∑j=1

n1

y1 , j160=

∑j=1

n2

y2 , j308=

∑j=1

n3

y3 , j

Count 8=n1 5=n2 7=n3

b)

Page 34: Statistică

o Media totala la nivelul intregului esantion de volum n=n1+n2+n3=20 firme este

y=y1⋅n1+ y2⋅n2+ y3⋅n3

n1+n2+n3=30⋅8+32⋅5+44⋅7

20⇒ y=35 ,4 saptamani.

o Pe baza datelor de selectie calculam: Variatia dintre grupe (Sum of Squares Between Groups)

SSB=( y1− y )2⋅n1+( y2− y )2⋅n2+ ( y3− y )2⋅n3=

=(30−35 , 4 )2⋅8+ (32−35 , 4 )2⋅5+( 44−35 , 4 )2⋅7⇒SSB=808 , 8

Variatia din interiorul grupelor (Sum of Squares Within Groups)SSW=(n1−1 )⋅s1

2+ (n2−1 )⋅s22+(n3−1 )⋅s3

2==(8−1 )⋅18 ,2857+(5−1 )⋅17 , 5+(7−1 )⋅15 ,3333

⇒SSW =290 Variatia totala

SST=SSB+SSW=808 ,8+290

⇒SST=1098 , 8 Coeficientul de determinatie este

R2= SSBSST

=404 , 41098 ,8

=0 ,368

sau, exprimat procentual, R%

2 =SSBSST

⋅100=404 , 41098 , 8

⋅100=36 , 8 % arata ca factorul de

grupare, tipul companiei, explica variatia totala a duratei de timp pana la prima promovare in proportie de 36,8%, restul de 63,2% din variatia totala a timpului se datoreaza altor factori care nu au fost considerati de cercetator.

o Dispersia de selectie la nivelul intregului esantion de volum n=20 de firme este

s y2=Variatia totala la nivelul intregului esantion

n−1= SST

n−1=1098 ,8

20−1=57 ,8315

cu o abatere standard s y=√s y2=√57 ,8315=7 ,6047 saptamani,

iar coeficientul de variatie estev y=

s y

y⋅100=7 ,6047

35 , 4⋅100=21 , 48 %

.

Ex. 9. Managerul unei agentii imobiliare doreste sa efectueze o analiza referitoare la pretul de vanzare (zeci mii euro) al caselor din doua zone ale Bucurestiului: zona Cotroceni si zona Piata Victoriei. Datele inregistrate au fost prelucrate cu Excel si s-au obtinut urmatoarele rezultate:

Cotroceni Piata Victoriei

Mean 38,98 Mean 59,45Median 36,18 Median 59,8Mode 36 Mode 59

Standard Deviation 12,04 Standard Deviation 17,23

a) Caracterizati comparativ cele doua subcolectivitati pe baza output-ului prezentat (in particular, caracterizaţi omogenitatea şi asimetria

Page 35: Statistică

Sample Variance 144,93 Sample Variance 296,88Kurtosis 1,91 Kurtosis -1,01

Skewness 1,30 Skewness 0,09Range 53,20 Range 61,37

Minimum 21,77 Minimum 29,9Maximum 74,97 Maximum 91,27

Sum 1169,50 Sum 1783,37Count 30 Count 30

fiecărei grupe);b) Determinati in ce

proportie zona influenteaza pretul de vanzare al caselor.


Recommended