+ All Categories
Home > Documents > Statistica descriptivă 2

Statistica descriptivă 2

Date post: 03-Oct-2021
Category:
Upload: others
View: 4 times
Download: 0 times
Share this document with a friend
35
Curs 4 Statistica descriptivă 2 1
Transcript
Page 1: Statistica descriptivă 2

Curs 4 –Statistica descriptivă 2

1

Page 2: Statistica descriptivă 2

STATISTICA DESCRIPTIVĂ - OBIECTIVE

• Date de tip calitativ: Proporții, Rate, Rapoarte

• Date de tip cantitativ: Media aritmetica, Mediana,

Modul, Media geometrica, Media armonica,

Valoarea centrala

• Cvartile, Percentile

• Dispersia, Abaterea standard, Coeficientul de

variatie, Eroarea standard, Amplitudinea

• Asimetria

• Boltirea

Page 3: Statistica descriptivă 2

MĂSURI DE TENDINŢĂ CENTRALĂ

Proprietăţi

Dacă datele au o distribuţie simetrică, media,

mediana si modulul sunt egale.

MedianaMedia

Mediana MediaModul Modul

Distribuţie simetricăDistribuţie asimetrică (skew)

Page 4: Statistica descriptivă 2

MĂSURI DE TENDINŢĂ CENTRALĂ

Proprietăţi

• Asimetrie spre dreapta= asimetrie (Skew) pozitivăo Modul < Mediana < Media

Page 5: Statistica descriptivă 2

MĂSURI DE TENDINŢĂ CENTRALĂ

Proprietăţi

• Asimetrie spre stânga= asimetrie (Skew) negativăo Media < Mediana < Modul

Page 6: Statistica descriptivă 2

MĂSURI DE DE DISPERSIE - aplicatii

intervalul SX 1 conţine aprox. 68.3 % din

valori

intervalul SX 2 conţine aprox. 95.5 % din

valori

intervalul SX 3 conţine aprox. 99.7 % din

valori

Observatie: Valorile care nu sunt in acest interval se numesc

valori aberante.

Pentru o variabilă cu distribuție simetrică (normală), avem

proprietățile:

Page 7: Statistica descriptivă 2

Distribuţia normală (Gauss)

Page 8: Statistica descriptivă 2

MĂSURI DE DISPERSIE• -descriu variabilitatea (fluctuaţia) sau dispersia datelor

seriei

• Importanța:

o informaţii privind extinderea împrăştierii datelor sau, reciproc, a gradului lor de aglomerare.

o stabilirea reprezentativităţii măsurilor de centralitate.

• Semnificaţia unei medii ca şi valoare reprezentativă pentru un set de date depinde de gradul de dispersie a valorilor individuale în jurul ei.

o estimarea parametrilor statistici

o inferenţa statistică.

8

Page 9: Statistica descriptivă 2

Comparația directă

9

Dacă știu precizia metodei și doi

studenți îmi aduc datele din grafic cum

interpretez?

Care din cele două metode este mai

precisă?

Comparaţie între valorile unei

enzime determinate prin două metode

Page 10: Statistica descriptivă 2

AMPLITUDINEA• =diferenţa între valoarea maximă şi valoarea minimă a datelor:

A = Xmax - Xmin.

• Xmax=max{X1,…,Xn}

• Xmin= min {X1,…,Xn}

10

Comparaţie între valorile unei

enzime determinate prin

două metode

Care din cele două metode este mai

precisă?

Page 11: Statistica descriptivă 2

EXEMPLU• 177, 193, 195, 209, 226

o amplitudinea= 226-177=49mg/dL

• 192, 197, 200, 202, 209o amplitudinea= 209-192=17mg/dL

11

Page 12: Statistica descriptivă 2

AMPLITUDINEA• Dezavantajul major al amplitudinii ca măsură

de dispersie este că se bazează doar pe

valorile extreme ale seriei.

• Nu oferă nici o informaţie despre cât de

aglomerate sunt datele distribuite între

extreme.

12

Page 13: Statistica descriptivă 2

MEDIA DEVIAŢIEI• -Reprezintă un indicator de dispersie ameliorat în raport cu

amplitudinea, în sensul că sunt luate în considerare toate valorile seriei.

• -Determinarea ei constă în calcularea mediei valorilor absolute a abaterilor fiecărei date a seriei de la medie (sau mediană).

• media deviaţiei de la medie

• media deviaţiei de la mediana

13

n

XXn

i

i

1

n

MeXn

i

i

1

Page 14: Statistica descriptivă 2

VARIAŢIA cel mai utilizat mod de exprimare a dispersiei datelor în jurul mediei

aritmetice.

variaţia este media aritmetică a pătratelor abaterilor de la media seriei, adică:

se exprimă în pătratul unităţilor de măsură ale valorilor observate.

14

n

XX

s

n

i

i

1

2

2

)(

Page 15: Statistica descriptivă 2

VARIANŢA• In inferenţa statistică se utilizează variaţia de

eşantionare sau varianţa

15

2 2

1

nS s

n

Ajustează tendinţa de subestimare a variaţiei

populaţiei faţă de variaţia eşantionului (varianța)

Page 16: Statistica descriptivă 2

VARIANŢA-exemplu

Page 17: Statistica descriptivă 2

DEVIAŢIA SAU ABATEREA STANDARD (s)

• sau ecartul tip este rădăcina pătrată a variaţiei:

𝑠 = 𝑠2

• Spre deosebire de variaţie, ecartul tip are aceeaşi unitate de măsură ca şi media şi datele seriei.

• In inferenţa statistică abaterea standard sau deviaţia standard (de eşantionare) se defineşte analog:

𝑆 = 𝑆2

• Din punct de vedere geometric, abaterea standard sau ecartul tip poate fi interpretat ca o “distanţă euclidiană” a seriei la media ei aritmetică.

17

Page 18: Statistica descriptivă 2

ABATEREA STANDARD-exemplu

Page 19: Statistica descriptivă 2

Pacient Greutate

(kg)

1

2

3

4

5

6

7

8

9

10

7.0

11.7

12.6

15.7

15.9

16.0

16.0

17.0

17.5

17.7

49.00

136.89

158.76

246.49

252.81

256.00

256.00

289.00

306.25

313.29

Total 147.1 2264.49

2

ix

10

1i

ix

10

1

2

i

ix

110

10

210

110

1

2

2

i

i

i

i

x

x

s

22

2

2

18.11

110

10

)1.147(49.2264

kgs

s

MASURI DE DISPERSIE

VARIATIA - EXEMPLU

Page 20: Statistica descriptivă 2

COEFICIENTUL DE VARIAŢIE (cv)

este, pentru datele de tip raţie, o măsură relativă a dispersiei

datelor.

este egal cu raportul dintre ecartul tip şi media seriei (%):

este un indicator independent de unităţile de măsură

20

𝐶𝑉 =𝑠

ത𝑋(%)

Page 21: Statistica descriptivă 2

COEFICIENTUL DE VARIAŢIE

exprimă procentul reprezentat de valoarea abaterii standard din valoarea mediei aritmetice a seriei de date.

compara dispersiile relative pentru distribuţii de frecvenţe ale unor fenomene diferite.

Astfel se poate compara dispersia relativă a unui tip de date cu dispersia relativă a altui tip de date.

21

Page 22: Statistica descriptivă 2

INTERPRETAREA COEFICIENTULUI

DE VARIAŢIE

• In utilizarea coeficientului de variaţie la studiul omogenităţii

unor populaţii se pot utiliza următoarele reguli empirice:

o dacă CV este sub 10% atunci populaţia poate fi considerată omogenă;

o dacă CV este între 10%-20% atunci populaţia poate fi

considerată relativ omogenă;

o dacă CV este între 20%-30% atunci populaţia poate fi

considerată relativ heterogenă;

o dacă CV este peste 30% atunci populaţia poate fi

considerată heterogenă.

22

Page 23: Statistica descriptivă 2

EXEMPLU In exemplul următor datele care se compară sunt

exprimate cu unităţi de măsură diferite. In grupul A

media greutăţii a fost de 65.7 kg cu o deviaţie

standard de 3.2 kg. In grupul B media înălţimii a fost

de 1.70 m cu o deviaţie standard de 0.13 m. Să se

compare variabilitatea înălţimii cu cea a greutăţii.

CV greutate

CV inaltime

23

%9.47.65

2.3

kg

kg

%7.770.1

13.0

m

m

Page 24: Statistica descriptivă 2

VARIAȚIE, VARIANȚĂ, ABATERI, DEVIERI…

Statistică descriptivă (eșantion sau întreaga

populație)

Statistică inferențială (aproximare pentru întreaga populație pe baza eșantionului)

• variația

n

XX

s

n

i

i

1

2

2

)(

• Varianţa

• variaţia de eşantionare

2 2

1

nS s

n

• Ecartul tip

• Abaterea (deviația) standard a populației

𝑠 = 𝑠2

• Abaterea (deviația) standard

𝑆 = 𝑆2

• Coeficientul de variație al populației

𝐶𝑉 =𝑠

ത𝑋(%)

• Coeficientul de variație

𝐶𝑉 =𝑆

ത𝑋(%)

Page 25: Statistica descriptivă 2

EROAREA STANDARD• In inferenţa statistică se utilizează un indicator

al dispersiei datelor numit eroarea standard:

• Eroarea standard intervine în estimarea

statistică în determinarea intervalelor de

încredere pentru medie.

25

n

sES

Page 26: Statistica descriptivă 2

ASIMETRIA (SKEWNESS)• Măsura de asimetrie (sau skewness) este destinată

să indice pentru o serie sau distribuţie de date:

o extinderea asimetriei adică abaterea de la aspectul

simetric

o direcţia asimetriei (pozitivă sau negativă).

• Ca o măsură a asimetriei unei distribuţii este utilizat

momentul de ordinul trei al abaterii de la medie

reprezentat prin media aritmetică a cuburilor

abaterilor valorilor distribuţiei de la media

aritmetică, adică:

26n

SXXn

i

i

3

1

3

]/)[(

Page 27: Statistica descriptivă 2
Page 28: Statistica descriptivă 2

BOLTIREA (KURTOSIS)• Excesul sau boltirea (în engleză kurtosis) este o măsură a

formei unei serii sau distribuţii de date, care măsoară înălţimea

aplatizării/boltirii unei distribuţii în comparaţie cu o distribuţie

normală. Această măsură este definită prin:

28

4

14 4

1( )

3

n

i

i

X Xn

S

Page 29: Statistica descriptivă 2

BOLTIREA (KURTOSIS)

Excesul 4 este zero pentru o serie de date având o distribuţie

normală,

este pozitiv pentru o serie de date având trena mai înaltă

decât cea a unei distribuţii normale (cu media şi variaţia S2)

este negativ pentru o serie de date a cărei trenă este mai

coborâtă decât cea a unei distribuţii normale

trena se apropie mai încet (4 >0) sau mai rapid (4 <0) de

zero decât cea a distribuţiei normale).

29

Page 30: Statistica descriptivă 2
Page 31: Statistica descriptivă 2

ASIMETRIE SI EXCES

(SKEWNESS, KURTOSIS)- proprietăţi

• Pentru o distribuție normală:

- asimetria si excesul au valori

apropiate de 0 (se acceptă în

intervalul [-1; 1].

- media, mediana și modulul sunt

aproximativ egale.

Page 32: Statistica descriptivă 2

Exemplu:

Varsta pacientilor sositi la cabinetul

stomatologic in regim de urgenta in

data de 2 martie: 19, 21, 21, 24, 30, 20

Media varstei:

= 19 + 21 + 21 + 24 + 30 + 20 / 6

= 22.5

Variaţia:

s2 = 81.5 / 5

s2 = 16.3

Deviatia standard:

S = 16.3

S = 4.04

Eroarea standard:

SE = 4.04 / 2.45

SE = 1.65

Talie esantion:

n = 6

x n media(x–

media)

(x-

media)2

19 6 22.5 -3.5 12.25

21 6 22.5 -1.5 2.25

21 6 22.5 -1.5 2.25

24 6 22.5 1.5 2.25

30 6 22.5 7.5 56.25

20 6 22.5 -2.5 6.25

81.5

df = 5

n = 2.45

1

2

3

4

Coeficientul de variaţie:

CV = 4.04 / 22.5

CV = 0.18 or 18%

5

Page 33: Statistica descriptivă 2
Page 34: Statistica descriptivă 2

Problemă

• Pentru un eşantion de n = 36 pacienti care s-au prezentatla cabinetul stomatologic, s-a gasit media indexului facialde 80mm cu o deviatie standard de 5mm. Presupunând că indexul facial o distribuție normală, să se determine:

• a) In ce interval sunt situate aproximativ 68% din valorileindexului facial ai pacientilor?

• b) In ce interval sunt situate aproximativ 95% din valorileindexului facial ?

• c) Cati pacienti (in %) au indexul facial peste 90 mm?

Page 35: Statistica descriptivă 2

TEMĂ


Recommended