Curs 4 –Statistica descriptivă 2
1
STATISTICA DESCRIPTIVĂ - OBIECTIVE
• Date de tip calitativ: Proporții, Rate, Rapoarte
• Date de tip cantitativ: Media aritmetica, Mediana,
Modul, Media geometrica, Media armonica,
Valoarea centrala
• Cvartile, Percentile
• Dispersia, Abaterea standard, Coeficientul de
variatie, Eroarea standard, Amplitudinea
• Asimetria
• Boltirea
MĂSURI DE TENDINŢĂ CENTRALĂ
Proprietăţi
Dacă datele au o distribuţie simetrică, media,
mediana si modulul sunt egale.
MedianaMedia
Mediana MediaModul Modul
Distribuţie simetricăDistribuţie asimetrică (skew)
MĂSURI DE TENDINŢĂ CENTRALĂ
Proprietăţi
• Asimetrie spre dreapta= asimetrie (Skew) pozitivăo Modul < Mediana < Media
MĂSURI DE TENDINŢĂ CENTRALĂ
Proprietăţi
• Asimetrie spre stânga= asimetrie (Skew) negativăo Media < Mediana < Modul
MĂSURI DE DE DISPERSIE - aplicatii
intervalul SX 1 conţine aprox. 68.3 % din
valori
intervalul SX 2 conţine aprox. 95.5 % din
valori
intervalul SX 3 conţine aprox. 99.7 % din
valori
Observatie: Valorile care nu sunt in acest interval se numesc
valori aberante.
Pentru o variabilă cu distribuție simetrică (normală), avem
proprietățile:
Distribuţia normală (Gauss)
MĂSURI DE DISPERSIE• -descriu variabilitatea (fluctuaţia) sau dispersia datelor
seriei
• Importanța:
o informaţii privind extinderea împrăştierii datelor sau, reciproc, a gradului lor de aglomerare.
o stabilirea reprezentativităţii măsurilor de centralitate.
• Semnificaţia unei medii ca şi valoare reprezentativă pentru un set de date depinde de gradul de dispersie a valorilor individuale în jurul ei.
o estimarea parametrilor statistici
o inferenţa statistică.
8
Comparația directă
9
Dacă știu precizia metodei și doi
studenți îmi aduc datele din grafic cum
interpretez?
Care din cele două metode este mai
precisă?
Comparaţie între valorile unei
enzime determinate prin două metode
AMPLITUDINEA• =diferenţa între valoarea maximă şi valoarea minimă a datelor:
A = Xmax - Xmin.
• Xmax=max{X1,…,Xn}
• Xmin= min {X1,…,Xn}
10
Comparaţie între valorile unei
enzime determinate prin
două metode
Care din cele două metode este mai
precisă?
EXEMPLU• 177, 193, 195, 209, 226
o amplitudinea= 226-177=49mg/dL
• 192, 197, 200, 202, 209o amplitudinea= 209-192=17mg/dL
11
AMPLITUDINEA• Dezavantajul major al amplitudinii ca măsură
de dispersie este că se bazează doar pe
valorile extreme ale seriei.
• Nu oferă nici o informaţie despre cât de
aglomerate sunt datele distribuite între
extreme.
12
MEDIA DEVIAŢIEI• -Reprezintă un indicator de dispersie ameliorat în raport cu
amplitudinea, în sensul că sunt luate în considerare toate valorile seriei.
• -Determinarea ei constă în calcularea mediei valorilor absolute a abaterilor fiecărei date a seriei de la medie (sau mediană).
• media deviaţiei de la medie
• media deviaţiei de la mediana
13
n
XXn
i
i
1
n
MeXn
i
i
1
VARIAŢIA cel mai utilizat mod de exprimare a dispersiei datelor în jurul mediei
aritmetice.
variaţia este media aritmetică a pătratelor abaterilor de la media seriei, adică:
se exprimă în pătratul unităţilor de măsură ale valorilor observate.
14
n
XX
s
n
i
i
1
2
2
)(
VARIANŢA• In inferenţa statistică se utilizează variaţia de
eşantionare sau varianţa
15
2 2
1
nS s
n
Ajustează tendinţa de subestimare a variaţiei
populaţiei faţă de variaţia eşantionului (varianța)
VARIANŢA-exemplu
DEVIAŢIA SAU ABATEREA STANDARD (s)
• sau ecartul tip este rădăcina pătrată a variaţiei:
𝑠 = 𝑠2
• Spre deosebire de variaţie, ecartul tip are aceeaşi unitate de măsură ca şi media şi datele seriei.
• In inferenţa statistică abaterea standard sau deviaţia standard (de eşantionare) se defineşte analog:
𝑆 = 𝑆2
• Din punct de vedere geometric, abaterea standard sau ecartul tip poate fi interpretat ca o “distanţă euclidiană” a seriei la media ei aritmetică.
17
ABATEREA STANDARD-exemplu
Pacient Greutate
(kg)
1
2
3
4
5
6
7
8
9
10
7.0
11.7
12.6
15.7
15.9
16.0
16.0
17.0
17.5
17.7
49.00
136.89
158.76
246.49
252.81
256.00
256.00
289.00
306.25
313.29
Total 147.1 2264.49
2
ix
10
1i
ix
10
1
2
i
ix
110
10
210
110
1
2
2
i
i
i
i
x
x
s
22
2
2
18.11
110
10
)1.147(49.2264
kgs
s
MASURI DE DISPERSIE
VARIATIA - EXEMPLU
COEFICIENTUL DE VARIAŢIE (cv)
este, pentru datele de tip raţie, o măsură relativă a dispersiei
datelor.
este egal cu raportul dintre ecartul tip şi media seriei (%):
este un indicator independent de unităţile de măsură
20
𝐶𝑉 =𝑠
ത𝑋(%)
COEFICIENTUL DE VARIAŢIE
exprimă procentul reprezentat de valoarea abaterii standard din valoarea mediei aritmetice a seriei de date.
compara dispersiile relative pentru distribuţii de frecvenţe ale unor fenomene diferite.
Astfel se poate compara dispersia relativă a unui tip de date cu dispersia relativă a altui tip de date.
21
INTERPRETAREA COEFICIENTULUI
DE VARIAŢIE
• In utilizarea coeficientului de variaţie la studiul omogenităţii
unor populaţii se pot utiliza următoarele reguli empirice:
o dacă CV este sub 10% atunci populaţia poate fi considerată omogenă;
o dacă CV este între 10%-20% atunci populaţia poate fi
considerată relativ omogenă;
o dacă CV este între 20%-30% atunci populaţia poate fi
considerată relativ heterogenă;
o dacă CV este peste 30% atunci populaţia poate fi
considerată heterogenă.
22
EXEMPLU In exemplul următor datele care se compară sunt
exprimate cu unităţi de măsură diferite. In grupul A
media greutăţii a fost de 65.7 kg cu o deviaţie
standard de 3.2 kg. In grupul B media înălţimii a fost
de 1.70 m cu o deviaţie standard de 0.13 m. Să se
compare variabilitatea înălţimii cu cea a greutăţii.
CV greutate
CV inaltime
23
%9.47.65
2.3
kg
kg
%7.770.1
13.0
m
m
VARIAȚIE, VARIANȚĂ, ABATERI, DEVIERI…
Statistică descriptivă (eșantion sau întreaga
populație)
Statistică inferențială (aproximare pentru întreaga populație pe baza eșantionului)
• variația
n
XX
s
n
i
i
1
2
2
)(
• Varianţa
• variaţia de eşantionare
2 2
1
nS s
n
• Ecartul tip
• Abaterea (deviația) standard a populației
𝑠 = 𝑠2
• Abaterea (deviația) standard
𝑆 = 𝑆2
• Coeficientul de variație al populației
𝐶𝑉 =𝑠
ത𝑋(%)
• Coeficientul de variație
𝐶𝑉 =𝑆
ത𝑋(%)
EROAREA STANDARD• In inferenţa statistică se utilizează un indicator
al dispersiei datelor numit eroarea standard:
• Eroarea standard intervine în estimarea
statistică în determinarea intervalelor de
încredere pentru medie.
25
n
sES
ASIMETRIA (SKEWNESS)• Măsura de asimetrie (sau skewness) este destinată
să indice pentru o serie sau distribuţie de date:
o extinderea asimetriei adică abaterea de la aspectul
simetric
o direcţia asimetriei (pozitivă sau negativă).
• Ca o măsură a asimetriei unei distribuţii este utilizat
momentul de ordinul trei al abaterii de la medie
reprezentat prin media aritmetică a cuburilor
abaterilor valorilor distribuţiei de la media
aritmetică, adică:
26n
SXXn
i
i
3
1
3
]/)[(
BOLTIREA (KURTOSIS)• Excesul sau boltirea (în engleză kurtosis) este o măsură a
formei unei serii sau distribuţii de date, care măsoară înălţimea
aplatizării/boltirii unei distribuţii în comparaţie cu o distribuţie
normală. Această măsură este definită prin:
28
4
14 4
1( )
3
n
i
i
X Xn
S
BOLTIREA (KURTOSIS)
Excesul 4 este zero pentru o serie de date având o distribuţie
normală,
este pozitiv pentru o serie de date având trena mai înaltă
decât cea a unei distribuţii normale (cu media şi variaţia S2)
este negativ pentru o serie de date a cărei trenă este mai
coborâtă decât cea a unei distribuţii normale
trena se apropie mai încet (4 >0) sau mai rapid (4 <0) de
zero decât cea a distribuţiei normale).
29
ASIMETRIE SI EXCES
(SKEWNESS, KURTOSIS)- proprietăţi
• Pentru o distribuție normală:
- asimetria si excesul au valori
apropiate de 0 (se acceptă în
intervalul [-1; 1].
- media, mediana și modulul sunt
aproximativ egale.
Exemplu:
Varsta pacientilor sositi la cabinetul
stomatologic in regim de urgenta in
data de 2 martie: 19, 21, 21, 24, 30, 20
Media varstei:
= 19 + 21 + 21 + 24 + 30 + 20 / 6
= 22.5
Variaţia:
s2 = 81.5 / 5
s2 = 16.3
Deviatia standard:
S = 16.3
S = 4.04
Eroarea standard:
SE = 4.04 / 2.45
SE = 1.65
Talie esantion:
n = 6
x n media(x–
media)
(x-
media)2
19 6 22.5 -3.5 12.25
21 6 22.5 -1.5 2.25
21 6 22.5 -1.5 2.25
24 6 22.5 1.5 2.25
30 6 22.5 7.5 56.25
20 6 22.5 -2.5 6.25
81.5
df = 5
n = 2.45
1
2
3
4
Coeficientul de variaţie:
CV = 4.04 / 22.5
CV = 0.18 or 18%
5
Problemă
• Pentru un eşantion de n = 36 pacienti care s-au prezentatla cabinetul stomatologic, s-a gasit media indexului facialde 80mm cu o deviatie standard de 5mm. Presupunând că indexul facial o distribuție normală, să se determine:
• a) In ce interval sunt situate aproximativ 68% din valorileindexului facial ai pacientilor?
• b) In ce interval sunt situate aproximativ 95% din valorileindexului facial ?
• c) Cati pacienti (in %) au indexul facial peste 90 mm?
TEMĂ