Date post: | 22-Dec-2015 |
Category: |
Documents |
Upload: | anca-ancaa |
View: | 275 times |
Download: | 11 times |
2. Analiza unei serii statistice unidimensionale
2.1. Variabile cantitative
A. Variabilă discretă
A.1. Prezentarea seriei (distribuţiei) statistice
- seria simplă X:(xi), cu i=1,m , când n1=n2= … =ni.
- seria cu frecvenţe diferite X: , când ni≠nj.
X: , cu fi=ni/n
i
i
n
x
i
i
f
x
• Frecvenţe absolute cumulate crescător (Ni ) sau descrescător (Ni )
- exprimă numărul de unităţi statistice cumulate “până la” sau “peste” nivelul considerat al caracteristicii, adică valori ≤ xi, respectiv ≥ xi.
i
hhiii nnNN
11
m
ihhiii nnNN 1
• Frecvenţe relative cumulate crescător (Fi ) sau descrescător (Fi )
- exprimă ponderea unităţilor statistice cumulate “până la” sau “peste” nivelul considerat al caracteristicii, adică valori ≤ xi, respectiv ≥ xi.
i
hhiii ffFF
11
m
ihhiii ffFF 1
Exemplu
Distribuţia unui eşantion de persoane după numărul de spectacole de teatru vizionate într-o lună
xi ni fi
0 9 5,17
1 29 16,67
2 95 54,6
3 35 20,11
4 6 3,45
Total 174 100,0
A.2. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive, cunoscuţi şi sub denumirea de caracteristici numerice ale unei distribuţii.
A.2.1. Indicatori ai tendinţei centrale (mărimi medii)
a. Definire: - mediile sunt acele valori în jurul cărora se repartizează
unităţile unei populaţii. - cele mai importante mărimi medii sunt media aritmetică,
modul şi mediana .
A.2. Analiza seriei folosind metode numerice
b. Media aritmetică ( )- Media aritmetică este valoarea pe care am observa-o dacă
unităţile statistice ar înregistra aceleaşi valori ale variabilei (dacă nu ar exista variaţii ale valorilor înregistrate de unităţile statistice).
x
Mod de calcul în cazul seriilor simple şi seriilor cu frecvenţe diferite (variabilă discretă)
Media simplă:
Media ponderată.
sau
Observaţie: Media aritmetică este sensibilă la prezenţa valorilor extreme (outliers).
n
xx i
i
ii
ii
i
n
nxx i
ii fxx
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media unei distribuţii este o valoare internă:
xmin≤ ≤xmax.
2. Media este o mărime normală: suma abaterilor valorilor individuale ale unei variabile X de la media lor este egală cu zero.
Exemplu: Să considerăm distribuţia membrilor unei familii după numărul de litri de Coca-Cola consumaţi într-o săptămână:
1, 1, 4, 6, 8.
x
c. Modul (Mo) este valoarea variabilei cea mai frecvent observată într-o
distribuţie, adică valoarea xi care corespunde frecvenţei maxime (nimax).
Observaţie: modul poate fi aflat doar în cazul seriilor cu frecvenţe
diferite. o distribuţie poate avea una, două sau mai multe valori
modale (serii unimodale, bimodale sau plurimodale).
Interpretare: Cele mai multe unităţi înregistrează valoarea modală.
d. Mediana (Me) - este acea valoare a variabilei unei serii ordonate, crescător sau
descrescător, până la care şi peste care sunt distribuite în număr egal unităţile colectivităţii: jumătate din unităţi au valori mai mici decât mediana, iar jumătate au valori mai mari decât mediana.
- corespunde locului unităţii mediane calculate astfel:
2
1nU Me
Aflarea medianei se face diferit în funcţie de tipul seriei:
1. Serii simple: - număr impar de termeni. Exemplu: 7, 3, 8, 4, 5- număr par de termeni. Exemplu: 7, 3, 8, 4, 5, 5
2. Serii cu frecvenţe diferite- se calculează unitatea mediană (UMe).- se calculează
- se află prima valoare- valoarea xi corespunzătoare acesteia este Me.
Observaţie:mediana nu este influenţată de valorile extreme.
Exemplu: 1, 1, 2, 4, 4, 80
iNMe
i UN
f. Quartilele
- sunt valori ale variabilei care împart volumul eşantionului în 4 părţi egale.
- reprezentare grafică şi mod de calcul ( Q1, Q2, Q3).
g. Decile- sunt valori ale variabilei care împart volumul
eşantionului în 4 părţi egale.- decila unu (D1) şi decila 9 (D9).
A.2.2. Indicatori ai dispersiei (variaţiei) Definire: - dispersia exprimă gradul de variaţie a valorilor individuale
ale unei variabile faţă de nivelul mediu.- aprecierea fenomenului de dispersie al unei distribuţii
permite identificarea gradului de reprezentativitate a mediei unei distribuţii.
Indicatori sintetici ai dispersiei:
1. Abaterea medie liniară
1. Varianţa
, respectiv
Varianţa este întotdeauna pozitivă, nu are unitate de măsură şi nu se interpretează.
Prin ridicarea la pătrat a abaterilor valorilor xi faţă de medie creşte “influenţa” valorilor extreme asupra nivelului varianţei.
ii
ii
i
n
nxxs
2
2
)(
n
xxs i
i
2
2
)(
3. Abaterea standard (s) arată cu cât variază, în medie, valorile xi ale variabilei faţă
de nivelul mediu al distribuţiei, în sens pozitiv şi negativ. Se calculează ca radical din varianţă se exprimă în aceeaşi unitate de măsură cu cea a variabilei.
n
xxs i
i
2
2
)(
ii
ii
i
n
nxxs
2
2
)(
4. Coeficientul de variaţie (v)
se exprimă în procente. valori ridicate ale acestui coeficient (v>50%) arată o
distribuţie eterogenă, care se caracterizează printr-o variaţie mare a valorilor xi faţă de nivelul mediu şi o medie nereprezentativă.
este sensibil faţă de valoarea mediei: cu cât media este mai apropiată de zero, cu atât coeficientul de variaţie este mai dificil de folosit (tinde spre infinit).
100x
sv
5. Intervalul interquartilic
IQ=Q3-Q1.
- cuprinde 50% din volumul eşantionului.
În mod sintetic, cele mai importante caracteristici numerice ale unei distribuţii pot fi “cuplate” astfel: media - abaterea standard - coeficientul de variaţie mediana - intervalul interquartilic media - mediana
A.2.3. Indicatori ai formei
1. Asimetria:
- reprezintă o deviere de la forma simetrică a unei distribuţii.
Asimetria poate fi apreciată:- pe cale grafică: curba frecvenţelor, diagrama box-plot.- pe cale numerică: - prin calculul indicatorilor de asimetrie
(Skewness).
Coeficientul de asimetrie Fisher: 33
1s
Relaţii între cele trei mărimi medii
Arată forma unei distribuţii:
1. Când distribuţia este simetrică.
2. Când distribuţia este asimetrică la dreapta (asimetrie pozitivă).
3. Când distribuţia este asimetrică la stânga (asimetrie negativă).
MeMox
MoMex
MoMex
2. Boltirea
- este definită prin compararea distribuţiei empirice cu distribuţia normală din punctul de vedere al variaţiei variabilei X şi a frecvenţei ni.
Boltirea poate fi apreciată:
– pe cale grafică: curba frecvenţelor.- numeric: prin calculul indicatorilor boltirii (kurtosis).
Coeficientul de boltire Fisher:
3344
22
42
s
A.3. Analiza seriei folosind metode graficea. Poligonul frecvenţelor: - construirea acestuia presupune găsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unirea acestora prin segmente de dreaptă.
- aproximează forma unei distribuţii.b. Histogramac. Curba frecvenţelor:- presupune ajustarea printr-o linie curbă, continuă a
histogramei.- aproximează mai bine forma de distribuţie a colectivităţii
după variabila considerată.
d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers” Forma diagramei (D1, Q1, Q2, Q3, D9);
Avantaje:
- permite aprecierea nivelului mediu (Me), dispersiei şi asimetriei unei distribuţiei;
- facilitează compararea mai multor distribuţii (prin reprezentarea simultană a diagramelor).
Exemplu: Pentru o distributie s-au inregistrat valorile: D1=5, Q1=12, Q2=20, Q3=22, D9=25. Sa se interpreteze asimetria distributiei folosind diagrama box-plot.
Diagrama box-plot
Analysis weighted by NRSTUD
NOTA
11109876543
1
NOTA_1
NOTA_2
11109876543
Indicatorii statisticii descriptive în ExcelColumn1
Mean 8.6
Standard Error 0.347735
Median 8
Mode 10
Standard Deviation 1.904622
Sample Variance 3.627586
Kurtosis -0.14315
Skewness -0.40554
Range 8
Minimum 4
Maximum 12
Sum 258
Count 30
B. Variabilă continuăB.1 Prezentarea seriei statistice- gruparea unităţilor statistice este realizată pe intervale de
variaţie. Observaţie:- Gruparea pe intervale de variaţie duce la pierderea unei părţi
a informaţiei iniţiale.
B.2. Indicatori ai statisticii descriptive - se calculează în mod identic, prin “discretizarea” variabilei
(calculul mijlocului intervalelor de variaţie).
B.3. Prelucrarea seriei statistice folosind metode grafice
a. Histograma
b. Poligonul frecvenţelor
c. Curba frecvenţelor
d. Box-plot
Distribuţia unui eşantion de firme după valoarea profitului (mil. lei), în anul 2012
'ix
i'i nx xi-1-xi ni
0 -10 205 100
10-20 4015 600
20-30 3525 875
30-40 1535 525
40-50 1045 450
TOTAL 120 -2550
Statistics
Profit120
21.2500
20.3333
15.00
11.52728
132.878
.442
-.484
5.6667
9.6667
11.6667
13.6667
17.1333
20.3333
23.5333
27.6000
30.0000
32.4000
39.4000
ValidN
Mean
Median
Mode
Std. Deviation
Variance
Skewness
Kurtosis
10
20
25
30
40
50
60
70
75
80
90
Percentiles
50.0040.0030.0020.0010.000.00
Profit
50
40
30
20
10
0
Fre
qu
en
cy
Mean = 21.25Std. Dev. = 11.52728N = 120
Cases weighted by nr.firme
Histogram
Profit
50.0040.0030.0020.0010.000.00
Cases weighted by nr.firme
2. Analiza unei serii univariate
2.1. Variabilă cantitativă
A. Variabilă discretă
B. Variabilă continuă
2.2. Variabilă calitativă
I. Tipuri de variabileA. Variabile nominaleB. Variabile ordinale
III. Indicatori statistici specifici
a) Variabile nominale:
1. Mărimi relative- frecvenţe relative (fi)
2. Indicatori ai tendinţei centrale- modul arată categoria cea mai frecvent observată.
II. Reprezentare grafică
a) Variabile nominale:• Pentru a reprezenta structura pe categorii la
nivelul unui eşantion se calculează frecvenţe relative;
• Reprezentarea structurii unui eşantion se realizează folosind diagrame de structură: dreptunghiul, pătratul şi cercul de structură (Pie Chart) sau folosing diagrame prin coloane (Bar Chart).
Religie ni fi (%)
Budism 7 6,80
Catolic 41 39,81
Hinduism 1 0,97
Iudaism 1 0,97
Islam 27 26,21
Ortodox 8 7,77
Protestantism 16 15,53
Taoism 2 1,94
Total 103 100
7%
1%
1%
26%
8%
16%2%
39%
Budism
Catolic
Hinduism
Iudaism
Islam
Ortodox
Protestantism
Taoism
b) Variabile ordinale:1. Mărimi relative- frecvenţe relative (fi)- frecvenţe relative cumulate (Fi)
2. Indicatori ai tendinţei centrale- mediana şi modul.
3. Reprezentare grafica• Histograma• Poligonul frecvenţelor• Box-plot
Distribuţia medaliilor olimpice obţinute de România la JO după categoria medaliei, în perioada 1924-2012.
Medalia ni fi (%) Ni Fi
Aur 88 29 88 29
Argint 95 31,4 183 60,4
Bronz 120 39,6 303 100
Total 303 100 - -