Post on 06-Sep-2019
transcript
Analiza descriptivă a datelor
Analiza statistică descriptivă reperezintă un tip de analiză ce servește la descrierea, evidențierea sau rezumarea datelor într-o formă prin care se pot observa anumite tipare cu privire la datele analizate.
Analiza descriptivă a datelor Analiza experimentală a unei mărimi
constă în efectuarea a numeroase măsurători și înregistrarea rezultatelor obținute.
Mulțimea elementelor luate în studiu poartă denumirea de populație statistică, colectivitate statistică sau lot.
Un element al populației statistice se numește unitate statistică sau individ statistic.
În funcție de numărul indivizilor statistici populația statistică poate fi finită sau infinită.
O populație poate fi omogenă dacă elementele componente sunt de același tip, sau neomogenă dacă componenetele sunt de tipuri diferite.
Analiza descriptivă a datelor Metodele statistice se aplică numai
populațiilor omogene. Proprietatea comună tuturor
unităților statistice provenite dintr-o populație omogenă poartă denumirea de caracteristică, sau variabilă.
O populație poate avea una sau mai multe caracteristici.
Notarea acestora se face cu literă mare.
Analiza descriptivă a datelor Datele experimentele pot fi culese printr-o cercetare:
completă, în cazul măsurării caracteristicii fiecărui individ statistic.
selectivă, în cazul măsurării caracteristicilor pentru un anumit număr de indivizi statistici care formează un eşantion sau o selecţie.
Valoarea numerică a unei caracteristici cantitative referitoare la o unitate statistică se numeşte valoare observată.
Analiza descriptivă a datelor Totalitatea valorilor observate formează datele experimentale.
Caracteristicile pot fi:
- cantitative - exprimate prin valori numerice
- calitative - exprimate prin atribute ca bun - defect; satisfăcător - nesatisfăcător etc.
Caracteristicile cantitative pot fi:
- discrete - numerele care le reprezintă aparţin mulţimii numerelor întregi sau raţionale (numărul purceilor la o fătare)
- continue - dacă într-un interval se poate obţine orice valoare reală pentru caracteristică (greutate).
Analiza descriptivă a datelor Colectarea datelor experimentale se face în
scopul determinării caracteristicilor populaţiilor statistice, formarea unor concluzii privind comportamentul populaţie şi luării unor decizii.
Statistica descriptivă reprezintă forma cea mai simplă de analiză a caracteristicilor unei populaţii.
Ea include colectarea de date, prezentarea lor sub formă de tabele, întocmirea unor reprezentări grafice şi stabilirea indicatorilor statistici.
Analiza descriptivă a datelor Tabelele trebuie în aşa fel întocmite încât
sã permitã o interpretare directã şi uşoarã fãrã a mai necesita texte aplicative suplimentare. Tabelele sunt formate dintr- o reţea de linii şi coloane în care sunt trecute valorile obţinute ale caracteristicii.
Primul tabel care se întocmeşte este tabelul datelor primare în care sunt trecute în ordinea mãsurãrii caracteristicile cercetate.
Statistica descriptivă nu permite formularea unor concluzii referitoare la ipoteza analizată, dincolo de datele evaluate.
1. Populație
2. Eșantion
3. Caracteristica observată Tabel de
evidență
primară
Repartiția de
frecvență
Indicatori
sintetici
HISTOGRAMA!!!!!
Ce ne spune HISTOGRAMA?
Este un grafic care dă informaţii despre repartizarea
valorilor dintr-o serie de valori
Greutate corporală la 1014 pacienţi cu diferite afecţiuni:pe clase din 5kg în 5kg
(http://www.umfcv.ro/files/b/i/Biostatistica%20MG%20-%20Cursul%20IV.pdf)
Modul cum cresc barele este
diferit de modul cum
descresc.
- asimetria - asimetrie la
dreapta.
Dacă indivizii de la care s-au
cules datele ar fi fost normali,
histograma ar fi avut un
aspect mai simetric.
Ca regulă generală, este bine să se reţină că:
• Se pierde cu atât mai multă informaţie cu cât numărul de clase este
mai mic. Nu se recomandă histograme cu 2-4 clase.
• Un număr prea mare de clase duce la o ascundere a esenţialului de
către aspectele nesemnificative.
Se recomandă:
• Pentru câteva zeci de valori, să se aleagă maximum 6 – 8 clase
• Pentru câteva sute de valori, să se aleagă între 10 şi 15 clase
• Pentru câteva mii de valori, să se aleagă peste 15 clase
. O histogramă reprezintă informaţia dintr-o serie de valori cu
pierdere de informaţie.
Se pierde cu atât mai multă informaţie cu cât sunt mai puţine
clase.
Se pierde cu atât mai multă informaţie cu cât clasele au
lungimi mai mari.
Nu se recomandă
• folosirea a mai mult de 20 – 30 de clase decât în cazuri
speciale, în studii cu multe mii de cazuri.
• folosirea a mai puţin de 4 – 6 clase.
• folosirea histogramelor dacă nu avem cel puţin câteva
zeci de valori.
De exemplu, pentru o serie de 15 valori, nu se face o histogramă
INDICATORII STATISTICI Statistica descriptivă - obiective
Cum se prezintă valorile unei distribuţii?
–Cât de apropiate sunt unele de altele?
–Cât de diferite sunt unele de altele?
Există valori care reprezintă întreaga distribuţie?
INDICATORI SINTETICI sunt descriptori
numerici care condensează într-o valoare
unică o anumită caracteristică a unei întregi
distribuţii de valori
Ce sunt ????
Categorii de indicatori 1. Indicatori ai tendinţei centrale
valori tipice, reprezentative, care descriu distribuţia în întregul ei
2. Indicatori ai împrăştierii
descriu caracteristica de împrăştiere a valorilor distribuţiei
3. Indicatori ai formei distribuţiei
se referă la forma curbei de reprezentare grafică a distribuţiei
1. valoarea medie;
2. valoarea mediana ;
3. valoarea dominanta (modulul);
4. Cuartilele.
Indicatorii tendinţei centrale
Indicatorii tendinţei centrale - MEDIA
Media este cea mai importantă şi totodată cea mai populară măsură a tendinţei centrale a unei distribuţii.
MEDIA DE SONDAJ (Sample Mean) este un indicator care caracterizează un eşantion (o populaţie) din punctul de vedere al unei caracteristici studiate.
MEDIA POPULAŢIEI (Population Mean) este media numerelor dintr-o populaţie numerică.
Această valoare este un parametru al populaţiei, spre deosebire de media calculată dintr-un eşantion, care este doar o estimaţie a parametrului.
Media aritmetică Media aritmetică
ponderată
Media
geometrică
MEDIA ARITMETICĂ (m)
Se calculează ca sumă a tuturor valorilor observate ale seriei de date împărţită la numărul de observaţii
Notaţii uzuale:
(miu), atunci când este media întregii populaţii de referinţă
( barat) sau m, atunci când se calculează pentru un eşantion (cazul cel mai frecvent) x
n
x
n
xxxx
n
i
i
n
121 ...
MEDIA ARITMETICĂ
Exemplu: Pentru distribuţia 5,8,3,2,5,4
Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4
50,46
26
6
452385
N
Xm
2 2
3 4
4 2
5 2
8 1
𝑚 =2 ∗ 2 + 3 ∗ 4 + 4 ∗ 2 + 5 ∗ 2 + 8 ∗ 1
2 + 4 + 2 + 2 + 1=42
11= 3,81
Determinarea mediei în cazul datelor grupate
𝑚 = 𝑥𝑖 ∙ 𝑓𝑖 𝑓𝑖
=31 ∙ 1 + 28 ∙ 2 +⋯+ 4 ∙ 2
1 + 2 + 4 +⋯2=797
47= 16,96
Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului. Iata si un exemplu cu
date grupate:
Intervalul (i) Centrul i (x) Frecventa (fi) x * f
3-5 4 2 8
6-8 7 3 21
9-11 10 5 50
12-14 13 5 65
15-17 16 9 144
18-20 19 10 190
21-23 22 6 132
24-26 25 4 100
27-29 28 2 56
30-32 31 1 31
Proprietăţile mediei aritmetice
Adăugarea/scăderea unei constante la fiecare valoare a distribuţiei, măreşte / scade media cu acea valoare
Înmulţirea/împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică divide media cu acea constantă
Suma abaterii valorilor de la medie este întotdeauna egală cu zero
Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor
în raport cu oricare alt punct al distribuţiei
Media arithmetică ponderată
Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4
90,311
43
22412
2*42*24*31*82*5)*(
f
fXm
2 2
3 4
4 2
5 2
8 1
Media geometrică
Se utilizează în cazul unor repartiţii de frecvenţe care
reprezintă un caracter cu ritm de creştere uniform, (cum
este cel al diviziunii celulare), sau pentru aflarea unor
valori intermediare, valori ce se succed în ritm mai mult
geometric (deci înmulţindu-se) decât aritmetic (deci
adăugându-se)
ni
nngeom xxxxxx *.....*** 321
Media geometrică
Ex1: În urma unui experiment sau găsit 10 de cazuri
pozitive în prima zi şi 1000 de cazuri pozitive în a
treia zi. Care este media?
5052:1010
2
100010
x
100100001000*10 22 geomx
MODUL (Mo) sau valoarea dominantă Definiție:
MODUL sau VALOAREA DOMINANTĂ este valoarea sau clasa de interval a caracteristicii cu frecvența cea mai mare de apariție.
Se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea căreia îi corespunde frecvenţa absolută cea mai ridicată.
• Distribuţii unimodale (5 8 3 2 5 4 Mo=5)
• Distribuții bimodale (5 8 3 2 2 5 4 Mo=5; =2)
• Distribuții multimodale (5 8 8 3 2 2 5 4 Mo=5; =2; =8)
0
0,5
1
1,5
2
2,5
2 3 4 5 8
0
0,5
1
1,5
2
2,5
2 3 4 5 8
0
0,5
1
1,5
2
2,5
2 3 4 5 8
Exemplu:
În seria de valori 5,8,3,2,5,4, Mo=5 (apare de cele mai multe ori)
x n
2 1
3 1
4 1
5 2
8 1
0
0,5
1
1,5
2
2,5
2 3 4 5 8
Intervalul Frecventa Intervalul Frecventa
3-5 (4) 2 18-20 (19) 10
6-8 (7) 3 21-23 (22) 6
9-11 (10) 5 24-26 (25) 4
12-14 (11) 5 27-29 (28) 2
15-17 (16) 9 30-32 (31) 1
Pentru date grupate, se cauta intervalul care are cea mai mare frecventa.
În cazul nostru, acest interval este 18-20 în interiorul caruia se afla 10 valori. Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo = 19.
Caracteristicile modului:
- nu ține seama decât de masurile cele mai reprezentative;
- necesită ordonarea datelor
- corespunde unuia sau mai multor elemente ale seriei (în caz de frecvente egale).
MEDIANA (Me) Mediana undei serii statistice ordonate este valoarea care împarte șirul
ordonat al valorilor variabilei în două parți, fiecare parte conținând acelasi numar de valori. Se notează cu Me
–are 50% dintre valori deasupra ei
–şi 50% dintre valori dedesubtul ei
Dacă numărul observațiilor este impar –Me este chiar valoarea de mijloc în urma ordonării lor.
Dacă numărul observațiilor este par–Me se calculează ca medie aritmetică a valorilor din mijlocul seriei statistice ordonate.
5,8,3,2,5,4, →2,3,4,5,5,8→Me=4,5
Seria statistică seria statistică ordonată
Cum se determină?
Se ordonează crescător seria statistică.
Se determină valoarea de mijloc.
În cazul distribuţiilor cu număr impar de valori, Me este chiar valoarea respectivă.
În cazul distribuţiilor pare, Me se calculează ca medie a celor două valori din mijlocul distribuţiei
Mediana
o valoare mediană propriu-zisă nu există decît dacă numărul n este fără soţ, cînd există, de fapt, un individ mijlociu (al [n+1]/2 lea) a cărui valoare este mediana.
Dacă n este par, se iau indivizii de rang n/2 şi n/2 + 1
EXEMPLU:
În seria de valori 5,8,3,2,5,4, ordonată crescător (2,3,4,5,5,8), Me=4,5 (ca medie a valorilor 4 şi 5 aflate în mijlocul unei distribuţii pare).
Dacă distribuţia ar fi avut 5 valori (fără 2, de exemplu), Me=5
Cuartilele. Mediana este un indicator al tendinţei centrale, este
valoarea de mijloc, într-o serie de valori.
Cuartila este valorea pentru care să avem un sfert din
valorile seriei mai mici şi respectiv, mai mari.
Definiţie:
Cuartila Q1 este acea valoare dintr-o serie de valori,
pentru care 25% din valorile seriei sunt sub Q1 şi 75%,
peste
Definiţie:
Cuartila Q3 este acea valoare dintr-o serie de valori,
pentru care 75% din valorile seriei sunt sub Q3 şi 25%,
peste.
INDICATORII TENDINȚEI CENTRALE
Avantajele Dezavantajele
Modul Ușor de calculat
(nesemnificativ în prezent) Poate fi utilizat pentru orice
tip de scală Este singurul indicator
pentru scale nominale
Mediana
Poate fi utilizată pe scale
ordinale și de interval/raport
Media Reflectă valorile întregii
distribuții Se poate calcula numai
pentru variabile măsurabile pe scale interval și raport.
Modul
• În general, nesigur, mai ales în cazul
eşantioanelor mici, când se poate
modifica dramatic la o modificare
minoră a unei valori;
• Mediana
Poate să nu corespundă unei valori
reale (N par);
Este mai puţin sigură în extrapolarea
de la eşantion la populaţie;
Media
De obicei nu corespunde unei valori
reale;
Conduce la interpretări greşite pe
distribuţii asimetrice
Poate fi puternic afectată de
scorurile extreme;
strâns legată de nivelul de măsurare a variabilelor
Indicatori ai tendinţei centrale.
(rezumat)
Cei mai importanţi indicatori ai tendinţei centrale sunt
media, mediana şi modul.
Media indică tendinţa centrală atunci când seria de valori
este repartizată simetric în jurul ei şi când valorile nu au o
dispersie exagerat de mare.
În cazul seriilor de valori distribuite foarte asimetric,
tendinţa centrală nu mai este indicată de către medie, ci
de către mediană.
Modul, este un indicator al tendinţei centrale, la seriile
unimodale, adică atunci când în tabelul de frecvenţe
există un singur maxim. Dacă avem o serie multimodală,
modul îşi pierde calitatea de indicator al tendinţei
centrale.
Când utilizăm indicatorii tendinței centrale?
Scala de măsurare Cea mai bună măsură a “mijlocului”
Nominală Modul
Ordinală Mediana
Interval Media și mediana
raport Media și mediana
Grafice Box Plot Grafice Plot Box, sau Box sau graficele Plot mustăți,
- sunt destul de comune în statistici și măsurători de calitate.
- are cinci valori principale: low , Q1 , Median , Q3 și Maxim .
Exemplu: 35, 42, 48, 50, 51, 53, 54, 60, 75
xi fa fr% fc fc%
86 1 1,9% 1 1,9%
87 1 1,9% 2 3,8%
89 1 1,9% 3 5,8%
91 1 1,9% 4 7,7%
92 2 3,8% 6 11,5%
94 1 1,9% 7 13,5%
96 1 1,9% 8 15,4%
97 2 3,8% 10 19,2%
98 1 1,9% 11 21,2%
101 4 7,7% 15 28,8%
102 3 5,8% 18 34,6%
104 1 1,9% 19 36,5%
105 1 1,9% 20 38,5%
106 2 3,8% 22 42,3%
107 3 5,8% 25 48,1%
108 3 5,8% 28 53,8%
109 4 7,7% 32 61,5%
110 1 1,9% 33 63,5%
112 1 1,9% 34 65,4%
113 2 3,8% 36 69,2%
114 3 5,8% 39 75,0%
115 2 3,8% 41 78,8%
116 2 3,8% 43 82,7%
117 1 1,9% 44 84,6%
118 2 3,8% 46 88,5%
121 1 1,9% 47 90,4%
123 1 1,9% 48 92,3%
124 1 1,9% 49 94,2%
125 1 1,9% 50 96,2%
135 1 1,9% 51 98,1%
142 1 1,9% 52 100,0%
Interval cuartilic
Q3
Q1
Arithmetic mean (μ): 107.8076923076
Median: 108
Modes: 101 109
124 1 123 1 121 1 118 2 117 1 116 2 115 2 114 3 113 2 112 1 110 1 109 4 108 3 107 3 106 2 105 1 104 1 102 3 101 4 98 1 97 2 96 1 94 1 92 2 91 1 89 1 87 1 86 1
http://www.alcula.com/calculators/statistics/box-plot/
86,87,89,91,92,92,94,96,97,97,98,101,
101,101,101,102,102,102,104,105,106,
106,107,107,107,108,108,108,109,109,
109,109,110,112,113,113,114,114,114,
115,115,116,116,117,118,118,121,123,
124,125,135,142
0
1
2
3
4
5
Histograma
Tratarea valorilor extreme sau aberante (outlier)
• Stabilirea naturii valorilor extreme:
– erori de înregistrare (tastare);
– erori de măsurare;
– rezultate influenţate de anomalii ale condiţiilor
experimentale.
– eşantionul a fost extras dintr-o populaţie asimetrică
– valorile respective fac parte din altă populaţie de valori
– eşantion prea mic
• Tratarea lor pe una din căile posibile:
– eliminare (dacă sunt erori necorectabile);
– corectare (dacă este posibil);