+ All Categories
Home > Documents > INDICATORI AI REPARTIŢIEI DE FRECVENŢĂ - ileana.brudiu.roileana.brudiu.ro/MVR/CURS/08. Statistica...

INDICATORI AI REPARTIŢIEI DE FRECVENŢĂ - ileana.brudiu.roileana.brudiu.ro/MVR/CURS/08. Statistica...

Date post: 06-Sep-2019
Category:
Upload: others
View: 42 times
Download: 0 times
Share this document with a friend
46
STATISTICA DESCRIPTIVĂ Obiective: observarea sintetizarea descrierea datelor organizarea
Transcript

STATISTICA DESCRIPTIVĂ

Obiective:

observarea

sintetizarea

descrierea datelor

organizarea

Analiza descriptivă a datelor

Analiza statistică descriptivă reperezintă un tip de analiză ce servește la descrierea, evidențierea sau rezumarea datelor într-o formă prin care se pot observa anumite tipare cu privire la datele analizate.

Analiza descriptivă a datelor Analiza experimentală a unei mărimi

constă în efectuarea a numeroase măsurători și înregistrarea rezultatelor obținute.

Mulțimea elementelor luate în studiu poartă denumirea de populație statistică, colectivitate statistică sau lot.

Un element al populației statistice se numește unitate statistică sau individ statistic.

În funcție de numărul indivizilor statistici populația statistică poate fi finită sau infinită.

O populație poate fi omogenă dacă elementele componente sunt de același tip, sau neomogenă dacă componenetele sunt de tipuri diferite.

Analiza descriptivă a datelor Metodele statistice se aplică numai

populațiilor omogene. Proprietatea comună tuturor

unităților statistice provenite dintr-o populație omogenă poartă denumirea de caracteristică, sau variabilă.

O populație poate avea una sau mai multe caracteristici.

Notarea acestora se face cu literă mare.

Analiza descriptivă a datelor Datele experimentele pot fi culese printr-o cercetare:

completă, în cazul măsurării caracteristicii fiecărui individ statistic.

selectivă, în cazul măsurării caracteristicilor pentru un anumit număr de indivizi statistici care formează un eşantion sau o selecţie.

Valoarea numerică a unei caracteristici cantitative referitoare la o unitate statistică se numeşte valoare observată.

Analiza descriptivă a datelor Totalitatea valorilor observate formează datele experimentale.

Caracteristicile pot fi:

- cantitative - exprimate prin valori numerice

- calitative - exprimate prin atribute ca bun - defect; satisfăcător - nesatisfăcător etc.

Caracteristicile cantitative pot fi:

- discrete - numerele care le reprezintă aparţin mulţimii numerelor întregi sau raţionale (numărul purceilor la o fătare)

- continue - dacă într-un interval se poate obţine orice valoare reală pentru caracteristică (greutate).

Analiza descriptivă a datelor Colectarea datelor experimentale se face în

scopul determinării caracteristicilor populaţiilor statistice, formarea unor concluzii privind comportamentul populaţie şi luării unor decizii.

Statistica descriptivă reprezintă forma cea mai simplă de analiză a caracteristicilor unei populaţii.

Ea include colectarea de date, prezentarea lor sub formă de tabele, întocmirea unor reprezentări grafice şi stabilirea indicatorilor statistici.

Analiza descriptivă a datelor Tabelele trebuie în aşa fel întocmite încât

sã permitã o interpretare directã şi uşoarã fãrã a mai necesita texte aplicative suplimentare. Tabelele sunt formate dintr- o reţea de linii şi coloane în care sunt trecute valorile obţinute ale caracteristicii.

Primul tabel care se întocmeşte este tabelul datelor primare în care sunt trecute în ordinea mãsurãrii caracteristicile cercetate.

Statistica descriptivă nu permite formularea unor concluzii referitoare la ipoteza analizată, dincolo de datele evaluate.

Indicatori sintetici ai

distribuțiilor statistice

1. Populație

2. Eșantion

3. Caracteristica observată Tabel de

evidență

primară

Repartiția de

frecvență

Indicatori

sintetici

HISTOGRAMA!!!!!

Ce ne spune HISTOGRAMA?

Este un grafic care dă informaţii despre repartizarea

valorilor dintr-o serie de valori

Greutate corporală la 1014 pacienţi cu diferite afecţiuni:pe clase din 5kg în 5kg

(http://www.umfcv.ro/files/b/i/Biostatistica%20MG%20-%20Cursul%20IV.pdf)

Modul cum cresc barele este

diferit de modul cum

descresc.

- asimetria - asimetrie la

dreapta.

Dacă indivizii de la care s-au

cules datele ar fi fost normali,

histograma ar fi avut un

aspect mai simetric.

Ca regulă generală, este bine să se reţină că:

• Se pierde cu atât mai multă informaţie cu cât numărul de clase este

mai mic. Nu se recomandă histograme cu 2-4 clase.

• Un număr prea mare de clase duce la o ascundere a esenţialului de

către aspectele nesemnificative.

Se recomandă:

• Pentru câteva zeci de valori, să se aleagă maximum 6 – 8 clase

• Pentru câteva sute de valori, să se aleagă între 10 şi 15 clase

• Pentru câteva mii de valori, să se aleagă peste 15 clase

. O histogramă reprezintă informaţia dintr-o serie de valori cu

pierdere de informaţie.

Se pierde cu atât mai multă informaţie cu cât sunt mai puţine

clase.

Se pierde cu atât mai multă informaţie cu cât clasele au

lungimi mai mari.

Nu se recomandă

• folosirea a mai mult de 20 – 30 de clase decât în cazuri

speciale, în studii cu multe mii de cazuri.

• folosirea a mai puţin de 4 – 6 clase.

• folosirea histogramelor dacă nu avem cel puţin câteva

zeci de valori.

De exemplu, pentru o serie de 15 valori, nu se face o histogramă

INDICATORII STATISTICI Statistica descriptivă - obiective

Cum se prezintă valorile unei distribuţii?

–Cât de apropiate sunt unele de altele?

–Cât de diferite sunt unele de altele?

Există valori care reprezintă întreaga distribuţie?

INDICATORI SINTETICI sunt descriptori

numerici care condensează într-o valoare

unică o anumită caracteristică a unei întregi

distribuţii de valori

Ce sunt ????

Categorii de indicatori 1. Indicatori ai tendinţei centrale

valori tipice, reprezentative, care descriu distribuţia în întregul ei

2. Indicatori ai împrăştierii

descriu caracteristica de împrăştiere a valorilor distribuţiei

3. Indicatori ai formei distribuţiei

se referă la forma curbei de reprezentare grafică a distribuţiei

1. valoarea medie;

2. valoarea mediana ;

3. valoarea dominanta (modulul);

4. Cuartilele.

Indicatorii tendinţei centrale

Indicatorii tendinţei centrale - MEDIA

Media este cea mai importantă şi totodată cea mai populară măsură a tendinţei centrale a unei distribuţii.

MEDIA DE SONDAJ (Sample Mean) este un indicator care caracterizează un eşantion (o populaţie) din punctul de vedere al unei caracteristici studiate.

MEDIA POPULAŢIEI (Population Mean) este media numerelor dintr-o populaţie numerică.

Această valoare este un parametru al populaţiei, spre deosebire de media calculată dintr-un eşantion, care este doar o estimaţie a parametrului.

Media aritmetică Media aritmetică

ponderată

Media

geometrică

MEDIA ARITMETICĂ (m)

Se calculează ca sumă a tuturor valorilor observate ale seriei de date împărţită la numărul de observaţii

Notaţii uzuale:

(miu), atunci când este media întregii populaţii de referinţă

( barat) sau m, atunci când se calculează pentru un eşantion (cazul cel mai frecvent) x

n

x

n

xxxx

n

i

i

n

121 ...

MEDIA ARITMETICĂ

Exemplu: Pentru distribuţia 5,8,3,2,5,4

Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4

50,46

26

6

452385

N

Xm

2 2

3 4

4 2

5 2

8 1

𝑚 =2 ∗ 2 + 3 ∗ 4 + 4 ∗ 2 + 5 ∗ 2 + 8 ∗ 1

2 + 4 + 2 + 2 + 1=42

11= 3,81

Determinarea mediei în cazul datelor grupate

𝑚 = 𝑥𝑖 ∙ 𝑓𝑖 𝑓𝑖

=31 ∙ 1 + 28 ∙ 2 +⋯+ 4 ∙ 2

1 + 2 + 4 +⋯2=797

47= 16,96

Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului. Iata si un exemplu cu

date grupate:

Intervalul (i) Centrul i (x) Frecventa (fi) x * f

3-5 4 2 8

6-8 7 3 21

9-11 10 5 50

12-14 13 5 65

15-17 16 9 144

18-20 19 10 190

21-23 22 6 132

24-26 25 4 100

27-29 28 2 56

30-32 31 1 31

Proprietăţile mediei aritmetice

Adăugarea/scăderea unei constante la fiecare valoare a distribuţiei, măreşte / scade media cu acea valoare

Înmulţirea/împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică divide media cu acea constantă

Suma abaterii valorilor de la medie este întotdeauna egală cu zero

Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor

în raport cu oricare alt punct al distribuţiei

Proprietățile mediei

Media arithmetică ponderată

Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4

90,311

43

22412

2*42*24*31*82*5)*(

f

fXm

2 2

3 4

4 2

5 2

8 1

Media geometrică

Se utilizează în cazul unor repartiţii de frecvenţe care

reprezintă un caracter cu ritm de creştere uniform, (cum

este cel al diviziunii celulare), sau pentru aflarea unor

valori intermediare, valori ce se succed în ritm mai mult

geometric (deci înmulţindu-se) decât aritmetic (deci

adăugându-se)

ni

nngeom xxxxxx *.....*** 321

Media geometrică

Ex1: În urma unui experiment sau găsit 10 de cazuri

pozitive în prima zi şi 1000 de cazuri pozitive în a

treia zi. Care este media?

5052:1010

2

100010

x

100100001000*10 22 geomx

MODUL (Mo) sau valoarea dominantă Definiție:

MODUL sau VALOAREA DOMINANTĂ este valoarea sau clasa de interval a caracteristicii cu frecvența cea mai mare de apariție.

Se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea căreia îi corespunde frecvenţa absolută cea mai ridicată.

• Distribuţii unimodale (5 8 3 2 5 4 Mo=5)

• Distribuții bimodale (5 8 3 2 2 5 4 Mo=5; =2)

• Distribuții multimodale (5 8 8 3 2 2 5 4 Mo=5; =2; =8)

0

0,5

1

1,5

2

2,5

2 3 4 5 8

0

0,5

1

1,5

2

2,5

2 3 4 5 8

0

0,5

1

1,5

2

2,5

2 3 4 5 8

Exemplu:

În seria de valori 5,8,3,2,5,4, Mo=5 (apare de cele mai multe ori)

x n

2 1

3 1

4 1

5 2

8 1

0

0,5

1

1,5

2

2,5

2 3 4 5 8

Intervalul Frecventa Intervalul Frecventa

3-5 (4) 2 18-20 (19) 10

6-8 (7) 3 21-23 (22) 6

9-11 (10) 5 24-26 (25) 4

12-14 (11) 5 27-29 (28) 2

15-17 (16) 9 30-32 (31) 1

Pentru date grupate, se cauta intervalul care are cea mai mare frecventa.

În cazul nostru, acest interval este 18-20 în interiorul caruia se afla 10 valori. Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo = 19.

Caracteristicile modului:

- nu ține seama decât de masurile cele mai reprezentative;

- necesită ordonarea datelor

- corespunde unuia sau mai multor elemente ale seriei (în caz de frecvente egale).

MEDIANA (Me) Mediana undei serii statistice ordonate este valoarea care împarte șirul

ordonat al valorilor variabilei în două parți, fiecare parte conținând acelasi numar de valori. Se notează cu Me

–are 50% dintre valori deasupra ei

–şi 50% dintre valori dedesubtul ei

Dacă numărul observațiilor este impar –Me este chiar valoarea de mijloc în urma ordonării lor.

Dacă numărul observațiilor este par–Me se calculează ca medie aritmetică a valorilor din mijlocul seriei statistice ordonate.

5,8,3,2,5,4, →2,3,4,5,5,8→Me=4,5

Seria statistică seria statistică ordonată

Cum se determină?

Se ordonează crescător seria statistică.

Se determină valoarea de mijloc.

În cazul distribuţiilor cu număr impar de valori, Me este chiar valoarea respectivă.

În cazul distribuţiilor pare, Me se calculează ca medie a celor două valori din mijlocul distribuţiei

Mediana

o valoare mediană propriu-zisă nu există decît dacă numărul n este fără soţ, cînd există, de fapt, un individ mijlociu (al [n+1]/2 lea) a cărui valoare este mediana.

Dacă n este par, se iau indivizii de rang n/2 şi n/2 + 1

EXEMPLU:

În seria de valori 5,8,3,2,5,4, ordonată crescător (2,3,4,5,5,8), Me=4,5 (ca medie a valorilor 4 şi 5 aflate în mijlocul unei distribuţii pare).

Dacă distribuţia ar fi avut 5 valori (fără 2, de exemplu), Me=5

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

12 14 15 16 20 22 45 60

12

14

15

16

20

22

45

60

Cuartilele. Mediana este un indicator al tendinţei centrale, este

valoarea de mijloc, într-o serie de valori.

Cuartila este valorea pentru care să avem un sfert din

valorile seriei mai mici şi respectiv, mai mari.

Definiţie:

Cuartila Q1 este acea valoare dintr-o serie de valori,

pentru care 25% din valorile seriei sunt sub Q1 şi 75%,

peste

Definiţie:

Cuartila Q3 este acea valoare dintr-o serie de valori,

pentru care 75% din valorile seriei sunt sub Q3 şi 25%,

peste.

INDICATORII TENDINȚEI CENTRALE

Avantajele Dezavantajele

Modul Ușor de calculat

(nesemnificativ în prezent) Poate fi utilizat pentru orice

tip de scală Este singurul indicator

pentru scale nominale

Mediana

Poate fi utilizată pe scale

ordinale și de interval/raport

Media Reflectă valorile întregii

distribuții Se poate calcula numai

pentru variabile măsurabile pe scale interval și raport.

Modul

• În general, nesigur, mai ales în cazul

eşantioanelor mici, când se poate

modifica dramatic la o modificare

minoră a unei valori;

• Mediana

Poate să nu corespundă unei valori

reale (N par);

Este mai puţin sigură în extrapolarea

de la eşantion la populaţie;

Media

De obicei nu corespunde unei valori

reale;

Conduce la interpretări greşite pe

distribuţii asimetrice

Poate fi puternic afectată de

scorurile extreme;

strâns legată de nivelul de măsurare a variabilelor

Indicatori ai tendinţei centrale.

(rezumat)

Cei mai importanţi indicatori ai tendinţei centrale sunt

media, mediana şi modul.

Media indică tendinţa centrală atunci când seria de valori

este repartizată simetric în jurul ei şi când valorile nu au o

dispersie exagerat de mare.

În cazul seriilor de valori distribuite foarte asimetric,

tendinţa centrală nu mai este indicată de către medie, ci

de către mediană.

Modul, este un indicator al tendinţei centrale, la seriile

unimodale, adică atunci când în tabelul de frecvenţe

există un singur maxim. Dacă avem o serie multimodală,

modul îşi pierde calitatea de indicator al tendinţei

centrale.

Când utilizăm indicatorii tendinței centrale?

Scala de măsurare Cea mai bună măsură a “mijlocului”

Nominală Modul

Ordinală Mediana

Interval Media și mediana

raport Media și mediana

Grafice Box Plot Grafice Plot Box, sau Box sau graficele Plot mustăți,

- sunt destul de comune în statistici și măsurători de calitate.

- are cinci valori principale: low , Q1 , Median , Q3 și Maxim .

Exemplu: 35, 42, 48, 50, 51, 53, 54, 60, 75

xi fa fr% fc fc%

86 1 1,9% 1 1,9%

87 1 1,9% 2 3,8%

89 1 1,9% 3 5,8%

91 1 1,9% 4 7,7%

92 2 3,8% 6 11,5%

94 1 1,9% 7 13,5%

96 1 1,9% 8 15,4%

97 2 3,8% 10 19,2%

98 1 1,9% 11 21,2%

101 4 7,7% 15 28,8%

102 3 5,8% 18 34,6%

104 1 1,9% 19 36,5%

105 1 1,9% 20 38,5%

106 2 3,8% 22 42,3%

107 3 5,8% 25 48,1%

108 3 5,8% 28 53,8%

109 4 7,7% 32 61,5%

110 1 1,9% 33 63,5%

112 1 1,9% 34 65,4%

113 2 3,8% 36 69,2%

114 3 5,8% 39 75,0%

115 2 3,8% 41 78,8%

116 2 3,8% 43 82,7%

117 1 1,9% 44 84,6%

118 2 3,8% 46 88,5%

121 1 1,9% 47 90,4%

123 1 1,9% 48 92,3%

124 1 1,9% 49 94,2%

125 1 1,9% 50 96,2%

135 1 1,9% 51 98,1%

142 1 1,9% 52 100,0%

Interval cuartilic

Q3

Q1

Arithmetic mean (μ): 107.8076923076

Median: 108

Modes: 101 109

124 1 123 1 121 1 118 2 117 1 116 2 115 2 114 3 113 2 112 1 110 1 109 4 108 3 107 3 106 2 105 1 104 1 102 3 101 4 98 1 97 2 96 1 94 1 92 2 91 1 89 1 87 1 86 1

http://www.alcula.com/calculators/statistics/box-plot/

86,87,89,91,92,92,94,96,97,97,98,101,

101,101,101,102,102,102,104,105,106,

106,107,107,107,108,108,108,109,109,

109,109,110,112,113,113,114,114,114,

115,115,116,116,117,118,118,121,123,

124,125,135,142

0

1

2

3

4

5

Histograma

Tratarea valorilor extreme sau aberante (outlier)

• Stabilirea naturii valorilor extreme:

– erori de înregistrare (tastare);

– erori de măsurare;

– rezultate influenţate de anomalii ale condiţiilor

experimentale.

– eşantionul a fost extras dintr-o populaţie asimetrică

– valorile respective fac parte din altă populaţie de valori

– eşantion prea mic

• Tratarea lor pe una din căile posibile:

– eliminare (dacă sunt erori necorectabile);

– corectare (dacă este posibil);

https://www.youtube.com

/watch?v=5C9LBF3b65s

https://www.youtube.com/watch?v

=095BdbOunPU


Recommended