+ All Categories
Home > Documents > Partea2 Statistica Descriptiva Univarianta

Partea2 Statistica Descriptiva Univarianta

Date post: 28-Nov-2015
Category:
Upload: millea-vlad
View: 60 times
Download: 2 times
Share this document with a friend
Description:
Curs introductiv in statistica univariata
59
CARACTERISTICI (VARIABILE) STATISTICE 1. Individ, populaţie statistică şi eşantion Noţiunile statistice elementare sunt cele de: individ (statistic) şi populaţie (statistică). Indivizii (statistici) sunt entităţi elementare purtătoare de ÎNSUŞIRI: una e COMUNĂ şi exprimă natura însăşi a entităţilor respective, - atributul prin care entităţile sunt şi desemnate ca atare (Ex.: oameni, grupuri umane, ţări, familii, aruncări ale zarului, extrageri ale unui număr de bile dintr-o urnă, măsurători, cu un anumit instrument, ale unei însuşiri fizice, trageri la ţintă cu o armă etc.); celelalte însuşiri sunt VARIABILE, adică au forme de manifestare diferite , la nivelul entităţilor diferite , şi tocmai studierea lor reclamă instrumentele statistice . (Ex. indivizii umani diferă după aspecte fizice, psihologice sau sociale, familiile după număr de membri, venit global, dotările gospodăriei, etc.) Idee: sociologia vizează, în principal, aspecte sociale, psihologia, cele psihologice. POPULAŢIA STATISTICĂ: reprezintă mulţimea indivizilor de aceeaşi natură, care sunt obiectul unei investigaţii de tip statistic. Idee: Indivizii statistici şi populaţiile statistice NU se referă doar la oameni ci şi la: obiecte şi mulţimi de obiecte (piese fabricate în serie) acţiuni umane (aruncarea zarului, măsurarea repetată a unui obiect, tragerea la ţintă) NUMĂRUL INDIVIZILOR ce formează mulţimea statistică poate fi foarte diferit. 8
Transcript
Page 1: Partea2 Statistica Descriptiva Univarianta

CARACTERISTICI (VARIABILE) STATISTICE

1. Individ, populaţie statistică şi eşantion

Noţiunile statistice elementare sunt cele de: individ (statistic) şi populaţie (statistică).

Indivizii (statistici) sunt entităţi elementare purtătoare de ÎNSUŞIRI: una e COMUNĂ şi exprimă natura însăşi a entităţilor respective, - atributul prin care

entităţile sunt şi desemnate ca atare (Ex.: oameni, grupuri umane, ţări, familii, aruncări ale zarului, extrageri ale unui număr de bile dintr-o urnă, măsurători, cu un anumit instrument, ale unei însuşiri fizice, trageri la ţintă cu o armă etc.);

celelalte însuşiri sunt VARIABILE, adică au forme de manifestare diferite, la nivelul entităţilor diferite, şi tocmai studierea lor reclamă instrumentele statistice. (Ex. indivizii umani diferă după aspecte fizice, psihologice sau sociale, familiile după număr de membri, venit global, dotările gospodăriei, etc.)Idee: sociologia vizează, în principal, aspecte sociale, psihologia, cele psihologice.

POPULAŢIA STATISTICĂ: reprezintă mulţimea indivizilor de aceeaşi natură, care sunt obiectul unei investigaţii de tip statistic.

Idee: Indivizii statistici şi populaţiile statistice NU se referă doar la oameni ci şi la: obiecte şi mulţimi de obiecte (piese fabricate în serie) acţiuni umane (aruncarea zarului, măsurarea repetată a unui obiect, tragerea la ţintă)

NUMĂRUL INDIVIZILOR ce formează mulţimea statistică poate fi foarte diferit. Tehnicile statistice se aplică, de obicei, populaţiilor mari, pentru ca: modul de manifestare al însuşirilor studiate să fie relevant pentru populaţie modificare a Nr. de indivizi să nu producă schimbări esenţiale ale structurii de

ansamblu (salariaţii dintr-un birou: venit, vechime în muncă, nivel de studii)

Corrado Gini: STATISTICA e o metodă de studiere a fenomenelor colective sau de masă.„Fenomene colective” desemnează: fenomene ce rezultă din agregarea unei multitudini de manifestări individuale Nu fenomene ce rezultă din interacţiuni umane, care pot avea loc şi în grupuri mici

„Numărul mare” e necesar:1) pentru a se putea aplica rezultatele teoriei probabilităţilor:

- aspecte empirice ale fenomenelor se leagă de modele matematice (legi probabilistice)

- se poate trece de la noţiunea de frecvenţă relativă la cea de probabilitate.

2) pentru a se putea forma grupările multiple de entităţi, cu scopul de a se controla simultan cât mai mulţi factori (fenomenele sociale, au, simultan mai multe cauze)

Obs. Totuşi, în calcule statistice, VOLUMUL populaţiei intervine rareori ca o valoare minimă.

Relevanţa, expresivitatea şi, uneori, chiar înţelesul mărimii calculate sunt afectate negativ de o dimensiune prea redusă a populaţiei.

8

Page 2: Partea2 Statistica Descriptiva Univarianta

Doar prelucrările statistice cele mai simple sunt posibile pe populaţii de mici dimensiuni. VOLUMUL POPULAŢIEI trebuie să fie cu atât mai ridicat: cu cât intrăm în analize statistice mai sofisticate, cu cât implicăm simultan în analize mai multe însuşiri ale indivizilor

Dimensiunea populaţiei poate fi: dată de la bun început (judeţele ţării, întreprinderile dintr-o localitate, etc.) determinată după nevoile studiului (Nr. de trageri la ţintă cu o armă)

Idee: dacă populaţia este dată de la bun început, şi e de mici dimensiuni, ne vom limita la instrumente statistice simple. Dacă e mare, putem face analize şi pe sub-populaţii, putem folosi modalităţi sofisticate de analiză.

Studiul populaţiilor mari ridică probleme practice, de culegere şi prelucrare a informaţiei.Procedurile de selecţie bazate pe teoria probabilităţilor rezolvă aceste dificultăţi: informaţia este culeasă doar de la o submulţime de indivizi - numită eşantion concluziile sunt generalizabile la întreaga populaţie.

Cercetările pot fi: exhaustive dacă datele sunt culese de la întreaga populaţie selective daca datele sunt culese dintr-un eşantion.

Implicaţia distincţiei asupra instrumentelor statistice folosite are două dimensiuni. formulele de calcul pentru indicatorii statistici pot diferi uşor în cazul eşantionării Se aplică teste de semnificaţie pentru a estima eroarea produsă prin calcularea unei

valori în cadrul unui eşantion, în loc să o facem pe întreaga populaţie.

Obs.: teste de semnificaţie îmbracă forme diferite după cum este vorba de eşantioane mari sau de eşantioane mici (sub 30 de indivizi). Populaţiile trebuie să fie mereu MARI.

Reprezentativitatea eşantionului de volum dat nu depinde de mărimea populaţiei.

Obs.: problematica semnificaţiei statistice apare numai în cazul cercetărilor selective.

2. Caracteristici calitative şi cantitative

Idee: numai diversitatea formelor de manifestare a unei însuşiri îi conferă acesteia un interes din partea cercetătorului. Dacă toate obiectele ar fi identice, după o însuşire, aceasta n-ar mai reclama analiza: modului în care se manifestă unii sau alţii şi, mai ales, motivului pentru care unii se manifestă într-un fel şi alţii în alt fel.

Idee: Cu cât o caracteristică îmbracă forme mai diverse, cu atât ea capătă o valoare de cunoaştere mai ridicată, ceteris paribus.

Există 4 forme sub care pot fi surprinse manifestările însuşirilor unităţilor statistice.Aceste forme sunt cunoscute în domeniul sociologiei, sub numele de scale.

Idee: Expresia scale de măsură (SUA) utilizează abuziv termenul de măsură atunci când se aplică tuturor genurilor de scale.

9

Page 3: Partea2 Statistica Descriptiva Univarianta

1. SCALA NOMINALĂ: prin denumiri (nume) se marchează stările unei caracteristici. (Ex.: pentru caracteristica „sex”, stările sunt „masculin” şi „feminin”, pentru caracteristica stare civilă, stările sunt necăsătorit, căsătorit, divorţat, văduv, etc.)

Aplicarea unei scale nominale la o mulţime de indivizi însemnă o clasificare a acestora, în sensul că fiecare treaptă a scalei determină o clasă sau o categorie de indivizi.

Ex. Caracteristici care sunt evaluate pe scale nominale:

CARACTERISTICA INDIVIZII CLASELE SCALEI

STAREA CIVILĂ PERSOANE NECĂSĂTORITCĂSĂTORITVĂDUVDIVORŢAT

OCUPAŢIA PERSOANE OCUPATE

AGRICULTORMUNCITORLUCRĂTOR ÎN SERVICIIINTELECTUALFUNCŢIONARALTĂ OCUPAŢIE

AŞEZAREA ŢĂRILOR PE CONTINENTE

ŢĂRILE LUMII ASIAAFRICAAMERICAEUROPAAUSTRALIA ŞI OCEANIA

OPŢIUNEA POLITICĂ PERSOANE SUPUSE UNEI ANCHETE

PARTIDUL APARTIDUL BPARTIDUL CPARTIDUL DALT PARTIDNU ARE

Rezultatul aplicării unei scale nominale la o populaţie statistică îl constituie o caracteristică nominală sau (SUA) o variabilă nominală.

CONDIŢIA FUNDAMENTALĂ cerută scalei nominale pentru a genera o variabilă statistică: este cerinţa elementară a oricărei clasificări fiecare individ statistic să poată fi încadrat în una şi numai una dintre clase

2. SCALA ORDINALĂ presupune în plus faţă de cea nominală, o relaţie de ordine între elementele scalei (clase, categorii) în sensul matematic al termenului.

Notând cu litere mari clasele scalei şi cu semnul „<“ relaţia de ordine proprietăţile relaţiei de ordine sunt următoarele:a) Oricare ar fi două elemente ale scalei, A şi B, vom avea A<B sau B<A.

b) Între două elemente diferite ale scalei, A şi B, nu pot exista simultan relaţiile A < B şi B <A. În cazul în care s-ar întâmpla aşa ceva, elementele ar trebui să coincidă.

c) Dacă A < B şi B < C, atunci A < C. E cunoscuta proprietate de tranzitivitate a relaţiei de ordine.

10

Page 4: Partea2 Statistica Descriptiva Univarianta

Ex.: variantele de răspuns la unele întrebări ale unui chestionar. Iată câteva exemple:O întrebare de opinie: „Ce părere aveţi despre activitatea primarului localităţii dvs.?”.Variante :”Foarte bună”, „Bună”, „Nici bună nici proastă”, „Proastă”, „Foarte proastă”.

O întrebare de satisfacţie: „Sunteţi mulţumit sau nemulţumit de serviciul dvs.?”.Variante: „Mulţumit”, „Şi mulţumit şi nemulţumit”, „Nemulţumit”.

O întrebare factuală :”Cât de des obişnuiţi să mergeţi la cinematograf?”Variante: „Cel puţin o dată pe săptămână”, „Cel puţin o dată pe lună”, „Mai rar”, „Niciodată”.

Caracteristici evaluate pe scala ordinală se pot obţine şi prin alte mijloace de investigare, cum este observaţia, experimentul, interviul sau analiza documentelor.

Pentru scalele ordinale, simbolurile claselor trebuie să evidenţieze ordinea claselor: prin folosirea numerelor naturale: 1, 2, 3 în mod direct sau prin folosirea numerelor naturale ca indici ai altor simboluri. (A1, A2, A3, etc.)

OBS.: E vorba de numere care desemnează ordinea elementelor şi NU se pretează la operaţii aritmetice – nu pot fi cuprinşi în indici mai complecşi (Ex. 3 aici înseamnă AL TREILEA şi nu trei mere sau trei kg)

Caracteristicile statistice ordinale se obţin când se aplică o scală ordinală unei populaţii statistice sau unui eşantion, indivizii repartizându-se în clasele scalei.

CARACTERISTICILE CALITATIVE sunt constituite din:

3. SCALE DE MĂSURĂ ( metrice ) conduc la caracteristici cantitative (variabile statistice): fiecare individ din populaţie e caracterizat de o valoare numerică, în funcţie de acea

proprietate valoarea numerică s-a obţinut prin operaţia de măsurare numărul atribuit redă intensitatea de manifestare a însuşirii pentru acel individ

Numărul astfel atribuit este un număr cardinal şi el.

Valorile obţinute pe scale de intervale: NU pot fi împărţite unele la altele căci rapoartele se modifică cu schimbarea originii. anu miţi indicatori statistici nu au sens pentru valori obţinute pe scale de intervale .

Obs.: Marea majoritate a indicatorilor statistici sunt utilizabili chiar dacă variabila nu are un zero absolut (utilizează diferenţe între valori, nu valori absolute).

Conc.: diferenţele dintre valori trebuie să reproducă fidel deosebirile dintre manifestări. Ex.: Nu contează că răspunsul lui Ion e notat cu 10 sau cu 20, ci important este ca diferenţa dintre notele lui Ion şi Nicolae, comparată cu diferenţa dintre notele lui Vasile şi Gheorghe, să redea corect deosebirea de pregătire dintre cel două cupluri.Idee: scalele de intervale realizează exact această condiţie.Distincţia caracteristici calitative - cantitative duce la diviziunea tehnicilor statistice:

11

caracteristicile nominalecaracteristicile ordinale

distincţia dintre clase este de tip calitativnu se măsoară intensitatea de manifestare a variabilei

Scalele metriceScala de intervale valoarea 0 e convenţională (Celsius)Scala de rapoarte 0 natural (scala venitului, anii de muncă, etc.)

Page 5: Partea2 Statistica Descriptiva Univarianta

statistica nonparametrică (a caracteristicilor calitative) şi statistica parametrică (a caracteristicilor cantitative).

VARIABILĂ CATEGORIALĂ = orice variabilă statistică, indiferent de tipul de scală utilizat, având un număr (relativ mic) de categorii.

Acest lucru se întâmplă: întotdeauna când folosim scale nominale frecvent în cazul scalelor ordinale uneori pentru scale metrice (dacă valorile sunt puţine sau grupate pe câteva

intervale).

Obs.: dacă scala e metrică dar cu puţine intervale de grupare: intervalele sunt interpretate ca nişte categorii dispare din analiză ideea de valoare numerică ataşată indivizilor statistici şi rămâne în atenţie, cel mult, ordinea intervalelor, ca ordine a categoriilor.

Aşadar, variabilele categoriale sunt privite drept caracteristici calitative (de vreme ce nu interesează decât categoriile şi nu valorile), iar în anumite cazuri sunt echivalate cu caracteristicile nominale, întrucât nu interesează nici ordinea categoriilor.

12

Page 6: Partea2 Statistica Descriptiva Univarianta

Distribuţii de frecvenţe

Frecvenţa indică numărul de indivizi statistici care se găsesc în fiecare clasă a caracteristicii cu un număr relativ mic de categorii (variabilă categorială).

Obs.: Nu discutăm despre frecvenţe în cazul unor variabile cum este venitul, dacă acesta este surprins cu precizie maximă, deoarece e puţin probabil să avem mai mulţi indivizi cu exact acelaşi venit în populaţie (sau eşantion).

Frecvenţele indivizilor din clasele unei variabile oferă răspunsuri la întrebări de tipul: „Câţi indivizi sunt bărbaţi, Câţi sunt femei?” „Câţi sunt dispuşi să se prezinte la vot şi Câţi nu” „Câţi câştigă sub 2 milioane, Câţi câştigă 2 - 4 milioane şi Câţi peste 4 milioane”

Obs.: Caracteristica venituri, surprinsă pe intervale de grupare, devine categorială.

Avem o populaţie de n indivizi şi o caracteristică A, cu clasele A1, A2 As Din cei n indivizi, k1 sunt plasaţi în clasa A1, k2 sunt plasaţi în clasa A2, ...‚ ks sunt în As

În aceste condiţii putem realiza o corespondenţă biunivocă între mulţimea claselor: A = {A1, A2,..., As}

şi mulţimea frecvenţelor:K = {k1, k2, ...‚ ks}

Corespondenţa biunivocă desemnează faptul că fiecărei clase Ai a unei caracteristici i se ataşează o singură frecvenţă ki şi reciproc (săgeţile cu dublu sens din figura 1).

Distribuţia de frecvenţe reprezintă mulţimea frecvenţelor unei caracteristici (categoriale), privită prin prisma corespondenţei cu clasele acelei caracteristici.

Forma de prezentare a distribuţiei de frecvenţă este cea a tabelului cu două linii (sau cu două coloane, dacă datele se aşeză pe verticală):

Clase A1 A2 ... As Total Frecvenţe k1 k2 ... ks n

13

Oana

MariusFlorin

Mihai

Cristina

DianaAlexandra

Ion

MariaIoanaPopulaţia conţine

n = 10indivizi

Caracteristica este Apartenenţa de sex

Clasele sunt:A1 = sex femininA2 = sex masculin

Clasa A1

(sex feminin)

Clasa A2

(sex masculin)

k1 = 6(6 fete)

k2 = 4(4 băieţi)

Populaţiastatistică

Mulţimeafrecvenţelor

Mulţimeaclaselor

Page 7: Partea2 Statistica Descriptiva Univarianta

Pentru caracteristicile calitative, simbolurile Ai, desemnează starea (exprimată calitativ) a însuşirii respective.

Tabelul 1. Distribuţia femeilor căsătorite în 1995, după starea civilă anterioară căsătoriei

Starea civilă Necăsătorită Văduvă Divorţată TotalFrecvenţe 134.371 3.232 16.340 153.943

Sursa: Anuarul demografic al României, 1996, p. 295.

În tabelul de mai sus, am reprezentat distribuţia de frecvenţă a unei variabile calitative nominale. În cazul uneia calitative ordinală situaţia se prezintă analog.

Tabelul 2 Interes al elevilor de liceu pentru postul de radio local

Nivelul interesului Foarte mare Mare Mic Foarte mic TotalFrecvenţe 120 380 345 155 1000

Exemplu cu date fictive.

Pentru caracteristicile cantitative construirea distribuţiilor de frecvenţe poate presupune două situaţii diferite:1) Variabila are un număr mic de valori diferite iar clasele ei vor fi desemnate chiar de

aceste valori, pentru care se vor stabili direct frecvenţele2) Variabila are un număr mare de valori diferite (fiecărui subiect îi poate corespunde

altă valoare) şi trebuie construite intervale de grupare pentru valorile iniţiale. Distribuţia de frecvenţă indică numărul de indivizi din fiecare interval de grupare.

Tabel 3 Situaţia 1: Numărul camerelor din locuinţele de la bloc

Nr. de camere 1 2 3 4 5 TotalFrecvenţe 100 480 220 150 50 1000

Situaţia 2: Categoriile de vârstă ale celor cu drept de votVârsta Sub 25 25-34 35-44 45-54 55-64 65 şi peste TotalFrecvenţe 130 170 185 165 150 200 1000

Exemple cu date fictive.

Situaţia 1: avem de-a face cu variabile discrete, care nu pot lua decât anumite valoriSituaţia 2: avem de-a face cu variabile continue care pot lua orice valori într-un anumit interval (vârsta poate fi măsurată ţinând cont de momentul precis al naşterii).

Construcţia distribuţiilor de frecvenţă prin gruparea valorilor pe intervale în cazul variabilele cantitative continue se face pentru a se vedea modul în care sunt distribuiţi indivizii pe intervalul în care variabila ia valori. Obs.: Valorile proprii indivizilor nu sunt uniform repartizate pe intervalul de variaţie: există zone unde indivizii sunt mai deşi, există zone în care sunt mai rari există zone în care lipsesc aproape total. Pentru înţelegerea fenomenului reprodus prin variabila statistică e important de ştiut:

14

Page 8: Partea2 Statistica Descriptiva Univarianta

care sunt zonele de concentrare a indivizilor, cât de întinse sunt zonele de concentrare cât de puternică e concentrarea, cum se succed, din punctul de vedere al concentrării, diferitele subintervale etc.

Aspectele mai sus menţionate sunt şi mai evidente dacă ataşăm caracteristicii un grafic, lucru posibil doar dacă variabila este categorială (cu intervale de grupare).

Graficul ataşat situaţiei 2 cu date fictive

Alegerea numărului de intervale de grupare este foarte importantă deoarece: prea puţine intervale NU vor permite distincţii între situaţii foarte diferite prea multe intervale vor conduce la frecvenţe mici, irelevante statistic.

Obs.: Intervalele pot avea lungimi diferite: acolo unde densitatea indivizilor este mai mare se pot construi intervale mai scurte acolo unde densitatea indivizilor este mai mică se pot construi intervale mai lungi

Exemplu de proastă alegere a intervalelor de grupare:

Tabelul 4. Distribuţia comunelor din România, după numărul de locuitori, în 1995

Intervale de mărime Sub 1.000 1.000-1.999 2.000-4.999 5.000-9.999 10.000 şi peste TotalFrecvenţe 44 385 1.662 563 32 2.686

Sursa Anuarul demografic al României, 1996, p. 50.

numărul de clase este mic categoriile extreme conţin frecvenţe foarte reduse (44, respectiv 32) clasa din mijloc (2.000-4.999) concentrează peste 60% din efectivul totalConc.: alegerea intervalelor NU asigură distribuţia echilibrată a indivizilor statistici.

Obs.: adeseori intervalele de la capetele scalei de valori NU sunt închise deoarece: valorile limită sunt evidente (Tabelul 3, Situaţia 2) „Sub 25 de ani” înseamnă, de

fapt, 18-24 ani variabila poate lua valori foarte diferite (Tabelul 3, Situaţia 2) „65 de ani şi peste”

(e greu de stabilit valoarea maximă)Idee.: pentru comparaţii, între date de aceeaşi natură, e important ca scalele să aibă aceeaşi formă (dacă s-ar închide intervalele extreme comparaţia ar fi dificilă).Tot pentru comparabilitatea datelor, scalele pentru surprinderea vârstei sunt constituite, de obicei, din intervale de câte 5 ani.Există situaţii în care NU e posibilă standardizarea scalelor: dacă variabila îşi schimbă limitele de variaţie (salariul, în timp, datorită inflaţiei)

15

Page 9: Partea2 Statistica Descriptiva Univarianta

dacă sunt utilizate (în ţări diferite) unităţi diferite de măsură (salariul în lei, USD, etc.) dacă într-o cercetare e construită o variabilă diferită de cele uzuale, pentru care NU

există o scală larg utilizată (Ex.: nr. săptămânal de mesaje trimise prin Email)

Pentru variabilele inedite trebuie alese numărul şi lungimea intervalelor de grupare. Formula lui Sturges, pe baza căreia se poate calcula lungimea intervalului de grupare:

i este lungimea recomandată a intervalului de grupare xmax şi xmin sunt valorile maxime şi minime ale variabilei lg n reprezintă logaritmul în baza 10 din numărul indivizilor statistici.

Obs.: Uneori formula de mai sus este acceptabilă, alteori nu.Ex. pentru un eşantion de 1.000 de salariaţi, cu salarii între 2.5 şi 10 milioane avem:

Situaţia apare ca rezonabilă (vor fi 11 intervale de grupare)

Numitorul arată numărul intervalelor de grupare, valoare ce depinde doar de n. pentru n = 100 rezultă 7-8 intervale de grupare; pentru n = 1000 rezultă în jur de 11; pentru n = 10000, rezultă 14-15 intervale etc.

Valori sunt acceptabile, numai că formula nu ţine seama de două aspecte:1. la un volum mare, de peste 1.000.000 de indivizi formula conduce la mai mult de

20 de intervale, deci la un tabel ce se citeşte greu.

2. Numărul intervalelor depinde numai de n, se ignoră complet:- amplitudinea distribuţiei şi, mai ales, - felul cum se distribuie indivizii pe intervalul (a,b).

Idee: O populaţie cu volum mai mare decât alta nu pretinde, prin aceasta, să fie distribuită în mai multe intervale; trebuie să se ţină seama şi de valorile variabilei.

4. Frecvenţe relative. Frecvenţe cumulate

FRECVENŢE ABSOLUTE

16

Page 10: Partea2 Statistica Descriptiva Univarianta

indică numărul de indivizi dintr-o categorie a unei variabile permit comparaţii doar între categoriile variabilei NU permit comparaţii între distribuţiile aceleiaşi variabile pentru populaţii diferite

2.1.4 POPULAŢIA PE MEDII, SEXE Şl VÂRSTE, LA 1 IULIE 1999, Anuarul statistic al României, 2000

VÂRSTA

TOTAL URBAN RURAL

AMBELE SEXE

DIN CARE: FEMININ

AMBELE SEXE

DIN CARE: FEMININ

AMBELE SEXE

DIN CARE: FEMININ

Total 22458022 11473493 12302729 6359021 10155293 51144720-4 ani 1147065 557951 529308 256900 617757 3010515-9 ani 1330733 649907 671264 327359 659469 32254810-14 ani 1737153 851931 1001255 491230 735898 36070115-19 ani 1701881 834034 1010246 497636 691635 33639820-24ani 1978835 966158 1121495 559039 857340 40711925-29ani 1792822 884720 991446 516470 801376 36825030-34 ani 1698268 836016 1050468 551690 647800 28432635-39 ani 1335039 663102 868403 456203 466636 20689940-44ani 1663784 837890 1122014 582067 541770 25582345-49 ani 1565367 795163 1002974 505529 562393 28963450-54 ani 1224217 629527 681297 344063 542920 28546455-59 ani 1118307 590215 544389 283650 573918 30656560-64 ani 1236759 669934 545789 294816 690970 37511865-69 ani 1096340 606391 448441 251629 647899 35476270-74 ani 878928 503159 342964 198962 535964 30419775-79 ani 570487 351201 214682 137535 355805 21366680-84 ani 203725 131901 80832 53948 122893 77953 85 ani şi peste 178312 114293 75462 50295 102850 63998

Sursa: Anuarul statistic al României, 2000

În tabelul 2.1.4, preluat din Anuarul Statistic al României din anul 2000 avem un exemplu de prezentare doar a frecvenţelor absolute: Putem compara frecvenţele variabilei vârstă definită pe aceeaşi populaţie :În totalul populaţiei României, categoria 0-4 ani (1147065 indivizi) e slab reprezentată. Numărul de indivizi creşte uniform până la categoria 20-24 de ani (1978835 indivizi), după care scade, cu unele fluctuaţii, până la ultima categorie, a celor peste 84 de ani.

NU putem compara frecvenţele variabilei vârstă definită pe două populaţii diferite, de exemplu populaţia urbană şi cea rurală.

Populaţia totală din urban fiind diferită de cea din rural, nu putem spune nimic despre faptul că pentru o categorie de vârstă, în urban se află mai mulţi sau mai puţini subiecţi.

FRECVENŢE RELATIVE sunt construite pentru a face posibile comparaţiile între populaţii cu număr diferit de unităţi statistice (standardizarea frecvenţelor absolute)

Frecvenţele relative: indică ponderea frecvenţei unei categorii în totalul populaţiei se calculează împărţind frecvenţa unei categorii la totalul populaţiei şi înmulţirea

cu o anumită valoare, care indică şi modul de exprimare a frecvenţelor relative Frecvenţele relative pot fi exprimate în funcţie de:

- Valoarea 1 (iau valori între 0 şi 1) rapoartele se înmulţesc cu 1- Valoarea 100 (iau valori între 0 şi 100) rapoartele se înmulţesc cu 100

17

Page 11: Partea2 Statistica Descriptiva Univarianta

- Valoarea 1000 (iau valori între 0 şi 1000) rapoartele se înmulţesc cu 1000

Obs. 1: În funcţie de necesităţi, valoarea în funcţie de care se exprimă frecvenţele relative poate fi şi 10.000, 1000.000, etc.

Frecvenţele relative la 100 se numesc procente (şi se notează cu semnul %)‚ Frecvenţele relative la 1.000 se cheamă promile (‰).

Obs.: semnele „ %“ şi „‰“ înlocuiesc cuvintele „procente”, respectiv „promile”: Este incorectă formularea „procentul femeilor în populaţie este de 51%” Este corectă formularea „procentul femeilor în populaţie este de 51” Este absolut greşită formularea „procentul naşterilor în România a fost de 10‰”

Ex. dacă în populaţia de 5674 de elevi ai unui oraş 2432 dintre ei sunt băieţi, avem:2432: 5674 x 1 = 0.428 frecvenţa relativă la unitate a băieţilor

x 100 = 42,8 frecvenţa relativă la 100 (procentul)x 1000 = 428 frecvenţa relativă la 1000 (promile)

Frecvenţele relative la unitate: reprezintă proporţia indivizilor ce intră într-o anumită clasă. pot fi interpretate şi ca nişte probabilităţi empirice (arată probabilitatea ca, alegând

la întâmplare un individ din populaţie, acesta să aparţină uni anumite clasei).Ex.: Probabilitatea ca alegând la întâmplare un individ din cei 5674 acesta să fie băiat este de 0.428

FRECVENŢELE CUMULATEse calculează pentru variabile ordinale sau cantitative, şi pot fi frecvenţe cumulate: CRESCĂTOARE (ascendente)- arată câţi indivizi (sau cât la sută, la mie dintre ei) se

află sub o anumită treaptă (valoare) DESCRESCĂTOARE (descendente)- arată câţi indivizi (sau cât la sută, la mie dintre ei)

se află peste o anumită treaptă (valoare)

Tabelul 5. Vârsta mamelor la naştere, în anul 1995

Intervalede vârstă

10-14ani

15-19ani

20-24ani

25-29ani

30-34ani

35-39ani

40-44ani

45-49ani

Total

Frecvenţe absolute 492 40.337 98.075 67.154 18.947 8.907 2.565 162 236.639Procente 0,2 17,0 41,4 28,4 8,0 3,8 1,1 0,1 100

Sursa: Anuarul demografic al României, 1996, p. 133.

În anul 1995 s-au născut 236.638 de copii, mamele având vârste cuprinse între 10 şi 49 de ani.

Intervalele de grupare sunt de câte 5 ani.

Se observă că cei mai mulţi copii au fost născuţi de mame având vârste cuprinse între 25 şi 29 de ani (98.075 copii, reprezentând 41,4 la sută din total)

Cu datele din tabelul 5, se poate construi tabelul 6, ce conţine frecvenţele cumulate absolute şi relative (la 100), ascendente şi descendente.

Tabelul 6. Frecvenţele din tabelul 5 cumulate sub cele două forme

18

Page 12: Partea2 Statistica Descriptiva Univarianta

A. Ascendente

Praguri de vârstăsub 10 ani

sub 15 ani

sub 20 ani

sub 25 ani

sub 30 ani

sub 35 ani

sub 40 ani

sub 45 ani

sub 50 ani

Frecvenţe cumulate ascendente 0 492 40.829 138.904

206.058

225.005

233.912

236.477

236.639

Procente cumulate ASCENDENTE 0 0,2 17,3 58,7 87,1 95,1 98,8 99,9 100

B. Descendente

Praguri de vârstă 10 ani şi peste

15 anişi peste

20 anişi peste

25 anişi peste

30 anişi peste

35 ani şi peste

40 anişi peste

45 ani şi peste

50 ani şi peste

Frecvenţe Cumulate descendente 236.639

236.147

195.810

97.735 30.581 11.634 2.727 162 0

Procente cumulate ASCENDENTE 100 99,8 82,7 41,3 12,9 4,9 1,2 0,1 0

Exemplu de citire pentru frecvenţele cumulate ascendente: 206.058 din cei 236.639 de copii născuţi în 1995 aveau mame cu vârsta sub 30 de ani 87,1 la sută dintre copii născuţi în 1995 aveau mame cu vârsta sub 30 de ani

Exemplu de citire pentru frecvenţele cumulate ascendente: 195.810 din cei 236.639 de copii născuţi în 1995 aveau mame cu vârsta peste 19 ani 82,7 la sută dintre copii născuţi în 1995 aveau mame cu vârsta peste 19 ani

5. Grafice ataşate distribuţiilor de frecvenţe

Grafice ataşate distribuţiilor de frecvenţe au rolul de a face mai uşor perceptibile proprietăţile acelei distribuţii.

Pentru CARACTERISTICILE CALITATIVE se utilizează frecvent:1. divizarea unui întreg în părţile sale componente şi prezentarea acestor părţi

Grafic ataşat Tabelului 2 (Interes al elevilor de liceu pentru postul de radio local)

Nivelul interesului Foarte mare Mare Mic Foarte mic TotalFrecvenţe 120 380 345 155 1000

19

Page 13: Partea2 Statistica Descriptiva Univarianta

2. reprezentarea proporţională a efectivelor claselor, fără vizualizarea întregului.

Pentru CARACTERISTICILE CANTITATIVE apar posibilităţi în plus de vizualizare grafică datorită proprietăţilor lor matematice.

O variabilă statistică cantitativă este o funcţie care face să corespundă fiecărei valori a variabilei numărul de indivizi care iau respectiva valoare (frecvenţa absolută)

Situaţia 1: Numărul camerelor din locuinţele de la blocNr. de camere O cameră 2 camere 3 camere 4 camere 5 camere TotalFrecvenţe 100 480 220 150 50 1000

Graficul ataşat situaţiei 1 Linia poligonală a frecvenţelor

20

O cameră

2 camere

3 camere

5 camere

4 camere

100

480

220

50

150

Mulţimea valorilor variabilei

Mulţimea frecvenţelor cu care apar valorile variabileif definit pe

Ia valori în

Page 14: Partea2 Statistica Descriptiva Univarianta

Obs.1: Dacă se lucrează cu intervale de grupare, pentru a obţine o astfel de reprezentare grafică e nevoie să se atribuie câte o valoare fiecărui interval.

Variabilele cu intervale de grupare pot fi reprezentate grafic şi sub forma histogramei: sunt folosite dreptunghiuri care au ca baza egală cu lungimea intervalelor aria dreptunghiurilor va fi proporţională cu frecvenţele reprezentate bazele dreptunghiurilor pot fi inegale (aria rămâne proporţională cu frecvenţa)

Obs.: pentru un interval dublu ca lungime faţă de cea obişnuită, înălţimea trebuie redusă la jumătate din mărimea frecvenţei.

Linia poligonală a frecvenţelor:Este privită ca o formă imperfectă a unei curbe, care reflectă grafic „legea” teoretică de distribuţie a fenomenului statistic. Obs. De multe ori, datele empirice nu au o formă matematică.

21

Page 15: Partea2 Statistica Descriptiva Univarianta

Capitolul 3

INDICATORI Al CARACTERISTICILOR CANTITATIVE

„Indicatori”: anumite valori ataşate variabilelor statistice cantitative prin care se exprimă sintetic informaţia conţinută în distribuţia de frecvenţe respectivă. În funcţie de tipul de informaţie oferită, indicatorii se împart în două mari clase:a) indicatori de poziţie (sau de nivel sau ai tendinţei centrale);b) indicatori de dispersie (sau de împrăştiere sau de variaţie).

La acestea se mai adaugă o altă categorie de valori, mai puţin utilizate:c) indicatori ai formei distribuţiei.

1. Indicatori de poziţie

Indicatorii de poziţie redau printr-o singură valoare numerică nivelul general al valorilor seriei sau ordinul de mărime al acestor valori.

1.1. Media (aritmetică)

Definiţie: Media este valoarea care se obţine împărţind suma valorilor tuturor indivizilor din populaţie la numărul acestora.Media este acea valoare comună pe care ar trebui să o ia fiecare individ din populaţie astfel încât să se păstreze neschimbată suma valorilor.Notaţia mediei unei variabile se face ataşând simbolului acesteia o bară superioară.Astfel, pentru o variabilă X, valoarea medie se notează frecvent cu şi este dată de formula:

(1)

Interpretarea din propoziţia ce urmează definiţiei derivă din aceea că formula (1) este echivalentă cu:

(1)1

unde primul termen înseamnă suma valorilor când toate acestea sunt egale cu Evident că dacă valorile xi sunt luate cu frecvenţele ki, atunci formula (1) devine:

(2)

În formula (2), ca şi în formula (1), indivizii sunt consideraţi egali în generarea valorii medii. (nu este vorba de o medie ponderată).Media ponderată. Exemplu:În sistemul de credite transferabile (în universităţi), fiecare disciplină are un număr de credite ce reflectă importanţa acesteia. Astfel, dacă un student are de parcurs 5 discipline într-un semestru (notate cu A, B, C, D, E), având credite diferite (să zicem, 4, 5, 6, 7 şi respectiv 8, deci în total 30 de credite) şi el ia următoarele note (tot în

22

Page 16: Partea2 Statistica Descriptiva Univarianta

ordinea dată a disciplinelor): 10, 9, 9, 8, 8, atunci:

media simplă va fi

Media ponderată va fi

Proprietăţile mediei:(i) Valoarea medie a unei populaţii descompuse în s subpopulaţii este egală cu

media mediilor din subpopulaţii, ponderate cu mărimea fiecărei subpopulaţii. Sau:

(3)

unde este media grupei i care conţine un efectiv de ki indivizi.

În cazul din formula (3),

este o medie ponderată a valorilor ‚ considerate ca valori ataşate indivizilor statistici reprezentaţi de cele s grupuri, dar, în acelaşi timp,

este o medie simplă, neponderată, a valorilor indivizilor ce formează populaţia iniţială, datorită proprietăţii (i).

Alte proprietăţi mai importante ale mediei sunt următoarele:(ii) Media este o valoare cuprinsă în intervalul ale cărui capete le constituie

valoarea minimă şi cea maximă a seriei de valori.(iii) Media este o mărime exprimată în aceeaşi unitate de măsură în care sunt

exprimate şi valorile variabilei respective. Astfel, dacă variabila salar se exprimă în lei, şi media sa se va exprima în lei etc.

(iv) Suma abaterilor valorilor de la medie este nulă. Adică:

(4)

Aceasta este o proprietate echivalentă cu propoziţia de definiţie şi adesea se ia ea însăşi ca definiţie a mediei. Demonstrarea proprietăţii (iv) este simplă. Într-adevăr:

Dar, conform formulei , vom avea

(v) Media aritmetică rămâne neschimbată dacă frecvenţele se înmulţesc sau se

23

Page 17: Partea2 Statistica Descriptiva Univarianta

împart cu un acelaşi număr (m).

Proprietatea este evidentă, căci multiplicând fiecare frecvenţă cu o valoare m, aceasta poate fi dată factor comun la numărătorul formulei (2). În acelaşi timp, multiplicând fiecare frecvenţă cu m, se va multiplica şi numărul indivizilor cu aceeaşi valoare, deci numitorul va deveni nxm, coeficientul m putându-se deci simplifica.

În contextul acestei proprietăţi, mai menţionăm că media aritmetică poate fi scrisă cel mai simplu cu ajutorul frecvenţelor relative la unitate. Împărţind fiecare frecvenţă cu n, ca şi numitorul formulei (2), ajungem la:

adică:

(5)

pi reprezintă frecvenţele relative la unitate

(vi) Dacă valorile variabilei X suferă o transformare liniară, atunci media noii variabile X1 obţinute se regăseşte prin aceeaşi transformare. Adică, dacă:

xi1 = a + bxi

atunci

Proprietatea se demonstrează imediat printr-un calcul algebric simplu, pornind de la formula (1) sau (2).

Obs.1: valoarea medie poate fi calculată chiar dacă nu cunoaştem distribuţia caracteristicii, ci numai suma valorilor şi numărul de unităţi statistice.Ex.: O întreprindere are n salariaţi şi într-o lună sunt cheltuiţi S lei pentru salarii (suma valorilor), atunci, putem spune că salariul mediu este S/n.

Obs.2 În sfârşit, să mai remarcăm că: valoarea medie poate fi o valoare pe care nu o ia nici un individ statistic; valoarea medie poate fi fără sens la nivelul indivizilor concreţiEx.: populaţia statistică formată din cele 50 de familiile care locuiesc într-un imobil. Distribuţia familiilor după numărul membrilor lor este următoarea (tabelul 1):Tabelul 1. Distribuţia familiilor dintr-un imobil, după numărul persoanelor ce le

24

Page 18: Partea2 Statistica Descriptiva Univarianta

compun (date fictive)

Nr. persoane 1 2 3 4 5 TotalNr. familii 5 10 20 12 3 50

Nr. mediu de persoane / familie =

E clar că nu există şi nici nu poate exista o familie formată din 2,96 persoane.

Obs.: Media este folosită pentru ilustrarea nivelului general al valorilor unei

caracteristici Uneori semnificaţia mediei nu este clar înţeleasă Uneori media NU reprezintă valoarea mijlocie sau tipică a seriei

1. Nu reprezintă neapărat „valoarea tipică” În exemplul anterior 2,96 membri per familie nu reprezintă „valoarea tipică”2. Nu e neapărat valoarea mijlocieEx.: Într-un grup de muncă sunt 5 persoane de vârste: 25, 26, 27, 28 şi 44 ani. Suma valorilor este 150 ani şi deci vârsta medie în grup va fi de 150/5 = 30 de ani.Valoarea nu este mijlocie, căci ea desparte seria de valori în două părţi extrem de inegale: patru în stânga ei şi doar una în dreapta.

Idee: Este o exagerare să accepţi calcularea mediei doar în situaţii în care valorile sunt

omogene (şi în care media este „valoare mijlocie”) Este important să se înţeleagă clar semnificaţia mediei şi să fie utilizată în limitele

ce corespund acestei semnificaţii

Obs.: Media, ca orice indicator, nu reflectă decât o parte din informaţia surprinsă în

caracteristică Cu cât populaţia este mai omogenă, cu atât media va reproduce mai mult din

această informaţie La limită, dacă toţi indivizii iau aceeaşi valoare, aceasta va fi chiar media şi

informaţia este completă Situaţiile reale sunt departe de acest caz-limită (şi prin aceasta sunt interesante) În situaţiile reale trebuie calculaţi şi alţi indicatori

1.2. Mediana

25

Page 19: Partea2 Statistica Descriptiva Univarianta

Individul median reprezintă unitatea statistică care se află la mijlocul seriei valorilor variabilei ordonată crescător sau descrescător.Mediana, notată Me, reprezintă valoarea pe care o ia individul median.

Obs.: Un individ median există, propriu-zis, doar atunci când n (total populaţie) este un

număr impar [înainte şi după el sunt (n-1)/2 indivizi] Dacă n este par, vom considera un individ median virtual, plasat între unitatea de

rang n/2 şi cea de rang n/2 + 1 (îi acordăm ca valoare media aritmetică a valorilor celor două unităţi care-l încadrează).

Lucrurile se complică dacă există mai mulţi indivizi care iau aceleaşi valori.Această situaţie, la rândul său, are două forme diferite: A) când frecvenţele corespund unor valori univoce (nr. de persoane / gospodărie)B) când frecvenţele corespund unor intervale de valori (vârsta pe intervale)

Situaţia A) Cazul 1Dacă n este impar , va exista un individ median care se va găsi sub acea valoare pentru care frecvenţa cumulată ascendentă depăşeşte 50 % din efectivul populaţiei. Iar acea valoare va fi valoarea mediană.

Tabelul 2. Distribuţia familiilor dintr-un imobil, după numărul persoanelor ce le compun (date fictive)

Nr. persoane / familie 1 2 3 4 5 TotalNr. familii 5 10 20 12 4 51Nr. persoane / familie Max. 1 Max. 2 Max. 3 Max. 4 Max. 5Frecvenţe cumulate 5 15 35 47 51

51x50%=25,5Individul median se află printre familiile cu 3 persoane iar valoarea mediană este 3

Cazul 2Dacă n este par , atunci indivizii de rang n/2 şi n/2 + 1 pot fie să ia o aceeaşi valoare şi atunci aceasta este chiar mediana, fie să ia două valori diferite şi consecutive, x i şi xi+1, luate cu frecvenţele ki, respectiv ki+1 şi atunci mediana va fi:

(6)

adică media celor două valori, luate cu frecvenţele respective.Exemplu pentru situaţia când indivizii de rang n/2 şi n/2 + 1 iau o aceeaşi valoare:

26

Page 20: Partea2 Statistica Descriptiva Univarianta

Tabelul 3. Distribuţia familiilor dintr-un imobil, după numărul persoanelor ce le compun (date fictive)

Nr. persoane / familie 1 2 3 4 5 TotalNr. familii 5 10 20 12 3 50Nr. persoane / familie Max. 1 Max. 2 Max. 3 Max. 4 Max. 5Frecvenţe cumulate 5 15 35 47 50

Familiile cu rangul 50/2 şi 50/2 +1 se află ambele printre cele care au 3 membri în familie, aşa că valoarea mediană va fi 3

Exemplu pentru situaţia când indivizii de rang n/2 şi n/2 + 1 iau valori diferite:

Tab. 4. Distribuţia familiilor dintr-un imobil, după numărul persoanelor ce le compun

Nr. persoane / familie 1 2 3 4 5 TotalNr. familii 5 10 10 20 5 50Nr. persoane / familie Max. 1 Max. 2 Max. 3 Max. 4 Max. 5Frecvenţe cumulate 5 15 25 45 50

Rangul n/2 corespunde familiilor cu 3 persoane iar rangul n/2 + 1 corespunde familiilor cu 4 persoane.

Situaţia B) intervale de grupare a valorilor

Trebuie căutată valoarea mediană atunci când se cunoaşte intervalul median, adică intervalul pe care se găseşte individul median (real sau virtual). Cu alte cuvinte, trebuie aleasă o metodă de a determina o valoare din intervalul respectiv care să fie atribuită individului median.

Tabelul 5. Distribuţia femeilor căsătorite în 1995, având starea civilă anterioară „divorţată” în funcţie de vârsta la căsătorie

Vârsta 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60 -88 Totalfrecvenţe 253 2.269 4.411 2.655 2.516 1.857 1.133 541 361 344 16.340

VârstaSub

20 aniSub

25 aniSub

30 aniSub

35 ani Sub

40 aniSub

45 aniSub

50 aniSub

55 aniSub

60 aniSub

89 aniFrecvenţe cumulate

253 2.522 6.933 9.588 12.104 13.961 15.094 15.635 15.996 16.340

Sursa: Anuarul demografic al României, 1996, p. 295.

27

Page 21: Partea2 Statistica Descriptiva Univarianta

Efectivul total fiind un număr cu soţ, 16.340, vom avea un individ median virtual, cuprins între cel cu rangul 8.170 şi 8.171, să zicem al 8.170,5-lea.

Acest individ se va găsi în intervalul 30-34 de ani, dat fiind că până la 29 de ani (inclusiv 29) se căsătoresc 6.933 de femei divorţate şi până la 34 de ani, 9.588.

Vom presupune că cele 2.655 persoane se distribuie uniform pe acest interval. Pentru a afla rangul individului nostru virtual în rândul celor 2.655 din intervalul median, vom face diferenţa:

8170,5 - 6933 = 1237,5.

În continuare, aplicăm regula de trei simplă:dacă la 2655 persoane corespund 5 ani de vârstă, atunci la 1237,5 corespund X ani.

Deci

Adăugând X = 2,33 ani valorii de la capătul din stânga al intervalului, adică 30 ani, vom obţine valoarea mediană, 32,33 ani.

1.3. Modul

Modul sau valoarea modală, notată Mo, reprezintă valoarea luată cu cea mai mare frecvenţă. Interpretare: aceasta este valoarea ce caracterizează individul tipic al populaţiei. Obs.: Indicatorul are sens doar dacă aceleaşi valori ale variabilei sunt luate de mai mulţi indivizi (putem calcula frecvenţe).

Tabelul 6. Distribuţia familiilor dintr-un imobil, după numărul persoanelor ce le compun (date fictive)

Nr. persoane 1 2 3 4 5 TotalNr. familii 5 10 20 12 3 50

Ex.: în tabelul 6 observăm că cele mai multe familii, 20, din imobil sunt formate din trei persoane. Valoarea modală este 3 sau familia tipică în acel bloc este cea de trei persoane.Pe grafice, valoarea modală corespunde punctului de maxim al liniei poligonale.Pentru variabilele continue, despre mod se poate vorbi doar dacă vom construi intervale de valori. În acest caz, este recomandabil ca lucrurile să se oprească la găsirea intervalului modal, adică a intervalului cu cea mai ridicată frecvenţă.

28

Page 22: Partea2 Statistica Descriptiva Univarianta

A merge aici mai departe, la a determina o valoare modală, pentru distribuţii empirice, ni se pare, în multe cazuri, un lucru foarte riscant.

Tabelul 7. Distribuţia femeilor căsătorite în 1995, având starea civilă anterioară „divorţată” în funcţie de vârsta la căsătorie

Vârsta 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60 -88 Totalfrecvenţe 253 2.269 4.411 2.655 2.516 1.857 1.133 541 361 344 16.340

VârstaSub

20 aniSub

25 aniSub

30 aniSub

35 ani Sub

40 aniSub

45 aniSub

50 aniSub

55 aniSub

60 aniSub

89 aniFrecvenţe cumulate

253 2.522 6.933 9.588 12.104 13.961 15.094 15.635 15.996 16.340

Pentru distribuţia din tabelul 7 intervalul modal este cel dat de limitele 25-29 ani.

Pentru o eventuală poziţionare a valorii modale pe acest interval, se poate apela la frecvenţele din intervalele alăturate (din stânga şi din dreapta celui modal).Astfel, notând cu ki frecvenţa intervalului modal, cu ki-1 şi ki+1 frecvenţele intervalelor premodal şi postmodal, cu xi valoarea inferioară a intervalului modal şi cu di

lungimea acestuia, o formulă de calculare a valorii modale este următoarea:

(7)

- Pentru datele din tabelul 2, mărimile din formula (7) sunt:xi = 25 ani, di = 5 ani ki = 4.411, ki-1 = 2.269 şi ki+1, = 2.655, ceea ce conduce la

valoarea:Mo = 27,75 ani.

Obs.: valoarea calculată este artificială deoarece: semnificaţia valorii modale este aceea de valoare tipică, cea mai frecventă. în cazurile reale, când valorile sunt discrete, nu se poate vorbi de o valoare modală

Semnificaţia valorii modale - ca valoare tipică - este cu atât mai proeminentă cu cât frecvenţa corespunzătoare valorii respective (sau intervalului) este mai clar detaşată de a celorlalte valori din vecinătate.

Distribuţii plurimodale, nu e vorba de două valori (intervale) cu aceeaşi frecvenţă maximă, ci valoarea modală poate fi - şi este de fapt - privită ca aceea a unui maxim relativ,

adică cu cea mai mare frecvenţă în zona respectivă a valorilorIntuitiv, distribuţiile plurimodale sunt cele ale căror grafice au mai multe „vârfuri” sau „cocoaşe”, chiar dacă acestea nu sunt de aceeaşi înălţime.OBS Pentru distribuţiile de frecvenţe unimodale simetrice, media, mediana şi

29

Page 23: Partea2 Statistica Descriptiva Univarianta

modul coincidÎn măsura în care apar asimetrii, aceste valori se diferenţiază una în raport cu alta:Astfel, dacă frecvenţa mare este deplasat spre stânga, vom avea următoarea ordonare a valorilor: Mo < Me < Dacă frecvenţa mare este deplasată spre dreapta, ordinea se inversează. Manualele clasice de statistică indică o relaţie aproximativă dintre cele trei valori, valabilă pentru distribuţii moderat asimetrice:Mo = Me-3 ( -Me) (8)

Formula (8) spune că mediana se află între mod şi medie, fiind la o treime din distanţă faţă de medie şi la două treimi de mod. „Cititorul poate memora cu uşurinţă această relaţie — ne învaţă Yule şi Kendall (1969, p. 137) — dacă observăm că media, mediana şi modul se află în aceeaşi ordine (sau în ordine inversă), la fel ca în dicţionar, şi că mediana este mai aproape de medie, tot ca în dicţionar.”

Aşa cum se va putea vedea mai jos, valorile celor trei indicatori ai tendinţei centrale sunt folosite pentru construirea parametrilor care redau forma distribuţiei, în speţă aspectele privind oblicitatea.

30

Page 24: Partea2 Statistica Descriptiva Univarianta

2. Indicatori de dispersie

Indicatorii de dispersie: aduc informaţii în plus despre caracteristici pe lângă indicatorii de poziţie. urmăresc să măsoare gradul de împrăştiere a indivizilor în cadrul seriei de valori pe

care aceştia le iau. Indicatorii de dispersie caracterizează o populaţie statistică din punctul de vedere

al omogenităţii / eterogenităţii, în raport cu o variabilă dată. Dacă variabila reflectă anumite ierarhii socialmente recunoscute sau valorizate

între indivizii statistici (ex.: valori mai mari sunt considerate ca fiind mai bune sau preferabile celor mai mici, cum e cazul salariilor, de pildă), indicatorii de dispersie reflectă gradul de inegalitate între indivizi, în raport cu factorul social tradus în caracteristică.

În „modelele explicative”, indicatorilor de dispersie li se atribuie semnificaţia de a reproduce gradul de nedeterminare, de variabilitate al unui fenomen.

Or, explicaţia, cel puţin din punct de vedere statistic, înseamnă: reducerea acestei nedeterminări sau variabilităţi, adică sporirea posibilităţii de a prezice starea unui fenomen.

Într-adevăr un fenomen este tradus într-o caracteristică de tip statistic, care, la rândul ei este exprimată printr-un indicator de poziţie (să spunem media).A afirma că media notelor la matematică într-o clasă de elevi este 8,50 înseamnă a afla ceva despre nivelul de cunoştinţe în domeniu al şcolarilor în cauză.Dispersia notelor din care rezultă această valoare medie va indica: măsura în care valoarea individuală este reprodusă prin cea de grup sau calitatea predicţiei situaţiei indivizilor prin mărimea la nivelul colectiv. Dacă în analiză se introduce o variabilă nouă, cu rol explicativ pentru cea iniţială, atunci, presupunând cunoscută poziţia indivizilor după această caracteristică zisă independentă, se va reduce nedeterminarea situaţiei lor după variabila de bază, în măsura în care între cei doi factori există o legătură. Altfel spus, indicatorul de dispersie va pune în evidenţă cât din nedeterminarea variabilei cercetate se poate reduce prin introducerea în modelul explicativ a unei noi variabile.

2. 1. Amplitudinea

Amplitudinea reprezintă întinderea scalei de valori a caracteristicii. Ex.: dacă media 8,5 a notelor rezultă dintr-un calcul în care valorile individuale sunt cuprinse între notele: 7 şi 9, atunci vom spune că dispersia este mai redusă (clasa e mai omogenă) 3 şi 10 atunci vom spune că dispersia este mai ridicată (clasă mai eterogenă) Indicatorul de dispersie astfel folosit poartă denumirea de amplitudine, notat cu A, şi se calculează, ca diferenţă între cea mai mare şi cea mai mică valoare:

31

Page 25: Partea2 Statistica Descriptiva Univarianta

A = xmax - xmin.Deficienţa fundamentală a acestui indicator: valoarea sa este determinată doar de

două dintre valorile variabilei, cele extreme. Aceasta înseamnă că se pot întâmpla cazuri de genul:a) valorile maximă şi respectiv minimă, pentru două caracteristici, pot fi aceleaşi, -

dar distribuţia indivizilor pe scala respectivă de valori este diferită;b) există o valoare maximă şi / sau una minimă care se abat (se abate) foarte mult de

la seria celorlalte valori.În primul caz e clar că trebuie reflectată, în indicatorul de dispersie, şi împrăştierea

indivizilor pe setul celorlalte valori, aflate între cea minimă şi cea maximă. În al doilea caz se sugerează existenţa unor valori foarte îndepărtate de marea

masă, numite în statistică „valori aberante”Cuvântul „aberant”:

Nu înseamnă că e imposibil să apară un astfel de caz şi că ar fi vorba de o eroare de măsurare (deşi nu este exclusă şi această posibilitate),

Înseamnă că e vorba de cazuri cu totul atipice, puţine la număr, şi care nu ar trebui considerate ca reflectând situaţia populaţiei.Alţi indicatori de dispersie au fost construiţi pentru reducerea sau chiar a

eliminarea neajunsurilor sugerate fie de situaţia (a), fie de cea de la punctul (b). Pentru eliminarea valorilor „aberante” s-a construit abaterea intercuartilă.

2.2. Abaterea intercuartilă

Cuartilele sunt valorile care corespund indivizilor statistici aflaţi pe acele poziţii —în ierarhia formată pornind de la cel cu valoarea cea mai mică la cel cu valoarea cea mai mare — care împart mulţimea indivizilor în patru părţi egale.

Vom avea deci trei valori cuartile, notate Q1, Q2, Q3, astfel încât pe intervalele de valori: (xmin, Q1), (Q1, Q2), (Q2, Q3) şi (Q3, xmax) să avem câte un sfert din efectivul populaţiei.

Evident că cea de a doua cuartilă Q2 este tocmai mediana. Se defineşte abaterea intercuartilă sau abaterea cuartilă diferenţa:I = Q3 - Ql (9)

În anumite situaţii se regăseşte folosită valoarea înjumătăţită (semi-intercuartila):

(Q3 -Q1)/2

sau o valoare relativă, obţinută prin împărţirea cu mediana (abaterea intercuartilă relativă):

sau:

32

Page 26: Partea2 Statistica Descriptiva Univarianta

Un exemplu pentru ilustrarea calculului acestor indicatori este prezentat în tabelul 3, unde am imaginat rezultatele obţinute pe un lot de 1.000 de persoane la un test construit cu valori întregi de la 1 la 10.

Tabelul 3. Distribuţia după rezultatele la un test (date fictive)Valori 1 2 3 4 5 6 7 8 9 10 TotalFrecvenţe 17 38 89 123 186 205 164 111 49 18 1000Frecv. cumulate 17 55 144 267 453 658 822 933 982 1000

Amplitudinea este 10 — l = 9. Prima cuartilă, delimitând primii 250 de indivizi este 4 (sub 5 sunt 267 indivizi)Mediana este 6 (sub 6 sunt 453 şi sub 7, 658)A treia cuartilă este 7, valoare până la care se plasează 822 de indivizi, deci şi al 750-lea. Aşadar:

Q1 = 4

Q2 = Me = 6

Q3 = 7

I= Q3 - Q1 = 7 – 4 = 3

Irel = = 3/6

Se pot construi şi alte valori care împart populaţia în subgrupe de efective egale: Decilele, în număr de 9, generează 10 intervale de frecvenţe egale, între prima şi

ultima decilă aflându-se 80% din efectiv. Cu ajutorul centilelor se obţin 100 de intervale, fiecare conţinând un procent din

efectivul populaţiei. Noţiunile acestea se pot generaliza: cuantilele, sunt valori care împart efectivul total al populaţiei într-un număr oarecare de părţi egale.

Obs.: Ca indicatori de împrăştiere, decilele sau centilele sunt rar folosite În exprimarea altor aspecte statistice se face apel frecvent la decile şi centileEx.: se calculează venitul mediu al primilor 10% (cei mai bogaţi) şi al ultimilor 10% (cei mai săraci) şi se compară cele două valori (prin scădere sau împărţire).

Idee: Abaterea intercuartilă: evită neajunsurile amplitudinii (influenţa valorilor extreme) introduce alte neajunsuri (nu e luată în calcul jumătate din populaţie)Obs.: Chiar dacă se lucrează cu valori mai fine (cu decilele, de ex.), problema rămâne, deşi sunt eliminate mai puţine elemente ale populaţiei.

Efortul statisticienilor s-a îndreptat spre găsirea unor indicatori care să ţină seama: de toate valorile şi de frecvenţele cu care sunt luate valorile (dacă e cazul)Ideea: Să se calculeze diferenţele nu numai pentru două valori (ca în cazul

33

Page 27: Partea2 Statistica Descriptiva Univarianta

amplitudinii sau abaterii inter-cuartilă) ci luând în calcul toate valorile:a) se vor lua în considerare abaterile (diferenţele) între toate perechile de valori. b) se va alege o valoare fixă faţă de care se calculează abaterile valorilor variabilei

Indicatorul obţinut prin prima procedură este mai rar folosit şi îl vom menţiona doar pentru a ilustra această modalitate de construcţie. Este vorba de indicele lui Gini.

2.3. Indicele lui Gini

Indicele este media aritmetică a diferenţelor dintre toate perechile de valori, diferenţe luate în valoare absolută. O formă a indicelui de împrăştiere al lui Gini, G, este:

G= dacă fiecare individ ia valori diferite (10)

sau

G= dacă mai mulţi indivizi iau aceleaşi valori (10)'

S este numărul valorilor variabilei, în cel de al doilea caz. Singura restricţie pentru indici este de a nu fi egali ceea ce înseamnă că apar ca diferenţe şi |xi — xj| şi |xj — xi|, termeni evident egali.

Dacă dispare condiţia ca i să fie diferit de j, atunci se numără şi diferenţele |xi — xi|, care sunt evident nule, iar numărul termenilor devine n2, mărindu-se numitorul.

Se ajunge deci la o altă valoare G', ceva mai mică decât G:

G' = (11)

Pentru a ilustra modul de calcul al indicatorului G, să luăm un caz foarte simplu. Într-o sesiune, un student are 5 examene, pe care le trece cu notele: 5, 6, 7, 9, 10; atunci termenii de la numărătorul lui G vor fi în număr de 5x4=20:

| 5—6|, | 5—7|, | 5—9|, |5—10|| 6—5|, | 6—7|, | 6—9|, |6—10|| 7—5|, | 7—6|, | 7—9|, |7—10|| 9—5|, | 9—6|, | 9—7|, |9—10||10—5|, |10—6|, |10—7|, |10—9|

Deci numărătorul va fi suma:1+2+4+5+1+1+3+4+2+1 +2+3+4+3+2+1+5+4+3+1=52

G = 52:20 = 2,6.

Această valoare arată că diferenţa medie între două valori diferite este de 2‚ 6 unităţi.

34

Page 28: Partea2 Statistica Descriptiva Univarianta

Indicele G’ se obţine dacă numărăm şi cele 5 cazuri de zero |5-5|, |6-6|, |7-7|, |9-9| şi |10-10|, ajungând ca aceeaşi sumă de 52 să o împărţim la 25:

G' = 52:25 = 2,08.

Dacă alegem un prag de referinţă din care scădem valorile pe care le iau indivizii, avem două variante, după modul în care se elimină semnul diferenţelor: prin utilizarea modulului (vorbim de abateri simple) prin ridicare la pătrat. (vorbim de abateri pătratice)Indicatorii la care se ajunge sunt interpretaţi tot ca medie a abaterilor.

2.4. Abaterea medie

Fie a pragul de referinţă, care poate să fie sau nu una dintre valorile seriei, poate să se găsească în intervalul de valori ori în afara lui. Mărimea Am(a) dată de formula:

Am(a) = dacă fiecare individ ia valori diferite (12)

sau

Am(a) = dacă mai mulţi indivizi iau aceleaşi valori (12)'

se numeşte abaterea medie de la a. (S e numărul valorilor variabilei în cazul II).

Dacă în locul lui a se trece: media, atunci se obţine abaterea medie de la medie.

E cea mai utilizată mărime de acest tip şi se numeşte pur şi simplu abaterea medie mediana, se ajunge la abaterea medie de la mediană.

Cea mai mică abatere medie se obţine dacă în locul lui a se aşează mediana.

În exemplul celor 5 note la examen, invocat mai sus, mediana este nota 7 şi abaterile de la ea vor fi:

|5-7|=2, |6-7|=1, |7-7|=0, |9-7|=2, |10-7|=3deciAm(Me) = (2+1+0+2+3):5 = 8:5 = 1,6.

Media celor 5 note va fi 7,4 şi, prin urmare, abaterea medie de la medie sau pur şi simplu abaterea medie este:

Am = (2,4+1,4+0,4+1,6+2,6):5 = 8,4:5 = 1,68 note, valoare superioară celei obţinute cu mediana.2.5. Abaterea standard

Calculul abaterii medii pătratice de la o valoare a (arbitrar aleasă) presupune: ridicarea la pătrat a diferenţelor dintre valorile individuale şi mărimea constantă, a

35

Page 29: Partea2 Statistica Descriptiva Univarianta

însumarea pătratelor respectivelor diferenţe raportarea sumei obţinute la numărul cazurilor observate, adică la n extragerea radicalului din valoarea anterioară (pentru a păstra unitatea de măsură)Abaterea medie pătratică de la a, notată S(a), va fi dată de formula:

S(a)= dacă fiecare individ ia valori diferite (13)

sau

S(a)= dacă mai mulţi indivizi iau aceleaşi valori (13)'

S este numărul valorilor variabilei, în cel de al doilea caz.

Obs.: Pentru o caracteristică dată, mărimea S(a) depinde de valorile lui a Cea mai mică abatere medie pătratică este cea faţă de medieAbaterea medie pătratică faţă de medie se numeşte abatere standard (notată σ)

σ = dacă fiecare individ ia valori diferite (14)

sau

σ = dacă mai mulţi indivizi iau aceleaşi valori (14)'

S este numărul valorilor variabilei, în cel de al doilea caz.

Alte denumiri utilizate în literatura de specialitate pentru abaterea standard: deviaţie standard (traducere din engleză pentru standard deviation) ecart tip (traducere din franceză a lui écart-type) sau, pur şi simplu, dispersie (nu e indicat pentru că vizează orice indicator al împrăştierii valorilor)

Varianţa (notată σ2), pătratul indicatorului abatere standard, este deosebit de des folosită în modelele statistice deţine avantaje datorită proprietăţilor algebrice ce rezultă din renunţarea la radical

Varianţa poate fi interpretată ca grad de nedeterminare al variabilei, cantitate de informaţie care trebuie explicată (eventual prin intermediul altei variabile).

Relaţia dintre abaterea standard şi o abatere medie pătratică oarecare poate fi scrisă foarte simplu, folosind pătratele acestor mărimi:

S2 = σ2 + d2 (15)

unde d este diferenţa dintre valoarea a, folosită în calculul lui S, şi media, folosită în calculul lui σ:

36

Page 30: Partea2 Statistica Descriptiva Univarianta

Din formula (15) se vede imediat că: S este totdeauna mai mare decât σ, singurul caz când S = σ fiind acela în care valoarea a coincide cu media.

Să reţinem două proprietăţi simple ale abaterii standard:a) Dacă valorile variabilei se înmulţesc cu o constantă, b, atunci şi abaterea

standard se multiplică cu aceeaşi valoare.. Deci, printr-o transformare de genul:

y = bx

se obţine o variabilă y cu o abatere standard:

σy = b σx

b)Dacă la valorile variabilei se adună (scade) o aceeaşi valoare, abaterea standard nu se modifică. Deci, o transformare:

y = x + b

duce la o nouă variabilă, Y, cu aceeaşi dispersie ca X.

Calculăm abaterea standard, folosind datele din tabelul 1 (distribuţia familiilor dintr-un imobil după numărul de persoane, cu o medie de 2,96 persoane pe familie)

xi

(nr. persoane per familie)

ki

(Frecvenţa) (xi - 2,96) (xi - 2,96)2

ki

ki (xi - 2,96)2

1 (x1) 5 (k1) -1,96 3,84 19,212 (x2) 10 (k2) -,96 ,92 9,223 (x3 20 (k3) ,04 ,00 0,034 (x4) 12 (k4) 1,04 1,08 12,985 (x5) 3 (k5) 2,04 4,16 12,48Total 50 53,92

σ2 = / n = / 50 =

=(19,21+9,22+0,03+12,98+12,48)/50 = 53,92/ 50 = 1,08

Şi apoi, scoţând radicalul, se obţine valoarea aproximativă a indicatorului:

σ = 1,04.

Prin urmare, abaterea medie pătratică de la dimensiunea medie a familiei din blocul respectiv este de aproximativ o persoană.2.6. Teorema de descompunere a varianţei

Să presupunem că populaţia este divizată în s grupuri, astfel încât să avem:

- mediile în cadrul fiecărui grup: - varianţele în cadrul fiecărui grup : σ1

2, σ2

2 … σs

2

- efectivele grupurilor: n1, n2…ns

Varianţele în cadrul grupurilor sunt abaterile medii pătratice de la media grupului

37

Page 31: Partea2 Statistica Descriptiva Univarianta

respectiv:

σi2 = , pentru i = 1, 2 … s

Grupul 1 Grupul 2 … Grupul i … Grupul sn1 = număr subiecţi

= media grupului

σ12= varianţa în grup

n2 = număr subiecţi = media grupului

σ22= varianţa în grup

ni = număr subiecţi = media grupului

σi2= varianţa în grup

ns = număr subiecţi = media grupului

σs2= varianţa în grup

Valoarea medie a întregii populaţii se poate scrie în funcţie mediile per grupuri şi numărul de indivizi din fiecare grup:

= (n1 + n2 + … ni + … ns )/nUnde n= n1+ n2+ … ni+ … ns

Obs.: În fiecare din cele s grupuri există o valoare medie ( , , … , … ) iar medie globală e ; putem calcula varianţa mediilor grupurilor în raport cu cea globală:

Varianţa inter-grupală (17)

Se poate calcula o medie a varianţelor din cadrul fiecărui grup, notată , numită varianţă intra-grupală (medie), şi dată, evident, de formula:

Varianţa intra-grupală = (18)

Cu aceste notaţii, teorema de descompunere a varianţei se scrie:

Adică varianţa totală se descompune în suma dintre: varianţa intra-grupală şi varianţa inter-grupală.Reluăm exemplul celor 50 de familii dintr-un imobil (cu media 2,96 persoane per familie şi varianţa totală σ2 =1,08 ) şi să presupunem că le grupăm în două categorii: 30 de „familii muncitoreşti” (n1) 20 de „alte familii” (n2)

Tabelul 1´ Distribuţia familiilor „ muncitoreşti”dintr-un imobil, după numărul persoanelor ce le compun (date fictive)

Nr. persoane (valorile variabilei) 1 2 3 4 5 TotalNr. familii (frecvenţa cu care sunt luate valorile) 1 4 12 10 3 n1=30

Tabelul 1´´ .Distribuţia familiilor „ non-muncitoreşti”

38

Page 32: Partea2 Statistica Descriptiva Univarianta

dintr-un imobil, după numărul persoanelor ce le compun (date fictive)

Nr. persoane (valorile variabilei) 1 2 3 4 5 TotalNr. familii (frecvenţa cu care sunt luate valorile) 4 6 8 2 0 n2 = 20

Făcând calculul mediei şi al varianţei pentru fiecare din cele două grupuri (tabele), obţinem:- pentru grupul familiilor muncitoreşti:

= (1x1+4x2+12x3+10x4+3x5)/30 = 3,33σ1

2 = [1(1-3,33)2 + 4(2-3,33)2 + 12(3-3,33)2 + 10(4-3,33)2 + 3(5-3,33)2 ]/30 = 0,89- pentru grupul format din celelalte familii:

= (4x1+6x2+8x3+2x4+0x5)/20 = 2,40σ2

2 = [4(1-2,40)2 + 6(2-2,40)2 + 8(3-2,40)2 + 2(4-2,40)2 + 0(5-2,40)2 ]/20 = 0,84

Se vede că cele două categorii de familii: diferă net prin numărul de membri au dispersii foarte apropiate

Analizând separat cele două subpopulaţii, obţinem o dispersie medie (adică o nedeterminare a situaţiei) care e mai mică decât cea calculată pe ansamblul grupului.

Varianţa intra-grupală = = (n1σ12+ n2σ2

2)/n = (30x0,89+20x0,84)/50 =0,87

Varianţa inter-grupală =[n1( - )2+ n2( - )2]/n=

=[30(3,33-2,96)2+20(2,4-2,96)2]/50=0,21

Deci, din varianţa totală de 1,08: 0,87 e varianţă intragrupală, (gradul de nedeterminare în medie, la nivel de grupuri), 0,21 este pusă pe seama variaţiei mediilor celor două grupuri alese

Varianţa inter-grup se consideră a fi explicată prin analiza la nivel de grupuri, grupuri care pot fi interpretate drept clasele unei alte variabile, cu funcţie predictivă sau explicativă (se poate anticipa mai exact nr. de persoane dacă ştim tipul familiei).2.7. Coeficientul de variaţie

Valoarea indicatorului abatere standard semnifică o măsură a gradului: de eterogenitate, diversitate a populaţie în funcţie de o anumită variabilă de inegalitate între indivizii din populaţie (dacă e vorba de venit, ani de şcoală, etc.)

Obs.: Putem face comparaţii directe între două valori ale abaterii standard doar dacă: Este vorba de aceeaşi variabilă definită pe două populaţii Dacă unitatea de măsură a variabilei este aceeaşi Dacă valorile medii ale variabilelor sunt apropiate

Ex.: Putem compara abaterile standard ale numărului de persoane per familie din două blocuri diferite dacă valorile mediilor sunt apropiateNu putem compara abaterile standard ale veniturilor exprimate pentru un grup în lei şi pentru celălalt în euro (valoarea abaterii standard depinde de unitatea de măsură)

39

Page 33: Partea2 Statistica Descriptiva Univarianta

Chiar dacă unitatea de măsură e aceeaşi (câştigul exprimat în lei noi), nu putem compara abaterile standard pentru veniturile agricultorilor şi cele ale patronilor

Venitul agricultorilor exprimat în milioane lei vechi (date fictive)

Venit milioane lei vechi 1 2 3 4 5 TotalNr. de subiecţi (frecvenţe) 5 10 20 12 3 50

Media agricultori =

σ = 1,04

Venitul mediu al agricultorilor e 2,96 milioane iar abaterea standard σ = 1,04 milioane

Venitul patronilor exprimat în milioane lei vechi (date fictive)

Venit milioane lei vechi 10 20 30 40 50 TotalNr. de subiecţi (frecvenţe) 5 10 20 12 3 50

Media patroni = = 10x2,96 = 29,6

σ = =σ =10 = 10,4

Venitul mediu al patronilor este 29,6 milioane şi abaterea standard σ = 10,4 milioane

Nu putem spune prin comparaţie directă că agricultorii sunt o populaţie de 10 ori mai omogenă decât cea a patronilor: Mărirea de 10 ori a veniturilor duce la o medie şi abatere standard de 10 ori mai mare Inegalităţile dintre categoriile extreme existente interiorul fiecărui grup sunt aceleaşi

- (3x5 milioane)/5x1 milion = 3 raportul pentru agricultori- (3x50 milioane)/5x10 milion = 3 raportul pentru patroniPentru a se înlătura aceste dificultăţi de comparaţie, s-a propus (Pearson) un

indicator numit coeficient de variaţie, notat cu v, şi dat de formula:

(20)

Prin împărţirea abaterii standard la medie se înlătură: unitatea de măsură, diferenţa în nivelul valorilor

Obs.: Formula (20) nu este aplicabilă decât în cazul variabilelor măsurate pe scala de rapoarte, cu origine zero naturală (venit, număr de ani de şcoală, nr. copii/familie)

O probă psihologică pentru măsurarea unei aptitudini nu are un zero natural; rezultatele depind de modul în care au fost cotaţi itemii. 4. total de acord, 3. parţial de acord, 2. parţial dezacord, 1. total dezacord

40

Page 34: Partea2 Statistica Descriptiva Univarianta

3. total de acord, 2. parţial de acord, 1. parţial dezacord, 0. total dezacord

Dacă se operează cu 5 itemi, pe acelaşi tip de scală, scorurile itemilor urmând a fi însumate, scorul global poate varia: Între 5 şi 20, în primul caz Între 0 şi 15, în al doilea caz

ValorileÎntre 5 şi 20

xi

ValorileÎntre 0 şi 15

yi

Frecvenţeki

xi ki yi ki ki(xi -12,843)2 ki(yi -7,874)2

5 0 25 125 0 1537,82 1550,06 1 34 204 34 1592,11 1606,67 2 44 308 88 1502,19 1518,28 3 50 400 150 1172,73 1187,89 4 70 630 280 1033,81 1050,6

10 5 83 830 415 670,86 685,611 6 96 1056 576 326,08 337,112 7 134 1608 938 95,23 102,413 8 156 2028 1248 3,85 2,514 9 187 2618 1683 250,33 237,115 10 139 2085 1390 646,72 628,316 11 108 1728 1188 1076,40 1055,417 12 67 1139 804 1157,80 1140,618 13 52 936 676 1382,92 1366,319 14 30 570 420 1137,26 1125,820 15 21 420 315 1075,68 1066,4

Total 1296 16685 10205 14661,79 14660,7Med. xi= 16645/1296= 12,874Med. yi= 10205/1296=7,874 (media a scăzut cu exact 5 puncte, diferenţa dintre scale)Abaterea standard, în ambele cazuri, este =3,36 puncteCoeficientul de variaţie va diferi: vx = 3,36/12,843 = 0,261

vy = 3,36/7,874 = 0,427În concluzie, schimbarea originii scalei: lasă diferenţele dintre valori nemodificate şi abaterea standard rămâne constantă media se modifică dacă toate valorile cresc sau scad cu aceeaşi valoare raportul din formula coeficientului de variaţie se schimbă

Obs.: Modificând originea astfel încât media să devină 0, coeficientul de variaţie nu are sens

Chiar şi pentru variabile cu scale de rapoarte formula trebuie utilizată cu prudenţă în comparaţii. Formal este posibil ca acest coeficient de variaţie să se calculeze: pentru o populaţie A, faţă de o variabilă precum salariul şi, pentru alta, B, după, să spunem, numărul de ani de şcoală şi să se compare cele două valori. Totuşi este forţat să afirmăm că: populaţia A este mai omogenă (eterogenă), în privinţa salariului,

41

Page 35: Partea2 Statistica Descriptiva Univarianta

decât B, în privinţa numărul de ani de şcoală

Coeficientul de variaţie arată ce fracţiune din medie corespunde unei abateri standard.

De pildă, pentru cele două submulţimi de familii muncitoreşti şi non-muncitoreşti care au aproximativ aceeaşi abatere standard, vom obţine:

v1 = (familii muncitoreşti)

v2 = (familii non-muncitoreşti)

Deci grupul familiilor nonmuncitoreşti apare mai eterogen decât cel al familiilor muncitoreşti, deşi abaterea standard indica o situaţie inversă sau, în orice caz, de foarte mare apropiere a grupurilor.

3. Indicatori ai formei distribuţiei

Problema este aceea de a compara forma distribuţiei de frecvenţă cu legea normală

42

Numãr de persoane per familie

5,04,03,02,01,0

Numãr de persoane per familie

Fre

cve

ntã

30

20

10

0

Std. Dev = 1,11

Mean = 3,0

N = 50,00

5

10

20

10

5

Page 36: Partea2 Statistica Descriptiva Univarianta

Diatribuţie simetrică. Media, mediana şi modul sunt toate egale cu 3

Distribuţia este alungită spre dreapta (Modul = 1, mediana = 2 iar media este 2,3)

43

Numãr de persoane per familie

5,04,03,02,01,0

Distributie alungitã spre dreapta

Fre

qu

en

cy

20

10

0

Std. Dev = 1,33

Mean = 2,3

N = 50,00

55

10

12

18

Numãr de persoane per familie

5,04,03,02,01,0

Distributie alungitã spre stânga

Fre

qu

en

cy

20

10

0

Std. Dev = 1,38

Mean = 3,7

N = 50,00

18

15

65

6

Page 37: Partea2 Statistica Descriptiva Univarianta

Distribuţie alungită spre stânga (Modul = 5, mediana = 4 iar media este 3,7)

Comparaţia constă în a stabili:1. gradul de obilicitate adică măsura în care distribuţia se abate de la cazul-limită al

simetriei în jurul valorilor centrale (pentru distribuţia normală media, mediana şi modul coincid),

2. gradul de boltire, adică măsura în care distribuţia este mai plată sau mai boltită, comparativ cu o distribuţie normală având aceeaşi abatere standard

3. 1. Indicatori de oblicitate

Prima categorie de indicatori ai oblicităţii (skewness) folosesc modul de aşezare a indicatorilor de poziţie unul faţă de celălaltIndicatorul lui Pearson exprimă oblicitatea ţinând cont de ordinea dintre medie şi mod:

Oblicitatea = (21)

Valoarea indicatorului: Este nulă pentru distribuţiile simetrice, Este pozitivă pentru curbele alungite spre dreapta şi Este negativă pentru curbele alungite spre stânga. Obs.: Se împarte la abaterea standard pentru a elimina influenţa unităţilor de măsură a variabilei (care este aceeaşi şi pentru medie şi mod).

O altă formulă a oblicităţii, cu aceeaşi semnificaţie, este următoarea:

Oblicitatea = (22)

În statistica matematică se calculează oblicitatea curbelor de distribuţie cu ajutorul momentelor centrate de ordinul trei. Acest indicator se preia de obicei şi în programele statistice pe calculator.

Momentele centrate de ordinul m reprezintă medii ale abaterilor valorilor variabilei de la media acesteia, ridicate la puterea m.

În general, momentul centrat de ordinul m este mărimea:

44

Page 38: Partea2 Statistica Descriptiva Univarianta

sau, cu frecvenţe:

Momentul centrat de ordinul 1 este întotdeauna nul (rezultă din definiţia mediei)Momentul centrat de ordinul 2 este tocmai varianţaMomentul de ordinul 3 indică oblicitatea şi, pentru ca valorile sale să fie standardizate, se divide cu abaterea standard ridicată la cub. Deci formula clasică pentru oblicitate este:

Oblicitatea =

3.2. lndicatori ai boltirii

Boltirea (kurtosis, în engleză) vrea să exprime, înălţimea „cocoaşei” curbei, comparativ cu cea „normală”. Se vorbeşte astfel de distribuţii: „leptocurtice” (cu cocoaşa înaltă) şi „platicurtice” (mai aplatizate). Indicatorul se obţine cu ajutorul momentului centrat de ordinul patru, cu formula:

Boltirea =

Valorile pozitive indică situaţia distribuţiilor leptocurtice („cocoaşă” înaltă)Valorile negative indică situaţia distribuţiilor platicurtice (mai aplatizate)

45


Recommended