Carte de Statistica

1

Carte de Statistic

Reete ncercate

Robert D. Reisz

Cuprins

Cuvnt nainte

1. Introducere.

a. Ce este statistica?

b. Cum cunoate statistica?

c. Cauzalitate i statistica.

d. Foarte scurt istoric al statisticii.

2. Ingredientele statisticii. Tipuri de date.

a. Date nominale

b. Date ordinale

c. Date intervalice

d. Date raionale

3. Culegerea datelor statistice. Sondajul de opinie.

a. Statistici de lot si statistici de sondaj. Generalizarea statistic i limitele ei.

b. Cum facem un sondaj de opinie simplu i corect? Eantionare, chestionar,

aplicare.

4. Aperitive. Primii pai n descrierea datelor statistice

a. Imagini de ansamblu asupra datelor.

i. Frecvene simple.

ii. Reprezentri grafice

b. Indicatori agregai

i. Tendina central

ii. Distribuia datelor

2

5. Supe, ciorbe i teste statistice simple.

a. Distribuia normal

b. Teste statistice t pentru medii i Z pentru proporii.

c. Calculul erorii unui sondaj si interpretarea ei.

6. Feluri principale i garnituri sau relaia dintre mai multe variabile

a. Grafice pentru mai multe variabile.

b. Tabele de relaionare.

c. Analiza de varian. Testul ANOVA unifactorial.

d. Corelaia simpl i parial. Coeficienii de corelaie.

e. Regresia liniar simpl i multipl.

7. Pentru vegetarieni. Analiza datelor nenumerice.

a. Testul Chi2

b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis

c. Regresia categorial.

8. Analiza seriilor de timp

a. Ce e o serie de timp? Identificarea de patternuri n serii de timp

b. Trend i sezonalitate

c. Regresii cu serii de timp

d. Analiza de supravieuire

9. Clasificarea datelor.

a. Clustere ierarhice

b. Clustering cu centre de clustere

10. Deserturi.

3

Cuvnt nainte

La primul curs de statistic pe care l-am inut la facultatea de tiine politice de la

Universitatea de Vest din Timioara o student mi-a spus pe un ton ct se poate de tranant:

habar nu are de matematic, nici nu vrea s nvee aa ceva i oricum a venit la facultatea de

tiine politice tocmai ca s scape de matematic i alte asemenea tiine exacte. Sunt convins

c aceast experien a mea e departe de a fi unic. Am ncercat pe parcursul celor dou

semestre s o conving pe ea i pe colegii ei, de obicei de aceiai prere cu ea, de utilitatea

statisticii i de simplitatea ei. Sunt convins c nu am reuit sau nu ntru totul, dar tiu de

asemenea c am reuit s i familiarizez cu conceptele de baz ale statisticii i modul cum

acestea funcioneaz n logica cercetrii sociale.

Cartea aceasta se adreseaz tocmai celor ce se tem de calculul matematic sau sunt doar

neexersai in el, precum i celor ce fac primii pai n lucrul cu metode tiinifice cantitative in

cunoaterea social. Cartea mea vrea s fie uor de citit, dar n primul rnd uor de nvat i

de aplicat. Voi prezenta n paginile ce urmeaz principalele metode folosite n statistic,

metode utilizate n cercetrile din tiinele sociale i nu numai; reetarul de baz pentru

lucrrile de cercetare din sociologie, psihologie, tiine politice, economice dar i medicin i

alte tiine ce se bazeaz pe cunoaterea empiric a realitii.

Voi insista pe interpretarea rezultatelor precum i pe ipotezele metodelor statistice, elemente

ale cunoaterii statistice ce stau la interfaa dintre teorie si metod i definesc n cele din urm

limitele cunoaterii prin statistic. n opinia mea, renumele uneori negativ pe care l are

statistica n mass-media romaneasc, i m refer aici la scepticismul foarte rspndit fa de

cercetrile bazate pe sondaje de opinie, se datoreaz pe lng existena real a unor cercetri

cel puin dubioase, i unei nenelegeri ale limitelor cunoaterii statistice. Desigur cunoaterea

statistic este prin felul ei imperfect, inexact, probabil i nu cert, dar puterea ei rezid

tocmai n posibilitatea de a delimita cu siguran uneori destul de mare intervalul n care se

afl realitatea. S fiu mai explicit, statistica nu va da niciodat rspunsuri simple i exacte.

Dar astfel de rspunsuri, n msura n care exist n cunoaterea lumii reale, nu ne sunt utile.

Rspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple,

nici exacte. Cu toate acestea, cunoaterea statistic este cunoatere, adevrul statistic chiar

dac nu este absolut este un adevr pragmatic att timp ct i nelegem limitele.

4

Mai exist un motiv pentru care scriu aceast carte. Cutarea mea a unui manual de statistic

introductiv publicat n limba roman a fost pn acum ncununat de eec. Dei exist multe

manuale de acest tip n spaiul anglofon i nu numai, la noi pn n prezent manualele de

statistic bune au inut s se prezinte la un nivel tiinific prea ridicat pentru nceptorii fr

interes i aplecare fa de cele matematice. Poate i de aceea statistica nu a devenit ca n alte

pri, un bun comun a celor ce cerceteaz lumea politic, social sau economic i putem

ntlni att de des prostii monumentale n presa romaneasc atunci cnd aa-zii analiti se

apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi ncerca, de fapt, s

exemplific pe parcursul crii cteva din erorile cele mai uzuale ale comentatorilor politici dar

i ale politicienilor din ara noastr. Uneori nclin s cred c o mai bun nelegere a felului

cum cunoate statistica i a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva

partide de la dispariie.

Nu voi merge prea departe cu ideea de a produce o carte de reete de statistic, totui ea este

ntr-un fel justificat. Toate metodele din carte sunt ntr-adevr ncercate, i vor s fie

exemple de metode ce se pot aplica cu succes n cercetare. De asemenea toate interpretrile

pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenia asupra unor erori ce

apar adesea, voi ateniona fa de prea mult scepticism n egal msur ca i fa de un

optimism exagerat. Deci condimentai cu msur i, precum cei mai buni buctari, aplicai

reetele mele cu nelegere, n spiritul i nu numai n litera lor.

5

Capitolul 1. Introducere.

S ncepem uor, cu nceputul. n acest capitol a vrea s definesc conceptul de statistic i

felul cum poate statistica cunoate lumea. Voi vorbi despre raionamentul statistic, despre

eroare i greeal n statistic, precum i despre cauzalitate i statistic.

a. Ce este statistica?

Statistica se definete de obicei ca un subdomeniu al matematicii dedicat culegerii, analizrii,

interpretrii i prezentrii datelor. Definiia aceasta mi se pare ns ct se poate de

nesatisfctoare pentru c, pe de o parte nu spune nimic despre felul cum acioneaz statistica

lsnd prin urmare orice metod ca fiind acceptabil, i mai apoi folosete un concept mult

prea general si ambiguu, acela de dat. n acest concept este probabil ascuns chiar ceea ce

eu consider a fi genul proxim n cadrul cruia ar trebui definit statistica. Anume faptul c ea

este o metod de cunoatere. Statistica este o metod de cunoatere a unor obiecte sau

fenomene bazat pe interpretarea rezultatelor de msurare. Mie definiia aceasta mi place mai

mult, dei probabil sun nc destul de criptic. Anume, mut ambiguitatea de la conceptul de

dat la felul cum se obine aceasta, adic prin msurarea unor obiecte sau fenomene. Ei

bine, eu nclin s cred c msurarea n cauz se poate face chiar cu orice aparat de msur att

timp ct acesta este de ncredere, adic nu face erori sistematice. Totui, nite exemple ar fi

utile aici, nu-i aa?

Deci, aparate de msur sunt desigur cntarul i metrul croitorului sau ale constructorului, ca

i ublerul sau micrometrul, dar pn la urm orice funcie care face univoc legtura dintre un

obiect sau fenomen i o valoare fie ea numeric sau nu, este o msurare. Sper c nu am speriat

nc pe nimeni folosind termenul de funcie n sens matematic. O funcie este o relaie ntre

dou mulimi, n cazul nostru o mulime de obiecte sau fenomene de acelai tip pe care dorim

s o cunoatem mai bine i o mulime de valori statistice pe care le putem analiza. Punem de

fapt n relaie ceva ce nu putem folosi nemijlocit n calculele noastre cu ceva ce putem folosi.

Msurm de exemplu greutatea unor cini, poate pentru a analiza efectul unor alimentaii

specifice. Folosim un cntar, desigur, dar de fapt definim prin aceasta o funcie pe domeniul

cinilor studiai lund valori n domeniul numerelor reale. i de ce facem asta? Pentru c

dorim s interpretm, s calculm, s comparm i, n fine, s prezentm ct mai simplu i

6

coerent rezultatele cercetrii noastre. i nu tim s calculm cu cini, ns tim s facem asta

cu numere. Aceast problem este mereu prezent n cunoatere. Nu putem calcula cu

obiectele reale, fenomene aa cum sunt ele. Aa cum nu putem face calcule cu cini, nu putem

face nici cu opiniile politice i nici cu comportamentele economice ale unor oameni adevrai.

Trebuie s le transformm n lucruri cu care putem calcula, n valori numerice sau

nenumerice, oricum valori care sunt simple i n primul rnd complet definite prin ele nsele.

S m explic: este practic imposibil s definesc complet un obiect sau un fenomen real. Orice

definiie a cinelui meu ar fi incomplet, ar omite un fir de blan sau chiar o caracteristic

comportamental pe care poate nc nu o cunosc. Iar de ar fi, prin absurd, posibil o definiie

complet a lui Garu, aa l cheam (tiu, e aiurea, dar e o poveste mai lung), ar fi de o

complexitate ce ar face s fie absolut inutil pentru orice interpretare sau analiz. Pe de alt

parte rezultatul msurrii greutii lui este 30kg ceea ce este desigur un model ct se poate de

inexact pentru un cine dar este o valoare util i calculabil att timp ct tim exact ce

nseamn i nu i conferim o mai mare importan dect are, anume greutatea lui Garu.

Completnd aceast msurtoare cu altele, precum vrsta, rasa i genul, obinem un model, o

definiie incomplet i util, att incompletitudinea ct i utilitatea ei rezultnd pn la urm din

simplitatea ei.

La fel se ntmpl i n cazul opiniilor politice ale unei persoane, de exemplu ale colegului

meu Ionic. Opiniile lui Ionic sunt complexe, anumite teme l intereseaz i este informat

asupra lor avnd opinii nuanate. Alte teme nu l intereseaz i nu are opinii asupra lor sau are

opinii superficiale formate rapid. Mai mult, opiniile lui Ionic, precum a oricrei persoane

inteligente sunt schimbtoare, reacioneaz la schimbrile din mediu, la noi informaii i noi

evenimente. Nu avem cum efectua calcule cu opiniile lui Ionic, putem ns s msurm

elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, l putem

ntreba ce prere are despre un anumit politician i i putem oferi 5 variante de rspuns. Avem

atunci o msurtoare, care este n acelai timp o simplificare i o datare. Acest rezultat de

msurare va fi legat de momentul la care am pus ntrebarea (i va rmne neschimbat, dei

opinia lui se poate schimba ulterior) i va ncerca s includ opinia lui Ionic ntr-o schem

simpl care nu l poate descrie evident ntru totul dar care l poate face comparabil cu ali

oameni care au rspuns la aceiai ntrebare.

i aici este chiar principala problem a statisticii. Statistica nu calculeaz cu cini, oameni sau

partide. Statistica calculeaz cu rezultatele unor msurtori ale acestora. Cunoaterea n

7

general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construiete

astfel de modele prin msurare. Cum msoar de obicei statistica? Ei bine, oricum. Sau mai

exact, depinde de tem. Statistica medical msoar cu aparate sofisticate dar a cror

exactitate ar trebui s nu depind de cel ce efectueaz cercetarea, statistica social sau politic

este ns de obicei nevoit s-i dezvolte propriile aparate de msur, chestionarele. Vom

reveni n capitolul al treilea la felul cum se scriu, i cum nu se scriu chestionare. Pn atunci

s continum ns s discutm cum metoda de msurare cu chestionarul influeneaz chiar

conceptual cunoaterea statistic.

Un aparat de msur trebuie s aib dou principale caracteristici pentru a fi util. Trebuie s

dea un rezultat i unul singur, i mai mult dect att, la repetarea msurrii s produc acelai

rezultat sau unul foarte apropiat. Presupunnd c reuim s-l urcm pe Garu (cinele meu, v

aducei aminte) pe un cntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o

valoare apropiat de 30kg. Daca reuim acest efort de persuasiune i ndemnare n repetate

rnduri ntr-un scurt interval de timp, utiliznd mai multe cntare, acestea vor fi bune n msura

n care ne vor da aproximativ acelai rezultat. Pe de alt parte ns, greutatea lui Garu nu se va

schimba de pe urma faptului ca a fost msurat. Chiar daca Garu ar fi priceput ceva din cele

ce i s-au ntmplat tot nu i-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a

testa aparatele de msur pentru coerena lor nu ne este ns accesibil n cazul chestionarului.

Daca dorim s repetm chestionarea lui Ionic suficient de curnd pentru ca opinia lui s nu se

fi schimbat prea mult, el i va aduce desigur aminte de chestionar i va rspunde probabil la

fel mcar pentru a se arta consecvent, caracteristic pe care societatea noastr o valorizeaz

n sine. Exist chestionare special elaborate, n special n cercetri de psihologie care rezolv

aceast problem ntr-o oarecare msur prin punerea a foarte multe ntrebri i repetarea

unora dintre ele n forme mai mult sau mai puin modificate. Una peste alta problema rmne

ns deschis pentru majoritatea cercetrilor. Chestionarele nu se pot de obicei calibra att de

bine ca i cntarele. Soluia la aceast dilem nu este dect recunoaterea unei alte limitri a

cunoaterii prin statistic social. O cercetare care folosete o metod de msurare nu poate fi

comparat cu o alt cercetare ce folosete alt metod de msurare. Cntarele cercetrii

sociale nu sunt comparabile. Ca atare msurarea depinde nu numai de obiectul msurat ci i

de aparatul de msur. n cercetarea statistic social rezultatul este dependent i specific

aparatului i metodei de msurare. Deci, metodologia este parte din rezultat. Putem spune c

rezultatul msurrii are sens, este interpretabil, exist numai mpreun cu metoda de msurare.

Revenind la conceptul de model pe care l-am introdus mai sus, nu numai c statistica nu

8

calculeaz cu cini, sau oameni, sau fenomene, ea nu calculeaz de fapt nici cu greutatea,

opinia sau comportamentul ci cu rezultatul msurtorii acestora aa cum ne-o permit aparatele

de msur. Mai simplu, dac ntrebm un elev ct de des ridic mna n clas, nu vom prelucra

statistic elevul (bineneles, doamne ferete), dar nici mcar gradul lui de participare n clas

(ceea ce unii ar putea spera), ci o msur de moment a opiniei lui fa de gradul lui de

participare n clas. i aceast msur va depinde de felul cum e construit chestionarul, de

ntrebrile anterioare, dar i de evenimentele din ziua n care am efectuat chestionarea sau din

zilele precedente. Aceasta pentru c msurarea se face ntr-un moment anume i cu un aparat

anume. Mai mult, msurtoarea nu se aplic participrii n clas ci opiniei elevului asupra

acestei participri, opinie care depinde de prerea pe care o are despre coala lui, nvtorul

lui, despre sine nsui respectiv despre dezirabilitatea de a fi activ n clas. Toate acestea nu

fac msurarea inutil sau cunoaterea obinut de pe urma ei mai puin sigur, pur i simplu

sunt elemente ce trebuie luate n seam.

Dac aparatul de msur este parte din rezultatul msurat, de aici decurge imediat faptul c nu

este posibil vreo msurare fr o teorie ce st la baza ei. Aparatul de msur a fost desigur

dezvoltat pe baza unei teorii, fie c a fost un cntar fie c a fost un chestionar. Att timp ct

rezultatul msurrii nu depinde de metoda de msurare am putea la o adic s neglijm teoria

care a produs aparatul, aceasta ns nu e nici o dat cazul n cercetarea statistic. Chiar dac

msurarea a avut loc cu cntarul, ideea de a msura cu cntarul a avut la baz o decizie i

aceast decizie o teorie legat de rezultatele dorite de pe urma cercetrii. Cu att mai mult n

cazul n care aparatul de msur este parte integrant din rezultatul msurii. n unele nefericite

situaii e posibil ca nsui cel ce dezvolt chestionarul i proiecteaz cercetarea s nu fie pe

deplin contient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar i atunci

acestea influeneaz cercetarea precum o pot influena i prejudecile celor ce o proiecteaz.

Acestea sunt nc alte limite ale cunoaterii pe care un bun interpret al calculelor statistice

trebuie sa le aibe n faa ochilor. Nu este posibil msurare fr teorie i ca atare teoria ce st

la baza unei cercetri trebuie ct mai exact enunat i ct mai consecvent aplicat.

S ne ntoarcem deci la definiia noastr: spuneam c statistica se ocup cu interpretarea

rezultatelor unor msurtori. Am discutat puin despre msurtori n sine, s vedem acum ce

nelegem prin interpretri i care anume sunt metodele de interpretare pe care le numim

statistice. Rezultatele de msurare ne dau de obicei o multitudine de caracteristici, date

numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie

9

prezentate ntr-un fel pentru a fi de vreun folos. Chiar i o dat prezentate, de exemplu sub

forma unei liste cu greutatea a 1000 de cini, ele cel mai adesea nu permit o utilizare, sau o

nelegere a ansamblului problematicii. Ce vrea i ce poate de fapt face statistica cu grmada

de date pe care le culege prin msurtori?

b. Cum cunoate statistica?

Exist dou probleme mari ale statisticii, descrierea unor date msurate si extragerea din date

msurate a unor concluzii ce se extind i asupra altor date, care nu au fost msurate din

motive ce in cel mai adesea de economie de timp i bani. Prima dintre acestea este problema

statisticii descriptive, cea de a doua cea a statisticii infereniale.

Statisticile descriptive se multumesc s spun ceva despre obiectele, indivizii sau

fenomenele care au fost msurate. ntr-un fel i statistica descriptiv generalizeaz, vrnd s

spun ceva despre obiecte pe care le cunoate doar prin rezultatele unor msurtori. Totui, de

obicei nu o considerm ca fiind generalizatoare. Primii pai n orice cercetare statistic snt

descriptivi. ncercm s prezentm ct mai clar i concis i, pe ct posibil, fr a pierde din

acuratee datele msurate. Reprezentrile grafice i tabelare, precum i valorile agregate pe

care le vom descrie n capitolul al patrulea al acestei cri sunt metodele cele mai obinuite ale

statisticii descriptive. Ele nu prelucreaz prea mult datele ns caut s ofere imagini mai uor

inteligibile dect o list lung de valori. Imaginile grafice pot fi n acelai timp i indicatori

buni pentru a recunoate trenduri, adic pentru a decide ce calcule se pot face n continuare,

cu ce statistici infereniale s se continue analiza datelor.

Valorile agregate calculate n contextul statisticilor descriptive au un grad de prelucrare puin

mai avansat. De obicei se includ aici formule de calcul ce ncearc s gseasc o tendina

central sau medie a datelor i formule ce ncearc s sintetizeze n ce msur datele sunt

dispersate n jurul acestei tendine centrale. Desigur nu ntotdeuna aceste valori sunt

interesante i nu ntotdeauna merit calculate. Snt ns cazuri n care ele ne dau o imagine

bun despre un fenomen. S lum calculul mediei, de exemplu. Media greutii unor cini de

aceiai vrst, gen i ras poate reprezenta o bun baz de comparaie ntre rase sau genuri sau

vrste. Ne poate deci spune ceva att timp ct este utilizat ceteris paribus. Conceptul de

ceteris paribus nseamn, pstrnd toate celelalte caracteristici egale i adesea nu este uor

10

de pus n practic. Totui este esenial atunci cnd vrem s efectum comparaii i s

determinm legturi dintre caracteristici, cum ar fi, de exemplu greutatea i genul cinilor.

Desigur media greutii tutoror cinilor de la o expoziie chinologic poate fi n ansamblu prea

puin relevant. Poate nsemna totui ceva pentru cei care trebuie sa fac curenie a doua zi!

De aici, nc o concluzie important: de tema de cercetare depinde metoda cea mai adecvata i

nu de repertoarul de metode. Nu stiu de unde provine zicala daca singura scula pe care o ai

este un ciocan totul ncepe s semene a cui dar n cazul statisticii sociale se confirm din

pcate foarte des. Dac tot ce tii e s calculezi medii, o s calculezi medii indiferent ce tem

de cercetare i ce date ai!

Cum i ct de mult sunt distribuite datele n jurul tendinei centrale este o alt tem esenial n

statistica descriptiv. Ai auzit cu toii butada cu individul care st cu un picior ntr-un lighean

cu ap rece ca gheaa i cu unul ntr-un lighean cu ap clocotit i zice c n medie i este bine.

Exist multe feluri de a calcula ct de distribuite sunt datele. n exemplul dat probabil ar fi de

ajuns s calculm diferena de temperatur dintre cele dou lighene, n marea majoritate a

cazurilor avem ns de a face cu un fel de miriapod care are fiecare din mia lui de picioare n

ligheane cu ape de temperaturi diferite!

Statisticile infereniale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii

matematice despre cum sunt datele i au ca principal scop testarea unor ipoteze despre

populaii de individizi sau obiecte. Inferena statistic este de fapt formarea unor preri

justificate despre o ntreag populaie bazndu-ne pe msurarea unei pri a acesteia. Exemplul

care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a

opiniei publice pun ntrebri unui eantion de vreo mie de persoane i vor s ne conving pe

noi, i binenneles i pe nite clieni pltitori de asemenea, cum c pot spune ceva despre

opinia a peste 21 de milioane de persoane. La baza acestui tupeu se afl inferena statistic

adic posibilitatea de a generaliza statistic de la msurarea unui eantion la descrierea unei

ntregi populaii. Exist teorii matematice care justific aceasta. i dac cercetarea e fcut ct

mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate.

Bineneles i n acest caz pentru interpretarea lor trebuie sa ne punem ct mai clar ntrebrile:

ce am msurat, pe cine am msurat i cu ce acuratee.

Principiul fundamental al statisticii este coninut ntr-o teorem matematic numit adesea i

teorema fundamental a statisticii. Ea ne asigur de faptul c rezultatele msurtorilor ce se

11

fac pe un eantion se pot, n anumite condiii generaliza la nivelul ntregii populaii. Vom

reveni n cel de-al treilea capitol al crii la aceast teorem fr ns a face o prezentare a ei

pe placul matematicienilor. O nelegere a consecinelor acestei teoreme pentru ntreaga

metod statistic este ns necesar pentru a evalua la adevrata lor importan mai micile sau

mai marile devieri de la idealul matematic pe care le ntlnim vrnd nevrnd n cercetrile

empirice. nelegerea fundamentelor matematice ale statisticii ne vor permite apoi s

nelegem de ce este necesar o alegere foarte bine gndit a persoanelor pe care le

intervievm pe parcursul unui sondaj de opinie i de asemenea de ce este necesar o

construcie bun a chestionarului pe care dorim s-l aplicm.

Testarea statistic nbogete cunoaterea ntr-un mod foarte apropiat principiului respingerii

ipotezelor. Pe ct de scurt este, aceast propoziie necesit o explicaie destul de detaliat. La

baza ei se afl concepia despre cunoatere tiinific a lui Karl Popper (). n logica

raionalismului critic, cum i-a numit Popper nsui teoria, principiul cunoaterii tiinifice s-

ar putea exprima simplu n felul urmtor: cunoaterea uman nu se bazeaz pe certitudini i

demostraii ale unor adevruri; ea nu progreseaz pe baza coroborrilor ipotezelor ci pe baza

contraexemplelor. Cunoaterea tiinific dezvolt ipoteze. Acestea snt acceptate dac nu se

pot respinge. Dar ele nu snt prin aceasta propriu-zis adevrate. Doar c ele nc nu au putut

fi respinse. Deci regula cunoaterii nu este demonstraia ci respingerea. Nu putem de obicei

tii dac ceva este adevrat, putem ns recunoate cu oarecare probabilitate dac ceva este

fals.

O teorie este tiinific n msura n care se poate imagina un experiment practic ce are

puterea s o contrazic. Dac acest experiment nu reuete respingerea teoriei, aceasta este

pentru moment acceptat. Ea nu este adevrat ci acceptabil conjunctural att timp ct nu a

fost respins. tiina are deci ca i scop construirea i punerea n practic a unor experimente

care ncearc s resping teorii, sau mai exact ipoteze. n statistic ca i n teoria Popperian a

raionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipotez

nelegem o propoziie care se supune analizei. n logica clasic o ipotez este o propoziie din

care decurge o concluzie. Acolo nu se studiaz, de regul, valoarea de adevr a ipotezei, ci

felul cum decurge din ea o concluzie. n statistic ns, tocmai ipoteza este presupunerea

supus testrii.

12

O ipotez o dat respins duce la o nou interpretare a realitii i ca atare la noi ipoteze.

Exist aici o asimetrie ntre verificarea i respingerea teoriilor care este esenial i pentru

felul cum cunoate statistica. Statistica folosete principiul contraexemplului ntr-un sens

probabilist. S explic. Statistica poate msura o valoare, de exemplu media greutii cinilor

de la o expoziie chinologic i o poate compara cu o valoare teoretic ipotetic, de exemplu o

ipotetic medie a greutii tuturor cinilor din lume. Pe baza acestor valori, i a unor foarte

importante presupuneri despre cum sunt n general distribuite datele i cum au fost ele

msurate practic, statistica poate calcula care este ansa ca ipoteza s fie corect n lumina

datelor msurate.

Statistica va pune deci ntrebarea n felul urmtor. Fie urmtoarea ipotez: media greutii

tuturor cinilor din lume este de 50kg. Daca media greutii cinilor din expoziie este de 20kg

poate fi oare media greutii tuturor cinilor din lume fi 50kg? Dac aceast ans este foarte,

foarte mic exist un bun motiv de a respinge ipoteza. Vom spune atunci c, dac cinii din

expoziie reprezint un bun eantion al cinilor din ntreaga lume, iar printre acetia greutatea

este distribuita normal, ipoteza cum c media de greutate a cinilor din ntreaga lume este de

50kg este aproape sigur greit. Statistica nu ne spune ct ar fi adevrata valoare a greutii

medii a cinilor din lume, ne poate ns spune ct nu este i prin consecin ne poate da o

imagine despre cam ct ar putea fi aceasta.

Deci statistica lucreaz oarecum dup principiul popperian. Nu poate demonstra, poate ns

respinge ipoteze. O bun cercetare statistic, ca i o cercetare tiinific n sensul lui Popper

este o cercetare care construiete ipoteze ce pot fi respinse i experimente care au puterea de a

respinge aceste ipoteze.

Orice cercetare statistic bine construit pornete de la o serie de ipoteze mai mult sau mai

puin explicite pe care le supune testrii statistice. Evident, cel mai bine este atunci cnd aceste

ipoteze sunt explicite i tiinifice, adic refutabile. Deorece ns, aa cum am vzut deja, nu

este posibil msurare fr a accepta n prealabil anumite teorii, ntotdeuna vor exista i

presupoziii teoretice care nu se supun testrii. Acestea reprezint cadrul teoretic al cercetrii

i tot ce putem face este s le contientizm i s ni le asumm cci ele determin ce i cum

cunoatem. nsi acceptarea metodei statistice ca i cale de cunoatere este o astfel de

premis teoretic, nu neaprat acceptat de ctre toat lumea.

13

c. Cauzalitate i statistica.

O mare parte din cercetarea statistic ncearc s pun n relaie mai multe rezultate de

msurare care reprezint caracteristici diferite ale unor individizi, obiecte sau fenomene.

Astfel, ca s revenim la cinii notrii, un cercettor ingenios poate msura greutatea i genul

cinilor i conchide de exemplu, cum c, pstrndu-ne n cadrul oricrei rase i grupe de vrst,

pe msur ce un cine are greutate mai mare el are anse mai mari de a fi mascul. Un astfel de

raionament este statistic absolut corect i ne arat ct se poate de clar faptul c conceptul de

cauzalitate este un concept teoretic i nu unul statistic.

Una din greelile de interpretare cel mai curent ntlnite n citirea datelor statistice este

presupunerea de cauzalitate. Foarte adesea ne este convenabil s citim rezultatul unui calcul

statistic ca o dovad de cauzalitate. Aceasta este fals chiar din dou motive. Pe de o parte, aa

cum am spus-o mai sus, statistica nu dovedete nimic ci eventual nu respinge o ipotez, iar

mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzaliti. Este ns ct se

poate de adevrat c exist modele statistice ce presupun cauzalitate, cum sunt regresiile. n

acest caz cauzalitatea este inclus n model, face parte din teoria ce a stat la baza construirii

modelului i desigur, ca n orice form de cunoatere statistic, ea ar putea fi eventual

respins. Caz n care am avea un bun motiv s excludem o relaie cauzal. Dac ns nu putem

respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune dect am avut n

momentul n care teoria ne-a permis s o considerm pentru a fi modelat.

Deci cauzalitatea este n teorie, n ipotez i nu n calcul. De aceea exemplul de interpretare

de mai nainte ni s-a prut imediat greit. Face parte din simul comun faptul c genul unui

cine este neschimbat toat viaa lui, pe cnd greutatea poate varia. De aici teoria noastr

despre cini nu accept cauzalitatea dintre greutate i gen ci pe cea invers. Deci, ipoteza pe

care nu o putem respinge este: cinii masculi sunt mai grei i nu cinii mai grei sunt

masculi. Din pcate nu este ntotdeauna aa simplu. S lum un exemplu clasic, relaia dintre

nivelul de educaie al unei naiuni i bunstarea ei. Se tie foarte bine c exist o legtur

puternic ntre aceste dou caracteristici aproape indiferent cum le-am msura (de ex: procent

din populaie cu studii superioare i produs intern brut pe cap de locuitor), exist ns teorii

convingtoare pentru ambele direcii de cauzalitate i testele statistice nu au reuit s resping

nici una dintre ele. Decizia asupra direciei de cauzalitate este deci un apanaj al teoriei.

14

i totui, statistica poate construi anumite raionamente cauzale. Acestea se bazeaz pe o

observaie ct se poate de simpl: efectul nu poate s precead cauza. Aceasta se poate numi

asimetria temporal a cauzalitii. Raionamentul logic e foarte simplu: dac evenimentul A

a avut loc dup evenimentul B, atunci evenimentul A nu poate fi cauza lui B. Simplu, dar

relativ puin util pentru c foarte rar datele noastre statistice se refer la evenimente singulare,

clar databile temporar. Cnd avem de a face cu informaii databile, adic n cazul seriilor de

timp, urmrim de regul dezvoltarea unor fenomene n timp. Atunci punem fa n fa

dezvoltarea unor serii de timp. Varianta cea mai simpl este s legm dezvoltarea unei

variabile, de ex. nivelul de bunstare ntr-o ar, de o alta, de ex. ateptarea de via n

respectiva ar. Pn i informaii absolut nesistematice ne pot convinge c ntre acestea exist

o relaie.

Cum ar funciona ns raionamentul asimetriei temporale? Pentru a nelege aceasta ar trebui

sa putem separa mecanismul individual care st la baza statisticii; s desfacem datele rezultate

din agregare n fenomene individuale. n cazul de fa, raionamentul ar fi urmtorul: dac o

persoan are un nivel de bunstare ridicat, va putea investi mai mult n sntatea sa, prin

adresare la medic, alimentaie i igien, i va tri n consecin mai mult. Exist ns i

raionamente alternative. De exemplu, se poate presupune c nivelul de bunstare nu mai

conteaz dac un anumit prag al srciei extreme e depit. Oamenii nu fac economii la

adresarea la medic, la alimentaie i igien. Sau c, dei bunstarea are un anumit efect, de

fapt acesta e doar colateral. Ceea ce conteaz este nivelul de educaie i cultur care are efect

asupra obiceiurilor alimentare, igienice i de adresare la medic. Cele trei variante acopera

situaiile unei cauzaliti relativ directe, ale lipsei cauzalitii i a unui lan cauzal complex

fr relaie direct ntre variabilele studiate.

Cum raionm statistic? Orice cauzalitate trebuie s se regseasc la nivel individual. Deci,

dac n forma agregat bunstarea medie crete sau scade aceasta s-a ntmplat prin creterea

sau scderea bunstrii individuale a unor persoane. Pentru simplitate putem presupune c o

cretere a agregatului este reflectarea unei creterii la nivelul indivizilor. Desigur n realitate

situaia poate fi mai complex, o parte din indivizi putnd cunoate creteri i o alt parte

scderi. La nivelul fiecrui individ a crui bunstare crete, condiiile de via pot produce o

via mai lung. De aici deducem urmtoarele: dac creterea bunstrii e mai mare atunci

creterea ateptrii de via va fi mai mare. Adic, cauzalitatea se reflect mai bine n relaia

dintre creteri dect n relaia dintre valori. Creterile se calculeaz simplu ca diferene de la

15

un punct temporar (de ex. un an) la altul. A doua observaie imediat este c trebuie s lsm

timp fenomenului s se dezvolte (asimetria temporal), adic va trebui s relaionm valori ale

creterii bunstrii de la un anumit moment cu valori ale ateptrii de via ulterioare. Ct e

bine s fie aceast ntrziere depinde de situaia modelat. Termenul statistic pentru aceast

ntrziere vine din englez i se numete lag. n fine, a treia observaie este c o valoarea

unic, o cretere a bunstrii ntr-un singur an, eventual ca efect al unui venit mare accidental

care dispare foarte repede, nu trebuie neaprat s aib consecine eseniale asupra ateptrii de

via. Deci ar trebui s nu lucrm cu o singur valoare ci s lum n considerare fenomene

stabile de cretere, respectiv scdere. Acest raionament st la baza unei serii ntregi de

metode de testare a cauzalitii dintre care cele mai convingtoare sunt, dup prerea mea

metodele dezvoltate de Clive Granger. Acesta a primit n 2003 i un premiu Nobel pentru

economie pentru ele. Raionamentul care definete cauzalitatea la Granger este ns complex.

Ca atare muli l consider restrictiv i susin c nu acoper toate situaiile pe care simul

comun le consider ca fiind cauzale. De aceea se folosete pentru definiia aceasta termenul

de cauzalitate Granger n loc de cel general de cauzalitate. n capitolul dedicat seriilor de timp

voi reveni asupra unor metode de testare a cauzalitii. Aceastea pot lua desigur numai forma

unor respingeri de ipoteze, ns exist metode care permit respingerea unor ipoteze de non-

cauzalitate.

Un alt caz interesant care apare n statistic uneori este cel al falsei cauzaliti, sau ntr-o

form atenuat, a falsei corelaii. Variabile par a fi legate i nu ar trebui s fie. Vreau s atrag

aici atenie asupra necesarei precauii n a defini o legtur ca fiind o fals relaie dintre

variabile. Eu pn n momentul de fa nu am ntlnit false relaii ci doar relaii cu explicaii

teoretice complexe sau neimediate. Sunt aceste explicaii corecte? Nu ntotdeuna, dar nu pot fi

imediat respinse i sunt ca atare mai fertile dect presupunerea unei false cauzaliti.

Exemplul clasic este cel al foarte bunei corelaii empirice dintre numrul de berze i indicele

conjunctural al fertilitii, calculat ca numr de copii nscui unei femei pe parcursul vieii

fertile, calculate pe regiune. Rezultatul, des verificat n practic ar putea fi o dovad cum c

berzele aduc copiii. Cei ce au citit cumini pn aici vor observa c nu este aa. Pe de alt

parte s-ar putea s fie de acord cu faptul c, experimentul n cauz nu poate respinge o

legtur dintre numrul de berze i natalitate. S oferim ns o teorie alternativ. O teorie ct

se poate de acceptabil chiar de ctre simul comun spune c numrul de berze, dar i numrul

de nateri ale unei femei pe parcursul vieii fertile este mai mare n zona rural dect n cea

16

urban. Gradul de urbanizare (sau industrializare) al regiunii studiate ar reprezenta deci o

variabil care le influeneaz pe amndou variabilele din studiul nostru. i mai mult, le

influeneaz n acelai sens creind astfel o relaie pozitiv ntre ele. Nu era deci vorba despre o

cauzalitate direct, dar nici despre o eroare. Pur i simplu, relaia cauzal trebuia explicat

teoretic acceptabil. Adic, testul statistic nu poate alege care din cele dou teorii alternative,

barza aduce copiii respectiv urbanizarea reduce numrul de berze i numrul de nateri a

unei femei este mai bun. Adecvarea cu ansamblul de teorii i ipoteze ale cercetrii are ns

aceast sarcin.

nchei aici, repetnd: testele statistice pot da indicaii despre relaii dintre variabile dar numai

teoria poate construi n termenii unor relaii cauzale i tot teoria trebuie s fie atent la

posibilele determinri cauzale complexe, ce implic nu numai variabilele msurate explicit ci

eventual i altele, poate uneori chiar nemsurabile.

d. Foarte scurt istoric al statisticii.

Probabil c au existat rapoarte statistice nc din vremurile imperiilor antice legate de

impozite i preuri, fapt este c termenul actual de statistic provine din latina nou folosit n

administraia german i italian a secolului al 18-lea, i mai exact din termenul statisticum

collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, n Italia vremii,

statista chiar nsemna om de stat, politician. Se pare c primul care a folosit cuvntul statistic

a fost Gottfried Achenwall n 1749, i anume n limba german, sub forma de Statistik i cu

sensul de analiz a datelor despre stat sau chiar de tiin despre stat. Achenwall (1719-

1772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind att universitar la

Marburg i Gttingen, ct i consilier de curte al principilor electori de Braunschweig-

Lneburg.

Termenul de statistic a fost preluat n alte limbi i, n fine generalizat, cu un sens apropiat

celui pe care l dm astzi acestei metode, pe parcursul secolului al 19-lea.

Practica de a culege i analiza date despre stat exista ns deja n Anglia i era acolo numit

aritmetic politic. Termenul avea o vechime de cel puin un secol cnd Achenwall a inventat

noul nume i pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cri

ce i s-a publicat postum. William Petty nu a fost statistician n sensul metodelor pe care le

17

nelegem astzi ca fiind statistice. A fost ns statistician prin multe dintre temele ce l-au

interesat. Petty a fost i politician, economist, inventator, antreprenor i multe altele i a

folosit tot felul de tehnici ingenioase, chiar dac nu ntotdeuna corecte, pentru a estima, de

exemplu, populaia Londrei.

Pentru ca statistica s fie cea de acum a trebuit ns s se lege mai nti de teoria

probabilitilor. Acest domeniu al matematicii, iniial legat mai mult de jocuri de noroc i

divertismente matematice, i are originile tot n secolul al 17-lea, dei primele scrieri despre

jocuri de noroc se gsesc ntr-o oper postum a lui Girolamo Cardano (1501-1576), Liber de

ludo aleae. Cartea a fost ns publicat abia n 1663, n anii n care apreau i lucrrile unor

Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Acetia din urm sunt creditai

c au moit de fapt teoria probabilitilor prin corespondena pe care au purtat-o asupra

celebrei probleme a Cavalerului de Mr. Problema era: cum trebuie s mpart doi juctori

miza total a unui joc de noroc dac nu vor s joace pn la capt, dar vor ca aceast imprire

s fie proporional cu ansa fiecruia de a ctiga jocul. Pe Pascal se pare c la convins n aa

msur metoda probabilist gsit nct a folosit-o i pentru a argumenta existena lui

Dumnezeu, cu un succes mai de grab incert.

Destul de repede s-a observat c, dei un joc de noroc este determinat de situaii aleatoare,

repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate i aceast

repetare este de fapt baza a ceea ce acum numim observaie statistic. Ideea de observaie

repetat apare deja n prima carte de teorie a probabilitilor publicat de Christiaan Huygens

(1629-1695) n 1657. Ca tiin matematic urmtorii pai au fost fcui de doi celebri

matematicieni Jakob Bernoulli (1654-1705) tot ntr-o lucrare postum, intitulat Ars

Conjectandi i Abraham de Moivre (1667-1754) n Doctrines of Chance (publicat n

Anglia). Aceast din urm carte pune i bazele statisticii n sensul modern al tiinei. n a doua

ediie a crii (1738) apare pentru prima oar o form a distribuiei normale de probabilitate

despre care vom vorbi pe larg i n cartea de fa, dar i un caz particular al teoremei limit

central, o clas de teoreme foarte important pentru statistic, pe care va trebui s o tratm i

noi mcar un pic pentru a nelege diferite fenomene legate de erorile statistice.

i teoria erorilor de observaie se gsete deja n scrieri de la nceputul secolului al 18-lea, i

anume n cteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil

18

statistica, cu sensul de observaie asupra statului de teoria probabilitilor a fost Pierre-Simon

Laplace (1749-1827).

Laplace a fost un om de tiin deosebit de prolific, ceea ce ne intereseaz ns acum este

dezvoltarea de ctre el a unei aa-zise teorii analitice a probabilitilor. ntr-o lucrare din 1812

Laplace descrie mai exact distribuia normal, i, pe lng multe altele, demonstreaz i o

form a metodei celor mai mici ptrate, nc metoda noastr de preferin pentru calculul

ecuaiilor de regresie, precum vom vedea n capitolul al aselea.

Probabil cellalt mare creator al tiinei statisticii a fost Carl Friedrich Gauss (1777-1855).

Considerat uneori cel mai mare matematician al tuturor timpurilor, dei mie personal nu mi

este cunoscut nlimea lui fizic i nu cred c cea intelectual se poate cu adevrat msura,

Gauss a contribuit la aproape toate domeniile matematicii. i el a contribuit la descrierea

distribuiei normale, de aici i numele de curb a lui Gauss ce se d de obicei graficului

distribuiei normale. Tot Gauss a clarificat i ipotezele metodei celor mai mici ptrate. n acest

caz exist ns o anumite disput de primordialitate cu Adrien-Marie Legendre (1752-1833)

care a publicat aceleai rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt

naintea lui Gauss, acesta ns susinea c le tie de mult.

Deja pe parcursul primei pri a secolului al 19-lea rezultatele tiinifice legate de metoda de

cercetare statistic s-au nmulit considerabil. Multe metode au fost dezvoltate, principalele

tehnici puse la punct. Dezvoltarea mare a domeniului a venit ns spre sfritul secolului al 19-

lea i apoi n secolul al 20-lea o dat cu interesul crescut pentru studiul societii, apariia

tiinelor economice moderne i a sociologiei. Atunci apar marile coli statistice crora le

datorm arsenalul actual de metode. Pe de o parte este vorba despre coala englez. Principalii

ei exponeni au fost: Karl Pearson (1857-1936) care a contribuit esenial la teoria corelaiei i

a regresiei i a dezvoltat coeficientul de corelaie r dar i coeficientul Chi2, i Ronald Fischer

(1890-1962) iniiator de fapt al ntregului domeniu al testelor non-parametrice, creator al

distribuiei i testului F i a unei serii ntregi de rezultate eseniale pentru statistica de astzi,

dar i Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiz

factorial dar i coeficientul de corelaie (rho) pentru valori ordinale, numit i coeficient

Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a

dezvoltat metode de verificare a ipotezelor, distribuia Student i testul t, i alii.

19

Dac coala englez de statistic a fost la originea multora dintre metodele statisticii aplicate,

la cellalt capt al continentului, n Rusia, au aprut lucrri eseniale pentru justificarea

tiinific, matematic a calculului statistic. Principalele teoreme ce stau la baza statisticii au

fost demonstrate de matematicienii rui Pafnuty Chebyshev (1821-1894) cu inegalitatea ce i

poart numele i ca o consecin a acesteia, teorema slab a numerelor mari, Andrey Markov

(1856-1922) creatorul lanurilor Markov i n general unul dintre creatorii teoriei proceselor

stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o form general a teoremei

limit central, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la

demonstrarea teoremei tari a numerelor mari i autorul unui criteriu suficient ce i poart

numele, i alii.

Dezvoltarea statisticii a continuat pe parcursul secolului trecut i ca tiin. Mai impresionant

poate ns, statistica a ptruns n contiina public o dat cu utilizarea ei pe scar larg n

cercetrile sociale i cvasi-generalizarea sondajului de opinie ca metod de culegere de

informaii despre societate, ca metod de msurare a societii. Primul sondaj de opinie a fost

efectuat n Statele Unite de revista Literary Digest n 1916 pentru a prevede rezultatul

alegerilor prezideniale. Fr vreo baz teoretic statistic, revista a cerut cititorilor s

returneze redaciei o carte postal - chestionar. Pentru patru alegeri prezideniale la rnd,

metoda a dat rezultate corecte.

Un pas important spre fundamentarea tiinific a sondajului de opinie l-a fcut George H.

Gallup (1901-1984) care n teza lui de doctorat din 1928 a dezvoltat metoda ce st la baza

sondajului de opinie statistic. Primul mare succes al lui Gallup a fost n 1936 cnd a reuit s

prevad corect victoria lui F.D. Roosevelt n alegerile prezideniale, spre deosebire de Digest

care a greit folosind un eantion incomparabil mai mare. Celebru att pentru ncrederea mare

pe care a produs-o de la nceput ct i pentru cteva eecuri memorabile, lui Gallup trebuie s-i

recunoatem meritul de a fi creatorul instituiei sondajului de opinie statistic.

20

Capitolul 2. Tipuri de date

Voi prezenta aici principalele tipuri de date, sau nivele de msurare, cum se mai numete

aceast clasificare. Dei criticat pentru diverse motive aceasta mprire a datelor permite o

nelegere simpl a felului cum se apropie statistica de fenomene.

n 1946, psihologul american Stanley Smith Stevens a propus ntr-un articol mult citat, ludat

i criticat apoi, o teorie a nivelelor de msurare care avea s fie apoi repetat n aproape toate

manualele introductive de statistic (Stevens, 1946). Nu am vrut s m abat de la regul.

Prima dat s vedem totui la ce bun i cum adic?

Este absolut evident c msuratorile pe care se bazeaz statistica nu sunt toate la fel. Din

exemplele mai mult ntmpltoare din capitolul capitolul precedent (greutatea i genul unui

animal, opinia despre un politician) este evident c aparate diferite de msur dau rezultate

care fac parte din categorii ct de poate de diferite de cunoatere. Dac greutatea se exprim n

valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichet, nu nume dat

unei categorii, iar opinia despre politician poate fi exprimat n mai lungi sau mai scurte

propoziii, eventual chiar n grade de genul, mai bun mai puin bun dar nu n valori

numerice concrete. Deci, Stevens a intuit ct se poate de corect, e necesar o clarificare i o

categorisire a acestor nivele de msurare. Tehnic o astfel de categorisire ajut la a stabili ce

metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate prea inutil, dar un

exemplu sper s ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea

sunt exprimate n note. Fie ntrebarea de chestionar chiar cere notarea, ca la coala, a

activitii unui politician, sau a unui guvern sau minister n ntregul lui, fie rspunsurile snt

transformate n note de ctre cercettor ntr-o activitate pe care o numim de regula codare a

rspunsurilor. Rspunsurile la ntrebrile de opinie n final ajung s nu se disting de

rezultatele, eventual rotunjite, ale cntririi unui cine. i totui diferenele acestea sunt

eseniale i nu trebuie uitate1.

Prezentarea nivelelor de msurare n crile introductive de statistic mai are un avantaj.

Permite o exemplificare structurat a datelor cu care lucreaz statistica i o prezentare

coerent a principalelor proprieti ce sunt necesare pentru a putea lucra cu ele.

1 Confuzia dintre date de aceste tipuri e pe larg analizat n foarte reuita carte a lui Darrel Huff How to Lie

with Statistics (1954) care a aprut ntre timp n peste 30 de ediii.

21

a. Date nominale

Datele nominale, numite uneori i categoriale, sunt nume date unor proprieti ale obiectelor,

indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantiti i nici nu au o

ordine implicit. Din exemplele de pn acum, genul este o dat nominal. Indiferent ct de

complex cultural, biologic, comportamental i aa mai departe ar fi categorisirea pe genuri,

dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alii chemai s scrie, ca

tip de dat genul nu e altceva dect un cuvnt desemnnd o categorie. Nu putem face nici

socoteli aritmetice cu genuri, nici comparaii. Masculin nu e mai mare dect feminim, i nici

sume sau medii nu putem face. Chiar daca am codifica la o adic genurile, la modul feminin =

2 i masculin = 1, ca la codurile numerice personale din Romania, o declaraie de forma:

genul mediu ar participanilor la sondaj a fost 1,56 este ilar.

Totui i datele nominale trebuie sa se supun unor reguli, e drept puine i simple, pentru a

putea fi folosite ca date statistice. Acestea sunt:

Excluderea mutual: Categoriile unei date nominale trebuie s se exclud reciproc.

Un cine msurat de noi nu poate fi n acelai timp i mascul i femel, un cetean

interogat ntr-un sondaj de opinie nu poate fi n acelai timp i cstorit i

necstorit.

Completitudinea: Orice individ msurat n cadrul cercetrii trebuie s gseasc o

categorie ce i se potrivete n lista de valori posibile. Eventual se include varianta

altceva, altfel dar lista de valori trebuie s poate acomoda orice situaie.

Condiiile de mai sus nu sunt ntotdeuna uor de pus n practic. Dei cred c par a fi de bun

sim, sunt situaii n care ntrebrile i listele de rspunsuri trebuie formulate cu grij pentru a

nu ntmpina probleme n analiza ulterioar a datelor. De multe ori cercettorii chiar prefer s

pun ntrebrile astfel nct s par ct mai naturale celor ce trebuie s rspund la ele i s

codifice apoi ei nii datele n aa fel nct s corespund cerinelor prelucrrii statistice.

Exemple tipice de date nominale sunt genul, starea civil, naionalitatea, apartenena

religioas. Toate acestea au n comun faptul c pe lng caracterul lor nenumeric nu au nici o

22

ordine acceptat a valorilor. Asta chiar dac unii pot fi de prere c romnii sunt mai

superiori dect bulgarii!

Cu toate c datele nominale pot prea srace din punctul de vedere al posibilitilor

calculatorii ele sunt importante n multe fenomene sociale, economice, etc. i au fost

dezvoltate multe metode statistice care s permit analiza lor sau, mai adesea, s permit

analiza altor date n relaia lor cu categorii nominale. Voi discuta pe larg astfel de metode n

special n capitolul al aptelea al crii.

b. Date ordinale

O a doua grup de date sunt cele care, dei nu sunt numerice, au o ordine bine definit a

valorilor. Sensul de bine definit al unei ordini nu este nicidecum trivial. Matematicienii

neleg printr-o ordine bine definit o ordine care poate fi recunoscut pentru orice dou

valori i mai mult, este i tranzitiv.

Pentru simplificare voi folosi expresia mai mare pentru a descrie ordinea. Atunci o ordine

este bine definit dac ntre oricare dintre valorile de rspuns este clar care este mai mare.

Tranzitivitatea nseamn c daca o valoare este mai mare dect alta, iar aceasta mai mare

dect o a treia, prima valoare va fi n consecin mai mare dect cea de a treia.

n plus fa de condiia de ordine, datele ordinale trebuie s se supun i condiiilor pe care le-

am specificat n cazul datelor nominale, s permit deci numai valori mutual exclusive i lista

acestor valori s fie complet.

Diferena esenial dintre datele ordinale i valorile numerice este aceea c nu are sens

calculul distanei dintre dou valori, respectiv distanele dintre valori consecutive nu se pot

presupune a fi egale. Un exemplu va face mai clar aceast distincie. O ntrebare tipic

pentru un rspuns ordinal este cea legat de ncrederea ntr-un politician. S presupunem c

rspunsurile posibile sunt: foarte puin, puin, nici puin, nici mult, mult, foarte

mult. Se vede imediat c lista de valori este ordonat bine, ntre orice dou valori ordinea e

evident i tot evident este i proprietatea de tranzitivitate. Tot att de clar este c fiecare

intervievat va trebui sa decid de fapt care e opinia lui, foarte probabil fiind c pn n

momentul interogrii el s nu-i fi pus problema ncrederii n termenii ntrebrii. Aceast

23

nevoie de a decide difereniaz pe cei chestionai de cei ce nu sunt chestionai i pune

probleme n generalizarea rezultatelor la nivelul populaiei adic i asupra celor ce nu au fost

de fapt chestionai i nu au trebuit s se decid n contact cu ntrebarea pus n forma dat. Un

mod de a contientiza aceasta este de a nu conferi valorilor de rspuns un sens absolut

matematic, ci de a le considera interpretri personale ale celor ce au rspuns. Asta nseamn

c pentru doi intervievai diferii sensul unei valori de rspuns poate fi oarecum diferit, de

exemplu, pragul de la foarte puin la puin ncredere s fie diferit, distana dintre dou

categorii s fie diferit. Intervievatul care alege un rspuns nu face altceva dect s i

poziioneze opinia ntr-o ordine i numai caracterul de ordine al valorilor de rspuns poate fi

presupus n analiz. n ansamblu nu se poate deci presupune c exist distane ntre valori

ntr-un sens matematic. Dei se face des, traducerea valorilor de rspuns n cifre, de exemplu

de la 1 la 5 n cazul nostru, este riscant i duce la greeli importante. Calculul unor medii

aritmetice a rspunsurilor este una din greelile cele mai uzuale pe care le fac cercettorii n

tiine sociale, de multe ori chiar contieni de abuzul implicat. Scuza uzual pentru aceast

greeal este aceea c nsumnd opinii ale unui numr mare de persoane, distanele dintre

variantele de rspuns, ntr-adevr diferite de la o persoan la alta, se nsumeaz i dau o medie

statistic egal. Din pcate ns nu este aa. Exist devieri sistematice de la aceast distan

presupus egal ntre variantele de rspuns. i anume, valorile extreme, de tipul foarte puin

ncredere sau foarte mult ncredere snt adesea mai ndeprtate de valorile proxime

puin ncredere, respectiv mult ncredere dect snt acestea de valoarea median, neutr.

Mai grav nc, n cazul n care o anumit ntrebare este receptat ca fiind legat de o presiune

social, distanele din scal se defazeaz n sensul acestei presiuni.

Ca i n exemplul anterior, majoritatea ntrebrilor care produc rspunsuri ordinale se bazeaz

pe aa zise scalograme, adic liste standardizate de rspunsuri. Cele mai obiuite, mai des

folosite, sunt scalele Likert, dezvoltate deja n 1932. Scala Likert este o scal a nivelului de

acord cu o propoziie. Un exemplu simplu ar fi urmtorul:

Suntei de acord cu faptul c Traian Bsescu este un politician dedicat binelui rii noastre?

a. Nu sunt deloc de acord

c. Nu sunt de acord

d. Nici de acord, nici nu

e. Sunt de acord

f. Sunt absolut de acord.

24

Formulrile pot diferi, de regul ns este vorba despre o scal ordinal cu un numr impar de

valori. Cel mai adesea sunt 5 valori, unii cercettori din domeniul psihologiei n special,

prefer totui scale cu 7 valori. Valoarea median, adic cea din mijlocul scalei este

ntotdeuna o valoare neutr. Acordul sau dezacordul sunt exprimate verbal n forme ct mai

clare i simple de grade diferite de radicalitate. Uneori se alege contient eliminarea valorii

mediane. n acest caz se vorbete de o scal Likert cu opiune forat. Intervievaii sunt atunci

obligai s adopte o poziie chiar daca ar prefera neutralitatea.

Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniial

de sociologul i psihologul Louis Guttman ntr-un articol din 1944. Guttman pune cteva

condiii simple pentru ceea ce este o scal Guttman perfect, i anume:

O scal Guttman este o list ordonat de propoziii cu care intervievatul poate fi de

acord sau nu.

S presupunem c avem 10 astfel de ntrebri. Dac intervievatul este de acord cu

propoziia 7, dar nu i cu propoziia 8, logica scalei presupune c el este de acord cu

toate propoziiile 1-7 i nu cu propoziiile 8-10. n aceste condiii scorul lui va fi 7.

Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variant mai

permisiv i mai apropiat de realitate este modelul lui Rasch care presupune o scal de tip

Guttman probabilist, adic n care relaiile dintre rspunsuri au un caracter probabilist.

Un exemplu celebru de scal de tip Guttman este des folosit n analiza relaiilor dintre grupuri

etnice, religioase, naionale, etc. Aceasta este scala Bogardus (dup sociologul american care

a dezvoltat-o), numit i scal a distanei sociale, care se bazeaz pe o lista de ntrebri de

urmtoarea form:

Ai fi de acord ca un .......... (aici se completeaz categoria fa de care se estimeaz distana

social, de exemplu maghiar, rrom, baptist, homosexual):

S v devin rud prin alian (rspunsul da valoare 1).

S v fie prieten apropiat (2)

S locuiasc pe aceiai strada (3)

S v fie coleg de servici (4)

25

S fie cetean al rii noastre (5)

S fie doar turist n ara noastr (6)

S fie expulzat din ara noastr (7)

Valori ordinale se pot ns obine i n alte situaii. De fapt cazul cel mai cunoscut de valoare

ordinal este cel al notelor i calificativelor date elevilor i studenilor. i este i cel mai

cunoscut abuz de utilizare a unor valori ordinale. Dei probabil o mare parte a profesorilor ar

fi de acord, cel puin eu a fi, c distana dintre un 4 i un 5 nu este aceiai cu distana dintre

un 7 i un 8, sau dintre un 9 i un 10, medii aritmetice ale notelor se calculeaz n mod uzual

i se mai i folosesc pentru a lua decizii importante pentru viaa celor notai. Problema

utilizrii mediei aritmetice pentru date ordinale este ns o problem care a produs multe

controverse. Dup prerea mea principalul motiv este prezena att de rspndit a datelor

ordinale, probabil cele mai des ntlnite n cercetrile sociale, i frustrarea de a renuna la o

form de prezentare att de simpl de calculat i neles cum este media aritmetic. Trebuie

ns menionat c exist o serie ntreag de metode puternice care lucreaz cu date ordinale i

nu fac presupuneri suplimentare despre distanele dintre valori.

Alte exemple de date ordinale snt: nivelul de educaie (dac formularea rspunsurilor este

bine ordonat), respectiv topurile de preferine (nu i cele de vnzri, la care se poate calcula o

diferen ntre poziii clar exprimat n uniti vndute).

c. Date intervalice

Ultimele dou categorii ale clasificrii lui Stevens se refer la date numerice i diferenierea

pe care a impus-o ntre datele intervalice i cele raionale este i una dintre cele mai

controversate ale teoriei nivelelor de msurare. Cu toate acestea, s vedem despre ce e vorba.

n definiia iniial, datele intervalice sunt date numerice care au punct zero convenional. Mai

simplu spus, zero-ul intervalic nu nseamn o lips a caracteristicii ci este o valoare ca

oricare alta. Un cine care are greutatea zero nu este un cine, cel puin dup prerea mea. Ca

atare greutatea nu este o valoare intervalic. Dac ns cineva s-a nscut la ora zero, nu

nseamn c nu s-a nscut de loc. Ora zero este convenional i nu nseamn absena

indicaiei de timp. Deci datele calendaristice, sau de or sunt date intervalice. Ele evident sunt

altfel dect celelalte date numerice de msurare.

26

Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete i

bine ordonate. Chiar i caracterul convenional al notrii numerice este prezent. Diferena este

ns distana calculabil ntre dou valori intervalice. ntre dou momente n timp se poate

calcula o distan, fie ea n minute, secunde sau alte uniti de msur i o distan de o

anumit mrime, de exemplu 5 minute, este aceiai indiferent pentru ce valori de timp a fost

calculat. Pstrnd toate celelalte condiii egale, dac un ou fierbe n 5 minute la ora 14, el va

ajunge la fel de tare dup 5 minute de fierbere i la ora 7. Atenie ns, chiar dac momentele

ora 14 i ora 7 snt indicaii intervalice, nu astfel este i durata de 5 minute. Aceasta

este o dat numeric raional, cum vom vedea c se numesc acestea. Adic, un ou care fierbe

zero minute chiar nu fierbe de loc!

Alte date intervalice sunt gradul de longitudine i latitudine geografic, fusul orar, temperatura

precum i alte date convenionale.

Deoarece datele intervalice au distane corect calculabile ntre ele, pot fi folosite n aproape

orice calcule matematice. Problematic rmne utilizarea lor n mpriri i nmuliri, deorece

ele nu au sensul de cantitate pe care il acordm de obicei datelor numerice. Astfel un cine de

40kg cntrete ntr-adevr ct doi cini de cte 20kg. Pe de alt parte, ora 14 nu este ct dou

ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halb de bere sunt 2 litri de

bere, ns de patru ori deteptarea la ora 3 dimineaa nu face ct o trezire la ora 12.

d. Date raionale

Din prezentarea de pn acum nu am avut cum exclude referiri la datele raionale. Acestea

sunt datele numerice, cantitative, obinuite. Ele apar des n cercetarea social sau economic,

i cu att mai mult n ecologie sau medicin i sunt cele pentru care s-au dezvoltat cele mai

multe dintre tehnicile i testele statistice. Absolut orice calcule matematice se pot face cu

aceste valori.

Greutatea cinilor, banii din portofel, valoarea produsului intern brut, numrul de locuitori ai

unui ora sau de restane al unui student sunt toate valori raionale. Ele sunt rezultate ale unor

msurtori cantitative, sau adesea al unor numrtori. Valoarea zero nu este o convenie, un

student cu zero restane este chiar un student cu o vacan lung i relaxant.

27

De obicei caracterul discret sau continuu al valorilor unor date raionale nu se tematizeaz la

nivelul statisticii aplicate introductive. Dei unele metode presupun date continue, cum este

cazul metodelor de regresie, se face cel mai adesea abstracie de la aceast presupoziie.

Exist rezultate matematice suficient de bine fundamentate care permit o atare abordare fr

pericolul de a grei semnificativ. i apoi continuitatea datelor nu nseamn statistic mai mult

dect c valoarea msurat poate fi orict i nu numai anumite valori, de exemplu numere

ntregi. O asemenea condiie nu este de fel restrictiv.

28

Capitolul 3. Culegerea datelor statistice. Sondajul de opinie

Datele statistice pot proveni din surse oficiale, cum sunt institutele naionale de statistic sau

organizaiile internaionale, i atunci se refer de obicei la un ansamblu complet de obiecte,

indivizi sau fenomene sau pot proveni din aa-zise sondaje statistice. n primul caz, dei

culegerea datelor este de obicei laborioas, tiinific justificarea utilizrii lor nu pune

probleme deosebite pentru statistician. Pe de alt parte, tehnica sondajului este una mult mai

pretenioas i matematic mai complicat. Cu att mai mult cu ct unii care fac sondaje i

majoritatea celor ce le citesc uit de principalele probleme implicate n validitatea lor.

1. Statistici de recensmnt si statistici de sondaj. Generalizarea statistic i limitele ei.

Cum am mai scris i mai sus, metoda specific de culegere a datelor n statistic este sondajul.

Acesta se bazeaz pe o serie de teoreme matematice care permit, n condiii foarte bine

specificate, care n realitate nu snt niciodat perfect ndeplinite, generalizarea rezultatelor de

la nivelul eantionului, adic a mulimii celor chestionai la nivelul populaiei, adic a

mulimii care reprezint inta cercetrii.

Prima definiie necesar pentru a continua este cea a populaiei. n orice cercetare statistic

populaia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetrii,

asupra crora se refer ipotezele i teoriile ei. Dac de exemplu, vrem s facem o cercetare

legat de consumul de ap mineral n Romnia, populaia studiului va fi ntreaga populaie a

rii, de vrea 21 de milioane, ct e ea. Dac ns cercetarea are caracter politic, probabil a

dori s restrng populaia la persoanele cu drept de vot, electoratul romn, adic numai vreo

17,5 milioane. De la caz la caz, populaia unei cercetri poate fi mulimea locuitorilor unui

ora, mulimea juctorilor de fotbal sau a studenilor unei faculti, dar exist i cercetri cu

alte nivele de agregare la care populaia poate fi mulimea intreprinderilor mici i mijlocii

dintr-o regiune, mulimea judeelor Romaniei sau chiar a rilor europene. Stabilirea

populaiei cercetate este un prim pas n orice studiu statistic. Este de fapt rspunsul la

ntrebarea: despre cine am dori s putem spune ceva? i de aici decurge alegerea celor care

vor fi msurai (adic vor rspunde la ntrebri) dar i felul cum se fac msuratorile (adic se

pun ntrebrile) i interpretarea rezultatelor. Alegerea populaiei este o decizie ce ine de

substratul teoretic al studiului dar n acelai timp determin teoriile ce vor fi folosite n

continuare pe parcursul proiectrii cercetrii.

29

Nu toate cercetrile statistice sunt bazate pe date culese prin sondaj. O mare parte dintre

metodele folosite att pentru descrierea datelor ct i pentru testarea unor teorii se aplic, cu la

fel de mult succes, i pe alte tipuri de date. Este vorba despre ceea ce numim date de

recensmnt. Suntem obinuii cu acest termen ca desemnnd o chestionare periodic, dar

totui rar, a ntregii populaii a rii pe teme legate mai mult de statutul social-economic.

Conceptul are ns o definiie ceva mai larg. Un recensmnt este o cercetare care presupune

intervievarea (sau mai general, msurarea) tuturor membrilor populaiei studiate. Deci tehnic

un studiu care trateaz statele europene folosind date culese din toate aceste state este un

recensmnt la fel cum tot recensmnt este un studiu care intervieveaz toi studenii unei

anumite faculti att timp ct rezultatele nu se doresc a fi generalizate pentru alte grupuri de

studeni. Dei n cazul recensmntului inducia statistic nu are rolul pe care i l-am pomenit

n introducere, exist aa cum am mai spus i aici un anumit nivel de generalizare. Anume,

prin faptul c folosim modele mai mult sau mai puin simple pentru indivizii studiai i

ncercm totui s tragem concluzii despre comportamentul lor sau despre opiniile lor.

Tot ce am putea tii, de exemplu, despre studenii facultii de tiine politice din Timioara

sunt rspunsurile pe care acetia le dau la un chestionar. Am putea totui s ncercm s

verificm dac pentru acetia se poate susine faptul c cei ce lucreaz n perioada studeniei

sunt mai puin interesai de problemele legate de organizarea academic. Este posibil o astfel

de cercetare? Desigur. Este sigur c se poate rspunde la ntrebare? Evident, nu. ntrebarea

este o ipotez de lucru, s-ar putea s poat fi respins, s-ar putea ns s nu se poat face acest

lucru. Indiferent ns de aceasta, rezultatele se vor referi numai la studenii chestionai i nu se

vor putea generaliza, dup regulile statisticii cel puin, la ali studeni, din alte faculti sau

alte orae.

n unele cazuri, probabil pentru a evita confuzia curent cu recensmintele naionale

menionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot nelegndu-se de

fapt populaia care este n acelai timp i eantion al cercetrii.

n general un eantion este mulimea aleas prin vreo metod oarecare, a celor ce vor fi

chestionai (sau msurai) n cadrul unei cercetri. Dac de exemplu, la o fabric de ciorapi

trebuie fcut un studiu statistic al egalitii lungimii ciorapului stng cu ciorapul drept,

probabil c s-ar decide c este suficient msurarea unui eantion i nu al ntregii populaii

30

ciorpeti. S-ar putea alege, i ar fi chiar cea mai bun metod, de pe banda de producie tot a

o mia pereche de ciorapi pn cnd se ajunge la un numr dorit, de exemplu tot o mie de

perechi. Perechile de ciorapi msurai vor forma eantionul, producia ce are loc n perioada n

care se aleg perechile de ciorapi e populaia cercetat. Exist multe metode de a alege un

eantion, unele mai bune, altele mai puin, unele mai simple, altele mai puin. Vom reveni la

acestea n partea a dou a acestui capitol.

Pentru moment s ncerc s explic de ce putem face asta. De ce e suficient s msurm o mie

de ciorapi ca s spunem ceva despre cteva sute de mii, sau de ce un institut de sondare a

opiniei publice e suficient s ntrebe nu mult mai mult de o mie de oameni pentru a prevedea

suficient de bine rezultatul unor alegeri prezideniale? Explicaia st n cteva teoreme

matematice. Ele snt n general cunoscute ca fiind legile numerelor mari, teorema

fundamental a statisticii i teorema limit central. Nu cred c a fi de prea mare folos

cititorilor acestei cri dac le-a enuna matematic corect. Voi ncerca deci numai s le

povestesc.

Legile numerelor mari snt o serie ntreg de teoreme, probabil prima fiind enunat de

Bernoulli n 1713. Toate aceste teoreme spun lucruri asemntoare. Ele de fapt vorbesc despre

repetarea unor experimente, de exemplu aruncarea unui zar. Esenial este ca repetarea aceast

s se fac n aa fel nct fiecare aruncare de zar (sau ce experiment ar fi) s fie independent

de celelalte. Dac e aa i notm rezultatele, pe msur ce numrul de experimente crete felul

cum se distribuie rezultatele observate se apropie din ce n ce mai mult de felul cum sunt

distribuie toate rezultatele posibile. n cazul unui zar bine echilibrat, pe msur ce repetm

aruncarea cu zarul ne apropiem din ce n ce mai mult de o distribuie n care fiecare faet

apare de un numr egal de ori. Traducerea n statistic e simpl. Fie o informaie oarecare de

interes pentru cercetarea noastr, o dat statistic cum i-am spus pn acum, sau o variabil

cum i se mai spune. Ea este cumva distribuit n populaie (de exemplu genul e distribuit cam

jumtate jumtate, perechile de ciorapi inegali sunt cam 5% din producie, etc.). Ei bine

legile numerelor mari ne asigur de faptul c dac alegem s chestionm (msurm) un numr

de indivizi (perechi de ciorapi) atunci att timp ct alegerea unui individ este independent de

celelalte alegeri, pe msur ce numrul celor alei crete, distribuia rezultatelor de msurare

se aproprie de distribuia valorilor n ntreaga populaie. Simplu spus asta nseamn c un

eantion mai mare e mai bun dect unul mai mic. Dar mai spune dou lucruri eseniale. O

dat, faptul c adugnd la eantion n mod corect nu ne ndeprtm de la distribuia pe care

31

dorim s o aflm ci ne tot apropiem de ea i n al doilea rnd, mai important, ne spune cum

trebuie s alegem eantionul. Anume astfel nct fiecare alegere s fie independent. Din

pcate, aa cum vom vedea asta nu este chiar aa uor n statistic ca la aruncarea cu zaruri.

O form a legii numerelor mari, cunoscut i ca teorema Glivenko-Cantelli a fost adesea

numit teorema fundamental a statisticii. Ea ne asigur inc mai bine de apropierea aceasta a

distribuiei valorilor observate de cele existente n populaie, apropiere ce n matematic se

numete convergen. Teorema Glivenko-Cantelli ne spune c aceast convergen este

uniform pe msur ce crete volumul eantionului. Bun, deci, din cele de pn acum tim c

msurnd un eantion din ce n ce mai mare ne apropiem din ce n ce mai mult i uniform de

felul cum variabilele ce ne intereseaz sunt distribuite n populaie, atta timp ct fiecare

element din eantion l-am ales independent de celelalte (vom spune n general c eantionul e

ales aleator, la nimereal). Pare de bun sim, cred. ntrebarea mare ce se pune acum este, ct

de mare trebuie s fie eantionul astfel nct apropierea s fie suficient de bun? Altfel,

desigur, dac pentru o populaie de 21 de milioane, distribuia din eantion se apropie de

distribuia din populaie pe msur ce se adun milioanele de chestionare nu am rezolvat prea

mare lucru.

Aici intervine teorema limit central. i ea face parte dintr-un grup de teoreme numit n

general teoreme limit central. Pentru a deosebi teorema cea mai important dintre acestea, o

teorema enunat i demonstrat de Lyapunov la nceputul secolului 20, ea se scrie adesea cu

litere mari (Teorema Limit Central!). Ea ne spune c n anumite condiii, importante pentru

matematicieni, o sum de variabile aleatoare necunoscute, dar independente tinde la o

distribuie normal cnd numrul acestor variabile tinde la infinit. Condiiile pomenite nu sunt

de fapt foarte restrictive, ele spun c variabilele nsumate trebuie chiar s fie oricum, la

nimereala i faptul c trebuie s aib aceiai medie i dispersie. Aceasta, a doua condiie nu

este de fapt chiar att de restrictiv, dei poate prea. De fapt ea nu este restrictiv pentru c

orice variabil aleatoare poate fi mpins spre stnga sau dreapta graficului ei prin simpla

adunare sau scdere a unei valori numerice. Nu se schimb cu nimic caracteristicile variabilei,

pur i simplu graficul se mpinge ncoace sau ncolo. Deci orice variabil poate fi adus la

aceiai valoare medie fr a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu

mult, aa c nu o mai comentm aici. Bun, deci, le insumm i iese ceva numit distribuie

normal, o distribuie despre care vom mai vorbi. Precum vedem ea este foarte important n

statistic. Nu e foarte simpl matematic, dar pentru majoritatea utilizatorilor de statistic e

32

suficient s cunoasc cteva din principalele ei proprietti. i pe moment cel mai important

este c e cunoscut. E foarte important. S relum de fapt ideea. Avem un numr de tot felul

de variabile despre care nu tim mai nimic i dac le adunm toate iese ceva cunoscut. Asta e

foarte confortabil pentru c la urma urmei n orice cercetare ce presupune studierea

comportamentului unor oameni putem s fim destul de siguri c sunt o gramad de variabile

pe care nu le-am putut msura i nc i mai multe la care nu ne-am putut nici mcar gndi. Ei

bine, astea toate nsumate n efectele lor produc ceva cunoscut. Deci, grija mare c sunt attea

i attea care nu pot fi luate n seam nu e chiar aa de justificat.

Aceast grmad de variabile sunt de fapt eroarea care trebuie luat n seam cnd ncercm s

estimm o valoare. Prin faptul c se poate estima corect forma sumei variabilelor care nu le

lum n seam n mod explicit se obine i formula care permite estimarea erorii. Cum am

vzut din teoremele numerelor mari aceast eroare este legat de volumul eantionului. Deci

aici putem estima volumul unei eantion pentru a obine cu probabilitate mare o anumit

precizie a cercetrii statistice.

33

2. Cum facem un sondaj de opinie simplu i corect?

1. Eantionarea aleatoare

Din considerentele (aproape) matematice din seciunea precedent putem s extragem o

concluzie esenial pentru tehnica sondajului de opinie. Anume, garania matematic pentru

posibilitatea unei estimri statistice corecte este ca alegerea eantionului studiat s fie pur

aleatoare, adic s nu depind chiar de nimic.

Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei.

Premisele sunt urmtoarele. Avem o urn din care se pot extrage bile i n care se gsesc un

numr de bile de diverse categorii. De exemplu, bile albe i negre. Extragem din urn cte o

bil, notm culoarea ei i o introducem la loc. Legea numerelor mari ne asigur c repetnd

operaia asta de multe ori vom obine o bun estimare a distribuiei bilelor n urn. Modelul

acesta se numete schema bilei rentoarse i introducerea bilei la loc n urn este esenial

pentru c astfel ansa de a alege o bil de o anumit culoare rmne cea de la nceput pentru

fiecare extragere. Dac ne-am imagina o urn cu un numr foarte mare de bile din care

extragem un numr relativ mic, am putea presupune c distribuia rmne aproape

neschimbat chiar dac bila nu se introduce la loc, adic dac aceiai bil nu mai poate fi

extras de mai multe ori. Aceasta este situaia unui sondaj real.

Ideal ar fi deci s avem un recipient mare de tot n care stau cumini toi membrii populaiei

pe care dorim s o studiem i s extragem de acolo rnd pe rnd cte unul, s-l interogm i s-

l punem la loc. Aceasta este ns posibil numai parial. S vedem ce corecturi sunt necesare

pentru a putea s ne apropiem ct mai mult de acest modelul teoretic.

n primul rnd, n oala noastr nu va sta chiar toat populaia pe care vrem s o cercetm. (i

spun oal, pentru c urn mi se pare prea morbid, i recipient prea pretenios.) Exist dou

feluri de aborda problema asta. Pe de o parte, e normal s ncercm s lum o oal ct mai

cuprinztoare, pe de alt parte e la fel de normal s redefinim populaia n funcie de oala

aleas. Hai s dau cteva exemple.

S zicem c dorim s aflm ceva despre populaia oraului Timioara. S alegem recipientul

din care extragem subiecii cercetrii. De exemplu, Piaa Operei. Punem operatori de sondaj

34

n pia i i nvm s abordeze ceteni n mod aleator. Indiferent cte ore ar sta operatorii

notrii n pia i indiferent n ce zile ar sta acolo, recipientul acesta nu va conine toat

populaia Timiorii n nici un caz. Mai mult, cei ce trec prin pia vor fi probabil persoane

care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, s fie n

special persoane care nu sunt angajate n munc: studeni, elevi, pensionari, amatori de fotbal,

actori i statisticieni. Pur i simplu, faptul de a trece n Timioara prin Piaa Operei e deja un

anumit mod de comportament i ar putea influena i alte comportamente i opiuni ale celor

alei s rspund la chestionar. Un astfel de eantion nu va fi reprezentativ pentru ntreaga

populaie a oraului. Oala e pur i simplu prea mic. Pe de alt parte, nu tiu dac clientul

cuiva ar fi mulumit cu aseriuni de genul: o treime din cei ce trec prin Piaa Operei ziua n

amiaza mare ar cumpra detergentul ....

Bun, e preferabil deci s alegem alt oal. O opiune care se ofer este cartea de telefon. Fie

deci, cartea de telefon, oala din care se aleg la nimereal numere de telefon. Intervievarea prin

telefon are i avantajul de a fi rapid i confortabil. Este ns oala asta destul de mare?

Depinde. Practic punnd astfel problema redefinim populaia de la populaia oraului

Timioara la populaia oraului Timioara abonat la Romtelecom. Aceast populaie

poate fi o mai bun sau mai proast aproximare a populaiei iniiale dar nu va fi n nici un caz

o aproximare statistic pentru c apartenena la cea de a doua populaie nu este una aleatoare

fa de prima populaie. Mai simplu, populaia celor care au telefon n Timioara nu a fost

aleas n mod ntmpltor din toat populaia oraului, persoanele cu pricina au avut de fcut

pai administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit

minim, poate chiar un efort logistic. Deci putem linistit presupune c cei ce au telefon sunt

altfel dect cei ce nu au. Deci, cele dou populaii nu sunt interanjabile. Posesorii de telefon

vor avea probabil n medie un venit mai mare, vor fi localizai n anumite cartiere, etc. Totui,

clientul nostru s-ar putea s fie mulumit de rezultate obinute pe populaia restrns att timp

ct volumul ei este suficient de apropiat de volumul populaiei iniial considerate. La nceputul

anilor 1990 a fi fost clar mpotriva intervievrii telefonice. Pe vremea respectiv foarte multe

familii nu aveau telefon dei ar fi dorit s aib, iar cei ce aveau telefon aveau n mod clar

caracteristici particulare, de obicei de natur profesional. Dei aceasta poate s fie teoretic

adevrat n continuare, deoarece numrul de abonamente telefonice n mediul urban se

apropie foarte mult de numrul total de gospodrii, redefinirea populaiei nu este una care s

deranjeze prea mult. Discrepana dintre mediul urban i cel rural rmne ns att de mare nct

35

un sondaj pe o populaie ce include i mediul rural, ca de exemplu, populaia unui jude, nu se

poate n nici un caz efectua telefonic.

O alternativ similar cu cartea de telefon dar, cel puin teoretic mai bun este folosirea

listelor de alegtori. Din pcate, aa cum s-a vzut la alegeri, migraia populaiei intern i

internaional a fcut ca listele electorale s fie destul de greu practicabile, adresele de pe liste

nepotrivindu-se adesea situaiei din realitate. Apoi, obinerea listelor electorale pentru o

cercetare oarecare nu este ceva chiar aa de uor. Important de notat c listele cu toat

populaia, cum sunt listele electorale sau crile de telefon, se numesc cadre de eantionare

i au marele avantaj de a uura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintr-

un cadru de eantionare este posibil.

S revenim ns la alegerea recipientului. Daca nici cadre de eantionare bune nu sunt ce se

poate face? Se poate, de fapt, defini oala astfel nct s cuprind chiar pe toat lumea?

Probabil nu. Aproximaia cea mai bun este de a considera oraul, judeul sau ara n

distribuia ei teritorial ca fiind chiar oala i a alegere de aici pe baza adreselor gospodriilor.

Alegerea unei adrese va fi de fapt o metaforic extragere din urn. Evident, nici aa nu avem

chiar urna teoretic n care se afl toate bilele. Lipsesc cei ce nu se afl la domiciliul stabil sau

nu au un domiciliu stabil, fie ei nomazi prin modul lor de via, plecai n concedii sau la

munc n strintate. Aa cum tim, n cazul Romaniei de astzi numrul acestora este

important i redefinirea populaiei este esenial n acest caz, dar de obicei ea este ntru totul

acceptabil. Oala geografic va nsemna parcurgerea oraului pe baza unui itinerariu.

Operatorul va parcurge strzile - locuinele i va alege - extrage dintre ele. Bineneles, din

motive practice va trebui ales un punct de unde pornete operatorul n itinerariul lui. Pentru c

se lucreaz cu mai muli operatori i pentru c exist prejudecata cum c o distribuie

geografic uniform ar nbunti relevana sondajului, se aleg de obicei puncte de pornire pe

cartiere. Ideal ar fi ca aceste puncte s fie alese chiar aleator, de exemplu aruncnd cu un dart

pe un plan al oraului. Pe de alt parte, distribuia uniform a punctelor de pornire, dei nu

este justificat matematic elimina riscul ca doi operatori s ajung la aceiai familie!

Am vzut problemele legate de metaforica noastr urn, s vedem cum arat alegerea din

urn, extragerea aleatoare. n forma teoretic atunci cnd experimentatorul bag mna n urn

el nu simte nici o diferen ntre bile. Toate sunt la fel, alegerea nu are loc pe baza unei

caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde dect cele

36

albe. Regula esenial a alegerii aleatoare, se poate exprima astfel: fiecare membru al

populaiei trebuie s aib aceiai ans s fie ales n eantion. Pare simplu, nu e. Numai

dac avem un cadru de eantionare aceasta se poate face (aproape) perfect. Atunci un

generator de numere aleatoare pe calculator ne poate alege un eantion ct de mare vrem.

Aceasta ar fi o eantionare aleatoare perfect. Mai exist o variant la fel de bun, dar mai

puin laborioas. Dat fiind construcia listelor, fie electorale, fie telefonice, care se face

alfabetic, poziia unei persoane n list nu e legat de anumite caracteristici. De aceea se poate

folosi o metod mai simpl, aa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim

nume. Apoi se aplic un pas de eantionare. Acesta se calculeaz ca raport dintre volumul

populaiei i volumul eantionului. De exemplu, n Timioara sunt aproximativ 140.000 de

abonamente telefonice. Daca dorim un eantion de 1000 de persoane, pasul de eantionare va

fi de 140. Punem n eantion, de exemplu, primul numr telefonic din carte, apoi numrul al

141-lea, apoi al 281-lea, i aa mai departe. ansa unui numr de a fi ales depinde de alegerea

primului numr, aceste se alege din valori ntre 1 i 140. Oricum toate numerele de telefon au

aceiai ans de a fi alese independent cui aparin, i n mod evident, ceea ce e cel mai

important, nu conteaz nici un fel de caracteristici social-economice, etnice sau

comportamentale ale celor alei.

S ne gndim la varianta pe care am considerat-o cea mai bun pentru alegerea urnei, anume

parcurgerea geografic a localitii. n acest caz avantajul de a lucra cu situaia real a

adreselor este i motivul principalului dezavantaj. Anume, nu exist un cadru de eantionare

ceea ce face alegerea simpl aleatoare sau pseudo-aleatoare imposibil. Cum alegem

locuinele ca s dm tuturor aceiai ans, i o dat aleas o locuin cum dm tuturor

locatarilor aceiai ans? Esenial este desigur ca alegerea s nu fie influenat de caliti ale

locuirii i persoanelor. Adic, casele mai drgue s nu fie favorizate fa de cele mai

nentreinute, persoanele mai primitoare fa de cele mai puin primitoare, eventual chiar

unele etnii fa de altele! Metoda care se folosete este construirea unui itinerariu-algoritm. E

ca i cum am face o alegere pseudo-aleatoare n care pasul de eantionar

Date post:	11-Oct-2015
Category:	Documents
Upload:	daniela-danutza
View:	73 times
Download:	11 times

Carte de Statistica

Documents