Date post: | 11-Oct-2015 |
Category: |
Documents |
Upload: | daniela-danutza |
View: | 73 times |
Download: | 11 times |
1
Carte de Statistic
Reete ncercate
Robert D. Reisz
Cuprins
Cuvnt nainte
1. Introducere.
a. Ce este statistica?
b. Cum cunoate statistica?
c. Cauzalitate i statistica.
d. Foarte scurt istoric al statisticii.
2. Ingredientele statisticii. Tipuri de date.
a. Date nominale
b. Date ordinale
c. Date intervalice
d. Date raionale
3. Culegerea datelor statistice. Sondajul de opinie.
a. Statistici de lot si statistici de sondaj. Generalizarea statistic i limitele ei.
b. Cum facem un sondaj de opinie simplu i corect? Eantionare, chestionar,
aplicare.
4. Aperitive. Primii pai n descrierea datelor statistice
a. Imagini de ansamblu asupra datelor.
i. Frecvene simple.
ii. Reprezentri grafice
b. Indicatori agregai
i. Tendina central
ii. Distribuia datelor
2
5. Supe, ciorbe i teste statistice simple.
a. Distribuia normal
b. Teste statistice t pentru medii i Z pentru proporii.
c. Calculul erorii unui sondaj si interpretarea ei.
6. Feluri principale i garnituri sau relaia dintre mai multe variabile
a. Grafice pentru mai multe variabile.
b. Tabele de relaionare.
c. Analiza de varian. Testul ANOVA unifactorial.
d. Corelaia simpl i parial. Coeficienii de corelaie.
e. Regresia liniar simpl i multipl.
7. Pentru vegetarieni. Analiza datelor nenumerice.
a. Testul Chi2
b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis
c. Regresia categorial.
8. Analiza seriilor de timp
a. Ce e o serie de timp? Identificarea de patternuri n serii de timp
b. Trend i sezonalitate
c. Regresii cu serii de timp
d. Analiza de supravieuire
9. Clasificarea datelor.
a. Clustere ierarhice
b. Clustering cu centre de clustere
10. Deserturi.
3
Cuvnt nainte
La primul curs de statistic pe care l-am inut la facultatea de tiine politice de la
Universitatea de Vest din Timioara o student mi-a spus pe un ton ct se poate de tranant:
habar nu are de matematic, nici nu vrea s nvee aa ceva i oricum a venit la facultatea de
tiine politice tocmai ca s scape de matematic i alte asemenea tiine exacte. Sunt convins
c aceast experien a mea e departe de a fi unic. Am ncercat pe parcursul celor dou
semestre s o conving pe ea i pe colegii ei, de obicei de aceiai prere cu ea, de utilitatea
statisticii i de simplitatea ei. Sunt convins c nu am reuit sau nu ntru totul, dar tiu de
asemenea c am reuit s i familiarizez cu conceptele de baz ale statisticii i modul cum
acestea funcioneaz n logica cercetrii sociale.
Cartea aceasta se adreseaz tocmai celor ce se tem de calculul matematic sau sunt doar
neexersai in el, precum i celor ce fac primii pai n lucrul cu metode tiinifice cantitative in
cunoaterea social. Cartea mea vrea s fie uor de citit, dar n primul rnd uor de nvat i
de aplicat. Voi prezenta n paginile ce urmeaz principalele metode folosite n statistic,
metode utilizate n cercetrile din tiinele sociale i nu numai; reetarul de baz pentru
lucrrile de cercetare din sociologie, psihologie, tiine politice, economice dar i medicin i
alte tiine ce se bazeaz pe cunoaterea empiric a realitii.
Voi insista pe interpretarea rezultatelor precum i pe ipotezele metodelor statistice, elemente
ale cunoaterii statistice ce stau la interfaa dintre teorie si metod i definesc n cele din urm
limitele cunoaterii prin statistic. n opinia mea, renumele uneori negativ pe care l are
statistica n mass-media romaneasc, i m refer aici la scepticismul foarte rspndit fa de
cercetrile bazate pe sondaje de opinie, se datoreaz pe lng existena real a unor cercetri
cel puin dubioase, i unei nenelegeri ale limitelor cunoaterii statistice. Desigur cunoaterea
statistic este prin felul ei imperfect, inexact, probabil i nu cert, dar puterea ei rezid
tocmai n posibilitatea de a delimita cu siguran uneori destul de mare intervalul n care se
afl realitatea. S fiu mai explicit, statistica nu va da niciodat rspunsuri simple i exacte.
Dar astfel de rspunsuri, n msura n care exist n cunoaterea lumii reale, nu ne sunt utile.
Rspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple,
nici exacte. Cu toate acestea, cunoaterea statistic este cunoatere, adevrul statistic chiar
dac nu este absolut este un adevr pragmatic att timp ct i nelegem limitele.
4
Mai exist un motiv pentru care scriu aceast carte. Cutarea mea a unui manual de statistic
introductiv publicat n limba roman a fost pn acum ncununat de eec. Dei exist multe
manuale de acest tip n spaiul anglofon i nu numai, la noi pn n prezent manualele de
statistic bune au inut s se prezinte la un nivel tiinific prea ridicat pentru nceptorii fr
interes i aplecare fa de cele matematice. Poate i de aceea statistica nu a devenit ca n alte
pri, un bun comun a celor ce cerceteaz lumea politic, social sau economic i putem
ntlni att de des prostii monumentale n presa romaneasc atunci cnd aa-zii analiti se
apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi ncerca, de fapt, s
exemplific pe parcursul crii cteva din erorile cele mai uzuale ale comentatorilor politici dar
i ale politicienilor din ara noastr. Uneori nclin s cred c o mai bun nelegere a felului
cum cunoate statistica i a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva
partide de la dispariie.
Nu voi merge prea departe cu ideea de a produce o carte de reete de statistic, totui ea este
ntr-un fel justificat. Toate metodele din carte sunt ntr-adevr ncercate, i vor s fie
exemple de metode ce se pot aplica cu succes n cercetare. De asemenea toate interpretrile
pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenia asupra unor erori ce
apar adesea, voi ateniona fa de prea mult scepticism n egal msur ca i fa de un
optimism exagerat. Deci condimentai cu msur i, precum cei mai buni buctari, aplicai
reetele mele cu nelegere, n spiritul i nu numai n litera lor.
5
Capitolul 1. Introducere.
S ncepem uor, cu nceputul. n acest capitol a vrea s definesc conceptul de statistic i
felul cum poate statistica cunoate lumea. Voi vorbi despre raionamentul statistic, despre
eroare i greeal n statistic, precum i despre cauzalitate i statistic.
a. Ce este statistica?
Statistica se definete de obicei ca un subdomeniu al matematicii dedicat culegerii, analizrii,
interpretrii i prezentrii datelor. Definiia aceasta mi se pare ns ct se poate de
nesatisfctoare pentru c, pe de o parte nu spune nimic despre felul cum acioneaz statistica
lsnd prin urmare orice metod ca fiind acceptabil, i mai apoi folosete un concept mult
prea general si ambiguu, acela de dat. n acest concept este probabil ascuns chiar ceea ce
eu consider a fi genul proxim n cadrul cruia ar trebui definit statistica. Anume faptul c ea
este o metod de cunoatere. Statistica este o metod de cunoatere a unor obiecte sau
fenomene bazat pe interpretarea rezultatelor de msurare. Mie definiia aceasta mi place mai
mult, dei probabil sun nc destul de criptic. Anume, mut ambiguitatea de la conceptul de
dat la felul cum se obine aceasta, adic prin msurarea unor obiecte sau fenomene. Ei
bine, eu nclin s cred c msurarea n cauz se poate face chiar cu orice aparat de msur att
timp ct acesta este de ncredere, adic nu face erori sistematice. Totui, nite exemple ar fi
utile aici, nu-i aa?
Deci, aparate de msur sunt desigur cntarul i metrul croitorului sau ale constructorului, ca
i ublerul sau micrometrul, dar pn la urm orice funcie care face univoc legtura dintre un
obiect sau fenomen i o valoare fie ea numeric sau nu, este o msurare. Sper c nu am speriat
nc pe nimeni folosind termenul de funcie n sens matematic. O funcie este o relaie ntre
dou mulimi, n cazul nostru o mulime de obiecte sau fenomene de acelai tip pe care dorim
s o cunoatem mai bine i o mulime de valori statistice pe care le putem analiza. Punem de
fapt n relaie ceva ce nu putem folosi nemijlocit n calculele noastre cu ceva ce putem folosi.
Msurm de exemplu greutatea unor cini, poate pentru a analiza efectul unor alimentaii
specifice. Folosim un cntar, desigur, dar de fapt definim prin aceasta o funcie pe domeniul
cinilor studiai lund valori n domeniul numerelor reale. i de ce facem asta? Pentru c
dorim s interpretm, s calculm, s comparm i, n fine, s prezentm ct mai simplu i
6
coerent rezultatele cercetrii noastre. i nu tim s calculm cu cini, ns tim s facem asta
cu numere. Aceast problem este mereu prezent n cunoatere. Nu putem calcula cu
obiectele reale, fenomene aa cum sunt ele. Aa cum nu putem face calcule cu cini, nu putem
face nici cu opiniile politice i nici cu comportamentele economice ale unor oameni adevrai.
Trebuie s le transformm n lucruri cu care putem calcula, n valori numerice sau
nenumerice, oricum valori care sunt simple i n primul rnd complet definite prin ele nsele.
S m explic: este practic imposibil s definesc complet un obiect sau un fenomen real. Orice
definiie a cinelui meu ar fi incomplet, ar omite un fir de blan sau chiar o caracteristic
comportamental pe care poate nc nu o cunosc. Iar de ar fi, prin absurd, posibil o definiie
complet a lui Garu, aa l cheam (tiu, e aiurea, dar e o poveste mai lung), ar fi de o
complexitate ce ar face s fie absolut inutil pentru orice interpretare sau analiz. Pe de alt
parte rezultatul msurrii greutii lui este 30kg ceea ce este desigur un model ct se poate de
inexact pentru un cine dar este o valoare util i calculabil att timp ct tim exact ce
nseamn i nu i conferim o mai mare importan dect are, anume greutatea lui Garu.
Completnd aceast msurtoare cu altele, precum vrsta, rasa i genul, obinem un model, o
definiie incomplet i util, att incompletitudinea ct i utilitatea ei rezultnd pn la urm din
simplitatea ei.
La fel se ntmpl i n cazul opiniilor politice ale unei persoane, de exemplu ale colegului
meu Ionic. Opiniile lui Ionic sunt complexe, anumite teme l intereseaz i este informat
asupra lor avnd opinii nuanate. Alte teme nu l intereseaz i nu are opinii asupra lor sau are
opinii superficiale formate rapid. Mai mult, opiniile lui Ionic, precum a oricrei persoane
inteligente sunt schimbtoare, reacioneaz la schimbrile din mediu, la noi informaii i noi
evenimente. Nu avem cum efectua calcule cu opiniile lui Ionic, putem ns s msurm
elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, l putem
ntreba ce prere are despre un anumit politician i i putem oferi 5 variante de rspuns. Avem
atunci o msurtoare, care este n acelai timp o simplificare i o datare. Acest rezultat de
msurare va fi legat de momentul la care am pus ntrebarea (i va rmne neschimbat, dei
opinia lui se poate schimba ulterior) i va ncerca s includ opinia lui Ionic ntr-o schem
simpl care nu l poate descrie evident ntru totul dar care l poate face comparabil cu ali
oameni care au rspuns la aceiai ntrebare.
i aici este chiar principala problem a statisticii. Statistica nu calculeaz cu cini, oameni sau
partide. Statistica calculeaz cu rezultatele unor msurtori ale acestora. Cunoaterea n
7
general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construiete
astfel de modele prin msurare. Cum msoar de obicei statistica? Ei bine, oricum. Sau mai
exact, depinde de tem. Statistica medical msoar cu aparate sofisticate dar a cror
exactitate ar trebui s nu depind de cel ce efectueaz cercetarea, statistica social sau politic
este ns de obicei nevoit s-i dezvolte propriile aparate de msur, chestionarele. Vom
reveni n capitolul al treilea la felul cum se scriu, i cum nu se scriu chestionare. Pn atunci
s continum ns s discutm cum metoda de msurare cu chestionarul influeneaz chiar
conceptual cunoaterea statistic.
Un aparat de msur trebuie s aib dou principale caracteristici pentru a fi util. Trebuie s
dea un rezultat i unul singur, i mai mult dect att, la repetarea msurrii s produc acelai
rezultat sau unul foarte apropiat. Presupunnd c reuim s-l urcm pe Garu (cinele meu, v
aducei aminte) pe un cntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o
valoare apropiat de 30kg. Daca reuim acest efort de persuasiune i ndemnare n repetate
rnduri ntr-un scurt interval de timp, utiliznd mai multe cntare, acestea vor fi bune n msura
n care ne vor da aproximativ acelai rezultat. Pe de alt parte ns, greutatea lui Garu nu se va
schimba de pe urma faptului ca a fost msurat. Chiar daca Garu ar fi priceput ceva din cele
ce i s-au ntmplat tot nu i-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a
testa aparatele de msur pentru coerena lor nu ne este ns accesibil n cazul chestionarului.
Daca dorim s repetm chestionarea lui Ionic suficient de curnd pentru ca opinia lui s nu se
fi schimbat prea mult, el i va aduce desigur aminte de chestionar i va rspunde probabil la
fel mcar pentru a se arta consecvent, caracteristic pe care societatea noastr o valorizeaz
n sine. Exist chestionare special elaborate, n special n cercetri de psihologie care rezolv
aceast problem ntr-o oarecare msur prin punerea a foarte multe ntrebri i repetarea
unora dintre ele n forme mai mult sau mai puin modificate. Una peste alta problema rmne
ns deschis pentru majoritatea cercetrilor. Chestionarele nu se pot de obicei calibra att de
bine ca i cntarele. Soluia la aceast dilem nu este dect recunoaterea unei alte limitri a
cunoaterii prin statistic social. O cercetare care folosete o metod de msurare nu poate fi
comparat cu o alt cercetare ce folosete alt metod de msurare. Cntarele cercetrii
sociale nu sunt comparabile. Ca atare msurarea depinde nu numai de obiectul msurat ci i
de aparatul de msur. n cercetarea statistic social rezultatul este dependent i specific
aparatului i metodei de msurare. Deci, metodologia este parte din rezultat. Putem spune c
rezultatul msurrii are sens, este interpretabil, exist numai mpreun cu metoda de msurare.
Revenind la conceptul de model pe care l-am introdus mai sus, nu numai c statistica nu
8
calculeaz cu cini, sau oameni, sau fenomene, ea nu calculeaz de fapt nici cu greutatea,
opinia sau comportamentul ci cu rezultatul msurtorii acestora aa cum ne-o permit aparatele
de msur. Mai simplu, dac ntrebm un elev ct de des ridic mna n clas, nu vom prelucra
statistic elevul (bineneles, doamne ferete), dar nici mcar gradul lui de participare n clas
(ceea ce unii ar putea spera), ci o msur de moment a opiniei lui fa de gradul lui de
participare n clas. i aceast msur va depinde de felul cum e construit chestionarul, de
ntrebrile anterioare, dar i de evenimentele din ziua n care am efectuat chestionarea sau din
zilele precedente. Aceasta pentru c msurarea se face ntr-un moment anume i cu un aparat
anume. Mai mult, msurtoarea nu se aplic participrii n clas ci opiniei elevului asupra
acestei participri, opinie care depinde de prerea pe care o are despre coala lui, nvtorul
lui, despre sine nsui respectiv despre dezirabilitatea de a fi activ n clas. Toate acestea nu
fac msurarea inutil sau cunoaterea obinut de pe urma ei mai puin sigur, pur i simplu
sunt elemente ce trebuie luate n seam.
Dac aparatul de msur este parte din rezultatul msurat, de aici decurge imediat faptul c nu
este posibil vreo msurare fr o teorie ce st la baza ei. Aparatul de msur a fost desigur
dezvoltat pe baza unei teorii, fie c a fost un cntar fie c a fost un chestionar. Att timp ct
rezultatul msurrii nu depinde de metoda de msurare am putea la o adic s neglijm teoria
care a produs aparatul, aceasta ns nu e nici o dat cazul n cercetarea statistic. Chiar dac
msurarea a avut loc cu cntarul, ideea de a msura cu cntarul a avut la baz o decizie i
aceast decizie o teorie legat de rezultatele dorite de pe urma cercetrii. Cu att mai mult n
cazul n care aparatul de msur este parte integrant din rezultatul msurii. n unele nefericite
situaii e posibil ca nsui cel ce dezvolt chestionarul i proiecteaz cercetarea s nu fie pe
deplin contient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar i atunci
acestea influeneaz cercetarea precum o pot influena i prejudecile celor ce o proiecteaz.
Acestea sunt nc alte limite ale cunoaterii pe care un bun interpret al calculelor statistice
trebuie sa le aibe n faa ochilor. Nu este posibil msurare fr teorie i ca atare teoria ce st
la baza unei cercetri trebuie ct mai exact enunat i ct mai consecvent aplicat.
S ne ntoarcem deci la definiia noastr: spuneam c statistica se ocup cu interpretarea
rezultatelor unor msurtori. Am discutat puin despre msurtori n sine, s vedem acum ce
nelegem prin interpretri i care anume sunt metodele de interpretare pe care le numim
statistice. Rezultatele de msurare ne dau de obicei o multitudine de caracteristici, date
numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie
9
prezentate ntr-un fel pentru a fi de vreun folos. Chiar i o dat prezentate, de exemplu sub
forma unei liste cu greutatea a 1000 de cini, ele cel mai adesea nu permit o utilizare, sau o
nelegere a ansamblului problematicii. Ce vrea i ce poate de fapt face statistica cu grmada
de date pe care le culege prin msurtori?
b. Cum cunoate statistica?
Exist dou probleme mari ale statisticii, descrierea unor date msurate si extragerea din date
msurate a unor concluzii ce se extind i asupra altor date, care nu au fost msurate din
motive ce in cel mai adesea de economie de timp i bani. Prima dintre acestea este problema
statisticii descriptive, cea de a doua cea a statisticii infereniale.
Statisticile descriptive se multumesc s spun ceva despre obiectele, indivizii sau
fenomenele care au fost msurate. ntr-un fel i statistica descriptiv generalizeaz, vrnd s
spun ceva despre obiecte pe care le cunoate doar prin rezultatele unor msurtori. Totui, de
obicei nu o considerm ca fiind generalizatoare. Primii pai n orice cercetare statistic snt
descriptivi. ncercm s prezentm ct mai clar i concis i, pe ct posibil, fr a pierde din
acuratee datele msurate. Reprezentrile grafice i tabelare, precum i valorile agregate pe
care le vom descrie n capitolul al patrulea al acestei cri sunt metodele cele mai obinuite ale
statisticii descriptive. Ele nu prelucreaz prea mult datele ns caut s ofere imagini mai uor
inteligibile dect o list lung de valori. Imaginile grafice pot fi n acelai timp i indicatori
buni pentru a recunoate trenduri, adic pentru a decide ce calcule se pot face n continuare,
cu ce statistici infereniale s se continue analiza datelor.
Valorile agregate calculate n contextul statisticilor descriptive au un grad de prelucrare puin
mai avansat. De obicei se includ aici formule de calcul ce ncearc s gseasc o tendina
central sau medie a datelor i formule ce ncearc s sintetizeze n ce msur datele sunt
dispersate n jurul acestei tendine centrale. Desigur nu ntotdeuna aceste valori sunt
interesante i nu ntotdeauna merit calculate. Snt ns cazuri n care ele ne dau o imagine
bun despre un fenomen. S lum calculul mediei, de exemplu. Media greutii unor cini de
aceiai vrst, gen i ras poate reprezenta o bun baz de comparaie ntre rase sau genuri sau
vrste. Ne poate deci spune ceva att timp ct este utilizat ceteris paribus. Conceptul de
ceteris paribus nseamn, pstrnd toate celelalte caracteristici egale i adesea nu este uor
10
de pus n practic. Totui este esenial atunci cnd vrem s efectum comparaii i s
determinm legturi dintre caracteristici, cum ar fi, de exemplu greutatea i genul cinilor.
Desigur media greutii tutoror cinilor de la o expoziie chinologic poate fi n ansamblu prea
puin relevant. Poate nsemna totui ceva pentru cei care trebuie sa fac curenie a doua zi!
De aici, nc o concluzie important: de tema de cercetare depinde metoda cea mai adecvata i
nu de repertoarul de metode. Nu stiu de unde provine zicala daca singura scula pe care o ai
este un ciocan totul ncepe s semene a cui dar n cazul statisticii sociale se confirm din
pcate foarte des. Dac tot ce tii e s calculezi medii, o s calculezi medii indiferent ce tem
de cercetare i ce date ai!
Cum i ct de mult sunt distribuite datele n jurul tendinei centrale este o alt tem esenial n
statistica descriptiv. Ai auzit cu toii butada cu individul care st cu un picior ntr-un lighean
cu ap rece ca gheaa i cu unul ntr-un lighean cu ap clocotit i zice c n medie i este bine.
Exist multe feluri de a calcula ct de distribuite sunt datele. n exemplul dat probabil ar fi de
ajuns s calculm diferena de temperatur dintre cele dou lighene, n marea majoritate a
cazurilor avem ns de a face cu un fel de miriapod care are fiecare din mia lui de picioare n
ligheane cu ape de temperaturi diferite!
Statisticile infereniale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii
matematice despre cum sunt datele i au ca principal scop testarea unor ipoteze despre
populaii de individizi sau obiecte. Inferena statistic este de fapt formarea unor preri
justificate despre o ntreag populaie bazndu-ne pe msurarea unei pri a acesteia. Exemplul
care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a
opiniei publice pun ntrebri unui eantion de vreo mie de persoane i vor s ne conving pe
noi, i binenneles i pe nite clieni pltitori de asemenea, cum c pot spune ceva despre
opinia a peste 21 de milioane de persoane. La baza acestui tupeu se afl inferena statistic
adic posibilitatea de a generaliza statistic de la msurarea unui eantion la descrierea unei
ntregi populaii. Exist teorii matematice care justific aceasta. i dac cercetarea e fcut ct
mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate.
Bineneles i n acest caz pentru interpretarea lor trebuie sa ne punem ct mai clar ntrebrile:
ce am msurat, pe cine am msurat i cu ce acuratee.
Principiul fundamental al statisticii este coninut ntr-o teorem matematic numit adesea i
teorema fundamental a statisticii. Ea ne asigur de faptul c rezultatele msurtorilor ce se
11
fac pe un eantion se pot, n anumite condiii generaliza la nivelul ntregii populaii. Vom
reveni n cel de-al treilea capitol al crii la aceast teorem fr ns a face o prezentare a ei
pe placul matematicienilor. O nelegere a consecinelor acestei teoreme pentru ntreaga
metod statistic este ns necesar pentru a evalua la adevrata lor importan mai micile sau
mai marile devieri de la idealul matematic pe care le ntlnim vrnd nevrnd n cercetrile
empirice. nelegerea fundamentelor matematice ale statisticii ne vor permite apoi s
nelegem de ce este necesar o alegere foarte bine gndit a persoanelor pe care le
intervievm pe parcursul unui sondaj de opinie i de asemenea de ce este necesar o
construcie bun a chestionarului pe care dorim s-l aplicm.
Testarea statistic nbogete cunoaterea ntr-un mod foarte apropiat principiului respingerii
ipotezelor. Pe ct de scurt este, aceast propoziie necesit o explicaie destul de detaliat. La
baza ei se afl concepia despre cunoatere tiinific a lui Karl Popper (). n logica
raionalismului critic, cum i-a numit Popper nsui teoria, principiul cunoaterii tiinifice s-
ar putea exprima simplu n felul urmtor: cunoaterea uman nu se bazeaz pe certitudini i
demostraii ale unor adevruri; ea nu progreseaz pe baza coroborrilor ipotezelor ci pe baza
contraexemplelor. Cunoaterea tiinific dezvolt ipoteze. Acestea snt acceptate dac nu se
pot respinge. Dar ele nu snt prin aceasta propriu-zis adevrate. Doar c ele nc nu au putut
fi respinse. Deci regula cunoaterii nu este demonstraia ci respingerea. Nu putem de obicei
tii dac ceva este adevrat, putem ns recunoate cu oarecare probabilitate dac ceva este
fals.
O teorie este tiinific n msura n care se poate imagina un experiment practic ce are
puterea s o contrazic. Dac acest experiment nu reuete respingerea teoriei, aceasta este
pentru moment acceptat. Ea nu este adevrat ci acceptabil conjunctural att timp ct nu a
fost respins. tiina are deci ca i scop construirea i punerea n practic a unor experimente
care ncearc s resping teorii, sau mai exact ipoteze. n statistic ca i n teoria Popperian a
raionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipotez
nelegem o propoziie care se supune analizei. n logica clasic o ipotez este o propoziie din
care decurge o concluzie. Acolo nu se studiaz, de regul, valoarea de adevr a ipotezei, ci
felul cum decurge din ea o concluzie. n statistic ns, tocmai ipoteza este presupunerea
supus testrii.
12
O ipotez o dat respins duce la o nou interpretare a realitii i ca atare la noi ipoteze.
Exist aici o asimetrie ntre verificarea i respingerea teoriilor care este esenial i pentru
felul cum cunoate statistica. Statistica folosete principiul contraexemplului ntr-un sens
probabilist. S explic. Statistica poate msura o valoare, de exemplu media greutii cinilor
de la o expoziie chinologic i o poate compara cu o valoare teoretic ipotetic, de exemplu o
ipotetic medie a greutii tuturor cinilor din lume. Pe baza acestor valori, i a unor foarte
importante presupuneri despre cum sunt n general distribuite datele i cum au fost ele
msurate practic, statistica poate calcula care este ansa ca ipoteza s fie corect n lumina
datelor msurate.
Statistica va pune deci ntrebarea n felul urmtor. Fie urmtoarea ipotez: media greutii
tuturor cinilor din lume este de 50kg. Daca media greutii cinilor din expoziie este de 20kg
poate fi oare media greutii tuturor cinilor din lume fi 50kg? Dac aceast ans este foarte,
foarte mic exist un bun motiv de a respinge ipoteza. Vom spune atunci c, dac cinii din
expoziie reprezint un bun eantion al cinilor din ntreaga lume, iar printre acetia greutatea
este distribuita normal, ipoteza cum c media de greutate a cinilor din ntreaga lume este de
50kg este aproape sigur greit. Statistica nu ne spune ct ar fi adevrata valoare a greutii
medii a cinilor din lume, ne poate ns spune ct nu este i prin consecin ne poate da o
imagine despre cam ct ar putea fi aceasta.
Deci statistica lucreaz oarecum dup principiul popperian. Nu poate demonstra, poate ns
respinge ipoteze. O bun cercetare statistic, ca i o cercetare tiinific n sensul lui Popper
este o cercetare care construiete ipoteze ce pot fi respinse i experimente care au puterea de a
respinge aceste ipoteze.
Orice cercetare statistic bine construit pornete de la o serie de ipoteze mai mult sau mai
puin explicite pe care le supune testrii statistice. Evident, cel mai bine este atunci cnd aceste
ipoteze sunt explicite i tiinifice, adic refutabile. Deorece ns, aa cum am vzut deja, nu
este posibil msurare fr a accepta n prealabil anumite teorii, ntotdeuna vor exista i
presupoziii teoretice care nu se supun testrii. Acestea reprezint cadrul teoretic al cercetrii
i tot ce putem face este s le contientizm i s ni le asumm cci ele determin ce i cum
cunoatem. nsi acceptarea metodei statistice ca i cale de cunoatere este o astfel de
premis teoretic, nu neaprat acceptat de ctre toat lumea.
13
c. Cauzalitate i statistica.
O mare parte din cercetarea statistic ncearc s pun n relaie mai multe rezultate de
msurare care reprezint caracteristici diferite ale unor individizi, obiecte sau fenomene.
Astfel, ca s revenim la cinii notrii, un cercettor ingenios poate msura greutatea i genul
cinilor i conchide de exemplu, cum c, pstrndu-ne n cadrul oricrei rase i grupe de vrst,
pe msur ce un cine are greutate mai mare el are anse mai mari de a fi mascul. Un astfel de
raionament este statistic absolut corect i ne arat ct se poate de clar faptul c conceptul de
cauzalitate este un concept teoretic i nu unul statistic.
Una din greelile de interpretare cel mai curent ntlnite n citirea datelor statistice este
presupunerea de cauzalitate. Foarte adesea ne este convenabil s citim rezultatul unui calcul
statistic ca o dovad de cauzalitate. Aceasta este fals chiar din dou motive. Pe de o parte, aa
cum am spus-o mai sus, statistica nu dovedete nimic ci eventual nu respinge o ipotez, iar
mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzaliti. Este ns ct se
poate de adevrat c exist modele statistice ce presupun cauzalitate, cum sunt regresiile. n
acest caz cauzalitatea este inclus n model, face parte din teoria ce a stat la baza construirii
modelului i desigur, ca n orice form de cunoatere statistic, ea ar putea fi eventual
respins. Caz n care am avea un bun motiv s excludem o relaie cauzal. Dac ns nu putem
respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune dect am avut n
momentul n care teoria ne-a permis s o considerm pentru a fi modelat.
Deci cauzalitatea este n teorie, n ipotez i nu n calcul. De aceea exemplul de interpretare
de mai nainte ni s-a prut imediat greit. Face parte din simul comun faptul c genul unui
cine este neschimbat toat viaa lui, pe cnd greutatea poate varia. De aici teoria noastr
despre cini nu accept cauzalitatea dintre greutate i gen ci pe cea invers. Deci, ipoteza pe
care nu o putem respinge este: cinii masculi sunt mai grei i nu cinii mai grei sunt
masculi. Din pcate nu este ntotdeauna aa simplu. S lum un exemplu clasic, relaia dintre
nivelul de educaie al unei naiuni i bunstarea ei. Se tie foarte bine c exist o legtur
puternic ntre aceste dou caracteristici aproape indiferent cum le-am msura (de ex: procent
din populaie cu studii superioare i produs intern brut pe cap de locuitor), exist ns teorii
convingtoare pentru ambele direcii de cauzalitate i testele statistice nu au reuit s resping
nici una dintre ele. Decizia asupra direciei de cauzalitate este deci un apanaj al teoriei.
14
i totui, statistica poate construi anumite raionamente cauzale. Acestea se bazeaz pe o
observaie ct se poate de simpl: efectul nu poate s precead cauza. Aceasta se poate numi
asimetria temporal a cauzalitii. Raionamentul logic e foarte simplu: dac evenimentul A
a avut loc dup evenimentul B, atunci evenimentul A nu poate fi cauza lui B. Simplu, dar
relativ puin util pentru c foarte rar datele noastre statistice se refer la evenimente singulare,
clar databile temporar. Cnd avem de a face cu informaii databile, adic n cazul seriilor de
timp, urmrim de regul dezvoltarea unor fenomene n timp. Atunci punem fa n fa
dezvoltarea unor serii de timp. Varianta cea mai simpl este s legm dezvoltarea unei
variabile, de ex. nivelul de bunstare ntr-o ar, de o alta, de ex. ateptarea de via n
respectiva ar. Pn i informaii absolut nesistematice ne pot convinge c ntre acestea exist
o relaie.
Cum ar funciona ns raionamentul asimetriei temporale? Pentru a nelege aceasta ar trebui
sa putem separa mecanismul individual care st la baza statisticii; s desfacem datele rezultate
din agregare n fenomene individuale. n cazul de fa, raionamentul ar fi urmtorul: dac o
persoan are un nivel de bunstare ridicat, va putea investi mai mult n sntatea sa, prin
adresare la medic, alimentaie i igien, i va tri n consecin mai mult. Exist ns i
raionamente alternative. De exemplu, se poate presupune c nivelul de bunstare nu mai
conteaz dac un anumit prag al srciei extreme e depit. Oamenii nu fac economii la
adresarea la medic, la alimentaie i igien. Sau c, dei bunstarea are un anumit efect, de
fapt acesta e doar colateral. Ceea ce conteaz este nivelul de educaie i cultur care are efect
asupra obiceiurilor alimentare, igienice i de adresare la medic. Cele trei variante acopera
situaiile unei cauzaliti relativ directe, ale lipsei cauzalitii i a unui lan cauzal complex
fr relaie direct ntre variabilele studiate.
Cum raionm statistic? Orice cauzalitate trebuie s se regseasc la nivel individual. Deci,
dac n forma agregat bunstarea medie crete sau scade aceasta s-a ntmplat prin creterea
sau scderea bunstrii individuale a unor persoane. Pentru simplitate putem presupune c o
cretere a agregatului este reflectarea unei creterii la nivelul indivizilor. Desigur n realitate
situaia poate fi mai complex, o parte din indivizi putnd cunoate creteri i o alt parte
scderi. La nivelul fiecrui individ a crui bunstare crete, condiiile de via pot produce o
via mai lung. De aici deducem urmtoarele: dac creterea bunstrii e mai mare atunci
creterea ateptrii de via va fi mai mare. Adic, cauzalitatea se reflect mai bine n relaia
dintre creteri dect n relaia dintre valori. Creterile se calculeaz simplu ca diferene de la
15
un punct temporar (de ex. un an) la altul. A doua observaie imediat este c trebuie s lsm
timp fenomenului s se dezvolte (asimetria temporal), adic va trebui s relaionm valori ale
creterii bunstrii de la un anumit moment cu valori ale ateptrii de via ulterioare. Ct e
bine s fie aceast ntrziere depinde de situaia modelat. Termenul statistic pentru aceast
ntrziere vine din englez i se numete lag. n fine, a treia observaie este c o valoarea
unic, o cretere a bunstrii ntr-un singur an, eventual ca efect al unui venit mare accidental
care dispare foarte repede, nu trebuie neaprat s aib consecine eseniale asupra ateptrii de
via. Deci ar trebui s nu lucrm cu o singur valoare ci s lum n considerare fenomene
stabile de cretere, respectiv scdere. Acest raionament st la baza unei serii ntregi de
metode de testare a cauzalitii dintre care cele mai convingtoare sunt, dup prerea mea
metodele dezvoltate de Clive Granger. Acesta a primit n 2003 i un premiu Nobel pentru
economie pentru ele. Raionamentul care definete cauzalitatea la Granger este ns complex.
Ca atare muli l consider restrictiv i susin c nu acoper toate situaiile pe care simul
comun le consider ca fiind cauzale. De aceea se folosete pentru definiia aceasta termenul
de cauzalitate Granger n loc de cel general de cauzalitate. n capitolul dedicat seriilor de timp
voi reveni asupra unor metode de testare a cauzalitii. Aceastea pot lua desigur numai forma
unor respingeri de ipoteze, ns exist metode care permit respingerea unor ipoteze de non-
cauzalitate.
Un alt caz interesant care apare n statistic uneori este cel al falsei cauzaliti, sau ntr-o
form atenuat, a falsei corelaii. Variabile par a fi legate i nu ar trebui s fie. Vreau s atrag
aici atenie asupra necesarei precauii n a defini o legtur ca fiind o fals relaie dintre
variabile. Eu pn n momentul de fa nu am ntlnit false relaii ci doar relaii cu explicaii
teoretice complexe sau neimediate. Sunt aceste explicaii corecte? Nu ntotdeuna, dar nu pot fi
imediat respinse i sunt ca atare mai fertile dect presupunerea unei false cauzaliti.
Exemplul clasic este cel al foarte bunei corelaii empirice dintre numrul de berze i indicele
conjunctural al fertilitii, calculat ca numr de copii nscui unei femei pe parcursul vieii
fertile, calculate pe regiune. Rezultatul, des verificat n practic ar putea fi o dovad cum c
berzele aduc copiii. Cei ce au citit cumini pn aici vor observa c nu este aa. Pe de alt
parte s-ar putea s fie de acord cu faptul c, experimentul n cauz nu poate respinge o
legtur dintre numrul de berze i natalitate. S oferim ns o teorie alternativ. O teorie ct
se poate de acceptabil chiar de ctre simul comun spune c numrul de berze, dar i numrul
de nateri ale unei femei pe parcursul vieii fertile este mai mare n zona rural dect n cea
16
urban. Gradul de urbanizare (sau industrializare) al regiunii studiate ar reprezenta deci o
variabil care le influeneaz pe amndou variabilele din studiul nostru. i mai mult, le
influeneaz n acelai sens creind astfel o relaie pozitiv ntre ele. Nu era deci vorba despre o
cauzalitate direct, dar nici despre o eroare. Pur i simplu, relaia cauzal trebuia explicat
teoretic acceptabil. Adic, testul statistic nu poate alege care din cele dou teorii alternative,
barza aduce copiii respectiv urbanizarea reduce numrul de berze i numrul de nateri a
unei femei este mai bun. Adecvarea cu ansamblul de teorii i ipoteze ale cercetrii are ns
aceast sarcin.
nchei aici, repetnd: testele statistice pot da indicaii despre relaii dintre variabile dar numai
teoria poate construi n termenii unor relaii cauzale i tot teoria trebuie s fie atent la
posibilele determinri cauzale complexe, ce implic nu numai variabilele msurate explicit ci
eventual i altele, poate uneori chiar nemsurabile.
d. Foarte scurt istoric al statisticii.
Probabil c au existat rapoarte statistice nc din vremurile imperiilor antice legate de
impozite i preuri, fapt este c termenul actual de statistic provine din latina nou folosit n
administraia german i italian a secolului al 18-lea, i mai exact din termenul statisticum
collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, n Italia vremii,
statista chiar nsemna om de stat, politician. Se pare c primul care a folosit cuvntul statistic
a fost Gottfried Achenwall n 1749, i anume n limba german, sub forma de Statistik i cu
sensul de analiz a datelor despre stat sau chiar de tiin despre stat. Achenwall (1719-
1772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind att universitar la
Marburg i Gttingen, ct i consilier de curte al principilor electori de Braunschweig-
Lneburg.
Termenul de statistic a fost preluat n alte limbi i, n fine generalizat, cu un sens apropiat
celui pe care l dm astzi acestei metode, pe parcursul secolului al 19-lea.
Practica de a culege i analiza date despre stat exista ns deja n Anglia i era acolo numit
aritmetic politic. Termenul avea o vechime de cel puin un secol cnd Achenwall a inventat
noul nume i pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cri
ce i s-a publicat postum. William Petty nu a fost statistician n sensul metodelor pe care le
17
nelegem astzi ca fiind statistice. A fost ns statistician prin multe dintre temele ce l-au
interesat. Petty a fost i politician, economist, inventator, antreprenor i multe altele i a
folosit tot felul de tehnici ingenioase, chiar dac nu ntotdeuna corecte, pentru a estima, de
exemplu, populaia Londrei.
Pentru ca statistica s fie cea de acum a trebuit ns s se lege mai nti de teoria
probabilitilor. Acest domeniu al matematicii, iniial legat mai mult de jocuri de noroc i
divertismente matematice, i are originile tot n secolul al 17-lea, dei primele scrieri despre
jocuri de noroc se gsesc ntr-o oper postum a lui Girolamo Cardano (1501-1576), Liber de
ludo aleae. Cartea a fost ns publicat abia n 1663, n anii n care apreau i lucrrile unor
Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Acetia din urm sunt creditai
c au moit de fapt teoria probabilitilor prin corespondena pe care au purtat-o asupra
celebrei probleme a Cavalerului de Mr. Problema era: cum trebuie s mpart doi juctori
miza total a unui joc de noroc dac nu vor s joace pn la capt, dar vor ca aceast imprire
s fie proporional cu ansa fiecruia de a ctiga jocul. Pe Pascal se pare c la convins n aa
msur metoda probabilist gsit nct a folosit-o i pentru a argumenta existena lui
Dumnezeu, cu un succes mai de grab incert.
Destul de repede s-a observat c, dei un joc de noroc este determinat de situaii aleatoare,
repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate i aceast
repetare este de fapt baza a ceea ce acum numim observaie statistic. Ideea de observaie
repetat apare deja n prima carte de teorie a probabilitilor publicat de Christiaan Huygens
(1629-1695) n 1657. Ca tiin matematic urmtorii pai au fost fcui de doi celebri
matematicieni Jakob Bernoulli (1654-1705) tot ntr-o lucrare postum, intitulat Ars
Conjectandi i Abraham de Moivre (1667-1754) n Doctrines of Chance (publicat n
Anglia). Aceast din urm carte pune i bazele statisticii n sensul modern al tiinei. n a doua
ediie a crii (1738) apare pentru prima oar o form a distribuiei normale de probabilitate
despre care vom vorbi pe larg i n cartea de fa, dar i un caz particular al teoremei limit
central, o clas de teoreme foarte important pentru statistic, pe care va trebui s o tratm i
noi mcar un pic pentru a nelege diferite fenomene legate de erorile statistice.
i teoria erorilor de observaie se gsete deja n scrieri de la nceputul secolului al 18-lea, i
anume n cteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil
18
statistica, cu sensul de observaie asupra statului de teoria probabilitilor a fost Pierre-Simon
Laplace (1749-1827).
Laplace a fost un om de tiin deosebit de prolific, ceea ce ne intereseaz ns acum este
dezvoltarea de ctre el a unei aa-zise teorii analitice a probabilitilor. ntr-o lucrare din 1812
Laplace descrie mai exact distribuia normal, i, pe lng multe altele, demonstreaz i o
form a metodei celor mai mici ptrate, nc metoda noastr de preferin pentru calculul
ecuaiilor de regresie, precum vom vedea n capitolul al aselea.
Probabil cellalt mare creator al tiinei statisticii a fost Carl Friedrich Gauss (1777-1855).
Considerat uneori cel mai mare matematician al tuturor timpurilor, dei mie personal nu mi
este cunoscut nlimea lui fizic i nu cred c cea intelectual se poate cu adevrat msura,
Gauss a contribuit la aproape toate domeniile matematicii. i el a contribuit la descrierea
distribuiei normale, de aici i numele de curb a lui Gauss ce se d de obicei graficului
distribuiei normale. Tot Gauss a clarificat i ipotezele metodei celor mai mici ptrate. n acest
caz exist ns o anumite disput de primordialitate cu Adrien-Marie Legendre (1752-1833)
care a publicat aceleai rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt
naintea lui Gauss, acesta ns susinea c le tie de mult.
Deja pe parcursul primei pri a secolului al 19-lea rezultatele tiinifice legate de metoda de
cercetare statistic s-au nmulit considerabil. Multe metode au fost dezvoltate, principalele
tehnici puse la punct. Dezvoltarea mare a domeniului a venit ns spre sfritul secolului al 19-
lea i apoi n secolul al 20-lea o dat cu interesul crescut pentru studiul societii, apariia
tiinelor economice moderne i a sociologiei. Atunci apar marile coli statistice crora le
datorm arsenalul actual de metode. Pe de o parte este vorba despre coala englez. Principalii
ei exponeni au fost: Karl Pearson (1857-1936) care a contribuit esenial la teoria corelaiei i
a regresiei i a dezvoltat coeficientul de corelaie r dar i coeficientul Chi2, i Ronald Fischer
(1890-1962) iniiator de fapt al ntregului domeniu al testelor non-parametrice, creator al
distribuiei i testului F i a unei serii ntregi de rezultate eseniale pentru statistica de astzi,
dar i Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiz
factorial dar i coeficientul de corelaie (rho) pentru valori ordinale, numit i coeficient
Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a
dezvoltat metode de verificare a ipotezelor, distribuia Student i testul t, i alii.
19
Dac coala englez de statistic a fost la originea multora dintre metodele statisticii aplicate,
la cellalt capt al continentului, n Rusia, au aprut lucrri eseniale pentru justificarea
tiinific, matematic a calculului statistic. Principalele teoreme ce stau la baza statisticii au
fost demonstrate de matematicienii rui Pafnuty Chebyshev (1821-1894) cu inegalitatea ce i
poart numele i ca o consecin a acesteia, teorema slab a numerelor mari, Andrey Markov
(1856-1922) creatorul lanurilor Markov i n general unul dintre creatorii teoriei proceselor
stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o form general a teoremei
limit central, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la
demonstrarea teoremei tari a numerelor mari i autorul unui criteriu suficient ce i poart
numele, i alii.
Dezvoltarea statisticii a continuat pe parcursul secolului trecut i ca tiin. Mai impresionant
poate ns, statistica a ptruns n contiina public o dat cu utilizarea ei pe scar larg n
cercetrile sociale i cvasi-generalizarea sondajului de opinie ca metod de culegere de
informaii despre societate, ca metod de msurare a societii. Primul sondaj de opinie a fost
efectuat n Statele Unite de revista Literary Digest n 1916 pentru a prevede rezultatul
alegerilor prezideniale. Fr vreo baz teoretic statistic, revista a cerut cititorilor s
returneze redaciei o carte postal - chestionar. Pentru patru alegeri prezideniale la rnd,
metoda a dat rezultate corecte.
Un pas important spre fundamentarea tiinific a sondajului de opinie l-a fcut George H.
Gallup (1901-1984) care n teza lui de doctorat din 1928 a dezvoltat metoda ce st la baza
sondajului de opinie statistic. Primul mare succes al lui Gallup a fost n 1936 cnd a reuit s
prevad corect victoria lui F.D. Roosevelt n alegerile prezideniale, spre deosebire de Digest
care a greit folosind un eantion incomparabil mai mare. Celebru att pentru ncrederea mare
pe care a produs-o de la nceput ct i pentru cteva eecuri memorabile, lui Gallup trebuie s-i
recunoatem meritul de a fi creatorul instituiei sondajului de opinie statistic.
20
Capitolul 2. Tipuri de date
Voi prezenta aici principalele tipuri de date, sau nivele de msurare, cum se mai numete
aceast clasificare. Dei criticat pentru diverse motive aceasta mprire a datelor permite o
nelegere simpl a felului cum se apropie statistica de fenomene.
n 1946, psihologul american Stanley Smith Stevens a propus ntr-un articol mult citat, ludat
i criticat apoi, o teorie a nivelelor de msurare care avea s fie apoi repetat n aproape toate
manualele introductive de statistic (Stevens, 1946). Nu am vrut s m abat de la regul.
Prima dat s vedem totui la ce bun i cum adic?
Este absolut evident c msuratorile pe care se bazeaz statistica nu sunt toate la fel. Din
exemplele mai mult ntmpltoare din capitolul capitolul precedent (greutatea i genul unui
animal, opinia despre un politician) este evident c aparate diferite de msur dau rezultate
care fac parte din categorii ct de poate de diferite de cunoatere. Dac greutatea se exprim n
valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichet, nu nume dat
unei categorii, iar opinia despre politician poate fi exprimat n mai lungi sau mai scurte
propoziii, eventual chiar n grade de genul, mai bun mai puin bun dar nu n valori
numerice concrete. Deci, Stevens a intuit ct se poate de corect, e necesar o clarificare i o
categorisire a acestor nivele de msurare. Tehnic o astfel de categorisire ajut la a stabili ce
metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate prea inutil, dar un
exemplu sper s ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea
sunt exprimate n note. Fie ntrebarea de chestionar chiar cere notarea, ca la coala, a
activitii unui politician, sau a unui guvern sau minister n ntregul lui, fie rspunsurile snt
transformate n note de ctre cercettor ntr-o activitate pe care o numim de regula codare a
rspunsurilor. Rspunsurile la ntrebrile de opinie n final ajung s nu se disting de
rezultatele, eventual rotunjite, ale cntririi unui cine. i totui diferenele acestea sunt
eseniale i nu trebuie uitate1.
Prezentarea nivelelor de msurare n crile introductive de statistic mai are un avantaj.
Permite o exemplificare structurat a datelor cu care lucreaz statistica i o prezentare
coerent a principalelor proprieti ce sunt necesare pentru a putea lucra cu ele.
1 Confuzia dintre date de aceste tipuri e pe larg analizat n foarte reuita carte a lui Darrel Huff How to Lie
with Statistics (1954) care a aprut ntre timp n peste 30 de ediii.
21
a. Date nominale
Datele nominale, numite uneori i categoriale, sunt nume date unor proprieti ale obiectelor,
indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantiti i nici nu au o
ordine implicit. Din exemplele de pn acum, genul este o dat nominal. Indiferent ct de
complex cultural, biologic, comportamental i aa mai departe ar fi categorisirea pe genuri,
dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alii chemai s scrie, ca
tip de dat genul nu e altceva dect un cuvnt desemnnd o categorie. Nu putem face nici
socoteli aritmetice cu genuri, nici comparaii. Masculin nu e mai mare dect feminim, i nici
sume sau medii nu putem face. Chiar daca am codifica la o adic genurile, la modul feminin =
2 i masculin = 1, ca la codurile numerice personale din Romania, o declaraie de forma:
genul mediu ar participanilor la sondaj a fost 1,56 este ilar.
Totui i datele nominale trebuie sa se supun unor reguli, e drept puine i simple, pentru a
putea fi folosite ca date statistice. Acestea sunt:
Excluderea mutual: Categoriile unei date nominale trebuie s se exclud reciproc.
Un cine msurat de noi nu poate fi n acelai timp i mascul i femel, un cetean
interogat ntr-un sondaj de opinie nu poate fi n acelai timp i cstorit i
necstorit.
Completitudinea: Orice individ msurat n cadrul cercetrii trebuie s gseasc o
categorie ce i se potrivete n lista de valori posibile. Eventual se include varianta
altceva, altfel dar lista de valori trebuie s poate acomoda orice situaie.
Condiiile de mai sus nu sunt ntotdeuna uor de pus n practic. Dei cred c par a fi de bun
sim, sunt situaii n care ntrebrile i listele de rspunsuri trebuie formulate cu grij pentru a
nu ntmpina probleme n analiza ulterioar a datelor. De multe ori cercettorii chiar prefer s
pun ntrebrile astfel nct s par ct mai naturale celor ce trebuie s rspund la ele i s
codifice apoi ei nii datele n aa fel nct s corespund cerinelor prelucrrii statistice.
Exemple tipice de date nominale sunt genul, starea civil, naionalitatea, apartenena
religioas. Toate acestea au n comun faptul c pe lng caracterul lor nenumeric nu au nici o
22
ordine acceptat a valorilor. Asta chiar dac unii pot fi de prere c romnii sunt mai
superiori dect bulgarii!
Cu toate c datele nominale pot prea srace din punctul de vedere al posibilitilor
calculatorii ele sunt importante n multe fenomene sociale, economice, etc. i au fost
dezvoltate multe metode statistice care s permit analiza lor sau, mai adesea, s permit
analiza altor date n relaia lor cu categorii nominale. Voi discuta pe larg astfel de metode n
special n capitolul al aptelea al crii.
b. Date ordinale
O a doua grup de date sunt cele care, dei nu sunt numerice, au o ordine bine definit a
valorilor. Sensul de bine definit al unei ordini nu este nicidecum trivial. Matematicienii
neleg printr-o ordine bine definit o ordine care poate fi recunoscut pentru orice dou
valori i mai mult, este i tranzitiv.
Pentru simplificare voi folosi expresia mai mare pentru a descrie ordinea. Atunci o ordine
este bine definit dac ntre oricare dintre valorile de rspuns este clar care este mai mare.
Tranzitivitatea nseamn c daca o valoare este mai mare dect alta, iar aceasta mai mare
dect o a treia, prima valoare va fi n consecin mai mare dect cea de a treia.
n plus fa de condiia de ordine, datele ordinale trebuie s se supun i condiiilor pe care le-
am specificat n cazul datelor nominale, s permit deci numai valori mutual exclusive i lista
acestor valori s fie complet.
Diferena esenial dintre datele ordinale i valorile numerice este aceea c nu are sens
calculul distanei dintre dou valori, respectiv distanele dintre valori consecutive nu se pot
presupune a fi egale. Un exemplu va face mai clar aceast distincie. O ntrebare tipic
pentru un rspuns ordinal este cea legat de ncrederea ntr-un politician. S presupunem c
rspunsurile posibile sunt: foarte puin, puin, nici puin, nici mult, mult, foarte
mult. Se vede imediat c lista de valori este ordonat bine, ntre orice dou valori ordinea e
evident i tot evident este i proprietatea de tranzitivitate. Tot att de clar este c fiecare
intervievat va trebui sa decid de fapt care e opinia lui, foarte probabil fiind c pn n
momentul interogrii el s nu-i fi pus problema ncrederii n termenii ntrebrii. Aceast
23
nevoie de a decide difereniaz pe cei chestionai de cei ce nu sunt chestionai i pune
probleme n generalizarea rezultatelor la nivelul populaiei adic i asupra celor ce nu au fost
de fapt chestionai i nu au trebuit s se decid n contact cu ntrebarea pus n forma dat. Un
mod de a contientiza aceasta este de a nu conferi valorilor de rspuns un sens absolut
matematic, ci de a le considera interpretri personale ale celor ce au rspuns. Asta nseamn
c pentru doi intervievai diferii sensul unei valori de rspuns poate fi oarecum diferit, de
exemplu, pragul de la foarte puin la puin ncredere s fie diferit, distana dintre dou
categorii s fie diferit. Intervievatul care alege un rspuns nu face altceva dect s i
poziioneze opinia ntr-o ordine i numai caracterul de ordine al valorilor de rspuns poate fi
presupus n analiz. n ansamblu nu se poate deci presupune c exist distane ntre valori
ntr-un sens matematic. Dei se face des, traducerea valorilor de rspuns n cifre, de exemplu
de la 1 la 5 n cazul nostru, este riscant i duce la greeli importante. Calculul unor medii
aritmetice a rspunsurilor este una din greelile cele mai uzuale pe care le fac cercettorii n
tiine sociale, de multe ori chiar contieni de abuzul implicat. Scuza uzual pentru aceast
greeal este aceea c nsumnd opinii ale unui numr mare de persoane, distanele dintre
variantele de rspuns, ntr-adevr diferite de la o persoan la alta, se nsumeaz i dau o medie
statistic egal. Din pcate ns nu este aa. Exist devieri sistematice de la aceast distan
presupus egal ntre variantele de rspuns. i anume, valorile extreme, de tipul foarte puin
ncredere sau foarte mult ncredere snt adesea mai ndeprtate de valorile proxime
puin ncredere, respectiv mult ncredere dect snt acestea de valoarea median, neutr.
Mai grav nc, n cazul n care o anumit ntrebare este receptat ca fiind legat de o presiune
social, distanele din scal se defazeaz n sensul acestei presiuni.
Ca i n exemplul anterior, majoritatea ntrebrilor care produc rspunsuri ordinale se bazeaz
pe aa zise scalograme, adic liste standardizate de rspunsuri. Cele mai obiuite, mai des
folosite, sunt scalele Likert, dezvoltate deja n 1932. Scala Likert este o scal a nivelului de
acord cu o propoziie. Un exemplu simplu ar fi urmtorul:
Suntei de acord cu faptul c Traian Bsescu este un politician dedicat binelui rii noastre?
a. Nu sunt deloc de acord
c. Nu sunt de acord
d. Nici de acord, nici nu
e. Sunt de acord
f. Sunt absolut de acord.
24
Formulrile pot diferi, de regul ns este vorba despre o scal ordinal cu un numr impar de
valori. Cel mai adesea sunt 5 valori, unii cercettori din domeniul psihologiei n special,
prefer totui scale cu 7 valori. Valoarea median, adic cea din mijlocul scalei este
ntotdeuna o valoare neutr. Acordul sau dezacordul sunt exprimate verbal n forme ct mai
clare i simple de grade diferite de radicalitate. Uneori se alege contient eliminarea valorii
mediane. n acest caz se vorbete de o scal Likert cu opiune forat. Intervievaii sunt atunci
obligai s adopte o poziie chiar daca ar prefera neutralitatea.
Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniial
de sociologul i psihologul Louis Guttman ntr-un articol din 1944. Guttman pune cteva
condiii simple pentru ceea ce este o scal Guttman perfect, i anume:
O scal Guttman este o list ordonat de propoziii cu care intervievatul poate fi de
acord sau nu.
S presupunem c avem 10 astfel de ntrebri. Dac intervievatul este de acord cu
propoziia 7, dar nu i cu propoziia 8, logica scalei presupune c el este de acord cu
toate propoziiile 1-7 i nu cu propoziiile 8-10. n aceste condiii scorul lui va fi 7.
Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variant mai
permisiv i mai apropiat de realitate este modelul lui Rasch care presupune o scal de tip
Guttman probabilist, adic n care relaiile dintre rspunsuri au un caracter probabilist.
Un exemplu celebru de scal de tip Guttman este des folosit n analiza relaiilor dintre grupuri
etnice, religioase, naionale, etc. Aceasta este scala Bogardus (dup sociologul american care
a dezvoltat-o), numit i scal a distanei sociale, care se bazeaz pe o lista de ntrebri de
urmtoarea form:
Ai fi de acord ca un .......... (aici se completeaz categoria fa de care se estimeaz distana
social, de exemplu maghiar, rrom, baptist, homosexual):
S v devin rud prin alian (rspunsul da valoare 1).
S v fie prieten apropiat (2)
S locuiasc pe aceiai strada (3)
S v fie coleg de servici (4)
25
S fie cetean al rii noastre (5)
S fie doar turist n ara noastr (6)
S fie expulzat din ara noastr (7)
Valori ordinale se pot ns obine i n alte situaii. De fapt cazul cel mai cunoscut de valoare
ordinal este cel al notelor i calificativelor date elevilor i studenilor. i este i cel mai
cunoscut abuz de utilizare a unor valori ordinale. Dei probabil o mare parte a profesorilor ar
fi de acord, cel puin eu a fi, c distana dintre un 4 i un 5 nu este aceiai cu distana dintre
un 7 i un 8, sau dintre un 9 i un 10, medii aritmetice ale notelor se calculeaz n mod uzual
i se mai i folosesc pentru a lua decizii importante pentru viaa celor notai. Problema
utilizrii mediei aritmetice pentru date ordinale este ns o problem care a produs multe
controverse. Dup prerea mea principalul motiv este prezena att de rspndit a datelor
ordinale, probabil cele mai des ntlnite n cercetrile sociale, i frustrarea de a renuna la o
form de prezentare att de simpl de calculat i neles cum este media aritmetic. Trebuie
ns menionat c exist o serie ntreag de metode puternice care lucreaz cu date ordinale i
nu fac presupuneri suplimentare despre distanele dintre valori.
Alte exemple de date ordinale snt: nivelul de educaie (dac formularea rspunsurilor este
bine ordonat), respectiv topurile de preferine (nu i cele de vnzri, la care se poate calcula o
diferen ntre poziii clar exprimat n uniti vndute).
c. Date intervalice
Ultimele dou categorii ale clasificrii lui Stevens se refer la date numerice i diferenierea
pe care a impus-o ntre datele intervalice i cele raionale este i una dintre cele mai
controversate ale teoriei nivelelor de msurare. Cu toate acestea, s vedem despre ce e vorba.
n definiia iniial, datele intervalice sunt date numerice care au punct zero convenional. Mai
simplu spus, zero-ul intervalic nu nseamn o lips a caracteristicii ci este o valoare ca
oricare alta. Un cine care are greutatea zero nu este un cine, cel puin dup prerea mea. Ca
atare greutatea nu este o valoare intervalic. Dac ns cineva s-a nscut la ora zero, nu
nseamn c nu s-a nscut de loc. Ora zero este convenional i nu nseamn absena
indicaiei de timp. Deci datele calendaristice, sau de or sunt date intervalice. Ele evident sunt
altfel dect celelalte date numerice de msurare.
26
Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete i
bine ordonate. Chiar i caracterul convenional al notrii numerice este prezent. Diferena este
ns distana calculabil ntre dou valori intervalice. ntre dou momente n timp se poate
calcula o distan, fie ea n minute, secunde sau alte uniti de msur i o distan de o
anumit mrime, de exemplu 5 minute, este aceiai indiferent pentru ce valori de timp a fost
calculat. Pstrnd toate celelalte condiii egale, dac un ou fierbe n 5 minute la ora 14, el va
ajunge la fel de tare dup 5 minute de fierbere i la ora 7. Atenie ns, chiar dac momentele
ora 14 i ora 7 snt indicaii intervalice, nu astfel este i durata de 5 minute. Aceasta
este o dat numeric raional, cum vom vedea c se numesc acestea. Adic, un ou care fierbe
zero minute chiar nu fierbe de loc!
Alte date intervalice sunt gradul de longitudine i latitudine geografic, fusul orar, temperatura
precum i alte date convenionale.
Deoarece datele intervalice au distane corect calculabile ntre ele, pot fi folosite n aproape
orice calcule matematice. Problematic rmne utilizarea lor n mpriri i nmuliri, deorece
ele nu au sensul de cantitate pe care il acordm de obicei datelor numerice. Astfel un cine de
40kg cntrete ntr-adevr ct doi cini de cte 20kg. Pe de alt parte, ora 14 nu este ct dou
ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halb de bere sunt 2 litri de
bere, ns de patru ori deteptarea la ora 3 dimineaa nu face ct o trezire la ora 12.
d. Date raionale
Din prezentarea de pn acum nu am avut cum exclude referiri la datele raionale. Acestea
sunt datele numerice, cantitative, obinuite. Ele apar des n cercetarea social sau economic,
i cu att mai mult n ecologie sau medicin i sunt cele pentru care s-au dezvoltat cele mai
multe dintre tehnicile i testele statistice. Absolut orice calcule matematice se pot face cu
aceste valori.
Greutatea cinilor, banii din portofel, valoarea produsului intern brut, numrul de locuitori ai
unui ora sau de restane al unui student sunt toate valori raionale. Ele sunt rezultate ale unor
msurtori cantitative, sau adesea al unor numrtori. Valoarea zero nu este o convenie, un
student cu zero restane este chiar un student cu o vacan lung i relaxant.
27
De obicei caracterul discret sau continuu al valorilor unor date raionale nu se tematizeaz la
nivelul statisticii aplicate introductive. Dei unele metode presupun date continue, cum este
cazul metodelor de regresie, se face cel mai adesea abstracie de la aceast presupoziie.
Exist rezultate matematice suficient de bine fundamentate care permit o atare abordare fr
pericolul de a grei semnificativ. i apoi continuitatea datelor nu nseamn statistic mai mult
dect c valoarea msurat poate fi orict i nu numai anumite valori, de exemplu numere
ntregi. O asemenea condiie nu este de fel restrictiv.
28
Capitolul 3. Culegerea datelor statistice. Sondajul de opinie
Datele statistice pot proveni din surse oficiale, cum sunt institutele naionale de statistic sau
organizaiile internaionale, i atunci se refer de obicei la un ansamblu complet de obiecte,
indivizi sau fenomene sau pot proveni din aa-zise sondaje statistice. n primul caz, dei
culegerea datelor este de obicei laborioas, tiinific justificarea utilizrii lor nu pune
probleme deosebite pentru statistician. Pe de alt parte, tehnica sondajului este una mult mai
pretenioas i matematic mai complicat. Cu att mai mult cu ct unii care fac sondaje i
majoritatea celor ce le citesc uit de principalele probleme implicate n validitatea lor.
1. Statistici de recensmnt si statistici de sondaj. Generalizarea statistic i limitele ei.
Cum am mai scris i mai sus, metoda specific de culegere a datelor n statistic este sondajul.
Acesta se bazeaz pe o serie de teoreme matematice care permit, n condiii foarte bine
specificate, care n realitate nu snt niciodat perfect ndeplinite, generalizarea rezultatelor de
la nivelul eantionului, adic a mulimii celor chestionai la nivelul populaiei, adic a
mulimii care reprezint inta cercetrii.
Prima definiie necesar pentru a continua este cea a populaiei. n orice cercetare statistic
populaia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetrii,
asupra crora se refer ipotezele i teoriile ei. Dac de exemplu, vrem s facem o cercetare
legat de consumul de ap mineral n Romnia, populaia studiului va fi ntreaga populaie a
rii, de vrea 21 de milioane, ct e ea. Dac ns cercetarea are caracter politic, probabil a
dori s restrng populaia la persoanele cu drept de vot, electoratul romn, adic numai vreo
17,5 milioane. De la caz la caz, populaia unei cercetri poate fi mulimea locuitorilor unui
ora, mulimea juctorilor de fotbal sau a studenilor unei faculti, dar exist i cercetri cu
alte nivele de agregare la care populaia poate fi mulimea intreprinderilor mici i mijlocii
dintr-o regiune, mulimea judeelor Romaniei sau chiar a rilor europene. Stabilirea
populaiei cercetate este un prim pas n orice studiu statistic. Este de fapt rspunsul la
ntrebarea: despre cine am dori s putem spune ceva? i de aici decurge alegerea celor care
vor fi msurai (adic vor rspunde la ntrebri) dar i felul cum se fac msuratorile (adic se
pun ntrebrile) i interpretarea rezultatelor. Alegerea populaiei este o decizie ce ine de
substratul teoretic al studiului dar n acelai timp determin teoriile ce vor fi folosite n
continuare pe parcursul proiectrii cercetrii.
29
Nu toate cercetrile statistice sunt bazate pe date culese prin sondaj. O mare parte dintre
metodele folosite att pentru descrierea datelor ct i pentru testarea unor teorii se aplic, cu la
fel de mult succes, i pe alte tipuri de date. Este vorba despre ceea ce numim date de
recensmnt. Suntem obinuii cu acest termen ca desemnnd o chestionare periodic, dar
totui rar, a ntregii populaii a rii pe teme legate mai mult de statutul social-economic.
Conceptul are ns o definiie ceva mai larg. Un recensmnt este o cercetare care presupune
intervievarea (sau mai general, msurarea) tuturor membrilor populaiei studiate. Deci tehnic
un studiu care trateaz statele europene folosind date culese din toate aceste state este un
recensmnt la fel cum tot recensmnt este un studiu care intervieveaz toi studenii unei
anumite faculti att timp ct rezultatele nu se doresc a fi generalizate pentru alte grupuri de
studeni. Dei n cazul recensmntului inducia statistic nu are rolul pe care i l-am pomenit
n introducere, exist aa cum am mai spus i aici un anumit nivel de generalizare. Anume,
prin faptul c folosim modele mai mult sau mai puin simple pentru indivizii studiai i
ncercm totui s tragem concluzii despre comportamentul lor sau despre opiniile lor.
Tot ce am putea tii, de exemplu, despre studenii facultii de tiine politice din Timioara
sunt rspunsurile pe care acetia le dau la un chestionar. Am putea totui s ncercm s
verificm dac pentru acetia se poate susine faptul c cei ce lucreaz n perioada studeniei
sunt mai puin interesai de problemele legate de organizarea academic. Este posibil o astfel
de cercetare? Desigur. Este sigur c se poate rspunde la ntrebare? Evident, nu. ntrebarea
este o ipotez de lucru, s-ar putea s poat fi respins, s-ar putea ns s nu se poat face acest
lucru. Indiferent ns de aceasta, rezultatele se vor referi numai la studenii chestionai i nu se
vor putea generaliza, dup regulile statisticii cel puin, la ali studeni, din alte faculti sau
alte orae.
n unele cazuri, probabil pentru a evita confuzia curent cu recensmintele naionale
menionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot nelegndu-se de
fapt populaia care este n acelai timp i eantion al cercetrii.
n general un eantion este mulimea aleas prin vreo metod oarecare, a celor ce vor fi
chestionai (sau msurai) n cadrul unei cercetri. Dac de exemplu, la o fabric de ciorapi
trebuie fcut un studiu statistic al egalitii lungimii ciorapului stng cu ciorapul drept,
probabil c s-ar decide c este suficient msurarea unui eantion i nu al ntregii populaii
30
ciorpeti. S-ar putea alege, i ar fi chiar cea mai bun metod, de pe banda de producie tot a
o mia pereche de ciorapi pn cnd se ajunge la un numr dorit, de exemplu tot o mie de
perechi. Perechile de ciorapi msurai vor forma eantionul, producia ce are loc n perioada n
care se aleg perechile de ciorapi e populaia cercetat. Exist multe metode de a alege un
eantion, unele mai bune, altele mai puin, unele mai simple, altele mai puin. Vom reveni la
acestea n partea a dou a acestui capitol.
Pentru moment s ncerc s explic de ce putem face asta. De ce e suficient s msurm o mie
de ciorapi ca s spunem ceva despre cteva sute de mii, sau de ce un institut de sondare a
opiniei publice e suficient s ntrebe nu mult mai mult de o mie de oameni pentru a prevedea
suficient de bine rezultatul unor alegeri prezideniale? Explicaia st n cteva teoreme
matematice. Ele snt n general cunoscute ca fiind legile numerelor mari, teorema
fundamental a statisticii i teorema limit central. Nu cred c a fi de prea mare folos
cititorilor acestei cri dac le-a enuna matematic corect. Voi ncerca deci numai s le
povestesc.
Legile numerelor mari snt o serie ntreg de teoreme, probabil prima fiind enunat de
Bernoulli n 1713. Toate aceste teoreme spun lucruri asemntoare. Ele de fapt vorbesc despre
repetarea unor experimente, de exemplu aruncarea unui zar. Esenial este ca repetarea aceast
s se fac n aa fel nct fiecare aruncare de zar (sau ce experiment ar fi) s fie independent
de celelalte. Dac e aa i notm rezultatele, pe msur ce numrul de experimente crete felul
cum se distribuie rezultatele observate se apropie din ce n ce mai mult de felul cum sunt
distribuie toate rezultatele posibile. n cazul unui zar bine echilibrat, pe msur ce repetm
aruncarea cu zarul ne apropiem din ce n ce mai mult de o distribuie n care fiecare faet
apare de un numr egal de ori. Traducerea n statistic e simpl. Fie o informaie oarecare de
interes pentru cercetarea noastr, o dat statistic cum i-am spus pn acum, sau o variabil
cum i se mai spune. Ea este cumva distribuit n populaie (de exemplu genul e distribuit cam
jumtate jumtate, perechile de ciorapi inegali sunt cam 5% din producie, etc.). Ei bine
legile numerelor mari ne asigur de faptul c dac alegem s chestionm (msurm) un numr
de indivizi (perechi de ciorapi) atunci att timp ct alegerea unui individ este independent de
celelalte alegeri, pe msur ce numrul celor alei crete, distribuia rezultatelor de msurare
se aproprie de distribuia valorilor n ntreaga populaie. Simplu spus asta nseamn c un
eantion mai mare e mai bun dect unul mai mic. Dar mai spune dou lucruri eseniale. O
dat, faptul c adugnd la eantion n mod corect nu ne ndeprtm de la distribuia pe care
31
dorim s o aflm ci ne tot apropiem de ea i n al doilea rnd, mai important, ne spune cum
trebuie s alegem eantionul. Anume astfel nct fiecare alegere s fie independent. Din
pcate, aa cum vom vedea asta nu este chiar aa uor n statistic ca la aruncarea cu zaruri.
O form a legii numerelor mari, cunoscut i ca teorema Glivenko-Cantelli a fost adesea
numit teorema fundamental a statisticii. Ea ne asigur inc mai bine de apropierea aceasta a
distribuiei valorilor observate de cele existente n populaie, apropiere ce n matematic se
numete convergen. Teorema Glivenko-Cantelli ne spune c aceast convergen este
uniform pe msur ce crete volumul eantionului. Bun, deci, din cele de pn acum tim c
msurnd un eantion din ce n ce mai mare ne apropiem din ce n ce mai mult i uniform de
felul cum variabilele ce ne intereseaz sunt distribuite n populaie, atta timp ct fiecare
element din eantion l-am ales independent de celelalte (vom spune n general c eantionul e
ales aleator, la nimereal). Pare de bun sim, cred. ntrebarea mare ce se pune acum este, ct
de mare trebuie s fie eantionul astfel nct apropierea s fie suficient de bun? Altfel,
desigur, dac pentru o populaie de 21 de milioane, distribuia din eantion se apropie de
distribuia din populaie pe msur ce se adun milioanele de chestionare nu am rezolvat prea
mare lucru.
Aici intervine teorema limit central. i ea face parte dintr-un grup de teoreme numit n
general teoreme limit central. Pentru a deosebi teorema cea mai important dintre acestea, o
teorema enunat i demonstrat de Lyapunov la nceputul secolului 20, ea se scrie adesea cu
litere mari (Teorema Limit Central!). Ea ne spune c n anumite condiii, importante pentru
matematicieni, o sum de variabile aleatoare necunoscute, dar independente tinde la o
distribuie normal cnd numrul acestor variabile tinde la infinit. Condiiile pomenite nu sunt
de fapt foarte restrictive, ele spun c variabilele nsumate trebuie chiar s fie oricum, la
nimereala i faptul c trebuie s aib aceiai medie i dispersie. Aceasta, a doua condiie nu
este de fapt chiar att de restrictiv, dei poate prea. De fapt ea nu este restrictiv pentru c
orice variabil aleatoare poate fi mpins spre stnga sau dreapta graficului ei prin simpla
adunare sau scdere a unei valori numerice. Nu se schimb cu nimic caracteristicile variabilei,
pur i simplu graficul se mpinge ncoace sau ncolo. Deci orice variabil poate fi adus la
aceiai valoare medie fr a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu
mult, aa c nu o mai comentm aici. Bun, deci, le insumm i iese ceva numit distribuie
normal, o distribuie despre care vom mai vorbi. Precum vedem ea este foarte important n
statistic. Nu e foarte simpl matematic, dar pentru majoritatea utilizatorilor de statistic e
32
suficient s cunoasc cteva din principalele ei proprietti. i pe moment cel mai important
este c e cunoscut. E foarte important. S relum de fapt ideea. Avem un numr de tot felul
de variabile despre care nu tim mai nimic i dac le adunm toate iese ceva cunoscut. Asta e
foarte confortabil pentru c la urma urmei n orice cercetare ce presupune studierea
comportamentului unor oameni putem s fim destul de siguri c sunt o gramad de variabile
pe care nu le-am putut msura i nc i mai multe la care nu ne-am putut nici mcar gndi. Ei
bine, astea toate nsumate n efectele lor produc ceva cunoscut. Deci, grija mare c sunt attea
i attea care nu pot fi luate n seam nu e chiar aa de justificat.
Aceast grmad de variabile sunt de fapt eroarea care trebuie luat n seam cnd ncercm s
estimm o valoare. Prin faptul c se poate estima corect forma sumei variabilelor care nu le
lum n seam n mod explicit se obine i formula care permite estimarea erorii. Cum am
vzut din teoremele numerelor mari aceast eroare este legat de volumul eantionului. Deci
aici putem estima volumul unei eantion pentru a obine cu probabilitate mare o anumit
precizie a cercetrii statistice.
33
2. Cum facem un sondaj de opinie simplu i corect?
1. Eantionarea aleatoare
Din considerentele (aproape) matematice din seciunea precedent putem s extragem o
concluzie esenial pentru tehnica sondajului de opinie. Anume, garania matematic pentru
posibilitatea unei estimri statistice corecte este ca alegerea eantionului studiat s fie pur
aleatoare, adic s nu depind chiar de nimic.
Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei.
Premisele sunt urmtoarele. Avem o urn din care se pot extrage bile i n care se gsesc un
numr de bile de diverse categorii. De exemplu, bile albe i negre. Extragem din urn cte o
bil, notm culoarea ei i o introducem la loc. Legea numerelor mari ne asigur c repetnd
operaia asta de multe ori vom obine o bun estimare a distribuiei bilelor n urn. Modelul
acesta se numete schema bilei rentoarse i introducerea bilei la loc n urn este esenial
pentru c astfel ansa de a alege o bil de o anumit culoare rmne cea de la nceput pentru
fiecare extragere. Dac ne-am imagina o urn cu un numr foarte mare de bile din care
extragem un numr relativ mic, am putea presupune c distribuia rmne aproape
neschimbat chiar dac bila nu se introduce la loc, adic dac aceiai bil nu mai poate fi
extras de mai multe ori. Aceasta este situaia unui sondaj real.
Ideal ar fi deci s avem un recipient mare de tot n care stau cumini toi membrii populaiei
pe care dorim s o studiem i s extragem de acolo rnd pe rnd cte unul, s-l interogm i s-
l punem la loc. Aceasta este ns posibil numai parial. S vedem ce corecturi sunt necesare
pentru a putea s ne apropiem ct mai mult de acest modelul teoretic.
n primul rnd, n oala noastr nu va sta chiar toat populaia pe care vrem s o cercetm. (i
spun oal, pentru c urn mi se pare prea morbid, i recipient prea pretenios.) Exist dou
feluri de aborda problema asta. Pe de o parte, e normal s ncercm s lum o oal ct mai
cuprinztoare, pe de alt parte e la fel de normal s redefinim populaia n funcie de oala
aleas. Hai s dau cteva exemple.
S zicem c dorim s aflm ceva despre populaia oraului Timioara. S alegem recipientul
din care extragem subiecii cercetrii. De exemplu, Piaa Operei. Punem operatori de sondaj
34
n pia i i nvm s abordeze ceteni n mod aleator. Indiferent cte ore ar sta operatorii
notrii n pia i indiferent n ce zile ar sta acolo, recipientul acesta nu va conine toat
populaia Timiorii n nici un caz. Mai mult, cei ce trec prin pia vor fi probabil persoane
care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, s fie n
special persoane care nu sunt angajate n munc: studeni, elevi, pensionari, amatori de fotbal,
actori i statisticieni. Pur i simplu, faptul de a trece n Timioara prin Piaa Operei e deja un
anumit mod de comportament i ar putea influena i alte comportamente i opiuni ale celor
alei s rspund la chestionar. Un astfel de eantion nu va fi reprezentativ pentru ntreaga
populaie a oraului. Oala e pur i simplu prea mic. Pe de alt parte, nu tiu dac clientul
cuiva ar fi mulumit cu aseriuni de genul: o treime din cei ce trec prin Piaa Operei ziua n
amiaza mare ar cumpra detergentul ....
Bun, e preferabil deci s alegem alt oal. O opiune care se ofer este cartea de telefon. Fie
deci, cartea de telefon, oala din care se aleg la nimereal numere de telefon. Intervievarea prin
telefon are i avantajul de a fi rapid i confortabil. Este ns oala asta destul de mare?
Depinde. Practic punnd astfel problema redefinim populaia de la populaia oraului
Timioara la populaia oraului Timioara abonat la Romtelecom. Aceast populaie
poate fi o mai bun sau mai proast aproximare a populaiei iniiale dar nu va fi n nici un caz
o aproximare statistic pentru c apartenena la cea de a doua populaie nu este una aleatoare
fa de prima populaie. Mai simplu, populaia celor care au telefon n Timioara nu a fost
aleas n mod ntmpltor din toat populaia oraului, persoanele cu pricina au avut de fcut
pai administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit
minim, poate chiar un efort logistic. Deci putem linistit presupune c cei ce au telefon sunt
altfel dect cei ce nu au. Deci, cele dou populaii nu sunt interanjabile. Posesorii de telefon
vor avea probabil n medie un venit mai mare, vor fi localizai n anumite cartiere, etc. Totui,
clientul nostru s-ar putea s fie mulumit de rezultate obinute pe populaia restrns att timp
ct volumul ei este suficient de apropiat de volumul populaiei iniial considerate. La nceputul
anilor 1990 a fi fost clar mpotriva intervievrii telefonice. Pe vremea respectiv foarte multe
familii nu aveau telefon dei ar fi dorit s aib, iar cei ce aveau telefon aveau n mod clar
caracteristici particulare, de obicei de natur profesional. Dei aceasta poate s fie teoretic
adevrat n continuare, deoarece numrul de abonamente telefonice n mediul urban se
apropie foarte mult de numrul total de gospodrii, redefinirea populaiei nu este una care s
deranjeze prea mult. Discrepana dintre mediul urban i cel rural rmne ns att de mare nct
35
un sondaj pe o populaie ce include i mediul rural, ca de exemplu, populaia unui jude, nu se
poate n nici un caz efectua telefonic.
O alternativ similar cu cartea de telefon dar, cel puin teoretic mai bun este folosirea
listelor de alegtori. Din pcate, aa cum s-a vzut la alegeri, migraia populaiei intern i
internaional a fcut ca listele electorale s fie destul de greu practicabile, adresele de pe liste
nepotrivindu-se adesea situaiei din realitate. Apoi, obinerea listelor electorale pentru o
cercetare oarecare nu este ceva chiar aa de uor. Important de notat c listele cu toat
populaia, cum sunt listele electorale sau crile de telefon, se numesc cadre de eantionare
i au marele avantaj de a uura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintr-
un cadru de eantionare este posibil.
S revenim ns la alegerea recipientului. Daca nici cadre de eantionare bune nu sunt ce se
poate face? Se poate, de fapt, defini oala astfel nct s cuprind chiar pe toat lumea?
Probabil nu. Aproximaia cea mai bun este de a considera oraul, judeul sau ara n
distribuia ei teritorial ca fiind chiar oala i a alegere de aici pe baza adreselor gospodriilor.
Alegerea unei adrese va fi de fapt o metaforic extragere din urn. Evident, nici aa nu avem
chiar urna teoretic n care se afl toate bilele. Lipsesc cei ce nu se afl la domiciliul stabil sau
nu au un domiciliu stabil, fie ei nomazi prin modul lor de via, plecai n concedii sau la
munc n strintate. Aa cum tim, n cazul Romaniei de astzi numrul acestora este
important i redefinirea populaiei este esenial n acest caz, dar de obicei ea este ntru totul
acceptabil. Oala geografic va nsemna parcurgerea oraului pe baza unui itinerariu.
Operatorul va parcurge strzile - locuinele i va alege - extrage dintre ele. Bineneles, din
motive practice va trebui ales un punct de unde pornete operatorul n itinerariul lui. Pentru c
se lucreaz cu mai muli operatori i pentru c exist prejudecata cum c o distribuie
geografic uniform ar nbunti relevana sondajului, se aleg de obicei puncte de pornire pe
cartiere. Ideal ar fi ca aceste puncte s fie alese chiar aleator, de exemplu aruncnd cu un dart
pe un plan al oraului. Pe de alt parte, distribuia uniform a punctelor de pornire, dei nu
este justificat matematic elimina riscul ca doi operatori s ajung la aceiai familie!
Am vzut problemele legate de metaforica noastr urn, s vedem cum arat alegerea din
urn, extragerea aleatoare. n forma teoretic atunci cnd experimentatorul bag mna n urn
el nu simte nici o diferen ntre bile. Toate sunt la fel, alegerea nu are loc pe baza unei
caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde dect cele
36
albe. Regula esenial a alegerii aleatoare, se poate exprima astfel: fiecare membru al
populaiei trebuie s aib aceiai ans s fie ales n eantion. Pare simplu, nu e. Numai
dac avem un cadru de eantionare aceasta se poate face (aproape) perfect. Atunci un
generator de numere aleatoare pe calculator ne poate alege un eantion ct de mare vrem.
Aceasta ar fi o eantionare aleatoare perfect. Mai exist o variant la fel de bun, dar mai
puin laborioas. Dat fiind construcia listelor, fie electorale, fie telefonice, care se face
alfabetic, poziia unei persoane n list nu e legat de anumite caracteristici. De aceea se poate
folosi o metod mai simpl, aa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim
nume. Apoi se aplic un pas de eantionare. Acesta se calculeaz ca raport dintre volumul
populaiei i volumul eantionului. De exemplu, n Timioara sunt aproximativ 140.000 de
abonamente telefonice. Daca dorim un eantion de 1000 de persoane, pasul de eantionare va
fi de 140. Punem n eantion, de exemplu, primul numr telefonic din carte, apoi numrul al
141-lea, apoi al 281-lea, i aa mai departe. ansa unui numr de a fi ales depinde de alegerea
primului numr, aceste se alege din valori ntre 1 i 140. Oricum toate numerele de telefon au
aceiai ans de a fi alese independent cui aparin, i n mod evident, ceea ce e cel mai
important, nu conteaz nici un fel de caracteristici social-economice, etnice sau
comportamentale ale celor alei.
S ne gndim la varianta pe care am considerat-o cea mai bun pentru alegerea urnei, anume
parcurgerea geografic a localitii. n acest caz avantajul de a lucra cu situaia real a
adreselor este i motivul principalului dezavantaj. Anume, nu exist un cadru de eantionare
ceea ce face alegerea simpl aleatoare sau pseudo-aleatoare imposibil. Cum alegem
locuinele ca s dm tuturor aceiai ans, i o dat aleas o locuin cum dm tuturor
locatarilor aceiai ans? Esenial este desigur ca alegerea s nu fie influenat de caliti ale
locuirii i persoanelor. Adic, casele mai drgue s nu fie favorizate fa de cele mai
nentreinute, persoanele mai primitoare fa de cele mai puin primitoare, eventual chiar
unele etnii fa de altele! Metoda care se folosete este construirea unui itinerariu-algoritm. E
ca i cum am face o alegere pseudo-aleatoare n care pasul de eantionar