+ All Categories
Home > Documents > 58090697-Carte-de-Statistica (1)

58090697-Carte-de-Statistica (1)

Date post: 13-Jul-2015
Category:
Upload: ionescu-cristi
View: 147 times
Download: 1 times
Share this document with a friend

of 203

Transcript

Carte de Statistic Reete ncercateRobert D. Reisz

Cuprins

Cuvnt nainte 1. Introducere. a. Ce este statistica? b. Cum cunoate statistica? c. Cauzalitate i statistica. d. Foarte scurt istoric al statisticii. 2. Ingredientele statisticii. Tipuri de date. a. Date nominale b. Date ordinale c. Date intervalice d. Date raionale 3. Culegerea datelor statistice. Sondajul de opinie. a. Statistici de lot si statistici de sondaj. Generalizarea statistic i limitele ei. b. Cum facem un sondaj de opinie simplu i corect? Eantionare, chestionar, aplicare. 4. Aperitive. Primii pai n descrierea datelor statistice a. Imagini de ansamblu asupra datelor. i. Frecvene simple. ii. Reprezentri grafice b. Indicatori agregai i. Tendina central ii. Distribuia datelor 1

5. Supe, ciorbe i teste statistice simple. a. Distribuia normal b. Teste statistice t pentru medii i Z pentru proporii. c. Calculul erorii unui sondaj si interpretarea ei. 6. Feluri principale i garnituri sau relaia dintre mai multe variabile a. Grafice pentru mai multe variabile. b. Tabele de relaionare. c. Analiza de varian. Testul ANOVA unifactorial. d. Corelaia simpl i parial. Coeficienii de corelaie. e. Regresia liniar simpl i multipl. 7. Pentru vegetarieni. Analiza datelor nenumerice. a. Testul Chi2 b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis c. Regresia categorial. 8. Analiza seriilor de timp a. Ce e o serie de timp? Identificarea de patternuri n serii de timp b. Trend i sezonalitate c. Regresii cu serii de timp d. Analiza de supravieuire 9. Clasificarea datelor. a. Clustere ierarhice b. Clustering cu centre de clustere 10. Deserturi.

2

Cuvnt nainte

La primul curs de statistic pe care l-am inut la facultatea de tiine politice de la Universitatea de Vest din Timioara o student mi-a spus pe un ton ct se poate de tranant: habar nu are de matematic, nici nu vrea s nvee aa ceva i oricum a venit la facultatea de tiine politice tocmai ca s scape de matematic i alte asemenea tiine exacte. Sunt convins c aceast experien a mea e departe de a fi unic. Am ncercat pe parcursul celor dou semestre s o conving pe ea i pe colegii ei, de obicei de aceiai prere cu ea, de utilitatea statisticii i de simplitatea ei. Sunt convins c nu am reuit sau nu ntru totul, dar tiu de asemenea c am reuit s i familiarizez cu conceptele de baz ale statisticii i modul cum acestea funcioneaz n logica cercetrii sociale. Cartea aceasta se adreseaz tocmai celor ce se tem de calculul matematic sau sunt doar neexersai in el, precum i celor ce fac primii pai n lucrul cu metode tiinifice cantitative in cunoaterea social. Cartea mea vrea s fie uor de citit, dar n primul rnd uor de nvat i de aplicat. Voi prezenta n paginile ce urmeaz principalele metode folosite n statistic, metode utilizate n cercetrile din tiinele sociale i nu numai; reetarul de baz pentru lucrrile de cercetare din sociologie, psihologie, tiine politice, economice dar i medicin i alte tiine ce se bazeaz pe cunoaterea empiric a realitii. Voi insista pe interpretarea rezultatelor precum i pe ipotezele metodelor statistice, elemente ale cunoaterii statistice ce stau la interfaa dintre teorie si metod i definesc n cele din urm limitele cunoaterii prin statistic. n opinia mea, renumele uneori negativ pe care l are statistica n mass-media romaneasc, i m refer aici la scepticismul foarte rspndit fa de cercetrile bazate pe sondaje de opinie, se datoreaz pe lng existena real a unor cercetri cel puin dubioase, i unei nenelegeri ale limitelor cunoaterii statistice. Desigur cunoaterea statistic este prin felul ei imperfect, inexact, probabil i nu cert, dar puterea ei rezid tocmai n posibilitatea de a delimita cu siguran uneori destul de mare intervalul n care se afl realitatea. S fiu mai explicit, statistica nu va da niciodat rspunsuri simple i exacte. Dar astfel de rspunsuri, n msura n care exist n cunoaterea lumii reale, nu ne sunt utile. Rspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple, nici exacte. Cu toate acestea, cunoaterea statistic este cunoatere, adevrul statistic chiar dac nu este absolut este un adevr pragmatic att timp ct i nelegem limitele. 3

Mai exist un motiv pentru care scriu aceast carte. Cutarea mea a unui manual de statistic introductiv publicat n limba roman a fost pn acum ncununat de eec. Dei exist multe manuale de acest tip n spaiul anglofon i nu numai, la noi pn n prezent manualele de statistic bune au inut s se prezinte la un nivel tiinific prea ridicat pentru nceptorii fr interes i aplecare fa de cele matematice. Poate i de aceea statistica nu a devenit ca n alte pri, un bun comun a celor ce cerceteaz lumea politic, social sau economic i putem ntlni att de des prostii monumentale n presa romaneasc atunci cnd aa-zii analiti se apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi ncerca, de fapt, s exemplific pe parcursul crii cteva din erorile cele mai uzuale ale comentatorilor politici dar i ale politicienilor din ara noastr. Uneori nclin s cred c o mai bun nelegere a felului cum cunoate statistica i a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva partide de la dispariie. Nu voi merge prea departe cu ideea de a produce o carte de reete de statistic, totui ea este ntr-un fel justificat. Toate metodele din carte sunt ntr-adevr ncercate, i vor s fie exemple de metode ce se pot aplica cu succes n cercetare. De asemenea toate interpretrile pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenia asupra unor erori ce apar adesea, voi ateniona fa de prea mult scepticism n egal msur ca i fa de un optimism exagerat. Deci condimentai cu msur i, precum cei mai buni buctari, aplicai reetele mele cu nelegere, n spiritul i nu numai n litera lor.

4

Capitolul 1. Introducere.S ncepem uor, cu nceputul. n acest capitol a vrea s definesc conceptul de statistic i felul cum poate statistica cunoate lumea. Voi vorbi despre raionamentul statistic, despre eroare i greeal n statistic, precum i despre cauzalitate i statistic.

a. Ce este statistica? Statistica se definete de obicei ca un subdomeniu al matematicii dedicat culegerii, analizrii, interpretrii i prezentrii datelor. Definiia aceasta mi se pare ns ct se poate de nesatisfctoare pentru c, pe de o parte nu spune nimic despre felul cum acioneaz statistica lsnd prin urmare orice metod ca fiind acceptabil, i mai apoi folosete un concept mult prea general si ambiguu, acela de dat. n acest concept este probabil ascuns chiar ceea ce eu consider a fi genul proxim n cadrul cruia ar trebui definit statistica. Anume faptul c ea este o metod de cunoatere. Statistica este o metod de cunoatere a unor obiecte sau fenomene bazat pe interpretarea rezultatelor de msurare. Mie definiia aceasta mi place mai mult, dei probabil sun nc destul de criptic. Anume, mut ambiguitatea de la conceptul de dat la felul cum se obine aceasta, adic prin msurarea unor obiecte sau fenomene. Ei bine, eu nclin s cred c msurarea n cauz se poate face chiar cu orice aparat de msur att timp ct acesta este de ncredere, adic nu face erori sistematice. Totui, nite exemple ar fi utile aici, nu-i aa? Deci, aparate de msur sunt desigur cntarul i metrul croitorului sau ale constructorului, ca i ublerul sau micrometrul, dar pn la urm orice funcie care face univoc legtura dintre un obiect sau fenomen i o valoare fie ea numeric sau nu, este o msurare. Sper c nu am speriat nc pe nimeni folosind termenul de funcie n sens matematic. O funcie este o relaie ntre dou mulimi, n cazul nostru o mulime de obiecte sau fenomene de acelai tip pe care dorim s o cunoatem mai bine i o mulime de valori statistice pe care le putem analiza. Punem de fapt n relaie ceva ce nu putem folosi nemijlocit n calculele noastre cu ceva ce putem folosi. Msurm de exemplu greutatea unor cini, poate pentru a analiza efectul unor alimentaii specifice. Folosim un cntar, desigur, dar de fapt definim prin aceasta o funcie pe domeniul cinilor studiai lund valori n domeniul numerelor reale. i de ce facem asta? Pentru c dorim s interpretm, s calculm, s comparm i, n fine, s prezentm ct mai simplu i 5

coerent rezultatele cercetrii noastre. i nu tim s calculm cu cini, ns tim s facem asta cu numere. Aceast problem este mereu prezent n cunoatere. Nu putem calcula cu obiectele reale, fenomene aa cum sunt ele. Aa cum nu putem face calcule cu cini, nu putem face nici cu opiniile politice i nici cu comportamentele economice ale unor oameni adevrai. Trebuie s le transformm n lucruri cu care putem calcula, n valori numerice sau nenumerice, oricum valori care sunt simple i n primul rnd complet definite prin ele nsele. S m explic: este practic imposibil s definesc complet un obiect sau un fenomen real. Orice definiie a cinelui meu ar fi incomplet, ar omite un fir de blan sau chiar o caracteristic comportamental pe care poate nc nu o cunosc. Iar de ar fi, prin absurd, posibil o definiie complet a lui Garu, aa l cheam (tiu, e aiurea, dar e o poveste mai lung), ar fi de o complexitate ce ar face s fie absolut inutil pentru orice interpretare sau analiz. Pe de alt parte rezultatul msurrii greutii lui este 30kg ceea ce este desigur un model ct se poate de inexact pentru un cine dar este o valoare util i calculabil att timp ct tim exact ce nseamn i nu i conferim o mai mare importan dect are, anume greutatea lui Garu. Completnd aceast msurtoare cu altele, precum vrsta, rasa i genul, obinem un model, o definiie incomplet i util, att incompletitudinea ct i utilitatea ei rezultnd pn la urm din simplitatea ei. La fel se ntmpl i n cazul opiniilor politice ale unei persoane, de exemplu ale colegului meu Ionic. Opiniile lui Ionic sunt complexe, anumite teme l intereseaz i este informat asupra lor avnd opinii nuanate. Alte teme nu l intereseaz i nu are opinii asupra lor sau are opinii superficiale formate rapid. Mai mult, opiniile lui Ionic, precum a oricrei persoane inteligente sunt schimbtoare, reacioneaz la schimbrile din mediu, la noi informaii i noi evenimente. Nu avem cum efectua calcule cu opiniile lui Ionic, putem ns s msurm elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, l putem ntreba ce prere are despre un anumit politician i i putem oferi 5 variante de rspuns. Avem atunci o msurtoare, care este n acelai timp o simplificare i o datare. Acest rezultat de msurare va fi legat de momentul la care am pus ntrebarea (i va rmne neschimbat, dei opinia lui se poate schimba ulterior) i va ncerca s includ opinia lui Ionic ntr-o schem simpl care nu l poate descrie evident ntru totul dar care l poate face comparabil cu ali oameni care au rspuns la aceiai ntrebare. i aici este chiar principala problem a statisticii. Statistica nu calculeaz cu cini, oameni sau partide. Statistica calculeaz cu rezultatele unor msurtori ale acestora. Cunoaterea n 6

general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construiete astfel de modele prin msurare. Cum msoar de obicei statistica? Ei bine, oricum. Sau mai exact, depinde de tem. Statistica medical msoar cu aparate sofisticate dar a cror exactitate ar trebui s nu depind de cel ce efectueaz cercetarea, statistica social sau politic este ns de obicei nevoit s-i dezvolte propriile aparate de msur, chestionarele. Vom reveni n capitolul al treilea la felul cum se scriu, i cum nu se scriu chestionare. Pn atunci s continum ns s discutm cum metoda de msurare cu chestionarul influeneaz chiar conceptual cunoaterea statistic. Un aparat de msur trebuie s aib dou principale caracteristici pentru a fi util. Trebuie s dea un rezultat i unul singur, i mai mult dect att, la repetarea msurrii s produc acelai rezultat sau unul foarte apropiat. Presupunnd c reuim s-l urcm pe Garu (cinele meu, v aducei aminte) pe un cntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o valoare apropiat de 30kg. Daca reuim acest efort de persuasiune i ndemnare n repetate rnduri ntr-un scurt interval de timp, utiliznd mai multe cntare, acestea vor fi bune n msura n care ne vor da aproximativ acelai rezultat. Pe de alt parte ns, greutatea lui Garu nu se va schimba de pe urma faptului ca a fost msurat. Chiar daca Garu ar fi priceput ceva din cele ce i s-au ntmplat tot nu i-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a testa aparatele de msur pentru coerena lor nu ne este ns accesibil n cazul chestionarului. Daca dorim s repetm chestionarea lui Ionic suficient de curnd pentru ca opinia lui s nu se fi schimbat prea mult, el i va aduce desigur aminte de chestionar i va rspunde probabil la fel mcar pentru a se arta consecvent, caracteristic pe care societatea noastr o valorizeaz n sine. Exist chestionare special elaborate, n special n cercetri de psihologie care rezolv aceast problem ntr-o oarecare msur prin punerea a foarte multe ntrebri i repetarea unora dintre ele n forme mai mult sau mai puin modificate. Una peste alta problema rmne ns deschis pentru majoritatea cercetrilor. Chestionarele nu se pot de obicei calibra att de bine ca i cntarele. Soluia la aceast dilem nu este dect recunoaterea unei alte limitri a cunoaterii prin statistic social. O cercetare care folosete o metod de msurare nu poate fi comparat cu o alt cercetare ce folosete alt metod de msurare. Cntarele cercetrii sociale nu sunt comparabile. Ca atare msurarea depinde nu numai de obiectul msurat ci i de aparatul de msur. n cercetarea statistic social rezultatul este dependent i specific aparatului i metodei de msurare. Deci, metodologia este parte din rezultat. Putem spune c rezultatul msurrii are sens, este interpretabil, exist numai mpreun cu metoda de msurare. Revenind la conceptul de model pe care l-am introdus mai sus, nu numai c statistica nu 7

calculeaz cu cini, sau oameni, sau fenomene, ea nu calculeaz de fapt nici cu greutatea, opinia sau comportamentul ci cu rezultatul msurtorii acestora aa cum ne-o permit aparatele de msur. Mai simplu, dac ntrebm un elev ct de des ridic mna n clas, nu vom prelucra statistic elevul (bineneles, doamne ferete), dar nici mcar gradul lui de participare n clas (ceea ce unii ar putea spera), ci o msur de moment a opiniei lui fa de gradul lui de participare n clas. i aceast msur va depinde de felul cum e construit chestionarul, de ntrebrile anterioare, dar i de evenimentele din ziua n care am efectuat chestionarea sau din zilele precedente. Aceasta pentru c msurarea se face ntr-un moment anume i cu un aparat anume. Mai mult, msurtoarea nu se aplic participrii n clas ci opiniei elevului asupra acestei participri, opinie care depinde de prerea pe care o are despre coala lui, nvtorul lui, despre sine nsui respectiv despre dezirabilitatea de a fi activ n clas. Toate acestea nu fac msurarea inutil sau cunoaterea obinut de pe urma ei mai puin sigur, pur i simplu sunt elemente ce trebuie luate n seam. Dac aparatul de msur este parte din rezultatul msurat, de aici decurge imediat faptul c nu este posibil vreo msurare fr o teorie ce st la baza ei. Aparatul de msur a fost desigur dezvoltat pe baza unei teorii, fie c a fost un cntar fie c a fost un chestionar. Att timp ct rezultatul msurrii nu depinde de metoda de msurare am putea la o adic s neglijm teoria care a produs aparatul, aceasta ns nu e nici o dat cazul n cercetarea statistic. Chiar dac msurarea a avut loc cu cntarul, ideea de a msura cu cntarul a avut la baz o decizie i aceast decizie o teorie legat de rezultatele dorite de pe urma cercetrii. Cu att mai mult n cazul n care aparatul de msur este parte integrant din rezultatul msurii. n unele nefericite situaii e posibil ca nsui cel ce dezvolt chestionarul i proiecteaz cercetarea s nu fie pe deplin contient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar i atunci acestea influeneaz cercetarea precum o pot influena i prejudecile celor ce o proiecteaz. Acestea sunt nc alte limite ale cunoaterii pe care un bun interpret al calculelor statistice trebuie sa le aibe n faa ochilor. Nu este posibil msurare fr teorie i ca atare teoria ce st la baza unei cercetri trebuie ct mai exact enunat i ct mai consecvent aplicat. S ne ntoarcem deci la definiia noastr: spuneam c statistica se ocup cu interpretarea rezultatelor unor msurtori. Am discutat puin despre msurtori n sine, s vedem acum ce nelegem prin interpretri i care anume sunt metodele de interpretare pe care le numim statistice. Rezultatele de msurare ne dau de obicei o multitudine de caracteristici, date numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie 8

prezentate ntr-un fel pentru a fi de vreun folos. Chiar i o dat prezentate, de exemplu sub forma unei liste cu greutatea a 1000 de cini, ele cel mai adesea nu permit o utilizare, sau o nelegere a ansamblului problematicii. Ce vrea i ce poate de fapt face statistica cu grmada de date pe care le culege prin msurtori?

b. Cum cunoate statistica? Exist dou probleme mari ale statisticii, descrierea unor date msurate si extragerea din date msurate a unor concluzii ce se extind i asupra altor date, care nu au fost msurate din motive ce in cel mai adesea de economie de timp i bani. Prima dintre acestea este problema statisticii descriptive, cea de a doua cea a statisticii infereniale. Statisticile descriptive se multumesc s spun ceva despre obiectele, indivizii sau fenomenele care au fost msurate. ntr-un fel i statistica descriptiv generalizeaz, vrnd s spun ceva despre obiecte pe care le cunoate doar prin rezultatele unor msurtori. Totui, de obicei nu o considerm ca fiind generalizatoare. Primii pai n orice cercetare statistic snt descriptivi. ncercm s prezentm ct mai clar i concis i, pe ct posibil, fr a pierde din acuratee datele msurate. Reprezentrile grafice i tabelare, precum i valorile agregate pe care le vom descrie n capitolul al patrulea al acestei cri sunt metodele cele mai obinuite ale statisticii descriptive. Ele nu prelucreaz prea mult datele ns caut s ofere imagini mai uor inteligibile dect o list lung de valori. Imaginile grafice pot fi n acelai timp i indicatori buni pentru a recunoate trenduri, adic pentru a decide ce calcule se pot face n continuare, cu ce statistici infereniale s se continue analiza datelor. Valorile agregate calculate n contextul statisticilor descriptive au un grad de prelucrare puin mai avansat. De obicei se includ aici formule de calcul ce ncearc s gseasc o tendina central sau medie a datelor i formule ce ncearc s sintetizeze n ce msur datele sunt dispersate n jurul acestei tendine centrale. Desigur nu ntotdeuna aceste valori sunt interesante i nu ntotdeauna merit calculate. Snt ns cazuri n care ele ne dau o imagine bun despre un fenomen. S lum calculul mediei, de exemplu. Media greutii unor cini de aceiai vrst, gen i ras poate reprezenta o bun baz de comparaie ntre rase sau genuri sau vrste. Ne poate deci spune ceva att timp ct este utilizat ceteris paribus. Conceptul de ceteris paribus nseamn, pstrnd toate celelalte caracteristici egale i adesea nu este uor 9

de pus n practic. Totui este esenial atunci cnd vrem s efectum comparaii i s determinm legturi dintre caracteristici, cum ar fi, de exemplu greutatea i genul cinilor. Desigur media greutii tutoror cinilor de la o expoziie chinologic poate fi n ansamblu prea puin relevant. Poate nsemna totui ceva pentru cei care trebuie sa fac curenie a doua zi! De aici, nc o concluzie important: de tema de cercetare depinde metoda cea mai adecvata i nu de repertoarul de metode. Nu stiu de unde provine zicala daca singura scula pe care o ai este un ciocan totul ncepe s semene a cui dar n cazul statisticii sociale se confirm din pcate foarte des. Dac tot ce tii e s calculezi medii, o s calculezi medii indiferent ce tem de cercetare i ce date ai! Cum i ct de mult sunt distribuite datele n jurul tendinei centrale este o alt tem esenial n statistica descriptiv. Ai auzit cu toii butada cu individul care st cu un picior ntr-un lighean cu ap rece ca gheaa i cu unul ntr-un lighean cu ap clocotit i zice c n medie i este bine. Exist multe feluri de a calcula ct de distribuite sunt datele. n exemplul dat probabil ar fi de ajuns s calculm diferena de temperatur dintre cele dou lighene, n marea majoritate a cazurilor avem ns de a face cu un fel de miriapod care are fiecare din mia lui de picioare n ligheane cu ape de temperaturi diferite! Statisticile infereniale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii matematice despre cum sunt datele i au ca principal scop testarea unor ipoteze despre populaii de individizi sau obiecte. Inferena statistic este de fapt formarea unor preri justificate despre o ntreag populaie bazndu-ne pe msurarea unei pri a acesteia. Exemplul care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a opiniei publice pun ntrebri unui eantion de vreo mie de persoane i vor s ne conving pe noi, i binenneles i pe nite clieni pltitori de asemenea, cum c pot spune ceva despre opinia a peste 21 de milioane de persoane. La baza acestui tupeu se afl inferena statistic adic posibilitatea de a generaliza statistic de la msurarea unui eantion la descrierea unei ntregi populaii. Exist teorii matematice care justific aceasta. i dac cercetarea e fcut ct mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate. Bineneles i n acest caz pentru interpretarea lor trebuie sa ne punem ct mai clar ntrebrile: ce am msurat, pe cine am msurat i cu ce acuratee. Principiul fundamental al statisticii este coninut ntr-o teorem matematic numit adesea i teorema fundamental a statisticii. Ea ne asigur de faptul c rezultatele msurtorilor ce se 10

fac pe un eantion se pot, n anumite condiii generaliza la nivelul ntregii populaii. Vom reveni n cel de-al treilea capitol al crii la aceast teorem fr ns a face o prezentare a ei pe placul matematicienilor. O nelegere a consecinelor acestei teoreme pentru ntreaga metod statistic este ns necesar pentru a evalua la adevrata lor importan mai micile sau mai marile devieri de la idealul matematic pe care le ntlnim vrnd nevrnd n cercetrile empirice. nelegerea fundamentelor matematice ale statisticii ne vor permite apoi s nelegem de ce este necesar o alegere foarte bine gndit a persoanelor pe care le intervievm pe parcursul unui sondaj de opinie i de asemenea de ce este necesar o construcie bun a chestionarului pe care dorim s-l aplicm. Testarea statistic nbogete cunoaterea ntr-un mod foarte apropiat principiului respingerii ipotezelor. Pe ct de scurt este, aceast propoziie necesit o explicaie destul de detaliat. La baza ei se afl concepia despre cunoatere tiinific a lui Karl Popper (). n logica raionalismului critic, cum i-a numit Popper nsui teoria, principiul cunoaterii tiinifice sar putea exprima simplu n felul urmtor: cunoaterea uman nu se bazeaz pe certitudini i demostraii ale unor adevruri; ea nu progreseaz pe baza coroborrilor ipotezelor ci pe baza contraexemplelor. Cunoaterea tiinific dezvolt ipoteze. Acestea snt acceptate dac nu se pot respinge. Dar ele nu snt prin aceasta propriu-zis adevrate. Doar c ele nc nu au putut fi respinse. Deci regula cunoaterii nu este demonstraia ci respingerea. Nu putem de obicei tii dac ceva este adevrat, putem ns recunoate cu oarecare probabilitate dac ceva este fals. O teorie este tiinific n msura n care se poate imagina un experiment practic ce are puterea s o contrazic. Dac acest experiment nu reuete respingerea teoriei, aceasta este pentru moment acceptat. Ea nu este adevrat ci acceptabil conjunctural att timp ct nu a fost respins. tiina are deci ca i scop construirea i punerea n practic a unor experimente care ncearc s resping teorii, sau mai exact ipoteze. n statistic ca i n teoria Popperian a raionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipotez nelegem o propoziie care se supune analizei. n logica clasic o ipotez este o propoziie din care decurge o concluzie. Acolo nu se studiaz, de regul, valoarea de adevr a ipotezei, ci felul cum decurge din ea o concluzie. n statistic ns, tocmai ipoteza este presupunerea supus testrii.

11

O ipotez o dat respins duce la o nou interpretare a realitii i ca atare la noi ipoteze. Exist aici o asimetrie ntre verificarea i respingerea teoriilor care este esenial i pentru felul cum cunoate statistica. Statistica folosete principiul contraexemplului ntr-un sens probabilist. S explic. Statistica poate msura o valoare, de exemplu media greutii cinilor de la o expoziie chinologic i o poate compara cu o valoare teoretic ipotetic, de exemplu o ipotetic medie a greutii tuturor cinilor din lume. Pe baza acestor valori, i a unor foarte importante presupuneri despre cum sunt n general distribuite datele i cum au fost ele msurate practic, statistica poate calcula care este ansa ca ipoteza s fie corect n lumina datelor msurate. Statistica va pune deci ntrebarea n felul urmtor. Fie urmtoarea ipotez: media greutii tuturor cinilor din lume este de 50kg. Daca media greutii cinilor din expoziie este de 20kg poate fi oare media greutii tuturor cinilor din lume fi 50kg? Dac aceast ans este foarte, foarte mic exist un bun motiv de a respinge ipoteza. Vom spune atunci c, dac cinii din expoziie reprezint un bun eantion al cinilor din ntreaga lume, iar printre acetia greutatea este distribuita normal, ipoteza cum c media de greutate a cinilor din ntreaga lume este de 50kg este aproape sigur greit. Statistica nu ne spune ct ar fi adevrata valoare a greutii medii a cinilor din lume, ne poate ns spune ct nu este i prin consecin ne poate da o imagine despre cam ct ar putea fi aceasta. Deci statistica lucreaz oarecum dup principiul popperian. Nu poate demonstra, poate ns respinge ipoteze. O bun cercetare statistic, ca i o cercetare tiinific n sensul lui Popper este o cercetare care construiete ipoteze ce pot fi respinse i experimente care au puterea de a respinge aceste ipoteze. Orice cercetare statistic bine construit pornete de la o serie de ipoteze mai mult sau mai puin explicite pe care le supune testrii statistice. Evident, cel mai bine este atunci cnd aceste ipoteze sunt explicite i tiinifice, adic refutabile. Deorece ns, aa cum am vzut deja, nu este posibil msurare fr a accepta n prealabil anumite teorii, ntotdeuna vor exista i presupoziii teoretice care nu se supun testrii. Acestea reprezint cadrul teoretic al cercetrii i tot ce putem face este s le contientizm i s ni le asumm cci ele determin ce i cum cunoatem. nsi acceptarea metodei statistice ca i cale de cunoatere este o astfel de premis teoretic, nu neaprat acceptat de ctre toat lumea.

12

c. Cauzalitate i statistica. O mare parte din cercetarea statistic ncearc s pun n relaie mai multe rezultate de msurare care reprezint caracteristici diferite ale unor individizi, obiecte sau fenomene. Astfel, ca s revenim la cinii notrii, un cercettor ingenios poate msura greutatea i genul cinilor i conchide de exemplu, cum c, pstrndu-ne n cadrul oricrei rase i grupe de vrst, pe msur ce un cine are greutate mai mare el are anse mai mari de a fi mascul. Un astfel de raionament este statistic absolut corect i ne arat ct se poate de clar faptul c conceptul de cauzalitate este un concept teoretic i nu unul statistic. Una din greelile de interpretare cel mai curent ntlnite n citirea datelor statistice este presupunerea de cauzalitate. Foarte adesea ne este convenabil s citim rezultatul unui calcul statistic ca o dovad de cauzalitate. Aceasta este fals chiar din dou motive. Pe de o parte, aa cum am spus-o mai sus, statistica nu dovedete nimic ci eventual nu respinge o ipotez, iar mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzaliti. Este ns ct se poate de adevrat c exist modele statistice ce presupun cauzalitate, cum sunt regresiile. n acest caz cauzalitatea este inclus n model, face parte din teoria ce a stat la baza construirii modelului i desigur, ca n orice form de cunoatere statistic, ea ar putea fi eventual respins. Caz n care am avea un bun motiv s excludem o relaie cauzal. Dac ns nu putem respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune dect am avut n momentul n care teoria ne-a permis s o considerm pentru a fi modelat. Deci cauzalitatea este n teorie, n ipotez i nu n calcul. De aceea exemplul de interpretare de mai nainte ni s-a prut imediat greit. Face parte din simul comun faptul c genul unui cine este neschimbat toat viaa lui, pe cnd greutatea poate varia. De aici teoria noastr despre cini nu accept cauzalitatea dintre greutate i gen ci pe cea invers. Deci, ipoteza pe care nu o putem respinge este: cinii masculi sunt mai grei i nu cinii mai grei sunt masculi. Din pcate nu este ntotdeauna aa simplu. S lum un exemplu clasic, relaia dintre nivelul de educaie al unei naiuni i bunstarea ei. Se tie foarte bine c exist o legtur puternic ntre aceste dou caracteristici aproape indiferent cum le-am msura (de ex: procent din populaie cu studii superioare i produs intern brut pe cap de locuitor), exist ns teorii convingtoare pentru ambele direcii de cauzalitate i testele statistice nu au reuit s resping nici una dintre ele. Decizia asupra direciei de cauzalitate este deci un apanaj al teoriei.

13

i totui, statistica poate construi anumite raionamente cauzale. Acestea se bazeaz pe o observaie ct se poate de simpl: efectul nu poate s precead cauza. Aceasta se poate numi asimetria temporal a cauzalitii. Raionamentul logic e foarte simplu: dac evenimentul A a avut loc dup evenimentul B, atunci evenimentul A nu poate fi cauza lui B. Simplu, dar relativ puin util pentru c foarte rar datele noastre statistice se refer la evenimente singulare, clar databile temporar. Cnd avem de a face cu informaii databile, adic n cazul seriilor de timp, urmrim de regul dezvoltarea unor fenomene n timp. Atunci punem fa n fa dezvoltarea unor serii de timp. Varianta cea mai simpl este s legm dezvoltarea unei variabile, de ex. nivelul de bunstare ntr-o ar, de o alta, de ex. ateptarea de via n respectiva ar. Pn i informaii absolut nesistematice ne pot convinge c ntre acestea exist o relaie. Cum ar funciona ns raionamentul asimetriei temporale? Pentru a nelege aceasta ar trebui sa putem separa mecanismul individual care st la baza statisticii; s desfacem datele rezultate din agregare n fenomene individuale. n cazul de fa, raionamentul ar fi urmtorul: dac o persoan are un nivel de bunstare ridicat, va putea investi mai mult n sntatea sa, prin adresare la medic, alimentaie i igien, i va tri n consecin mai mult. Exist ns i raionamente alternative. De exemplu, se poate presupune c nivelul de bunstare nu mai conteaz dac un anumit prag al srciei extreme e depit. Oamenii nu fac economii la adresarea la medic, la alimentaie i igien. Sau c, dei bunstarea are un anumit efect, de fapt acesta e doar colateral. Ceea ce conteaz este nivelul de educaie i cultur care are efect asupra obiceiurilor alimentare, igienice i de adresare la medic. Cele trei variante acopera situaiile unei cauzaliti relativ directe, ale lipsei cauzalitii i a unui lan cauzal complex fr relaie direct ntre variabilele studiate. Cum raionm statistic? Orice cauzalitate trebuie s se regseasc la nivel individual. Deci, dac n forma agregat bunstarea medie crete sau scade aceasta s-a ntmplat prin creterea sau scderea bunstrii individuale a unor persoane. Pentru simplitate putem presupune c o cretere a agregatului este reflectarea unei creterii la nivelul indivizilor. Desigur n realitate situaia poate fi mai complex, o parte din indivizi putnd cunoate creteri i o alt parte scderi. La nivelul fiecrui individ a crui bunstare crete, condiiile de via pot produce o via mai lung. De aici deducem urmtoarele: dac creterea bunstrii e mai mare atunci creterea ateptrii de via va fi mai mare. Adic, cauzalitatea se reflect mai bine n relaia dintre creteri dect n relaia dintre valori. Creterile se calculeaz simplu ca diferene de la 14

un punct temporar (de ex. un an) la altul. A doua observaie imediat este c trebuie s lsm timp fenomenului s se dezvolte (asimetria temporal), adic va trebui s relaionm valori ale creterii bunstrii de la un anumit moment cu valori ale ateptrii de via ulterioare. Ct e bine s fie aceast ntrziere depinde de situaia modelat. Termenul statistic pentru aceast ntrziere vine din englez i se numete lag. n fine, a treia observaie este c o valoarea unic, o cretere a bunstrii ntr-un singur an, eventual ca efect al unui venit mare accidental care dispare foarte repede, nu trebuie neaprat s aib consecine eseniale asupra ateptrii de via. Deci ar trebui s nu lucrm cu o singur valoare ci s lum n considerare fenomene stabile de cretere, respectiv scdere. Acest raionament st la baza unei serii ntregi de metode de testare a cauzalitii dintre care cele mai convingtoare sunt, dup prerea mea metodele dezvoltate de Clive Granger. Acesta a primit n 2003 i un premiu Nobel pentru economie pentru ele. Raionamentul care definete cauzalitatea la Granger este ns complex. Ca atare muli l consider restrictiv i susin c nu acoper toate situaiile pe care simul comun le consider ca fiind cauzale. De aceea se folosete pentru definiia aceasta termenul de cauzalitate Granger n loc de cel general de cauzalitate. n capitolul dedicat seriilor de timp voi reveni asupra unor metode de testare a cauzalitii. Aceastea pot lua desigur numai forma unor respingeri de ipoteze, ns exist metode care permit respingerea unor ipoteze de noncauzalitate. Un alt caz interesant care apare n statistic uneori este cel al falsei cauzaliti, sau ntr-o form atenuat, a falsei corelaii. Variabile par a fi legate i nu ar trebui s fie. Vreau s atrag aici atenie asupra necesarei precauii n a defini o legtur ca fiind o fals relaie dintre variabile. Eu pn n momentul de fa nu am ntlnit false relaii ci doar relaii cu explicaii teoretice complexe sau neimediate. Sunt aceste explicaii corecte? Nu ntotdeuna, dar nu pot fi imediat respinse i sunt ca atare mai fertile dect presupunerea unei false cauzaliti. Exemplul clasic este cel al foarte bunei corelaii empirice dintre numrul de berze i indicele conjunctural al fertilitii, calculat ca numr de copii nscui unei femei pe parcursul vieii fertile, calculate pe regiune. Rezultatul, des verificat n practic ar putea fi o dovad cum c berzele aduc copiii. Cei ce au citit cumini pn aici vor observa c nu este aa. Pe de alt parte s-ar putea s fie de acord cu faptul c, experimentul n cauz nu poate respinge o legtur dintre numrul de berze i natalitate. S oferim ns o teorie alternativ. O teorie ct se poate de acceptabil chiar de ctre simul comun spune c numrul de berze, dar i numrul de nateri ale unei femei pe parcursul vieii fertile este mai mare n zona rural dect n cea 15

urban. Gradul de urbanizare (sau industrializare) al regiunii studiate ar reprezenta deci o variabil care le influeneaz pe amndou variabilele din studiul nostru. i mai mult, le influeneaz n acelai sens creind astfel o relaie pozitiv ntre ele. Nu era deci vorba despre o cauzalitate direct, dar nici despre o eroare. Pur i simplu, relaia cauzal trebuia explicat teoretic acceptabil. Adic, testul statistic nu poate alege care din cele dou teorii alternative, barza aduce copiii respectiv urbanizarea reduce numrul de berze i numrul de nateri a unei femei este mai bun. Adecvarea cu ansamblul de teorii i ipoteze ale cercetrii are ns aceast sarcin. nchei aici, repetnd: testele statistice pot da indicaii despre relaii dintre variabile dar numai teoria poate construi n termenii unor relaii cauzale i tot teoria trebuie s fie atent la posibilele determinri cauzale complexe, ce implic nu numai variabilele msurate explicit ci eventual i altele, poate uneori chiar nemsurabile.

d. Foarte scurt istoric al statisticii. Probabil c au existat rapoarte statistice nc din vremurile imperiilor antice legate de impozite i preuri, fapt este c termenul actual de statistic provine din latina nou folosit n administraia german i italian a secolului al 18-lea, i mai exact din termenul statisticum collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, n Italia vremii, statista chiar nsemna om de stat, politician. Se pare c primul care a folosit cuvntul statistic a fost Gottfried Achenwall n 1749, i anume n limba german, sub forma de Statistik i cu sensul de analiz a datelor despre stat sau chiar de tiin despre stat. Achenwall (17191772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind att universitar la Marburg i Gttingen, ct i consilier de curte al principilor electori de BraunschweigLneburg. Termenul de statistic a fost preluat n alte limbi i, n fine generalizat, cu un sens apropiat celui pe care l dm astzi acestei metode, pe parcursul secolului al 19-lea. Practica de a culege i analiza date despre stat exista ns deja n Anglia i era acolo numit aritmetic politic. Termenul avea o vechime de cel puin un secol cnd Achenwall a inventat noul nume i pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cri ce i s-a publicat postum. William Petty nu a fost statistician n sensul metodelor pe care le 16

nelegem astzi ca fiind statistice. A fost ns statistician prin multe dintre temele ce l-au interesat. Petty a fost i politician, economist, inventator, antreprenor i multe altele i a folosit tot felul de tehnici ingenioase, chiar dac nu ntotdeuna corecte, pentru a estima, de exemplu, populaia Londrei. Pentru ca statistica s fie cea de acum a trebuit ns s se lege mai nti de teoria probabilitilor. Acest domeniu al matematicii, iniial legat mai mult de jocuri de noroc i divertismente matematice, i are originile tot n secolul al 17-lea, dei primele scrieri despre jocuri de noroc se gsesc ntr-o oper postum a lui Girolamo Cardano (1501-1576), Liber de ludo aleae. Cartea a fost ns publicat abia n 1663, n anii n care apreau i lucrrile unor Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Acetia din urm sunt creditai c au moit de fapt teoria probabilitilor prin corespondena pe care au purtat-o asupra celebrei probleme a Cavalerului de Mr. Problema era: cum trebuie s mpart doi juctori miza total a unui joc de noroc dac nu vor s joace pn la capt, dar vor ca aceast imprire s fie proporional cu ansa fiecruia de a ctiga jocul. Pe Pascal se pare c la convins n aa msur metoda probabilist gsit nct a folosit-o i pentru a argumenta existena lui Dumnezeu, cu un succes mai de grab incert. Destul de repede s-a observat c, dei un joc de noroc este determinat de situaii aleatoare, repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate i aceast repetare este de fapt baza a ceea ce acum numim observaie statistic. Ideea de observaie repetat apare deja n prima carte de teorie a probabilitilor publicat de Christiaan Huygens (1629-1695) n 1657. Ca tiin matematic urmtorii pai au fost fcui de doi celebri matematicieni Jakob Bernoulli (1654-1705) tot ntr-o lucrare postum, intitulat Ars Conjectandi i Abraham de Moivre (1667-1754) n Doctrines of Chance (publicat n Anglia). Aceast din urm carte pune i bazele statisticii n sensul modern al tiinei. n a doua ediie a crii (1738) apare pentru prima oar o form a distribuiei normale de probabilitate despre care vom vorbi pe larg i n cartea de fa, dar i un caz particular al teoremei limit central, o clas de teoreme foarte important pentru statistic, pe care va trebui s o tratm i noi mcar un pic pentru a nelege diferite fenomene legate de erorile statistice. i teoria erorilor de observaie se gsete deja n scrieri de la nceputul secolului al 18-lea, i anume n cteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil

17

statistica, cu sensul de observaie asupra statului de teoria probabilitilor a fost Pierre-Simon Laplace (1749-1827). Laplace a fost un om de tiin deosebit de prolific, ceea ce ne intereseaz ns acum este dezvoltarea de ctre el a unei aa-zise teorii analitice a probabilitilor. ntr-o lucrare din 1812 Laplace descrie mai exact distribuia normal, i, pe lng multe altele, demonstreaz i o form a metodei celor mai mici ptrate, nc metoda noastr de preferin pentru calculul ecuaiilor de regresie, precum vom vedea n capitolul al aselea. Probabil cellalt mare creator al tiinei statisticii a fost Carl Friedrich Gauss (1777-1855). Considerat uneori cel mai mare matematician al tuturor timpurilor, dei mie personal nu mi este cunoscut nlimea lui fizic i nu cred c cea intelectual se poate cu adevrat msura, Gauss a contribuit la aproape toate domeniile matematicii. i el a contribuit la descrierea distribuiei normale, de aici i numele de curb a lui Gauss ce se d de obicei graficului distribuiei normale. Tot Gauss a clarificat i ipotezele metodei celor mai mici ptrate. n acest caz exist ns o anumite disput de primordialitate cu Adrien-Marie Legendre (1752-1833) care a publicat aceleai rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt naintea lui Gauss, acesta ns susinea c le tie de mult. Deja pe parcursul primei pri a secolului al 19-lea rezultatele tiinifice legate de metoda de cercetare statistic s-au nmulit considerabil. Multe metode au fost dezvoltate, principalele tehnici puse la punct. Dezvoltarea mare a domeniului a venit ns spre sfritul secolului al 19lea i apoi n secolul al 20-lea o dat cu interesul crescut pentru studiul societii, apariia tiinelor economice moderne i a sociologiei. Atunci apar marile coli statistice crora le datorm arsenalul actual de metode. Pe de o parte este vorba despre coala englez. Principalii ei exponeni au fost: Karl Pearson (1857-1936) care a contribuit esenial la teoria corelaiei i a regresiei i a dezvoltat coeficientul de corelaie r dar i coeficientul Chi2, i Ronald Fischer (1890-1962) iniiator de fapt al ntregului domeniu al testelor non-parametrice, creator al distribuiei i testului F i a unei serii ntregi de rezultate eseniale pentru statistica de astzi, dar i Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiz factorial dar i coeficientul de corelaie (rho) pentru valori ordinale, numit i coeficient Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a dezvoltat metode de verificare a ipotezelor, distribuia Student i testul t, i alii.

18

Dac coala englez de statistic a fost la originea multora dintre metodele statisticii aplicate, la cellalt capt al continentului, n Rusia, au aprut lucrri eseniale pentru justificarea tiinific, matematic a calculului statistic. Principalele teoreme ce stau la baza statisticii au fost demonstrate de matematicienii rui Pafnuty Chebyshev (1821-1894) cu inegalitatea ce i poart numele i ca o consecin a acesteia, teorema slab a numerelor mari, Andrey Markov (1856-1922) creatorul lanurilor Markov i n general unul dintre creatorii teoriei proceselor stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o form general a teoremei limit central, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la demonstrarea teoremei tari a numerelor mari i autorul unui criteriu suficient ce i poart numele, i alii. Dezvoltarea statisticii a continuat pe parcursul secolului trecut i ca tiin. Mai impresionant poate ns, statistica a ptruns n contiina public o dat cu utilizarea ei pe scar larg n cercetrile sociale i cvasi-generalizarea sondajului de opinie ca metod de culegere de informaii despre societate, ca metod de msurare a societii. Primul sondaj de opinie a fost efectuat n Statele Unite de revista Literary Digest n 1916 pentru a prevede rezultatul alegerilor prezideniale. Fr vreo baz teoretic statistic, revista a cerut cititorilor s returneze redaciei o carte postal - chestionar. Pentru patru alegeri prezideniale la rnd, metoda a dat rezultate corecte. Un pas important spre fundamentarea tiinific a sondajului de opinie l-a fcut George H. Gallup (1901-1984) care n teza lui de doctorat din 1928 a dezvoltat metoda ce st la baza sondajului de opinie statistic. Primul mare succes al lui Gallup a fost n 1936 cnd a reuit s prevad corect victoria lui F.D. Roosevelt n alegerile prezideniale, spre deosebire de Digest care a greit folosind un eantion incomparabil mai mare. Celebru att pentru ncrederea mare pe care a produs-o de la nceput ct i pentru cteva eecuri memorabile, lui Gallup trebuie s-i recunoatem meritul de a fi creatorul instituiei sondajului de opinie statistic.

19

Capitolul 2. Tipuri de dateVoi prezenta aici principalele tipuri de date, sau nivele de msurare, cum se mai numete aceast clasificare. Dei criticat pentru diverse motive aceasta mprire a datelor permite o nelegere simpl a felului cum se apropie statistica de fenomene. n 1946, psihologul american Stanley Smith Stevens a propus ntr-un articol mult citat, ludat i criticat apoi, o teorie a nivelelor de msurare care avea s fie apoi repetat n aproape toate manualele introductive de statistic (Stevens, 1946). Nu am vrut s m abat de la regul. Prima dat s vedem totui la ce bun i cum adic? Este absolut evident c msuratorile pe care se bazeaz statistica nu sunt toate la fel. Din exemplele mai mult ntmpltoare din capitolul capitolul precedent (greutatea i genul unui animal, opinia despre un politician) este evident c aparate diferite de msur dau rezultate care fac parte din categorii ct de poate de diferite de cunoatere. Dac greutatea se exprim n valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichet, nu nume dat unei categorii, iar opinia despre politician poate fi exprimat n mai lungi sau mai scurte propoziii, eventual chiar n grade de genul, mai bun mai puin bun dar nu n valori numerice concrete. Deci, Stevens a intuit ct se poate de corect, e necesar o clarificare i o categorisire a acestor nivele de msurare. Tehnic o astfel de categorisire ajut la a stabili ce metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate prea inutil, dar un exemplu sper s ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea sunt exprimate n note. Fie ntrebarea de chestionar chiar cere notarea, ca la coala, a activitii unui politician, sau a unui guvern sau minister n ntregul lui, fie rspunsurile snt transformate n note de ctre cercettor ntr-o activitate pe care o numim de regula codare a rspunsurilor. Rspunsurile la ntrebrile de opinie n final ajung s nu se disting de rezultatele, eventual rotunjite, ale cntririi unui cine. i totui diferenele acestea sunt eseniale i nu trebuie uitate1. Prezentarea nivelelor de msurare n crile introductive de statistic mai are un avantaj. Permite o exemplificare structurat a datelor cu care lucreaz statistica i o prezentare coerent a principalelor proprieti ce sunt necesare pentru a putea lucra cu ele.1

Confuzia dintre date de aceste tipuri e pe larg analizat n foarte reuita carte a lui Darrel Huff How to Lie with Statistics (1954) care a aprut ntre timp n peste 30 de ediii.

20

a. Date nominale Datele nominale, numite uneori i categoriale, sunt nume date unor proprieti ale obiectelor, indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantiti i nici nu au o ordine implicit. Din exemplele de pn acum, genul este o dat nominal. Indiferent ct de complex cultural, biologic, comportamental i aa mai departe ar fi categorisirea pe genuri, dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alii chemai s scrie, ca tip de dat genul nu e altceva dect un cuvnt desemnnd o categorie. Nu putem face nici socoteli aritmetice cu genuri, nici comparaii. Masculin nu e mai mare dect feminim, i nici sume sau medii nu putem face. Chiar daca am codifica la o adic genurile, la modul feminin = 2 i masculin = 1, ca la codurile numerice personale din Romania, o declaraie de forma: genul mediu ar participanilor la sondaj a fost 1,56 este ilar. Totui i datele nominale trebuie sa se supun unor reguli, e drept puine i simple, pentru a putea fi folosite ca date statistice. Acestea sunt: Excluderea mutual: Categoriile unei date nominale trebuie s se exclud reciproc. Un cine msurat de noi nu poate fi n acelai timp i mascul i femel, un cetean interogat ntr-un sondaj de opinie nu poate fi n acelai timp i cstorit i necstorit. Completitudinea: Orice individ msurat n cadrul cercetrii trebuie s gseasc o categorie ce i se potrivete n lista de valori posibile. Eventual se include varianta altceva, altfel dar lista de valori trebuie s poate acomoda orice situaie. Condiiile de mai sus nu sunt ntotdeuna uor de pus n practic. Dei cred c par a fi de bun sim, sunt situaii n care ntrebrile i listele de rspunsuri trebuie formulate cu grij pentru a nu ntmpina probleme n analiza ulterioar a datelor. De multe ori cercettorii chiar prefer s pun ntrebrile astfel nct s par ct mai naturale celor ce trebuie s rspund la ele i s codifice apoi ei nii datele n aa fel nct s corespund cerinelor prelucrrii statistice. Exemple tipice de date nominale sunt genul, starea civil, naionalitatea, apartenena religioas. Toate acestea au n comun faptul c pe lng caracterul lor nenumeric nu au nici o

21

ordine acceptat a valorilor. Asta chiar dac unii pot fi de prere c romnii sunt mai superiori dect bulgarii! Cu toate c datele nominale pot prea srace din punctul de vedere al posibilitilor calculatorii ele sunt importante n multe fenomene sociale, economice, etc. i au fost dezvoltate multe metode statistice care s permit analiza lor sau, mai adesea, s permit analiza altor date n relaia lor cu categorii nominale. Voi discuta pe larg astfel de metode n special n capitolul al aptelea al crii.

b. Date ordinale O a doua grup de date sunt cele care, dei nu sunt numerice, au o ordine bine definit a valorilor. Sensul de bine definit al unei ordini nu este nicidecum trivial. Matematicienii neleg printr-o ordine bine definit o ordine care poate fi recunoscut pentru orice dou valori i mai mult, este i tranzitiv. Pentru simplificare voi folosi expresia mai mare pentru a descrie ordinea. Atunci o ordine este bine definit dac ntre oricare dintre valorile de rspuns este clar care este mai mare. Tranzitivitatea nseamn c daca o valoare este mai mare dect alta, iar aceasta mai mare dect o a treia, prima valoare va fi n consecin mai mare dect cea de a treia. n plus fa de condiia de ordine, datele ordinale trebuie s se supun i condiiilor pe care leam specificat n cazul datelor nominale, s permit deci numai valori mutual exclusive i lista acestor valori s fie complet. Diferena esenial dintre datele ordinale i valorile numerice este aceea c nu are sens calculul distanei dintre dou valori, respectiv distanele dintre valori consecutive nu se pot presupune a fi egale. Un exemplu va face mai clar aceast distincie. O ntrebare tipic pentru un rspuns ordinal este cea legat de ncrederea ntr-un politician. S presupunem c rspunsurile posibile sunt: foarte puin, puin, nici puin, nici mult, mult, foarte mult. Se vede imediat c lista de valori este ordonat bine, ntre orice dou valori ordinea e evident i tot evident este i proprietatea de tranzitivitate. Tot att de clar este c fiecare intervievat va trebui sa decid de fapt care e opinia lui, foarte probabil fiind c pn n momentul interogrii el s nu-i fi pus problema ncrederii n termenii ntrebrii. Aceast 22

nevoie de a decide difereniaz pe cei chestionai de cei ce nu sunt chestionai i pune probleme n generalizarea rezultatelor la nivelul populaiei adic i asupra celor ce nu au fost de fapt chestionai i nu au trebuit s se decid n contact cu ntrebarea pus n forma dat. Un mod de a contientiza aceasta este de a nu conferi valorilor de rspuns un sens absolut matematic, ci de a le considera interpretri personale ale celor ce au rspuns. Asta nseamn c pentru doi intervievai diferii sensul unei valori de rspuns poate fi oarecum diferit, de exemplu, pragul de la foarte puin la puin ncredere s fie diferit, distana dintre dou categorii s fie diferit. Intervievatul care alege un rspuns nu face altceva dect s i poziioneze opinia ntr-o ordine i numai caracterul de ordine al valorilor de rspuns poate fi presupus n analiz. n ansamblu nu se poate deci presupune c exist distane ntre valori ntr-un sens matematic. Dei se face des, traducerea valorilor de rspuns n cifre, de exemplu de la 1 la 5 n cazul nostru, este riscant i duce la greeli importante. Calculul unor medii aritmetice a rspunsurilor este una din greelile cele mai uzuale pe care le fac cercettorii n tiine sociale, de multe ori chiar contieni de abuzul implicat. Scuza uzual pentru aceast greeal este aceea c nsumnd opinii ale unui numr mare de persoane, distanele dintre variantele de rspuns, ntr-adevr diferite de la o persoan la alta, se nsumeaz i dau o medie statistic egal. Din pcate ns nu este aa. Exist devieri sistematice de la aceast distan presupus egal ntre variantele de rspuns. i anume, valorile extreme, de tipul foarte puin ncredere sau foarte mult ncredere snt adesea mai ndeprtate de valorile proxime puin ncredere, respectiv mult ncredere dect snt acestea de valoarea median, neutr. Mai grav nc, n cazul n care o anumit ntrebare este receptat ca fiind legat de o presiune social, distanele din scal se defazeaz n sensul acestei presiuni. Ca i n exemplul anterior, majoritatea ntrebrilor care produc rspunsuri ordinale se bazeaz pe aa zise scalograme, adic liste standardizate de rspunsuri. Cele mai obiuite, mai des folosite, sunt scalele Likert, dezvoltate deja n 1932. Scala Likert este o scal a nivelului de acord cu o propoziie. Un exemplu simplu ar fi urmtorul: Suntei de acord cu faptul c Traian Bsescu este un politician dedicat binelui rii noastre? a. Nu sunt deloc de acord c. Nu sunt de acord d. Nici de acord, nici nu e. Sunt de acord f. Sunt absolut de acord. 23

Formulrile pot diferi, de regul ns este vorba despre o scal ordinal cu un numr impar de valori. Cel mai adesea sunt 5 valori, unii cercettori din domeniul psihologiei n special, prefer totui scale cu 7 valori. Valoarea median, adic cea din mijlocul scalei este ntotdeuna o valoare neutr. Acordul sau dezacordul sunt exprimate verbal n forme ct mai clare i simple de grade diferite de radicalitate. Uneori se alege contient eliminarea valorii mediane. n acest caz se vorbete de o scal Likert cu opiune forat. Intervievaii sunt atunci obligai s adopte o poziie chiar daca ar prefera neutralitatea. Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniial de sociologul i psihologul Louis Guttman ntr-un articol din 1944. Guttman pune cteva condiii simple pentru ceea ce este o scal Guttman perfect, i anume: O scal Guttman este o list ordonat de propoziii cu care intervievatul poate fi de acord sau nu. S presupunem c avem 10 astfel de ntrebri. Dac intervievatul este de acord cu propoziia 7, dar nu i cu propoziia 8, logica scalei presupune c el este de acord cu toate propoziiile 1-7 i nu cu propoziiile 8-10. n aceste condiii scorul lui va fi 7. Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variant mai permisiv i mai apropiat de realitate este modelul lui Rasch care presupune o scal de tip Guttman probabilist, adic n care relaiile dintre rspunsuri au un caracter probabilist. Un exemplu celebru de scal de tip Guttman este des folosit n analiza relaiilor dintre grupuri etnice, religioase, naionale, etc. Aceasta este scala Bogardus (dup sociologul american care a dezvoltat-o), numit i scal a distanei sociale, care se bazeaz pe o lista de ntrebri de urmtoarea form: Ai fi de acord ca un .......... (aici se completeaz categoria fa de care se estimeaz distana social, de exemplu maghiar, rrom, baptist, homosexual): S v devin rud prin alian (rspunsul da valoare 1). S v fie prieten apropiat (2) S locuiasc pe aceiai strada (3) S v fie coleg de servici (4) 24

S fie cetean al rii noastre (5) S fie doar turist n ara noastr (6) S fie expulzat din ara noastr (7)

Valori ordinale se pot ns obine i n alte situaii. De fapt cazul cel mai cunoscut de valoare ordinal este cel al notelor i calificativelor date elevilor i studenilor. i este i cel mai cunoscut abuz de utilizare a unor valori ordinale. Dei probabil o mare parte a profesorilor ar fi de acord, cel puin eu a fi, c distana dintre un 4 i un 5 nu este aceiai cu distana dintre un 7 i un 8, sau dintre un 9 i un 10, medii aritmetice ale notelor se calculeaz n mod uzual i se mai i folosesc pentru a lua decizii importante pentru viaa celor notai. Problema utilizrii mediei aritmetice pentru date ordinale este ns o problem care a produs multe controverse. Dup prerea mea principalul motiv este prezena att de rspndit a datelor ordinale, probabil cele mai des ntlnite n cercetrile sociale, i frustrarea de a renuna la o form de prezentare att de simpl de calculat i neles cum este media aritmetic. Trebuie ns menionat c exist o serie ntreag de metode puternice care lucreaz cu date ordinale i nu fac presupuneri suplimentare despre distanele dintre valori. Alte exemple de date ordinale snt: nivelul de educaie (dac formularea rspunsurilor este bine ordonat), respectiv topurile de preferine (nu i cele de vnzri, la care se poate calcula o diferen ntre poziii clar exprimat n uniti vndute).

c. Date intervalice Ultimele dou categorii ale clasificrii lui Stevens se refer la date numerice i diferenierea pe care a impus-o ntre datele intervalice i cele raionale este i una dintre cele mai controversate ale teoriei nivelelor de msurare. Cu toate acestea, s vedem despre ce e vorba. n definiia iniial, datele intervalice sunt date numerice care au punct zero convenional. Mai simplu spus, zero-ul intervalic nu nseamn o lips a caracteristicii ci este o valoare ca oricare alta. Un cine care are greutatea zero nu este un cine, cel puin dup prerea mea. Ca atare greutatea nu este o valoare intervalic. Dac ns cineva s-a nscut la ora zero, nu nseamn c nu s-a nscut de loc. Ora zero este convenional i nu nseamn absena indicaiei de timp. Deci datele calendaristice, sau de or sunt date intervalice. Ele evident sunt altfel dect celelalte date numerice de msurare. 25

Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete i bine ordonate. Chiar i caracterul convenional al notrii numerice este prezent. Diferena este ns distana calculabil ntre dou valori intervalice. ntre dou momente n timp se poate calcula o distan, fie ea n minute, secunde sau alte uniti de msur i o distan de o anumit mrime, de exemplu 5 minute, este aceiai indiferent pentru ce valori de timp a fost calculat. Pstrnd toate celelalte condiii egale, dac un ou fierbe n 5 minute la ora 14, el va ajunge la fel de tare dup 5 minute de fierbere i la ora 7. Atenie ns, chiar dac momentele ora 14 i ora 7 snt indicaii intervalice, nu astfel este i durata de 5 minute. Aceasta este o dat numeric raional, cum vom vedea c se numesc acestea. Adic, un ou care fierbe zero minute chiar nu fierbe de loc! Alte date intervalice sunt gradul de longitudine i latitudine geografic, fusul orar, temperatura precum i alte date convenionale. Deoarece datele intervalice au distane corect calculabile ntre ele, pot fi folosite n aproape orice calcule matematice. Problematic rmne utilizarea lor n mpriri i nmuliri, deorece ele nu au sensul de cantitate pe care il acordm de obicei datelor numerice. Astfel un cine de 40kg cntrete ntr-adevr ct doi cini de cte 20kg. Pe de alt parte, ora 14 nu este ct dou ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halb de bere sunt 2 litri de bere, ns de patru ori deteptarea la ora 3 dimineaa nu face ct o trezire la ora 12. d. Date raionale Din prezentarea de pn acum nu am avut cum exclude referiri la datele raionale. Acestea sunt datele numerice, cantitative, obinuite. Ele apar des n cercetarea social sau economic, i cu att mai mult n ecologie sau medicin i sunt cele pentru care s-au dezvoltat cele mai multe dintre tehnicile i testele statistice. Absolut orice calcule matematice se pot face cu aceste valori. Greutatea cinilor, banii din portofel, valoarea produsului intern brut, numrul de locuitori ai unui ora sau de restane al unui student sunt toate valori raionale. Ele sunt rezultate ale unor msurtori cantitative, sau adesea al unor numrtori. Valoarea zero nu este o convenie, un student cu zero restane este chiar un student cu o vacan lung i relaxant. 26

De obicei caracterul discret sau continuu al valorilor unor date raionale nu se tematizeaz la nivelul statisticii aplicate introductive. Dei unele metode presupun date continue, cum este cazul metodelor de regresie, se face cel mai adesea abstracie de la aceast presupoziie. Exist rezultate matematice suficient de bine fundamentate care permit o atare abordare fr pericolul de a grei semnificativ. i apoi continuitatea datelor nu nseamn statistic mai mult dect c valoarea msurat poate fi orict i nu numai anumite valori, de exemplu numere ntregi. O asemenea condiie nu este de fel restrictiv.

27

Capitolul 3. Culegerea datelor statistice. Sondajul de opinieDatele statistice pot proveni din surse oficiale, cum sunt institutele naionale de statistic sau organizaiile internaionale, i atunci se refer de obicei la un ansamblu complet de obiecte, indivizi sau fenomene sau pot proveni din aa-zise sondaje statistice. n primul caz, dei culegerea datelor este de obicei laborioas, tiinific justificarea utilizrii lor nu pune probleme deosebite pentru statistician. Pe de alt parte, tehnica sondajului este una mult mai pretenioas i matematic mai complicat. Cu att mai mult cu ct unii care fac sondaje i majoritatea celor ce le citesc uit de principalele probleme implicate n validitatea lor. 1. Statistici de recensmnt si statistici de sondaj. Generalizarea statistic i limitele ei. Cum am mai scris i mai sus, metoda specific de culegere a datelor n statistic este sondajul. Acesta se bazeaz pe o serie de teoreme matematice care permit, n condiii foarte bine specificate, care n realitate nu snt niciodat perfect ndeplinite, generalizarea rezultatelor de la nivelul eantionului, adic a mulimii celor chestionai la nivelul populaiei, adic a mulimii care reprezint inta cercetrii. Prima definiie necesar pentru a continua este cea a populaiei. n orice cercetare statistic populaia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetrii, asupra crora se refer ipotezele i teoriile ei. Dac de exemplu, vrem s facem o cercetare legat de consumul de ap mineral n Romnia, populaia studiului va fi ntreaga populaie a rii, de vrea 21 de milioane, ct e ea. Dac ns cercetarea are caracter politic, probabil a dori s restrng populaia la persoanele cu drept de vot, electoratul romn, adic numai vreo 17,5 milioane. De la caz la caz, populaia unei cercetri poate fi mulimea locuitorilor unui ora, mulimea juctorilor de fotbal sau a studenilor unei faculti, dar exist i cercetri cu alte nivele de agregare la care populaia poate fi mulimea intreprinderilor mici i mijlocii dintr-o regiune, mulimea judeelor Romaniei sau chiar a rilor europene. Stabilirea populaiei cercetate este un prim pas n orice studiu statistic. Este de fapt rspunsul la ntrebarea: despre cine am dori s putem spune ceva? i de aici decurge alegerea celor care vor fi msurai (adic vor rspunde la ntrebri) dar i felul cum se fac msuratorile (adic se pun ntrebrile) i interpretarea rezultatelor. Alegerea populaiei este o decizie ce ine de substratul teoretic al studiului dar n acelai timp determin teoriile ce vor fi folosite n continuare pe parcursul proiectrii cercetrii. 28

Nu toate cercetrile statistice sunt bazate pe date culese prin sondaj. O mare parte dintre metodele folosite att pentru descrierea datelor ct i pentru testarea unor teorii se aplic, cu la fel de mult succes, i pe alte tipuri de date. Este vorba despre ceea ce numim date de recensmnt. Suntem obinuii cu acest termen ca desemnnd o chestionare periodic, dar totui rar, a ntregii populaii a rii pe teme legate mai mult de statutul social-economic. Conceptul are ns o definiie ceva mai larg. Un recensmnt este o cercetare care presupune intervievarea (sau mai general, msurarea) tuturor membrilor populaiei studiate. Deci tehnic un studiu care trateaz statele europene folosind date culese din toate aceste state este un recensmnt la fel cum tot recensmnt este un studiu care intervieveaz toi studenii unei anumite faculti att timp ct rezultatele nu se doresc a fi generalizate pentru alte grupuri de studeni. Dei n cazul recensmntului inducia statistic nu are rolul pe care i l-am pomenit n introducere, exist aa cum am mai spus i aici un anumit nivel de generalizare. Anume, prin faptul c folosim modele mai mult sau mai puin simple pentru indivizii studiai i ncercm totui s tragem concluzii despre comportamentul lor sau despre opiniile lor. Tot ce am putea tii, de exemplu, despre studenii facultii de tiine politice din Timioara sunt rspunsurile pe care acetia le dau la un chestionar. Am putea totui s ncercm s verificm dac pentru acetia se poate susine faptul c cei ce lucreaz n perioada studeniei sunt mai puin interesai de problemele legate de organizarea academic. Este posibil o astfel de cercetare? Desigur. Este sigur c se poate rspunde la ntrebare? Evident, nu. ntrebarea este o ipotez de lucru, s-ar putea s poat fi respins, s-ar putea ns s nu se poat face acest lucru. Indiferent ns de aceasta, rezultatele se vor referi numai la studenii chestionai i nu se vor putea generaliza, dup regulile statisticii cel puin, la ali studeni, din alte faculti sau alte orae. n unele cazuri, probabil pentru a evita confuzia curent cu recensmintele naionale menionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot nelegndu-se de fapt populaia care este n acelai timp i eantion al cercetrii. n general un eantion este mulimea aleas prin vreo metod oarecare, a celor ce vor fi chestionai (sau msurai) n cadrul unei cercetri. Dac de exemplu, la o fabric de ciorapi trebuie fcut un studiu statistic al egalitii lungimii ciorapului stng cu ciorapul drept, probabil c s-ar decide c este suficient msurarea unui eantion i nu al ntregii populaii 29

ciorpeti. S-ar putea alege, i ar fi chiar cea mai bun metod, de pe banda de producie tot a o mia pereche de ciorapi pn cnd se ajunge la un numr dorit, de exemplu tot o mie de perechi. Perechile de ciorapi msurai vor forma eantionul, producia ce are loc n perioada n care se aleg perechile de ciorapi e populaia cercetat. Exist multe metode de a alege un eantion, unele mai bune, altele mai puin, unele mai simple, altele mai puin. Vom reveni la acestea n partea a dou a acestui capitol. Pentru moment s ncerc s explic de ce putem face asta. De ce e suficient s msurm o mie de ciorapi ca s spunem ceva despre cteva sute de mii, sau de ce un institut de sondare a opiniei publice e suficient s ntrebe nu mult mai mult de o mie de oameni pentru a prevedea suficient de bine rezultatul unor alegeri prezideniale? Explicaia st n cteva teoreme matematice. Ele snt n general cunoscute ca fiind legile numerelor mari, teorema fundamental a statisticii i teorema limit central. Nu cred c a fi de prea mare folos cititorilor acestei cri dac le-a enuna matematic corect. Voi ncerca deci numai s le povestesc. Legile numerelor mari snt o serie ntreg de teoreme, probabil prima fiind enunat de Bernoulli n 1713. Toate aceste teoreme spun lucruri asemntoare. Ele de fapt vorbesc despre repetarea unor experimente, de exemplu aruncarea unui zar. Esenial este ca repetarea aceast s se fac n aa fel nct fiecare aruncare de zar (sau ce experiment ar fi) s fie independent de celelalte. Dac e aa i notm rezultatele, pe msur ce numrul de experimente crete felul cum se distribuie rezultatele observate se apropie din ce n ce mai mult de felul cum sunt distribuie toate rezultatele posibile. n cazul unui zar bine echilibrat, pe msur ce repetm aruncarea cu zarul ne apropiem din ce n ce mai mult de o distribuie n care fiecare faet apare de un numr egal de ori. Traducerea n statistic e simpl. Fie o informaie oarecare de interes pentru cercetarea noastr, o dat statistic cum i-am spus pn acum, sau o variabil cum i se mai spune. Ea este cumva distribuit n populaie (de exemplu genul e distribuit cam jumtate jumtate, perechile de ciorapi inegali sunt cam 5% din producie, etc.). Ei bine legile numerelor mari ne asigur de faptul c dac alegem s chestionm (msurm) un numr de indivizi (perechi de ciorapi) atunci att timp ct alegerea unui individ este independent de celelalte alegeri, pe msur ce numrul celor alei crete, distribuia rezultatelor de msurare se aproprie de distribuia valorilor n ntreaga populaie. Simplu spus asta nseamn c un eantion mai mare e mai bun dect unul mai mic. Dar mai spune dou lucruri eseniale. O dat, faptul c adugnd la eantion n mod corect nu ne ndeprtm de la distribuia pe care 30

dorim s o aflm ci ne tot apropiem de ea i n al doilea rnd, mai important, ne spune cum trebuie s alegem eantionul. Anume astfel nct fiecare alegere s fie independent. Din pcate, aa cum vom vedea asta nu este chiar aa uor n statistic ca la aruncarea cu zaruri. O form a legii numerelor mari, cunoscut i ca teorema Glivenko-Cantelli a fost adesea numit teorema fundamental a statisticii. Ea ne asigur inc mai bine de apropierea aceasta a distribuiei valorilor observate de cele existente n populaie, apropiere ce n matematic se numete convergen. Teorema Glivenko-Cantelli ne spune c aceast convergen este uniform pe msur ce crete volumul eantionului. Bun, deci, din cele de pn acum tim c msurnd un eantion din ce n ce mai mare ne apropiem din ce n ce mai mult i uniform de felul cum variabilele ce ne intereseaz sunt distribuite n populaie, atta timp ct fiecare element din eantion l-am ales independent de celelalte (vom spune n general c eantionul e ales aleator, la nimereal). Pare de bun sim, cred. ntrebarea mare ce se pune acum este, ct de mare trebuie s fie eantionul astfel nct apropierea s fie suficient de bun? Altfel, desigur, dac pentru o populaie de 21 de milioane, distribuia din eantion se apropie de distribuia din populaie pe msur ce se adun milioanele de chestionare nu am rezolvat prea mare lucru. Aici intervine teorema limit central. i ea face parte dintr-un grup de teoreme numit n general teoreme limit central. Pentru a deosebi teorema cea mai important dintre acestea, o teorema enunat i demonstrat de Lyapunov la nceputul secolului 20, ea se scrie adesea cu litere mari (Teorema Limit Central!). Ea ne spune c n anumite condiii, importante pentru matematicieni, o sum de variabile aleatoare necunoscute, dar independente tinde la o distribuie normal cnd numrul acestor variabile tinde la infinit. Condiiile pomenite nu sunt de fapt foarte restrictive, ele spun c variabilele nsumate trebuie chiar s fie oricum, la nimereala i faptul c trebuie s aib aceiai medie i dispersie. Aceasta, a doua condiie nu este de fapt chiar att de restrictiv, dei poate prea. De fapt ea nu este restrictiv pentru c orice variabil aleatoare poate fi mpins spre stnga sau dreapta graficului ei prin simpla adunare sau scdere a unei valori numerice. Nu se schimb cu nimic caracteristicile variabilei, pur i simplu graficul se mpinge ncoace sau ncolo. Deci orice variabil poate fi adus la aceiai valoare medie fr a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu mult, aa c nu o mai comentm aici. Bun, deci, le insumm i iese ceva numit distribuie normal, o distribuie despre care vom mai vorbi. Precum vedem ea este foarte important n statistic. Nu e foarte simpl matematic, dar pentru majoritatea utilizatorilor de statistic e 31

suficient s cunoasc cteva din principalele ei proprietti. i pe moment cel mai important este c e cunoscut. E foarte important. S relum de fapt ideea. Avem un numr de tot felul de variabile despre care nu tim mai nimic i dac le adunm toate iese ceva cunoscut. Asta e foarte confortabil pentru c la urma urmei n orice cercetare ce presupune studierea comportamentului unor oameni putem s fim destul de siguri c sunt o gramad de variabile pe care nu le-am putut msura i nc i mai multe la care nu ne-am putut nici mcar gndi. Ei bine, astea toate nsumate n efectele lor produc ceva cunoscut. Deci, grija mare c sunt attea i attea care nu pot fi luate n seam nu e chiar aa de justificat. Aceast grmad de variabile sunt de fapt eroarea care trebuie luat n seam cnd ncercm s estimm o valoare. Prin faptul c se poate estima corect forma sumei variabilelor care nu le lum n seam n mod explicit se obine i formula care permite estimarea erorii. Cum am vzut din teoremele numerelor mari aceast eroare este legat de volumul eantionului. Deci aici putem estima volumul unei eantion pentru a obine cu probabilitate mare o anumit precizie a cercetrii statistice.

32

2. Cum facem un sondaj de opinie simplu i corect? 1. Eantionarea aleatoare Din considerentele (aproape) matematice din seciunea precedent putem s extragem o concluzie esenial pentru tehnica sondajului de opinie. Anume, garania matematic pentru posibilitatea unei estimri statistice corecte este ca alegerea eantionului studiat s fie pur aleatoare, adic s nu depind chiar de nimic.

Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei. Premisele sunt urmtoarele. Avem o urn din care se pot extrage bile i n care se gsesc un numr de bile de diverse categorii. De exemplu, bile albe i negre. Extragem din urn cte o bil, notm culoarea ei i o introducem la loc. Legea numerelor mari ne asigur c repetnd operaia asta de multe ori vom obine o bun estimare a distribuiei bilelor n urn. Modelul acesta se numete schema bilei rentoarse i introducerea bilei la loc n urn este esenial pentru c astfel ansa de a alege o bil de o anumit culoare rmne cea de la nceput pentru fiecare extragere. Dac ne-am imagina o urn cu un numr foarte mare de bile din care extragem un numr relativ mic, am putea presupune c distribuia rmne aproape neschimbat chiar dac bila nu se introduce la loc, adic dac aceiai bil nu mai poate fi extras de mai multe ori. Aceasta este situaia unui sondaj real. Ideal ar fi deci s avem un recipient mare de tot n care stau cumini toi membrii populaiei pe care dorim s o studiem i s extragem de acolo rnd pe rnd cte unul, s-l interogm i sl punem la loc. Aceasta este ns posibil numai parial. S vedem ce corecturi sunt necesare pentru a putea s ne apropiem ct mai mult de acest modelul teoretic. n primul rnd, n oala noastr nu va sta chiar toat populaia pe care vrem s o cercetm. (i spun oal, pentru c urn mi se pare prea morbid, i recipient prea pretenios.) Exist dou feluri de aborda problema asta. Pe de o parte, e normal s ncercm s lum o oal ct mai cuprinztoare, pe de alt parte e la fel de normal s redefinim populaia n funcie de oala aleas. Hai s dau cteva exemple. S zicem c dorim s aflm ceva despre populaia oraului Timioara. S alegem recipientul din care extragem subiecii cercetrii. De exemplu, Piaa Operei. Punem operatori de sondaj 33

n pia i i nvm s abordeze ceteni n mod aleator. Indiferent cte ore ar sta operatorii notrii n pia i indiferent n ce zile ar sta acolo, recipientul acesta nu va conine toat populaia Timiorii n nici un caz. Mai mult, cei ce trec prin pia vor fi probabil persoane care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, s fie n special persoane care nu sunt angajate n munc: studeni, elevi, pensionari, amatori de fotbal, actori i statisticieni. Pur i simplu, faptul de a trece n Timioara prin Piaa Operei e deja un anumit mod de comportament i ar putea influena i alte comportamente i opiuni ale celor alei s rspund la chestionar. Un astfel de eantion nu va fi reprezentativ pentru ntreaga populaie a oraului. Oala e pur i simplu prea mic. Pe de alt parte, nu tiu dac clientul cuiva ar fi mulumit cu aseriuni de genul: o treime din cei ce trec prin Piaa Operei ziua n amiaza mare ar cumpra detergentul .... Bun, e preferabil deci s alegem alt oal. O opiune care se ofer este cartea de telefon. Fie deci, cartea de telefon, oala din care se aleg la nimereal numere de telefon. Intervievarea prin telefon are i avantajul de a fi rapid i confortabil. Este ns oala asta destul de mare? Depinde. Practic punnd astfel problema redefinim populaia de la populaia oraului Timioara la populaia oraului Timioara abonat la Romtelecom. Aceast populaie poate fi o mai bun sau mai proast aproximare a populaiei iniiale dar nu va fi n nici un caz o aproximare statistic pentru c apartenena la cea de a doua populaie nu este una aleatoare fa de prima populaie. Mai simplu, populaia celor care au telefon n Timioara nu a fost aleas n mod ntmpltor din toat populaia oraului, persoanele cu pricina au avut de fcut pai administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit minim, poate chiar un efort logistic. Deci putem linistit presupune c cei ce au telefon sunt altfel dect cei ce nu au. Deci, cele dou populaii nu sunt interanjabile. Posesorii de telefon vor avea probabil n medie un venit mai mare, vor fi localizai n anumite cartiere, etc. Totui, clientul nostru s-ar putea s fie mulumit de rezultate obinute pe populaia restrns att timp ct volumul ei este suficient de apropiat de volumul populaiei iniial considerate. La nceputul anilor 1990 a fi fost clar mpotriva intervievrii telefonice. Pe vremea respectiv foarte multe familii nu aveau telefon dei ar fi dorit s aib, iar cei ce aveau telefon aveau n mod clar caracteristici particulare, de obicei de natur profesional. Dei aceasta poate s fie teoretic adevrat n continuare, deoarece numrul de abonamente telefonice n mediul urban se apropie foarte mult de numrul total de gospodrii, redefinirea populaiei nu este una care s deranjeze prea mult. Discrepana dintre mediul urban i cel rural rmne ns att de mare nct

34

un sondaj pe o populaie ce include i mediul rural, ca de exemplu, populaia unui jude, nu se poate n nici un caz efectua telefonic. O alternativ similar cu cartea de telefon dar, cel puin teoretic mai bun este folosirea listelor de alegtori. Din pcate, aa cum s-a vzut la alegeri, migraia populaiei intern i internaional a fcut ca listele electorale s fie destul de greu practicabile, adresele de pe liste nepotrivindu-se adesea situaiei din realitate. Apoi, obinerea listelor electorale pentru o cercetare oarecare nu este ceva chiar aa de uor. Important de notat c listele cu toat populaia, cum sunt listele electorale sau crile de telefon, se numesc cadre de eantionare i au marele avantaj de a uura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintrun cadru de eantionare este posibil. S revenim ns la alegerea recipientului. Daca nici cadre de eantionare bune nu sunt ce se poate face? Se poate, de fapt, defini oala astfel nct s cuprind chiar pe toat lumea? Probabil nu. Aproximaia cea mai bun este de a considera oraul, judeul sau ara n distribuia ei teritorial ca fiind chiar oala i a alegere de aici pe baza adreselor gospodriilor. Alegerea unei adrese va fi de fapt o metaforic extragere din urn. Evident, nici aa nu avem chiar urna teoretic n care se afl toate bilele. Lipsesc cei ce nu se afl la domiciliul stabil sau nu au un domiciliu stabil, fie ei nomazi prin modul lor de via, plecai n concedii sau la munc n strintate. Aa cum tim, n cazul Romaniei de astzi numrul acestora este important i redefinirea populaiei este esenial n acest caz, dar de obicei ea este ntru totul acceptabil. Oala geografic va nsemna parcurgerea oraului pe baza unui itinerariu. Operatorul va parcurge strzile - locuinele i va alege - extrage dintre ele. Bineneles, din motive practice va trebui ales un punct de unde pornete operatorul n itinerariul lui. Pentru c se lucreaz cu mai muli operatori i pentru c exist prejudecata cum c o distribuie geografic uniform ar nbunti relevana sondajului, se aleg de obicei puncte de pornire pe cartiere. Ideal ar fi ca aceste puncte s fie alese chiar aleator, de exemplu aruncnd cu un dart pe un plan al oraului. Pe de alt parte, distribuia uniform a punctelor de pornire, dei nu este justificat matematic elimina riscul ca doi operatori s ajung la aceiai familie! Am vzut problemele legate de metaforica noastr urn, s vedem cum arat alegerea din urn, extragerea aleatoare. n forma teoretic atunci cnd experimentatorul bag mna n urn el nu simte nici o diferen ntre bile. Toate sunt la fel, alegerea nu are loc pe baza unei caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde dect cele 35

albe. Regula esenial a alegerii aleatoare, se poate exprima astfel: fiecare membru al populaiei trebuie s aib aceiai ans s fie ales n eantion. Pare simplu, nu e. Numai dac avem un cadru de eantionare aceasta se poate face (aproape) perfect. Atunci un generator de numere aleatoare pe calculator ne poate alege un eantion ct de mare vrem. Aceasta ar fi o eantionare aleatoare perfect. Mai exist o variant la fel de bun, dar mai puin laborioas. Dat fiind construcia listelor, fie electorale, fie telefonice, care se face alfabetic, poziia unei persoane n list nu e legat de anumite caracteristici. De aceea se poate folosi o metod mai simpl, aa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim nume. Apoi se aplic un pas de eantionare. Acesta se calculeaz ca raport dintre volumul populaiei i volumul eantionului. De exemplu, n Timioara sunt aproximativ 140.000 de abonamente telefonice. Daca dorim un eantion de 1000 de persoane, pasul de eantionare va fi de 140. Punem n eantion, de exemplu, primul numr telefonic din carte, apoi numrul al 141-lea, apoi al 281-lea, i aa mai departe. ansa unui numr de a fi ales depinde de alegerea primului numr, aceste se alege din valori ntre 1 i 140. Oricum toate numerele de telefon au aceiai ans de a fi alese independent cui aparin, i n mod evident, ceea ce e cel mai important, nu conteaz nici un fel de caracteristici social-economice, etnice sau comportamentale ale celor alei. S ne gndim la varianta pe care am considerat-o cea mai bun pentru alegerea urnei, anume parcurgerea geografic a localitii. n acest caz avantajul de a lucra cu situaia real a adreselor este i motivul principalului dezavantaj. Anume, nu exist un cadru de eantionare ceea ce face alegerea simpl aleatoare sau pseudo-aleatoare imposibil. Cum alegem locuinele ca s dm tuturor aceiai ans, i o dat aleas o locuin cum dm tuturor locatarilor aceiai ans? Esenial este desigur ca alegerea s nu fie influenat de caliti ale locuirii i persoanelor. Adic, casele mai drgue s nu fie favorizate fa de cele mai nentreinute, persoanele mai primitoare fa de cele mai puin primitoare, eventual chiar unele etnii fa de altele! Metoda care se folosete este construirea unui itinerariu-algoritm. E ca i cum am face o alegere pseudo-aleatoare n care pasul de eantionare nu mai e un numr de rnduri pe o foaie de carte de telefon ci un numr de case pe o strad sau un numr de locuine ntr-un bloc. Ce conteaz este ca metoda s includ toate cazurile posibile astfel nct argumente care in ntr-adevr de condiiile de locuire s nu conteze. Cel mai ru este ca operatorul s aleag dup argumente de genul: s-a terminat strada, acum pot s o iau la stnga sau la dreapta, dar la stnga e noroi!. Poate prea nesemnificativ, dar prin repetare, dac astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eantionului i la 36

situaia n care apartenena la o categorie social-economic dezavantajat s scad probabilitatea de a face parte din eantion. Apoi mai exist o situaie asemntoare de defazare a eantionului care e foarte periculoas. Aceasta este cunoscut ca autoselecie. Evident, dac numai cei ce se autopropun, rspund la un chestionar, cum e de exemplu, cazul chestionarelor ce apar n reviste, eantionul nu are nici o relevan statistic. Am vzut c aa au dat gre sondajele din revista americana Literary Digest puse fa n fa cu metoda lui Gallup care presupune alegerea aleatoare. Exist ns o situaie pervers n care o aproape similar, chiar dac ceva mai benign, autoselecie apare ca efect pervers al unei eantionri i selecii ct se poate de corecte. Astfel, dac numrul celor ce refuz s rspund la chestionar e foarte mare, cei ce accept pot fi considerai a fi (aproape) autoselectai. E clar c aici rolul operatorului este esenial, el/ea trebuie s fie potrivit de politicos-insistent astfel nct cel intervievat s trebuiasc s ia evident o decizie pentru a refuza i varianta implicit, lipsit de efortul de a decide, s fie aceea de a rspunde. Din pcate nu avem o metod mai bun de a reduce ponderea refuzului de a rspunde la chestionare. n anii de imediat dup 1990 ponderea celor care refuzau interviurile operatorilor de sondaj era foarte mic. Aceast pondere a crescut destul de mult devenind n multe cazuri semnificativ. Cteva reguli simple reduc totui puin ponderea nonrspunsurilor. Operatorul de interviu trebuie s nceap prin a se prezenta ct mai clar i trebuie s se refere fie la institutul care efectueaz sondajul, fie la clientul sondajului. Esenial este ca potenialul intervievat s priceap ct de repede despre ce e vorba, adic s nu cread c operatorul vrea s-i vnd sau s-i cear ceva. Apoi el trebuie s se simt valorizat pentru faptul c prerea lui conteaz, respectiv c a fost ales s-i spun prerea. 2. Eantionarea stratificat Stratificarea este o variant de nbuntire a eantionrii lund n seam caracteristici ale populaiei care sunt de tip categorial. Matematic nu se poate calcula cu ct e mai bun o astfel de eantionare fa de una simpl aleatoare, i nici mcar dac e mai bun. Ea are totui avantajul de a ne asigura posibilitatea unor teste statistice care pot fi importante n cercetare. Aici ns trebuie s expun nti metoda pentru a fi mai explicit. Orice populaie se poate mpri n categorii diferite. Genuri, religii, zone de reziden, tipuri de locuire, etc. Unele dintre acestea sunt cunoscute la nivelul populaiei din date statistice 37

oficiale. De exemplu, dac avem de fcut un sondaj ntr-un anume jude putem afla din anuarul statistic ci locuitori snt n mediul urban i ci n mediul rural, ci n oraul reedin de jude, ci n alte orae. Mai mult, unele din aceste categorii se pot cunoate chiar nainte de intervievare, se pot lua n seam n eantionare i selecie. Astfel prin simple proporii se pot calcula eantioane stratificat. Un exemplu simplu pentru judeul Timi ar fi urmtorul. n tabel am trecut populaia total urban i rural din 2006 conform Institutului National de Statistic. Am calculat apoi procentele fa de totalul populaional al judeului i, n fine cte chestionare dintr-un total de 1000 ar trebui aplicate n mediul rural i cte n mediul urban pentru a pstra volumele straturilor. Numr locuitori Urban Rural Total 414.680 244.619 659.299 Numr chestionare 629 371 1000

Procent 62,9% 37,1/ 100%

Aceast metod este folosit cel mai adesea pentru a crea eantioane pentru o populaie mare i distribuit, cum ar fi populaia unei ri, de obicei eantionarea nu este doar stratificat ci i multistadial. Aceasta presupune mai muli pai de stratificare i alegere aleatoare. Cel mai simplu ar fi s vedem cum se face aceasta pentru o populaie cum ar fi cea a Romaniei. Primul pas, sau primul stadiu, este mprirea dup tehnica stratificrii pe care am vzut-o mai nainte a eantionului n funcii de regiuni de dezvoltare. Romania este mprit, mai mult sau mai puin administrativ n opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis uniti administrativ-teritoriale cum sunt judeele, dar sunt suficient de bine particularizate socioeconomic. n mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, dei sunt criticate tocmai pentru c nu se potrivesc i mai bine cu acestea. Oricum, ceea ce conteaz pentru statistician este faptul c regiunile de dezvoltare sunt folosite de Institutul National de Statistic ca uniti de raportare. Adic, toate datele statistice teritoriale sunt disponibile i la nivel de regiune. n plus, evident cele opt regiuni sunt mai potrivite ca straturi dect foarte multele judee ale rii. Romania are 41 de judee. Dat fiind un eantion obinuit, care aa cum tim depete cu puin 1000 de chestionare, numrul de chestionare care s-ar aplica ntr-un jude ar fi ilar de mic i de greu de distribuit n consecin. Hai s fiu puin mai explicit. 38

mprind chestionarele pe judee rezult n medie vreo 25 de chestionare pe fiecare jude. Dac lum n seam numai costurile de transport care apar mprite pe fiecare chestionar e clar c merita cutat o metod mai bun. S vedem cum arat tabelul cu distribuia chestionarelor dup primul stadiu. Numr locuitori Nord-Est Sud-Est Sud Muntenia Sud-Vest Oltenia Vest Nord-Vest Centru Bucureti Ilfov Total 3.781.932 2.980.559 3.619.796 2.461.463 2.198.504 2.983.614 2.860.490 2.325.037 23.211.395 Numr chestionare 163 128 156 106 95 129 123 100 1000

Procent 16,3% 12,8% 15,6% 10,6% 9,5% 12,9% 12,3% 10,0% 100%

Al doilea stadiu este, de obicei, distribuirea pe medii de reedin. Aceasta se poate face pe o simpl mprire rural urban, cum am vzut deja n exemplul precedent, sau pe o ceva mai complex mprire n trei zone, rural localiti urbane mici (sub 100.000 de locuitori) localiti urbane mare. Aceasta este mprirea pe care o folosesc majoritatea institutelor de sondare a opiniei publice de pe la noi. mprirea aceasta duce n fine la o distribuie a chestionarelor prin care se afl cte chestionare trebuie fcute pe fiecare regiune i fiecare tip de localitate. Atunci apare primul pas de selecie aleatoare, dintr-o list de localiti pe regiuni i tipuri de localiti se aleg, n mod teoretic aleator, localiti care le vor reprezenta pe toate celelalte din aceiai regiune i acelai tip. Deci, ar trebui alese mcar o localitate urban mare, una mic i o localitate rural pentru fiecare regiune. n realitate se aleg de obicei mai multe localiti din cte o categorie, aa cum vom vedea i din exemplul urmtor. S dezvoltm o regiune oarecare, de exemplu regiunea Nord-Est n forma mai simpl a distribuiei rural - urban. Numr locuitori Rural 2.105.562 Numr chestionare 92

Procent 56,4% 39

Urban Total

1.629.384 3.734.946

43,6% 100%

71 163

Deci vor trebui aplicate 71 de chestionare n orae din regiunea Nord-Est i 92 chestionare n sate i comune din regiune. Cel mai probabil se vor alege din listele de localiti dou orae i trei sau patru comune pentru intervievare, dar numrul localitilor


Recommended