+ All Categories
Home > Documents > Carte de Statistica

Carte de Statistica

Date post: 11-Oct-2015
Category:
Upload: daniela-danutza
View: 73 times
Download: 11 times
Share this document with a friend
Description:
Carte de Statistica - facultatea de psihologie
203
 1 Carte de Statistică Reţete încercate Robert D. Reisz Cuprins Cuvînt înainte 1. Introducere. a. Ce este statistica?  b. Cum cunoaşte statistica? c. Cauzalitate şi statistica. d. Foarte scurt istoric al statisticii. 2. Ingredientele statisticii. Tipuri de date. a. Date nominale  b. Date ordinale c. Date intervalice d. Date raţionale 3. Culegerea datelor statistice. Sondajul de opinie. a. Statistici de lot si statistici de sondaj. Generalizare a statistică şi limitele ei.  b. Cum facem un sondaj de opinie simplu şi corect? Eşantionare, chestionar, aplicare. 4. Aperitive. Primii paşi în descrierea datelor statistice a. Imagini de ansamblu asupra datelor. i. Frecvenţe simple. ii. Reprezent ări grafice  b. Indicatori agregaţi i. Tendinţa centrală ii. Distribuţia datelor
Transcript
  • 1

    Carte de Statistic

    Reete ncercate

    Robert D. Reisz

    Cuprins

    Cuvnt nainte

    1. Introducere.

    a. Ce este statistica?

    b. Cum cunoate statistica?

    c. Cauzalitate i statistica.

    d. Foarte scurt istoric al statisticii.

    2. Ingredientele statisticii. Tipuri de date.

    a. Date nominale

    b. Date ordinale

    c. Date intervalice

    d. Date raionale

    3. Culegerea datelor statistice. Sondajul de opinie.

    a. Statistici de lot si statistici de sondaj. Generalizarea statistic i limitele ei.

    b. Cum facem un sondaj de opinie simplu i corect? Eantionare, chestionar,

    aplicare.

    4. Aperitive. Primii pai n descrierea datelor statistice

    a. Imagini de ansamblu asupra datelor.

    i. Frecvene simple.

    ii. Reprezentri grafice

    b. Indicatori agregai

    i. Tendina central

    ii. Distribuia datelor

  • 2

    5. Supe, ciorbe i teste statistice simple.

    a. Distribuia normal

    b. Teste statistice t pentru medii i Z pentru proporii.

    c. Calculul erorii unui sondaj si interpretarea ei.

    6. Feluri principale i garnituri sau relaia dintre mai multe variabile

    a. Grafice pentru mai multe variabile.

    b. Tabele de relaionare.

    c. Analiza de varian. Testul ANOVA unifactorial.

    d. Corelaia simpl i parial. Coeficienii de corelaie.

    e. Regresia liniar simpl i multipl.

    7. Pentru vegetarieni. Analiza datelor nenumerice.

    a. Testul Chi2

    b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis

    c. Regresia categorial.

    8. Analiza seriilor de timp

    a. Ce e o serie de timp? Identificarea de patternuri n serii de timp

    b. Trend i sezonalitate

    c. Regresii cu serii de timp

    d. Analiza de supravieuire

    9. Clasificarea datelor.

    a. Clustere ierarhice

    b. Clustering cu centre de clustere

    10. Deserturi.

  • 3

    Cuvnt nainte

    La primul curs de statistic pe care l-am inut la facultatea de tiine politice de la

    Universitatea de Vest din Timioara o student mi-a spus pe un ton ct se poate de tranant:

    habar nu are de matematic, nici nu vrea s nvee aa ceva i oricum a venit la facultatea de

    tiine politice tocmai ca s scape de matematic i alte asemenea tiine exacte. Sunt convins

    c aceast experien a mea e departe de a fi unic. Am ncercat pe parcursul celor dou

    semestre s o conving pe ea i pe colegii ei, de obicei de aceiai prere cu ea, de utilitatea

    statisticii i de simplitatea ei. Sunt convins c nu am reuit sau nu ntru totul, dar tiu de

    asemenea c am reuit s i familiarizez cu conceptele de baz ale statisticii i modul cum

    acestea funcioneaz n logica cercetrii sociale.

    Cartea aceasta se adreseaz tocmai celor ce se tem de calculul matematic sau sunt doar

    neexersai in el, precum i celor ce fac primii pai n lucrul cu metode tiinifice cantitative in

    cunoaterea social. Cartea mea vrea s fie uor de citit, dar n primul rnd uor de nvat i

    de aplicat. Voi prezenta n paginile ce urmeaz principalele metode folosite n statistic,

    metode utilizate n cercetrile din tiinele sociale i nu numai; reetarul de baz pentru

    lucrrile de cercetare din sociologie, psihologie, tiine politice, economice dar i medicin i

    alte tiine ce se bazeaz pe cunoaterea empiric a realitii.

    Voi insista pe interpretarea rezultatelor precum i pe ipotezele metodelor statistice, elemente

    ale cunoaterii statistice ce stau la interfaa dintre teorie si metod i definesc n cele din urm

    limitele cunoaterii prin statistic. n opinia mea, renumele uneori negativ pe care l are

    statistica n mass-media romaneasc, i m refer aici la scepticismul foarte rspndit fa de

    cercetrile bazate pe sondaje de opinie, se datoreaz pe lng existena real a unor cercetri

    cel puin dubioase, i unei nenelegeri ale limitelor cunoaterii statistice. Desigur cunoaterea

    statistic este prin felul ei imperfect, inexact, probabil i nu cert, dar puterea ei rezid

    tocmai n posibilitatea de a delimita cu siguran uneori destul de mare intervalul n care se

    afl realitatea. S fiu mai explicit, statistica nu va da niciodat rspunsuri simple i exacte.

    Dar astfel de rspunsuri, n msura n care exist n cunoaterea lumii reale, nu ne sunt utile.

    Rspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple,

    nici exacte. Cu toate acestea, cunoaterea statistic este cunoatere, adevrul statistic chiar

    dac nu este absolut este un adevr pragmatic att timp ct i nelegem limitele.

  • 4

    Mai exist un motiv pentru care scriu aceast carte. Cutarea mea a unui manual de statistic

    introductiv publicat n limba roman a fost pn acum ncununat de eec. Dei exist multe

    manuale de acest tip n spaiul anglofon i nu numai, la noi pn n prezent manualele de

    statistic bune au inut s se prezinte la un nivel tiinific prea ridicat pentru nceptorii fr

    interes i aplecare fa de cele matematice. Poate i de aceea statistica nu a devenit ca n alte

    pri, un bun comun a celor ce cerceteaz lumea politic, social sau economic i putem

    ntlni att de des prostii monumentale n presa romaneasc atunci cnd aa-zii analiti se

    apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi ncerca, de fapt, s

    exemplific pe parcursul crii cteva din erorile cele mai uzuale ale comentatorilor politici dar

    i ale politicienilor din ara noastr. Uneori nclin s cred c o mai bun nelegere a felului

    cum cunoate statistica i a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva

    partide de la dispariie.

    Nu voi merge prea departe cu ideea de a produce o carte de reete de statistic, totui ea este

    ntr-un fel justificat. Toate metodele din carte sunt ntr-adevr ncercate, i vor s fie

    exemple de metode ce se pot aplica cu succes n cercetare. De asemenea toate interpretrile

    pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenia asupra unor erori ce

    apar adesea, voi ateniona fa de prea mult scepticism n egal msur ca i fa de un

    optimism exagerat. Deci condimentai cu msur i, precum cei mai buni buctari, aplicai

    reetele mele cu nelegere, n spiritul i nu numai n litera lor.

  • 5

    Capitolul 1. Introducere.

    S ncepem uor, cu nceputul. n acest capitol a vrea s definesc conceptul de statistic i

    felul cum poate statistica cunoate lumea. Voi vorbi despre raionamentul statistic, despre

    eroare i greeal n statistic, precum i despre cauzalitate i statistic.

    a. Ce este statistica?

    Statistica se definete de obicei ca un subdomeniu al matematicii dedicat culegerii, analizrii,

    interpretrii i prezentrii datelor. Definiia aceasta mi se pare ns ct se poate de

    nesatisfctoare pentru c, pe de o parte nu spune nimic despre felul cum acioneaz statistica

    lsnd prin urmare orice metod ca fiind acceptabil, i mai apoi folosete un concept mult

    prea general si ambiguu, acela de dat. n acest concept este probabil ascuns chiar ceea ce

    eu consider a fi genul proxim n cadrul cruia ar trebui definit statistica. Anume faptul c ea

    este o metod de cunoatere. Statistica este o metod de cunoatere a unor obiecte sau

    fenomene bazat pe interpretarea rezultatelor de msurare. Mie definiia aceasta mi place mai

    mult, dei probabil sun nc destul de criptic. Anume, mut ambiguitatea de la conceptul de

    dat la felul cum se obine aceasta, adic prin msurarea unor obiecte sau fenomene. Ei

    bine, eu nclin s cred c msurarea n cauz se poate face chiar cu orice aparat de msur att

    timp ct acesta este de ncredere, adic nu face erori sistematice. Totui, nite exemple ar fi

    utile aici, nu-i aa?

    Deci, aparate de msur sunt desigur cntarul i metrul croitorului sau ale constructorului, ca

    i ublerul sau micrometrul, dar pn la urm orice funcie care face univoc legtura dintre un

    obiect sau fenomen i o valoare fie ea numeric sau nu, este o msurare. Sper c nu am speriat

    nc pe nimeni folosind termenul de funcie n sens matematic. O funcie este o relaie ntre

    dou mulimi, n cazul nostru o mulime de obiecte sau fenomene de acelai tip pe care dorim

    s o cunoatem mai bine i o mulime de valori statistice pe care le putem analiza. Punem de

    fapt n relaie ceva ce nu putem folosi nemijlocit n calculele noastre cu ceva ce putem folosi.

    Msurm de exemplu greutatea unor cini, poate pentru a analiza efectul unor alimentaii

    specifice. Folosim un cntar, desigur, dar de fapt definim prin aceasta o funcie pe domeniul

    cinilor studiai lund valori n domeniul numerelor reale. i de ce facem asta? Pentru c

    dorim s interpretm, s calculm, s comparm i, n fine, s prezentm ct mai simplu i

  • 6

    coerent rezultatele cercetrii noastre. i nu tim s calculm cu cini, ns tim s facem asta

    cu numere. Aceast problem este mereu prezent n cunoatere. Nu putem calcula cu

    obiectele reale, fenomene aa cum sunt ele. Aa cum nu putem face calcule cu cini, nu putem

    face nici cu opiniile politice i nici cu comportamentele economice ale unor oameni adevrai.

    Trebuie s le transformm n lucruri cu care putem calcula, n valori numerice sau

    nenumerice, oricum valori care sunt simple i n primul rnd complet definite prin ele nsele.

    S m explic: este practic imposibil s definesc complet un obiect sau un fenomen real. Orice

    definiie a cinelui meu ar fi incomplet, ar omite un fir de blan sau chiar o caracteristic

    comportamental pe care poate nc nu o cunosc. Iar de ar fi, prin absurd, posibil o definiie

    complet a lui Garu, aa l cheam (tiu, e aiurea, dar e o poveste mai lung), ar fi de o

    complexitate ce ar face s fie absolut inutil pentru orice interpretare sau analiz. Pe de alt

    parte rezultatul msurrii greutii lui este 30kg ceea ce este desigur un model ct se poate de

    inexact pentru un cine dar este o valoare util i calculabil att timp ct tim exact ce

    nseamn i nu i conferim o mai mare importan dect are, anume greutatea lui Garu.

    Completnd aceast msurtoare cu altele, precum vrsta, rasa i genul, obinem un model, o

    definiie incomplet i util, att incompletitudinea ct i utilitatea ei rezultnd pn la urm din

    simplitatea ei.

    La fel se ntmpl i n cazul opiniilor politice ale unei persoane, de exemplu ale colegului

    meu Ionic. Opiniile lui Ionic sunt complexe, anumite teme l intereseaz i este informat

    asupra lor avnd opinii nuanate. Alte teme nu l intereseaz i nu are opinii asupra lor sau are

    opinii superficiale formate rapid. Mai mult, opiniile lui Ionic, precum a oricrei persoane

    inteligente sunt schimbtoare, reacioneaz la schimbrile din mediu, la noi informaii i noi

    evenimente. Nu avem cum efectua calcule cu opiniile lui Ionic, putem ns s msurm

    elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, l putem

    ntreba ce prere are despre un anumit politician i i putem oferi 5 variante de rspuns. Avem

    atunci o msurtoare, care este n acelai timp o simplificare i o datare. Acest rezultat de

    msurare va fi legat de momentul la care am pus ntrebarea (i va rmne neschimbat, dei

    opinia lui se poate schimba ulterior) i va ncerca s includ opinia lui Ionic ntr-o schem

    simpl care nu l poate descrie evident ntru totul dar care l poate face comparabil cu ali

    oameni care au rspuns la aceiai ntrebare.

    i aici este chiar principala problem a statisticii. Statistica nu calculeaz cu cini, oameni sau

    partide. Statistica calculeaz cu rezultatele unor msurtori ale acestora. Cunoaterea n

  • 7

    general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construiete

    astfel de modele prin msurare. Cum msoar de obicei statistica? Ei bine, oricum. Sau mai

    exact, depinde de tem. Statistica medical msoar cu aparate sofisticate dar a cror

    exactitate ar trebui s nu depind de cel ce efectueaz cercetarea, statistica social sau politic

    este ns de obicei nevoit s-i dezvolte propriile aparate de msur, chestionarele. Vom

    reveni n capitolul al treilea la felul cum se scriu, i cum nu se scriu chestionare. Pn atunci

    s continum ns s discutm cum metoda de msurare cu chestionarul influeneaz chiar

    conceptual cunoaterea statistic.

    Un aparat de msur trebuie s aib dou principale caracteristici pentru a fi util. Trebuie s

    dea un rezultat i unul singur, i mai mult dect att, la repetarea msurrii s produc acelai

    rezultat sau unul foarte apropiat. Presupunnd c reuim s-l urcm pe Garu (cinele meu, v

    aducei aminte) pe un cntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o

    valoare apropiat de 30kg. Daca reuim acest efort de persuasiune i ndemnare n repetate

    rnduri ntr-un scurt interval de timp, utiliznd mai multe cntare, acestea vor fi bune n msura

    n care ne vor da aproximativ acelai rezultat. Pe de alt parte ns, greutatea lui Garu nu se va

    schimba de pe urma faptului ca a fost msurat. Chiar daca Garu ar fi priceput ceva din cele

    ce i s-au ntmplat tot nu i-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a

    testa aparatele de msur pentru coerena lor nu ne este ns accesibil n cazul chestionarului.

    Daca dorim s repetm chestionarea lui Ionic suficient de curnd pentru ca opinia lui s nu se

    fi schimbat prea mult, el i va aduce desigur aminte de chestionar i va rspunde probabil la

    fel mcar pentru a se arta consecvent, caracteristic pe care societatea noastr o valorizeaz

    n sine. Exist chestionare special elaborate, n special n cercetri de psihologie care rezolv

    aceast problem ntr-o oarecare msur prin punerea a foarte multe ntrebri i repetarea

    unora dintre ele n forme mai mult sau mai puin modificate. Una peste alta problema rmne

    ns deschis pentru majoritatea cercetrilor. Chestionarele nu se pot de obicei calibra att de

    bine ca i cntarele. Soluia la aceast dilem nu este dect recunoaterea unei alte limitri a

    cunoaterii prin statistic social. O cercetare care folosete o metod de msurare nu poate fi

    comparat cu o alt cercetare ce folosete alt metod de msurare. Cntarele cercetrii

    sociale nu sunt comparabile. Ca atare msurarea depinde nu numai de obiectul msurat ci i

    de aparatul de msur. n cercetarea statistic social rezultatul este dependent i specific

    aparatului i metodei de msurare. Deci, metodologia este parte din rezultat. Putem spune c

    rezultatul msurrii are sens, este interpretabil, exist numai mpreun cu metoda de msurare.

    Revenind la conceptul de model pe care l-am introdus mai sus, nu numai c statistica nu

  • 8

    calculeaz cu cini, sau oameni, sau fenomene, ea nu calculeaz de fapt nici cu greutatea,

    opinia sau comportamentul ci cu rezultatul msurtorii acestora aa cum ne-o permit aparatele

    de msur. Mai simplu, dac ntrebm un elev ct de des ridic mna n clas, nu vom prelucra

    statistic elevul (bineneles, doamne ferete), dar nici mcar gradul lui de participare n clas

    (ceea ce unii ar putea spera), ci o msur de moment a opiniei lui fa de gradul lui de

    participare n clas. i aceast msur va depinde de felul cum e construit chestionarul, de

    ntrebrile anterioare, dar i de evenimentele din ziua n care am efectuat chestionarea sau din

    zilele precedente. Aceasta pentru c msurarea se face ntr-un moment anume i cu un aparat

    anume. Mai mult, msurtoarea nu se aplic participrii n clas ci opiniei elevului asupra

    acestei participri, opinie care depinde de prerea pe care o are despre coala lui, nvtorul

    lui, despre sine nsui respectiv despre dezirabilitatea de a fi activ n clas. Toate acestea nu

    fac msurarea inutil sau cunoaterea obinut de pe urma ei mai puin sigur, pur i simplu

    sunt elemente ce trebuie luate n seam.

    Dac aparatul de msur este parte din rezultatul msurat, de aici decurge imediat faptul c nu

    este posibil vreo msurare fr o teorie ce st la baza ei. Aparatul de msur a fost desigur

    dezvoltat pe baza unei teorii, fie c a fost un cntar fie c a fost un chestionar. Att timp ct

    rezultatul msurrii nu depinde de metoda de msurare am putea la o adic s neglijm teoria

    care a produs aparatul, aceasta ns nu e nici o dat cazul n cercetarea statistic. Chiar dac

    msurarea a avut loc cu cntarul, ideea de a msura cu cntarul a avut la baz o decizie i

    aceast decizie o teorie legat de rezultatele dorite de pe urma cercetrii. Cu att mai mult n

    cazul n care aparatul de msur este parte integrant din rezultatul msurii. n unele nefericite

    situaii e posibil ca nsui cel ce dezvolt chestionarul i proiecteaz cercetarea s nu fie pe

    deplin contient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar i atunci

    acestea influeneaz cercetarea precum o pot influena i prejudecile celor ce o proiecteaz.

    Acestea sunt nc alte limite ale cunoaterii pe care un bun interpret al calculelor statistice

    trebuie sa le aibe n faa ochilor. Nu este posibil msurare fr teorie i ca atare teoria ce st

    la baza unei cercetri trebuie ct mai exact enunat i ct mai consecvent aplicat.

    S ne ntoarcem deci la definiia noastr: spuneam c statistica se ocup cu interpretarea

    rezultatelor unor msurtori. Am discutat puin despre msurtori n sine, s vedem acum ce

    nelegem prin interpretri i care anume sunt metodele de interpretare pe care le numim

    statistice. Rezultatele de msurare ne dau de obicei o multitudine de caracteristici, date

    numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie

  • 9

    prezentate ntr-un fel pentru a fi de vreun folos. Chiar i o dat prezentate, de exemplu sub

    forma unei liste cu greutatea a 1000 de cini, ele cel mai adesea nu permit o utilizare, sau o

    nelegere a ansamblului problematicii. Ce vrea i ce poate de fapt face statistica cu grmada

    de date pe care le culege prin msurtori?

    b. Cum cunoate statistica?

    Exist dou probleme mari ale statisticii, descrierea unor date msurate si extragerea din date

    msurate a unor concluzii ce se extind i asupra altor date, care nu au fost msurate din

    motive ce in cel mai adesea de economie de timp i bani. Prima dintre acestea este problema

    statisticii descriptive, cea de a doua cea a statisticii infereniale.

    Statisticile descriptive se multumesc s spun ceva despre obiectele, indivizii sau

    fenomenele care au fost msurate. ntr-un fel i statistica descriptiv generalizeaz, vrnd s

    spun ceva despre obiecte pe care le cunoate doar prin rezultatele unor msurtori. Totui, de

    obicei nu o considerm ca fiind generalizatoare. Primii pai n orice cercetare statistic snt

    descriptivi. ncercm s prezentm ct mai clar i concis i, pe ct posibil, fr a pierde din

    acuratee datele msurate. Reprezentrile grafice i tabelare, precum i valorile agregate pe

    care le vom descrie n capitolul al patrulea al acestei cri sunt metodele cele mai obinuite ale

    statisticii descriptive. Ele nu prelucreaz prea mult datele ns caut s ofere imagini mai uor

    inteligibile dect o list lung de valori. Imaginile grafice pot fi n acelai timp i indicatori

    buni pentru a recunoate trenduri, adic pentru a decide ce calcule se pot face n continuare,

    cu ce statistici infereniale s se continue analiza datelor.

    Valorile agregate calculate n contextul statisticilor descriptive au un grad de prelucrare puin

    mai avansat. De obicei se includ aici formule de calcul ce ncearc s gseasc o tendina

    central sau medie a datelor i formule ce ncearc s sintetizeze n ce msur datele sunt

    dispersate n jurul acestei tendine centrale. Desigur nu ntotdeuna aceste valori sunt

    interesante i nu ntotdeauna merit calculate. Snt ns cazuri n care ele ne dau o imagine

    bun despre un fenomen. S lum calculul mediei, de exemplu. Media greutii unor cini de

    aceiai vrst, gen i ras poate reprezenta o bun baz de comparaie ntre rase sau genuri sau

    vrste. Ne poate deci spune ceva att timp ct este utilizat ceteris paribus. Conceptul de

    ceteris paribus nseamn, pstrnd toate celelalte caracteristici egale i adesea nu este uor

  • 10

    de pus n practic. Totui este esenial atunci cnd vrem s efectum comparaii i s

    determinm legturi dintre caracteristici, cum ar fi, de exemplu greutatea i genul cinilor.

    Desigur media greutii tutoror cinilor de la o expoziie chinologic poate fi n ansamblu prea

    puin relevant. Poate nsemna totui ceva pentru cei care trebuie sa fac curenie a doua zi!

    De aici, nc o concluzie important: de tema de cercetare depinde metoda cea mai adecvata i

    nu de repertoarul de metode. Nu stiu de unde provine zicala daca singura scula pe care o ai

    este un ciocan totul ncepe s semene a cui dar n cazul statisticii sociale se confirm din

    pcate foarte des. Dac tot ce tii e s calculezi medii, o s calculezi medii indiferent ce tem

    de cercetare i ce date ai!

    Cum i ct de mult sunt distribuite datele n jurul tendinei centrale este o alt tem esenial n

    statistica descriptiv. Ai auzit cu toii butada cu individul care st cu un picior ntr-un lighean

    cu ap rece ca gheaa i cu unul ntr-un lighean cu ap clocotit i zice c n medie i este bine.

    Exist multe feluri de a calcula ct de distribuite sunt datele. n exemplul dat probabil ar fi de

    ajuns s calculm diferena de temperatur dintre cele dou lighene, n marea majoritate a

    cazurilor avem ns de a face cu un fel de miriapod care are fiecare din mia lui de picioare n

    ligheane cu ape de temperaturi diferite!

    Statisticile infereniale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii

    matematice despre cum sunt datele i au ca principal scop testarea unor ipoteze despre

    populaii de individizi sau obiecte. Inferena statistic este de fapt formarea unor preri

    justificate despre o ntreag populaie bazndu-ne pe msurarea unei pri a acesteia. Exemplul

    care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a

    opiniei publice pun ntrebri unui eantion de vreo mie de persoane i vor s ne conving pe

    noi, i binenneles i pe nite clieni pltitori de asemenea, cum c pot spune ceva despre

    opinia a peste 21 de milioane de persoane. La baza acestui tupeu se afl inferena statistic

    adic posibilitatea de a generaliza statistic de la msurarea unui eantion la descrierea unei

    ntregi populaii. Exist teorii matematice care justific aceasta. i dac cercetarea e fcut ct

    mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate.

    Bineneles i n acest caz pentru interpretarea lor trebuie sa ne punem ct mai clar ntrebrile:

    ce am msurat, pe cine am msurat i cu ce acuratee.

    Principiul fundamental al statisticii este coninut ntr-o teorem matematic numit adesea i

    teorema fundamental a statisticii. Ea ne asigur de faptul c rezultatele msurtorilor ce se

  • 11

    fac pe un eantion se pot, n anumite condiii generaliza la nivelul ntregii populaii. Vom

    reveni n cel de-al treilea capitol al crii la aceast teorem fr ns a face o prezentare a ei

    pe placul matematicienilor. O nelegere a consecinelor acestei teoreme pentru ntreaga

    metod statistic este ns necesar pentru a evalua la adevrata lor importan mai micile sau

    mai marile devieri de la idealul matematic pe care le ntlnim vrnd nevrnd n cercetrile

    empirice. nelegerea fundamentelor matematice ale statisticii ne vor permite apoi s

    nelegem de ce este necesar o alegere foarte bine gndit a persoanelor pe care le

    intervievm pe parcursul unui sondaj de opinie i de asemenea de ce este necesar o

    construcie bun a chestionarului pe care dorim s-l aplicm.

    Testarea statistic nbogete cunoaterea ntr-un mod foarte apropiat principiului respingerii

    ipotezelor. Pe ct de scurt este, aceast propoziie necesit o explicaie destul de detaliat. La

    baza ei se afl concepia despre cunoatere tiinific a lui Karl Popper (). n logica

    raionalismului critic, cum i-a numit Popper nsui teoria, principiul cunoaterii tiinifice s-

    ar putea exprima simplu n felul urmtor: cunoaterea uman nu se bazeaz pe certitudini i

    demostraii ale unor adevruri; ea nu progreseaz pe baza coroborrilor ipotezelor ci pe baza

    contraexemplelor. Cunoaterea tiinific dezvolt ipoteze. Acestea snt acceptate dac nu se

    pot respinge. Dar ele nu snt prin aceasta propriu-zis adevrate. Doar c ele nc nu au putut

    fi respinse. Deci regula cunoaterii nu este demonstraia ci respingerea. Nu putem de obicei

    tii dac ceva este adevrat, putem ns recunoate cu oarecare probabilitate dac ceva este

    fals.

    O teorie este tiinific n msura n care se poate imagina un experiment practic ce are

    puterea s o contrazic. Dac acest experiment nu reuete respingerea teoriei, aceasta este

    pentru moment acceptat. Ea nu este adevrat ci acceptabil conjunctural att timp ct nu a

    fost respins. tiina are deci ca i scop construirea i punerea n practic a unor experimente

    care ncearc s resping teorii, sau mai exact ipoteze. n statistic ca i n teoria Popperian a

    raionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipotez

    nelegem o propoziie care se supune analizei. n logica clasic o ipotez este o propoziie din

    care decurge o concluzie. Acolo nu se studiaz, de regul, valoarea de adevr a ipotezei, ci

    felul cum decurge din ea o concluzie. n statistic ns, tocmai ipoteza este presupunerea

    supus testrii.

  • 12

    O ipotez o dat respins duce la o nou interpretare a realitii i ca atare la noi ipoteze.

    Exist aici o asimetrie ntre verificarea i respingerea teoriilor care este esenial i pentru

    felul cum cunoate statistica. Statistica folosete principiul contraexemplului ntr-un sens

    probabilist. S explic. Statistica poate msura o valoare, de exemplu media greutii cinilor

    de la o expoziie chinologic i o poate compara cu o valoare teoretic ipotetic, de exemplu o

    ipotetic medie a greutii tuturor cinilor din lume. Pe baza acestor valori, i a unor foarte

    importante presupuneri despre cum sunt n general distribuite datele i cum au fost ele

    msurate practic, statistica poate calcula care este ansa ca ipoteza s fie corect n lumina

    datelor msurate.

    Statistica va pune deci ntrebarea n felul urmtor. Fie urmtoarea ipotez: media greutii

    tuturor cinilor din lume este de 50kg. Daca media greutii cinilor din expoziie este de 20kg

    poate fi oare media greutii tuturor cinilor din lume fi 50kg? Dac aceast ans este foarte,

    foarte mic exist un bun motiv de a respinge ipoteza. Vom spune atunci c, dac cinii din

    expoziie reprezint un bun eantion al cinilor din ntreaga lume, iar printre acetia greutatea

    este distribuita normal, ipoteza cum c media de greutate a cinilor din ntreaga lume este de

    50kg este aproape sigur greit. Statistica nu ne spune ct ar fi adevrata valoare a greutii

    medii a cinilor din lume, ne poate ns spune ct nu este i prin consecin ne poate da o

    imagine despre cam ct ar putea fi aceasta.

    Deci statistica lucreaz oarecum dup principiul popperian. Nu poate demonstra, poate ns

    respinge ipoteze. O bun cercetare statistic, ca i o cercetare tiinific n sensul lui Popper

    este o cercetare care construiete ipoteze ce pot fi respinse i experimente care au puterea de a

    respinge aceste ipoteze.

    Orice cercetare statistic bine construit pornete de la o serie de ipoteze mai mult sau mai

    puin explicite pe care le supune testrii statistice. Evident, cel mai bine este atunci cnd aceste

    ipoteze sunt explicite i tiinifice, adic refutabile. Deorece ns, aa cum am vzut deja, nu

    este posibil msurare fr a accepta n prealabil anumite teorii, ntotdeuna vor exista i

    presupoziii teoretice care nu se supun testrii. Acestea reprezint cadrul teoretic al cercetrii

    i tot ce putem face este s le contientizm i s ni le asumm cci ele determin ce i cum

    cunoatem. nsi acceptarea metodei statistice ca i cale de cunoatere este o astfel de

    premis teoretic, nu neaprat acceptat de ctre toat lumea.

  • 13

    c. Cauzalitate i statistica.

    O mare parte din cercetarea statistic ncearc s pun n relaie mai multe rezultate de

    msurare care reprezint caracteristici diferite ale unor individizi, obiecte sau fenomene.

    Astfel, ca s revenim la cinii notrii, un cercettor ingenios poate msura greutatea i genul

    cinilor i conchide de exemplu, cum c, pstrndu-ne n cadrul oricrei rase i grupe de vrst,

    pe msur ce un cine are greutate mai mare el are anse mai mari de a fi mascul. Un astfel de

    raionament este statistic absolut corect i ne arat ct se poate de clar faptul c conceptul de

    cauzalitate este un concept teoretic i nu unul statistic.

    Una din greelile de interpretare cel mai curent ntlnite n citirea datelor statistice este

    presupunerea de cauzalitate. Foarte adesea ne este convenabil s citim rezultatul unui calcul

    statistic ca o dovad de cauzalitate. Aceasta este fals chiar din dou motive. Pe de o parte, aa

    cum am spus-o mai sus, statistica nu dovedete nimic ci eventual nu respinge o ipotez, iar

    mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzaliti. Este ns ct se

    poate de adevrat c exist modele statistice ce presupun cauzalitate, cum sunt regresiile. n

    acest caz cauzalitatea este inclus n model, face parte din teoria ce a stat la baza construirii

    modelului i desigur, ca n orice form de cunoatere statistic, ea ar putea fi eventual

    respins. Caz n care am avea un bun motiv s excludem o relaie cauzal. Dac ns nu putem

    respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune dect am avut n

    momentul n care teoria ne-a permis s o considerm pentru a fi modelat.

    Deci cauzalitatea este n teorie, n ipotez i nu n calcul. De aceea exemplul de interpretare

    de mai nainte ni s-a prut imediat greit. Face parte din simul comun faptul c genul unui

    cine este neschimbat toat viaa lui, pe cnd greutatea poate varia. De aici teoria noastr

    despre cini nu accept cauzalitatea dintre greutate i gen ci pe cea invers. Deci, ipoteza pe

    care nu o putem respinge este: cinii masculi sunt mai grei i nu cinii mai grei sunt

    masculi. Din pcate nu este ntotdeauna aa simplu. S lum un exemplu clasic, relaia dintre

    nivelul de educaie al unei naiuni i bunstarea ei. Se tie foarte bine c exist o legtur

    puternic ntre aceste dou caracteristici aproape indiferent cum le-am msura (de ex: procent

    din populaie cu studii superioare i produs intern brut pe cap de locuitor), exist ns teorii

    convingtoare pentru ambele direcii de cauzalitate i testele statistice nu au reuit s resping

    nici una dintre ele. Decizia asupra direciei de cauzalitate este deci un apanaj al teoriei.

  • 14

    i totui, statistica poate construi anumite raionamente cauzale. Acestea se bazeaz pe o

    observaie ct se poate de simpl: efectul nu poate s precead cauza. Aceasta se poate numi

    asimetria temporal a cauzalitii. Raionamentul logic e foarte simplu: dac evenimentul A

    a avut loc dup evenimentul B, atunci evenimentul A nu poate fi cauza lui B. Simplu, dar

    relativ puin util pentru c foarte rar datele noastre statistice se refer la evenimente singulare,

    clar databile temporar. Cnd avem de a face cu informaii databile, adic n cazul seriilor de

    timp, urmrim de regul dezvoltarea unor fenomene n timp. Atunci punem fa n fa

    dezvoltarea unor serii de timp. Varianta cea mai simpl este s legm dezvoltarea unei

    variabile, de ex. nivelul de bunstare ntr-o ar, de o alta, de ex. ateptarea de via n

    respectiva ar. Pn i informaii absolut nesistematice ne pot convinge c ntre acestea exist

    o relaie.

    Cum ar funciona ns raionamentul asimetriei temporale? Pentru a nelege aceasta ar trebui

    sa putem separa mecanismul individual care st la baza statisticii; s desfacem datele rezultate

    din agregare n fenomene individuale. n cazul de fa, raionamentul ar fi urmtorul: dac o

    persoan are un nivel de bunstare ridicat, va putea investi mai mult n sntatea sa, prin

    adresare la medic, alimentaie i igien, i va tri n consecin mai mult. Exist ns i

    raionamente alternative. De exemplu, se poate presupune c nivelul de bunstare nu mai

    conteaz dac un anumit prag al srciei extreme e depit. Oamenii nu fac economii la

    adresarea la medic, la alimentaie i igien. Sau c, dei bunstarea are un anumit efect, de

    fapt acesta e doar colateral. Ceea ce conteaz este nivelul de educaie i cultur care are efect

    asupra obiceiurilor alimentare, igienice i de adresare la medic. Cele trei variante acopera

    situaiile unei cauzaliti relativ directe, ale lipsei cauzalitii i a unui lan cauzal complex

    fr relaie direct ntre variabilele studiate.

    Cum raionm statistic? Orice cauzalitate trebuie s se regseasc la nivel individual. Deci,

    dac n forma agregat bunstarea medie crete sau scade aceasta s-a ntmplat prin creterea

    sau scderea bunstrii individuale a unor persoane. Pentru simplitate putem presupune c o

    cretere a agregatului este reflectarea unei creterii la nivelul indivizilor. Desigur n realitate

    situaia poate fi mai complex, o parte din indivizi putnd cunoate creteri i o alt parte

    scderi. La nivelul fiecrui individ a crui bunstare crete, condiiile de via pot produce o

    via mai lung. De aici deducem urmtoarele: dac creterea bunstrii e mai mare atunci

    creterea ateptrii de via va fi mai mare. Adic, cauzalitatea se reflect mai bine n relaia

    dintre creteri dect n relaia dintre valori. Creterile se calculeaz simplu ca diferene de la

  • 15

    un punct temporar (de ex. un an) la altul. A doua observaie imediat este c trebuie s lsm

    timp fenomenului s se dezvolte (asimetria temporal), adic va trebui s relaionm valori ale

    creterii bunstrii de la un anumit moment cu valori ale ateptrii de via ulterioare. Ct e

    bine s fie aceast ntrziere depinde de situaia modelat. Termenul statistic pentru aceast

    ntrziere vine din englez i se numete lag. n fine, a treia observaie este c o valoarea

    unic, o cretere a bunstrii ntr-un singur an, eventual ca efect al unui venit mare accidental

    care dispare foarte repede, nu trebuie neaprat s aib consecine eseniale asupra ateptrii de

    via. Deci ar trebui s nu lucrm cu o singur valoare ci s lum n considerare fenomene

    stabile de cretere, respectiv scdere. Acest raionament st la baza unei serii ntregi de

    metode de testare a cauzalitii dintre care cele mai convingtoare sunt, dup prerea mea

    metodele dezvoltate de Clive Granger. Acesta a primit n 2003 i un premiu Nobel pentru

    economie pentru ele. Raionamentul care definete cauzalitatea la Granger este ns complex.

    Ca atare muli l consider restrictiv i susin c nu acoper toate situaiile pe care simul

    comun le consider ca fiind cauzale. De aceea se folosete pentru definiia aceasta termenul

    de cauzalitate Granger n loc de cel general de cauzalitate. n capitolul dedicat seriilor de timp

    voi reveni asupra unor metode de testare a cauzalitii. Aceastea pot lua desigur numai forma

    unor respingeri de ipoteze, ns exist metode care permit respingerea unor ipoteze de non-

    cauzalitate.

    Un alt caz interesant care apare n statistic uneori este cel al falsei cauzaliti, sau ntr-o

    form atenuat, a falsei corelaii. Variabile par a fi legate i nu ar trebui s fie. Vreau s atrag

    aici atenie asupra necesarei precauii n a defini o legtur ca fiind o fals relaie dintre

    variabile. Eu pn n momentul de fa nu am ntlnit false relaii ci doar relaii cu explicaii

    teoretice complexe sau neimediate. Sunt aceste explicaii corecte? Nu ntotdeuna, dar nu pot fi

    imediat respinse i sunt ca atare mai fertile dect presupunerea unei false cauzaliti.

    Exemplul clasic este cel al foarte bunei corelaii empirice dintre numrul de berze i indicele

    conjunctural al fertilitii, calculat ca numr de copii nscui unei femei pe parcursul vieii

    fertile, calculate pe regiune. Rezultatul, des verificat n practic ar putea fi o dovad cum c

    berzele aduc copiii. Cei ce au citit cumini pn aici vor observa c nu este aa. Pe de alt

    parte s-ar putea s fie de acord cu faptul c, experimentul n cauz nu poate respinge o

    legtur dintre numrul de berze i natalitate. S oferim ns o teorie alternativ. O teorie ct

    se poate de acceptabil chiar de ctre simul comun spune c numrul de berze, dar i numrul

    de nateri ale unei femei pe parcursul vieii fertile este mai mare n zona rural dect n cea

  • 16

    urban. Gradul de urbanizare (sau industrializare) al regiunii studiate ar reprezenta deci o

    variabil care le influeneaz pe amndou variabilele din studiul nostru. i mai mult, le

    influeneaz n acelai sens creind astfel o relaie pozitiv ntre ele. Nu era deci vorba despre o

    cauzalitate direct, dar nici despre o eroare. Pur i simplu, relaia cauzal trebuia explicat

    teoretic acceptabil. Adic, testul statistic nu poate alege care din cele dou teorii alternative,

    barza aduce copiii respectiv urbanizarea reduce numrul de berze i numrul de nateri a

    unei femei este mai bun. Adecvarea cu ansamblul de teorii i ipoteze ale cercetrii are ns

    aceast sarcin.

    nchei aici, repetnd: testele statistice pot da indicaii despre relaii dintre variabile dar numai

    teoria poate construi n termenii unor relaii cauzale i tot teoria trebuie s fie atent la

    posibilele determinri cauzale complexe, ce implic nu numai variabilele msurate explicit ci

    eventual i altele, poate uneori chiar nemsurabile.

    d. Foarte scurt istoric al statisticii.

    Probabil c au existat rapoarte statistice nc din vremurile imperiilor antice legate de

    impozite i preuri, fapt este c termenul actual de statistic provine din latina nou folosit n

    administraia german i italian a secolului al 18-lea, i mai exact din termenul statisticum

    collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, n Italia vremii,

    statista chiar nsemna om de stat, politician. Se pare c primul care a folosit cuvntul statistic

    a fost Gottfried Achenwall n 1749, i anume n limba german, sub forma de Statistik i cu

    sensul de analiz a datelor despre stat sau chiar de tiin despre stat. Achenwall (1719-

    1772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind att universitar la

    Marburg i Gttingen, ct i consilier de curte al principilor electori de Braunschweig-

    Lneburg.

    Termenul de statistic a fost preluat n alte limbi i, n fine generalizat, cu un sens apropiat

    celui pe care l dm astzi acestei metode, pe parcursul secolului al 19-lea.

    Practica de a culege i analiza date despre stat exista ns deja n Anglia i era acolo numit

    aritmetic politic. Termenul avea o vechime de cel puin un secol cnd Achenwall a inventat

    noul nume i pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cri

    ce i s-a publicat postum. William Petty nu a fost statistician n sensul metodelor pe care le

  • 17

    nelegem astzi ca fiind statistice. A fost ns statistician prin multe dintre temele ce l-au

    interesat. Petty a fost i politician, economist, inventator, antreprenor i multe altele i a

    folosit tot felul de tehnici ingenioase, chiar dac nu ntotdeuna corecte, pentru a estima, de

    exemplu, populaia Londrei.

    Pentru ca statistica s fie cea de acum a trebuit ns s se lege mai nti de teoria

    probabilitilor. Acest domeniu al matematicii, iniial legat mai mult de jocuri de noroc i

    divertismente matematice, i are originile tot n secolul al 17-lea, dei primele scrieri despre

    jocuri de noroc se gsesc ntr-o oper postum a lui Girolamo Cardano (1501-1576), Liber de

    ludo aleae. Cartea a fost ns publicat abia n 1663, n anii n care apreau i lucrrile unor

    Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Acetia din urm sunt creditai

    c au moit de fapt teoria probabilitilor prin corespondena pe care au purtat-o asupra

    celebrei probleme a Cavalerului de Mr. Problema era: cum trebuie s mpart doi juctori

    miza total a unui joc de noroc dac nu vor s joace pn la capt, dar vor ca aceast imprire

    s fie proporional cu ansa fiecruia de a ctiga jocul. Pe Pascal se pare c la convins n aa

    msur metoda probabilist gsit nct a folosit-o i pentru a argumenta existena lui

    Dumnezeu, cu un succes mai de grab incert.

    Destul de repede s-a observat c, dei un joc de noroc este determinat de situaii aleatoare,

    repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate i aceast

    repetare este de fapt baza a ceea ce acum numim observaie statistic. Ideea de observaie

    repetat apare deja n prima carte de teorie a probabilitilor publicat de Christiaan Huygens

    (1629-1695) n 1657. Ca tiin matematic urmtorii pai au fost fcui de doi celebri

    matematicieni Jakob Bernoulli (1654-1705) tot ntr-o lucrare postum, intitulat Ars

    Conjectandi i Abraham de Moivre (1667-1754) n Doctrines of Chance (publicat n

    Anglia). Aceast din urm carte pune i bazele statisticii n sensul modern al tiinei. n a doua

    ediie a crii (1738) apare pentru prima oar o form a distribuiei normale de probabilitate

    despre care vom vorbi pe larg i n cartea de fa, dar i un caz particular al teoremei limit

    central, o clas de teoreme foarte important pentru statistic, pe care va trebui s o tratm i

    noi mcar un pic pentru a nelege diferite fenomene legate de erorile statistice.

    i teoria erorilor de observaie se gsete deja n scrieri de la nceputul secolului al 18-lea, i

    anume n cteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil

  • 18

    statistica, cu sensul de observaie asupra statului de teoria probabilitilor a fost Pierre-Simon

    Laplace (1749-1827).

    Laplace a fost un om de tiin deosebit de prolific, ceea ce ne intereseaz ns acum este

    dezvoltarea de ctre el a unei aa-zise teorii analitice a probabilitilor. ntr-o lucrare din 1812

    Laplace descrie mai exact distribuia normal, i, pe lng multe altele, demonstreaz i o

    form a metodei celor mai mici ptrate, nc metoda noastr de preferin pentru calculul

    ecuaiilor de regresie, precum vom vedea n capitolul al aselea.

    Probabil cellalt mare creator al tiinei statisticii a fost Carl Friedrich Gauss (1777-1855).

    Considerat uneori cel mai mare matematician al tuturor timpurilor, dei mie personal nu mi

    este cunoscut nlimea lui fizic i nu cred c cea intelectual se poate cu adevrat msura,

    Gauss a contribuit la aproape toate domeniile matematicii. i el a contribuit la descrierea

    distribuiei normale, de aici i numele de curb a lui Gauss ce se d de obicei graficului

    distribuiei normale. Tot Gauss a clarificat i ipotezele metodei celor mai mici ptrate. n acest

    caz exist ns o anumite disput de primordialitate cu Adrien-Marie Legendre (1752-1833)

    care a publicat aceleai rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt

    naintea lui Gauss, acesta ns susinea c le tie de mult.

    Deja pe parcursul primei pri a secolului al 19-lea rezultatele tiinifice legate de metoda de

    cercetare statistic s-au nmulit considerabil. Multe metode au fost dezvoltate, principalele

    tehnici puse la punct. Dezvoltarea mare a domeniului a venit ns spre sfritul secolului al 19-

    lea i apoi n secolul al 20-lea o dat cu interesul crescut pentru studiul societii, apariia

    tiinelor economice moderne i a sociologiei. Atunci apar marile coli statistice crora le

    datorm arsenalul actual de metode. Pe de o parte este vorba despre coala englez. Principalii

    ei exponeni au fost: Karl Pearson (1857-1936) care a contribuit esenial la teoria corelaiei i

    a regresiei i a dezvoltat coeficientul de corelaie r dar i coeficientul Chi2, i Ronald Fischer

    (1890-1962) iniiator de fapt al ntregului domeniu al testelor non-parametrice, creator al

    distribuiei i testului F i a unei serii ntregi de rezultate eseniale pentru statistica de astzi,

    dar i Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiz

    factorial dar i coeficientul de corelaie (rho) pentru valori ordinale, numit i coeficient

    Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a

    dezvoltat metode de verificare a ipotezelor, distribuia Student i testul t, i alii.

  • 19

    Dac coala englez de statistic a fost la originea multora dintre metodele statisticii aplicate,

    la cellalt capt al continentului, n Rusia, au aprut lucrri eseniale pentru justificarea

    tiinific, matematic a calculului statistic. Principalele teoreme ce stau la baza statisticii au

    fost demonstrate de matematicienii rui Pafnuty Chebyshev (1821-1894) cu inegalitatea ce i

    poart numele i ca o consecin a acesteia, teorema slab a numerelor mari, Andrey Markov

    (1856-1922) creatorul lanurilor Markov i n general unul dintre creatorii teoriei proceselor

    stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o form general a teoremei

    limit central, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la

    demonstrarea teoremei tari a numerelor mari i autorul unui criteriu suficient ce i poart

    numele, i alii.

    Dezvoltarea statisticii a continuat pe parcursul secolului trecut i ca tiin. Mai impresionant

    poate ns, statistica a ptruns n contiina public o dat cu utilizarea ei pe scar larg n

    cercetrile sociale i cvasi-generalizarea sondajului de opinie ca metod de culegere de

    informaii despre societate, ca metod de msurare a societii. Primul sondaj de opinie a fost

    efectuat n Statele Unite de revista Literary Digest n 1916 pentru a prevede rezultatul

    alegerilor prezideniale. Fr vreo baz teoretic statistic, revista a cerut cititorilor s

    returneze redaciei o carte postal - chestionar. Pentru patru alegeri prezideniale la rnd,

    metoda a dat rezultate corecte.

    Un pas important spre fundamentarea tiinific a sondajului de opinie l-a fcut George H.

    Gallup (1901-1984) care n teza lui de doctorat din 1928 a dezvoltat metoda ce st la baza

    sondajului de opinie statistic. Primul mare succes al lui Gallup a fost n 1936 cnd a reuit s

    prevad corect victoria lui F.D. Roosevelt n alegerile prezideniale, spre deosebire de Digest

    care a greit folosind un eantion incomparabil mai mare. Celebru att pentru ncrederea mare

    pe care a produs-o de la nceput ct i pentru cteva eecuri memorabile, lui Gallup trebuie s-i

    recunoatem meritul de a fi creatorul instituiei sondajului de opinie statistic.

  • 20

    Capitolul 2. Tipuri de date

    Voi prezenta aici principalele tipuri de date, sau nivele de msurare, cum se mai numete

    aceast clasificare. Dei criticat pentru diverse motive aceasta mprire a datelor permite o

    nelegere simpl a felului cum se apropie statistica de fenomene.

    n 1946, psihologul american Stanley Smith Stevens a propus ntr-un articol mult citat, ludat

    i criticat apoi, o teorie a nivelelor de msurare care avea s fie apoi repetat n aproape toate

    manualele introductive de statistic (Stevens, 1946). Nu am vrut s m abat de la regul.

    Prima dat s vedem totui la ce bun i cum adic?

    Este absolut evident c msuratorile pe care se bazeaz statistica nu sunt toate la fel. Din

    exemplele mai mult ntmpltoare din capitolul capitolul precedent (greutatea i genul unui

    animal, opinia despre un politician) este evident c aparate diferite de msur dau rezultate

    care fac parte din categorii ct de poate de diferite de cunoatere. Dac greutatea se exprim n

    valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichet, nu nume dat

    unei categorii, iar opinia despre politician poate fi exprimat n mai lungi sau mai scurte

    propoziii, eventual chiar n grade de genul, mai bun mai puin bun dar nu n valori

    numerice concrete. Deci, Stevens a intuit ct se poate de corect, e necesar o clarificare i o

    categorisire a acestor nivele de msurare. Tehnic o astfel de categorisire ajut la a stabili ce

    metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate prea inutil, dar un

    exemplu sper s ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea

    sunt exprimate n note. Fie ntrebarea de chestionar chiar cere notarea, ca la coala, a

    activitii unui politician, sau a unui guvern sau minister n ntregul lui, fie rspunsurile snt

    transformate n note de ctre cercettor ntr-o activitate pe care o numim de regula codare a

    rspunsurilor. Rspunsurile la ntrebrile de opinie n final ajung s nu se disting de

    rezultatele, eventual rotunjite, ale cntririi unui cine. i totui diferenele acestea sunt

    eseniale i nu trebuie uitate1.

    Prezentarea nivelelor de msurare n crile introductive de statistic mai are un avantaj.

    Permite o exemplificare structurat a datelor cu care lucreaz statistica i o prezentare

    coerent a principalelor proprieti ce sunt necesare pentru a putea lucra cu ele.

    1 Confuzia dintre date de aceste tipuri e pe larg analizat n foarte reuita carte a lui Darrel Huff How to Lie

    with Statistics (1954) care a aprut ntre timp n peste 30 de ediii.

  • 21

    a. Date nominale

    Datele nominale, numite uneori i categoriale, sunt nume date unor proprieti ale obiectelor,

    indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantiti i nici nu au o

    ordine implicit. Din exemplele de pn acum, genul este o dat nominal. Indiferent ct de

    complex cultural, biologic, comportamental i aa mai departe ar fi categorisirea pe genuri,

    dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alii chemai s scrie, ca

    tip de dat genul nu e altceva dect un cuvnt desemnnd o categorie. Nu putem face nici

    socoteli aritmetice cu genuri, nici comparaii. Masculin nu e mai mare dect feminim, i nici

    sume sau medii nu putem face. Chiar daca am codifica la o adic genurile, la modul feminin =

    2 i masculin = 1, ca la codurile numerice personale din Romania, o declaraie de forma:

    genul mediu ar participanilor la sondaj a fost 1,56 este ilar.

    Totui i datele nominale trebuie sa se supun unor reguli, e drept puine i simple, pentru a

    putea fi folosite ca date statistice. Acestea sunt:

    Excluderea mutual: Categoriile unei date nominale trebuie s se exclud reciproc.

    Un cine msurat de noi nu poate fi n acelai timp i mascul i femel, un cetean

    interogat ntr-un sondaj de opinie nu poate fi n acelai timp i cstorit i

    necstorit.

    Completitudinea: Orice individ msurat n cadrul cercetrii trebuie s gseasc o

    categorie ce i se potrivete n lista de valori posibile. Eventual se include varianta

    altceva, altfel dar lista de valori trebuie s poate acomoda orice situaie.

    Condiiile de mai sus nu sunt ntotdeuna uor de pus n practic. Dei cred c par a fi de bun

    sim, sunt situaii n care ntrebrile i listele de rspunsuri trebuie formulate cu grij pentru a

    nu ntmpina probleme n analiza ulterioar a datelor. De multe ori cercettorii chiar prefer s

    pun ntrebrile astfel nct s par ct mai naturale celor ce trebuie s rspund la ele i s

    codifice apoi ei nii datele n aa fel nct s corespund cerinelor prelucrrii statistice.

    Exemple tipice de date nominale sunt genul, starea civil, naionalitatea, apartenena

    religioas. Toate acestea au n comun faptul c pe lng caracterul lor nenumeric nu au nici o

  • 22

    ordine acceptat a valorilor. Asta chiar dac unii pot fi de prere c romnii sunt mai

    superiori dect bulgarii!

    Cu toate c datele nominale pot prea srace din punctul de vedere al posibilitilor

    calculatorii ele sunt importante n multe fenomene sociale, economice, etc. i au fost

    dezvoltate multe metode statistice care s permit analiza lor sau, mai adesea, s permit

    analiza altor date n relaia lor cu categorii nominale. Voi discuta pe larg astfel de metode n

    special n capitolul al aptelea al crii.

    b. Date ordinale

    O a doua grup de date sunt cele care, dei nu sunt numerice, au o ordine bine definit a

    valorilor. Sensul de bine definit al unei ordini nu este nicidecum trivial. Matematicienii

    neleg printr-o ordine bine definit o ordine care poate fi recunoscut pentru orice dou

    valori i mai mult, este i tranzitiv.

    Pentru simplificare voi folosi expresia mai mare pentru a descrie ordinea. Atunci o ordine

    este bine definit dac ntre oricare dintre valorile de rspuns este clar care este mai mare.

    Tranzitivitatea nseamn c daca o valoare este mai mare dect alta, iar aceasta mai mare

    dect o a treia, prima valoare va fi n consecin mai mare dect cea de a treia.

    n plus fa de condiia de ordine, datele ordinale trebuie s se supun i condiiilor pe care le-

    am specificat n cazul datelor nominale, s permit deci numai valori mutual exclusive i lista

    acestor valori s fie complet.

    Diferena esenial dintre datele ordinale i valorile numerice este aceea c nu are sens

    calculul distanei dintre dou valori, respectiv distanele dintre valori consecutive nu se pot

    presupune a fi egale. Un exemplu va face mai clar aceast distincie. O ntrebare tipic

    pentru un rspuns ordinal este cea legat de ncrederea ntr-un politician. S presupunem c

    rspunsurile posibile sunt: foarte puin, puin, nici puin, nici mult, mult, foarte

    mult. Se vede imediat c lista de valori este ordonat bine, ntre orice dou valori ordinea e

    evident i tot evident este i proprietatea de tranzitivitate. Tot att de clar este c fiecare

    intervievat va trebui sa decid de fapt care e opinia lui, foarte probabil fiind c pn n

    momentul interogrii el s nu-i fi pus problema ncrederii n termenii ntrebrii. Aceast

  • 23

    nevoie de a decide difereniaz pe cei chestionai de cei ce nu sunt chestionai i pune

    probleme n generalizarea rezultatelor la nivelul populaiei adic i asupra celor ce nu au fost

    de fapt chestionai i nu au trebuit s se decid n contact cu ntrebarea pus n forma dat. Un

    mod de a contientiza aceasta este de a nu conferi valorilor de rspuns un sens absolut

    matematic, ci de a le considera interpretri personale ale celor ce au rspuns. Asta nseamn

    c pentru doi intervievai diferii sensul unei valori de rspuns poate fi oarecum diferit, de

    exemplu, pragul de la foarte puin la puin ncredere s fie diferit, distana dintre dou

    categorii s fie diferit. Intervievatul care alege un rspuns nu face altceva dect s i

    poziioneze opinia ntr-o ordine i numai caracterul de ordine al valorilor de rspuns poate fi

    presupus n analiz. n ansamblu nu se poate deci presupune c exist distane ntre valori

    ntr-un sens matematic. Dei se face des, traducerea valorilor de rspuns n cifre, de exemplu

    de la 1 la 5 n cazul nostru, este riscant i duce la greeli importante. Calculul unor medii

    aritmetice a rspunsurilor este una din greelile cele mai uzuale pe care le fac cercettorii n

    tiine sociale, de multe ori chiar contieni de abuzul implicat. Scuza uzual pentru aceast

    greeal este aceea c nsumnd opinii ale unui numr mare de persoane, distanele dintre

    variantele de rspuns, ntr-adevr diferite de la o persoan la alta, se nsumeaz i dau o medie

    statistic egal. Din pcate ns nu este aa. Exist devieri sistematice de la aceast distan

    presupus egal ntre variantele de rspuns. i anume, valorile extreme, de tipul foarte puin

    ncredere sau foarte mult ncredere snt adesea mai ndeprtate de valorile proxime

    puin ncredere, respectiv mult ncredere dect snt acestea de valoarea median, neutr.

    Mai grav nc, n cazul n care o anumit ntrebare este receptat ca fiind legat de o presiune

    social, distanele din scal se defazeaz n sensul acestei presiuni.

    Ca i n exemplul anterior, majoritatea ntrebrilor care produc rspunsuri ordinale se bazeaz

    pe aa zise scalograme, adic liste standardizate de rspunsuri. Cele mai obiuite, mai des

    folosite, sunt scalele Likert, dezvoltate deja n 1932. Scala Likert este o scal a nivelului de

    acord cu o propoziie. Un exemplu simplu ar fi urmtorul:

    Suntei de acord cu faptul c Traian Bsescu este un politician dedicat binelui rii noastre?

    a. Nu sunt deloc de acord

    c. Nu sunt de acord

    d. Nici de acord, nici nu

    e. Sunt de acord

    f. Sunt absolut de acord.

  • 24

    Formulrile pot diferi, de regul ns este vorba despre o scal ordinal cu un numr impar de

    valori. Cel mai adesea sunt 5 valori, unii cercettori din domeniul psihologiei n special,

    prefer totui scale cu 7 valori. Valoarea median, adic cea din mijlocul scalei este

    ntotdeuna o valoare neutr. Acordul sau dezacordul sunt exprimate verbal n forme ct mai

    clare i simple de grade diferite de radicalitate. Uneori se alege contient eliminarea valorii

    mediane. n acest caz se vorbete de o scal Likert cu opiune forat. Intervievaii sunt atunci

    obligai s adopte o poziie chiar daca ar prefera neutralitatea.

    Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniial

    de sociologul i psihologul Louis Guttman ntr-un articol din 1944. Guttman pune cteva

    condiii simple pentru ceea ce este o scal Guttman perfect, i anume:

    O scal Guttman este o list ordonat de propoziii cu care intervievatul poate fi de

    acord sau nu.

    S presupunem c avem 10 astfel de ntrebri. Dac intervievatul este de acord cu

    propoziia 7, dar nu i cu propoziia 8, logica scalei presupune c el este de acord cu

    toate propoziiile 1-7 i nu cu propoziiile 8-10. n aceste condiii scorul lui va fi 7.

    Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variant mai

    permisiv i mai apropiat de realitate este modelul lui Rasch care presupune o scal de tip

    Guttman probabilist, adic n care relaiile dintre rspunsuri au un caracter probabilist.

    Un exemplu celebru de scal de tip Guttman este des folosit n analiza relaiilor dintre grupuri

    etnice, religioase, naionale, etc. Aceasta este scala Bogardus (dup sociologul american care

    a dezvoltat-o), numit i scal a distanei sociale, care se bazeaz pe o lista de ntrebri de

    urmtoarea form:

    Ai fi de acord ca un .......... (aici se completeaz categoria fa de care se estimeaz distana

    social, de exemplu maghiar, rrom, baptist, homosexual):

    S v devin rud prin alian (rspunsul da valoare 1).

    S v fie prieten apropiat (2)

    S locuiasc pe aceiai strada (3)

    S v fie coleg de servici (4)

  • 25

    S fie cetean al rii noastre (5)

    S fie doar turist n ara noastr (6)

    S fie expulzat din ara noastr (7)

    Valori ordinale se pot ns obine i n alte situaii. De fapt cazul cel mai cunoscut de valoare

    ordinal este cel al notelor i calificativelor date elevilor i studenilor. i este i cel mai

    cunoscut abuz de utilizare a unor valori ordinale. Dei probabil o mare parte a profesorilor ar

    fi de acord, cel puin eu a fi, c distana dintre un 4 i un 5 nu este aceiai cu distana dintre

    un 7 i un 8, sau dintre un 9 i un 10, medii aritmetice ale notelor se calculeaz n mod uzual

    i se mai i folosesc pentru a lua decizii importante pentru viaa celor notai. Problema

    utilizrii mediei aritmetice pentru date ordinale este ns o problem care a produs multe

    controverse. Dup prerea mea principalul motiv este prezena att de rspndit a datelor

    ordinale, probabil cele mai des ntlnite n cercetrile sociale, i frustrarea de a renuna la o

    form de prezentare att de simpl de calculat i neles cum este media aritmetic. Trebuie

    ns menionat c exist o serie ntreag de metode puternice care lucreaz cu date ordinale i

    nu fac presupuneri suplimentare despre distanele dintre valori.

    Alte exemple de date ordinale snt: nivelul de educaie (dac formularea rspunsurilor este

    bine ordonat), respectiv topurile de preferine (nu i cele de vnzri, la care se poate calcula o

    diferen ntre poziii clar exprimat n uniti vndute).

    c. Date intervalice

    Ultimele dou categorii ale clasificrii lui Stevens se refer la date numerice i diferenierea

    pe care a impus-o ntre datele intervalice i cele raionale este i una dintre cele mai

    controversate ale teoriei nivelelor de msurare. Cu toate acestea, s vedem despre ce e vorba.

    n definiia iniial, datele intervalice sunt date numerice care au punct zero convenional. Mai

    simplu spus, zero-ul intervalic nu nseamn o lips a caracteristicii ci este o valoare ca

    oricare alta. Un cine care are greutatea zero nu este un cine, cel puin dup prerea mea. Ca

    atare greutatea nu este o valoare intervalic. Dac ns cineva s-a nscut la ora zero, nu

    nseamn c nu s-a nscut de loc. Ora zero este convenional i nu nseamn absena

    indicaiei de timp. Deci datele calendaristice, sau de or sunt date intervalice. Ele evident sunt

    altfel dect celelalte date numerice de msurare.

  • 26

    Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete i

    bine ordonate. Chiar i caracterul convenional al notrii numerice este prezent. Diferena este

    ns distana calculabil ntre dou valori intervalice. ntre dou momente n timp se poate

    calcula o distan, fie ea n minute, secunde sau alte uniti de msur i o distan de o

    anumit mrime, de exemplu 5 minute, este aceiai indiferent pentru ce valori de timp a fost

    calculat. Pstrnd toate celelalte condiii egale, dac un ou fierbe n 5 minute la ora 14, el va

    ajunge la fel de tare dup 5 minute de fierbere i la ora 7. Atenie ns, chiar dac momentele

    ora 14 i ora 7 snt indicaii intervalice, nu astfel este i durata de 5 minute. Aceasta

    este o dat numeric raional, cum vom vedea c se numesc acestea. Adic, un ou care fierbe

    zero minute chiar nu fierbe de loc!

    Alte date intervalice sunt gradul de longitudine i latitudine geografic, fusul orar, temperatura

    precum i alte date convenionale.

    Deoarece datele intervalice au distane corect calculabile ntre ele, pot fi folosite n aproape

    orice calcule matematice. Problematic rmne utilizarea lor n mpriri i nmuliri, deorece

    ele nu au sensul de cantitate pe care il acordm de obicei datelor numerice. Astfel un cine de

    40kg cntrete ntr-adevr ct doi cini de cte 20kg. Pe de alt parte, ora 14 nu este ct dou

    ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halb de bere sunt 2 litri de

    bere, ns de patru ori deteptarea la ora 3 dimineaa nu face ct o trezire la ora 12.

    d. Date raionale

    Din prezentarea de pn acum nu am avut cum exclude referiri la datele raionale. Acestea

    sunt datele numerice, cantitative, obinuite. Ele apar des n cercetarea social sau economic,

    i cu att mai mult n ecologie sau medicin i sunt cele pentru care s-au dezvoltat cele mai

    multe dintre tehnicile i testele statistice. Absolut orice calcule matematice se pot face cu

    aceste valori.

    Greutatea cinilor, banii din portofel, valoarea produsului intern brut, numrul de locuitori ai

    unui ora sau de restane al unui student sunt toate valori raionale. Ele sunt rezultate ale unor

    msurtori cantitative, sau adesea al unor numrtori. Valoarea zero nu este o convenie, un

    student cu zero restane este chiar un student cu o vacan lung i relaxant.

  • 27

    De obicei caracterul discret sau continuu al valorilor unor date raionale nu se tematizeaz la

    nivelul statisticii aplicate introductive. Dei unele metode presupun date continue, cum este

    cazul metodelor de regresie, se face cel mai adesea abstracie de la aceast presupoziie.

    Exist rezultate matematice suficient de bine fundamentate care permit o atare abordare fr

    pericolul de a grei semnificativ. i apoi continuitatea datelor nu nseamn statistic mai mult

    dect c valoarea msurat poate fi orict i nu numai anumite valori, de exemplu numere

    ntregi. O asemenea condiie nu este de fel restrictiv.

  • 28

    Capitolul 3. Culegerea datelor statistice. Sondajul de opinie

    Datele statistice pot proveni din surse oficiale, cum sunt institutele naionale de statistic sau

    organizaiile internaionale, i atunci se refer de obicei la un ansamblu complet de obiecte,

    indivizi sau fenomene sau pot proveni din aa-zise sondaje statistice. n primul caz, dei

    culegerea datelor este de obicei laborioas, tiinific justificarea utilizrii lor nu pune

    probleme deosebite pentru statistician. Pe de alt parte, tehnica sondajului este una mult mai

    pretenioas i matematic mai complicat. Cu att mai mult cu ct unii care fac sondaje i

    majoritatea celor ce le citesc uit de principalele probleme implicate n validitatea lor.

    1. Statistici de recensmnt si statistici de sondaj. Generalizarea statistic i limitele ei.

    Cum am mai scris i mai sus, metoda specific de culegere a datelor n statistic este sondajul.

    Acesta se bazeaz pe o serie de teoreme matematice care permit, n condiii foarte bine

    specificate, care n realitate nu snt niciodat perfect ndeplinite, generalizarea rezultatelor de

    la nivelul eantionului, adic a mulimii celor chestionai la nivelul populaiei, adic a

    mulimii care reprezint inta cercetrii.

    Prima definiie necesar pentru a continua este cea a populaiei. n orice cercetare statistic

    populaia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetrii,

    asupra crora se refer ipotezele i teoriile ei. Dac de exemplu, vrem s facem o cercetare

    legat de consumul de ap mineral n Romnia, populaia studiului va fi ntreaga populaie a

    rii, de vrea 21 de milioane, ct e ea. Dac ns cercetarea are caracter politic, probabil a

    dori s restrng populaia la persoanele cu drept de vot, electoratul romn, adic numai vreo

    17,5 milioane. De la caz la caz, populaia unei cercetri poate fi mulimea locuitorilor unui

    ora, mulimea juctorilor de fotbal sau a studenilor unei faculti, dar exist i cercetri cu

    alte nivele de agregare la care populaia poate fi mulimea intreprinderilor mici i mijlocii

    dintr-o regiune, mulimea judeelor Romaniei sau chiar a rilor europene. Stabilirea

    populaiei cercetate este un prim pas n orice studiu statistic. Este de fapt rspunsul la

    ntrebarea: despre cine am dori s putem spune ceva? i de aici decurge alegerea celor care

    vor fi msurai (adic vor rspunde la ntrebri) dar i felul cum se fac msuratorile (adic se

    pun ntrebrile) i interpretarea rezultatelor. Alegerea populaiei este o decizie ce ine de

    substratul teoretic al studiului dar n acelai timp determin teoriile ce vor fi folosite n

    continuare pe parcursul proiectrii cercetrii.

  • 29

    Nu toate cercetrile statistice sunt bazate pe date culese prin sondaj. O mare parte dintre

    metodele folosite att pentru descrierea datelor ct i pentru testarea unor teorii se aplic, cu la

    fel de mult succes, i pe alte tipuri de date. Este vorba despre ceea ce numim date de

    recensmnt. Suntem obinuii cu acest termen ca desemnnd o chestionare periodic, dar

    totui rar, a ntregii populaii a rii pe teme legate mai mult de statutul social-economic.

    Conceptul are ns o definiie ceva mai larg. Un recensmnt este o cercetare care presupune

    intervievarea (sau mai general, msurarea) tuturor membrilor populaiei studiate. Deci tehnic

    un studiu care trateaz statele europene folosind date culese din toate aceste state este un

    recensmnt la fel cum tot recensmnt este un studiu care intervieveaz toi studenii unei

    anumite faculti att timp ct rezultatele nu se doresc a fi generalizate pentru alte grupuri de

    studeni. Dei n cazul recensmntului inducia statistic nu are rolul pe care i l-am pomenit

    n introducere, exist aa cum am mai spus i aici un anumit nivel de generalizare. Anume,

    prin faptul c folosim modele mai mult sau mai puin simple pentru indivizii studiai i

    ncercm totui s tragem concluzii despre comportamentul lor sau despre opiniile lor.

    Tot ce am putea tii, de exemplu, despre studenii facultii de tiine politice din Timioara

    sunt rspunsurile pe care acetia le dau la un chestionar. Am putea totui s ncercm s

    verificm dac pentru acetia se poate susine faptul c cei ce lucreaz n perioada studeniei

    sunt mai puin interesai de problemele legate de organizarea academic. Este posibil o astfel

    de cercetare? Desigur. Este sigur c se poate rspunde la ntrebare? Evident, nu. ntrebarea

    este o ipotez de lucru, s-ar putea s poat fi respins, s-ar putea ns s nu se poat face acest

    lucru. Indiferent ns de aceasta, rezultatele se vor referi numai la studenii chestionai i nu se

    vor putea generaliza, dup regulile statisticii cel puin, la ali studeni, din alte faculti sau

    alte orae.

    n unele cazuri, probabil pentru a evita confuzia curent cu recensmintele naionale

    menionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot nelegndu-se de

    fapt populaia care este n acelai timp i eantion al cercetrii.

    n general un eantion este mulimea aleas prin vreo metod oarecare, a celor ce vor fi

    chestionai (sau msurai) n cadrul unei cercetri. Dac de exemplu, la o fabric de ciorapi

    trebuie fcut un studiu statistic al egalitii lungimii ciorapului stng cu ciorapul drept,

    probabil c s-ar decide c este suficient msurarea unui eantion i nu al ntregii populaii

  • 30

    ciorpeti. S-ar putea alege, i ar fi chiar cea mai bun metod, de pe banda de producie tot a

    o mia pereche de ciorapi pn cnd se ajunge la un numr dorit, de exemplu tot o mie de

    perechi. Perechile de ciorapi msurai vor forma eantionul, producia ce are loc n perioada n

    care se aleg perechile de ciorapi e populaia cercetat. Exist multe metode de a alege un

    eantion, unele mai bune, altele mai puin, unele mai simple, altele mai puin. Vom reveni la

    acestea n partea a dou a acestui capitol.

    Pentru moment s ncerc s explic de ce putem face asta. De ce e suficient s msurm o mie

    de ciorapi ca s spunem ceva despre cteva sute de mii, sau de ce un institut de sondare a

    opiniei publice e suficient s ntrebe nu mult mai mult de o mie de oameni pentru a prevedea

    suficient de bine rezultatul unor alegeri prezideniale? Explicaia st n cteva teoreme

    matematice. Ele snt n general cunoscute ca fiind legile numerelor mari, teorema

    fundamental a statisticii i teorema limit central. Nu cred c a fi de prea mare folos

    cititorilor acestei cri dac le-a enuna matematic corect. Voi ncerca deci numai s le

    povestesc.

    Legile numerelor mari snt o serie ntreg de teoreme, probabil prima fiind enunat de

    Bernoulli n 1713. Toate aceste teoreme spun lucruri asemntoare. Ele de fapt vorbesc despre

    repetarea unor experimente, de exemplu aruncarea unui zar. Esenial este ca repetarea aceast

    s se fac n aa fel nct fiecare aruncare de zar (sau ce experiment ar fi) s fie independent

    de celelalte. Dac e aa i notm rezultatele, pe msur ce numrul de experimente crete felul

    cum se distribuie rezultatele observate se apropie din ce n ce mai mult de felul cum sunt

    distribuie toate rezultatele posibile. n cazul unui zar bine echilibrat, pe msur ce repetm

    aruncarea cu zarul ne apropiem din ce n ce mai mult de o distribuie n care fiecare faet

    apare de un numr egal de ori. Traducerea n statistic e simpl. Fie o informaie oarecare de

    interes pentru cercetarea noastr, o dat statistic cum i-am spus pn acum, sau o variabil

    cum i se mai spune. Ea este cumva distribuit n populaie (de exemplu genul e distribuit cam

    jumtate jumtate, perechile de ciorapi inegali sunt cam 5% din producie, etc.). Ei bine

    legile numerelor mari ne asigur de faptul c dac alegem s chestionm (msurm) un numr

    de indivizi (perechi de ciorapi) atunci att timp ct alegerea unui individ este independent de

    celelalte alegeri, pe msur ce numrul celor alei crete, distribuia rezultatelor de msurare

    se aproprie de distribuia valorilor n ntreaga populaie. Simplu spus asta nseamn c un

    eantion mai mare e mai bun dect unul mai mic. Dar mai spune dou lucruri eseniale. O

    dat, faptul c adugnd la eantion n mod corect nu ne ndeprtm de la distribuia pe care

  • 31

    dorim s o aflm ci ne tot apropiem de ea i n al doilea rnd, mai important, ne spune cum

    trebuie s alegem eantionul. Anume astfel nct fiecare alegere s fie independent. Din

    pcate, aa cum vom vedea asta nu este chiar aa uor n statistic ca la aruncarea cu zaruri.

    O form a legii numerelor mari, cunoscut i ca teorema Glivenko-Cantelli a fost adesea

    numit teorema fundamental a statisticii. Ea ne asigur inc mai bine de apropierea aceasta a

    distribuiei valorilor observate de cele existente n populaie, apropiere ce n matematic se

    numete convergen. Teorema Glivenko-Cantelli ne spune c aceast convergen este

    uniform pe msur ce crete volumul eantionului. Bun, deci, din cele de pn acum tim c

    msurnd un eantion din ce n ce mai mare ne apropiem din ce n ce mai mult i uniform de

    felul cum variabilele ce ne intereseaz sunt distribuite n populaie, atta timp ct fiecare

    element din eantion l-am ales independent de celelalte (vom spune n general c eantionul e

    ales aleator, la nimereal). Pare de bun sim, cred. ntrebarea mare ce se pune acum este, ct

    de mare trebuie s fie eantionul astfel nct apropierea s fie suficient de bun? Altfel,

    desigur, dac pentru o populaie de 21 de milioane, distribuia din eantion se apropie de

    distribuia din populaie pe msur ce se adun milioanele de chestionare nu am rezolvat prea

    mare lucru.

    Aici intervine teorema limit central. i ea face parte dintr-un grup de teoreme numit n

    general teoreme limit central. Pentru a deosebi teorema cea mai important dintre acestea, o

    teorema enunat i demonstrat de Lyapunov la nceputul secolului 20, ea se scrie adesea cu

    litere mari (Teorema Limit Central!). Ea ne spune c n anumite condiii, importante pentru

    matematicieni, o sum de variabile aleatoare necunoscute, dar independente tinde la o

    distribuie normal cnd numrul acestor variabile tinde la infinit. Condiiile pomenite nu sunt

    de fapt foarte restrictive, ele spun c variabilele nsumate trebuie chiar s fie oricum, la

    nimereala i faptul c trebuie s aib aceiai medie i dispersie. Aceasta, a doua condiie nu

    este de fapt chiar att de restrictiv, dei poate prea. De fapt ea nu este restrictiv pentru c

    orice variabil aleatoare poate fi mpins spre stnga sau dreapta graficului ei prin simpla

    adunare sau scdere a unei valori numerice. Nu se schimb cu nimic caracteristicile variabilei,

    pur i simplu graficul se mpinge ncoace sau ncolo. Deci orice variabil poate fi adus la

    aceiai valoare medie fr a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu

    mult, aa c nu o mai comentm aici. Bun, deci, le insumm i iese ceva numit distribuie

    normal, o distribuie despre care vom mai vorbi. Precum vedem ea este foarte important n

    statistic. Nu e foarte simpl matematic, dar pentru majoritatea utilizatorilor de statistic e

  • 32

    suficient s cunoasc cteva din principalele ei proprietti. i pe moment cel mai important

    este c e cunoscut. E foarte important. S relum de fapt ideea. Avem un numr de tot felul

    de variabile despre care nu tim mai nimic i dac le adunm toate iese ceva cunoscut. Asta e

    foarte confortabil pentru c la urma urmei n orice cercetare ce presupune studierea

    comportamentului unor oameni putem s fim destul de siguri c sunt o gramad de variabile

    pe care nu le-am putut msura i nc i mai multe la care nu ne-am putut nici mcar gndi. Ei

    bine, astea toate nsumate n efectele lor produc ceva cunoscut. Deci, grija mare c sunt attea

    i attea care nu pot fi luate n seam nu e chiar aa de justificat.

    Aceast grmad de variabile sunt de fapt eroarea care trebuie luat n seam cnd ncercm s

    estimm o valoare. Prin faptul c se poate estima corect forma sumei variabilelor care nu le

    lum n seam n mod explicit se obine i formula care permite estimarea erorii. Cum am

    vzut din teoremele numerelor mari aceast eroare este legat de volumul eantionului. Deci

    aici putem estima volumul unei eantion pentru a obine cu probabilitate mare o anumit

    precizie a cercetrii statistice.

  • 33

    2. Cum facem un sondaj de opinie simplu i corect?

    1. Eantionarea aleatoare

    Din considerentele (aproape) matematice din seciunea precedent putem s extragem o

    concluzie esenial pentru tehnica sondajului de opinie. Anume, garania matematic pentru

    posibilitatea unei estimri statistice corecte este ca alegerea eantionului studiat s fie pur

    aleatoare, adic s nu depind chiar de nimic.

    Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei.

    Premisele sunt urmtoarele. Avem o urn din care se pot extrage bile i n care se gsesc un

    numr de bile de diverse categorii. De exemplu, bile albe i negre. Extragem din urn cte o

    bil, notm culoarea ei i o introducem la loc. Legea numerelor mari ne asigur c repetnd

    operaia asta de multe ori vom obine o bun estimare a distribuiei bilelor n urn. Modelul

    acesta se numete schema bilei rentoarse i introducerea bilei la loc n urn este esenial

    pentru c astfel ansa de a alege o bil de o anumit culoare rmne cea de la nceput pentru

    fiecare extragere. Dac ne-am imagina o urn cu un numr foarte mare de bile din care

    extragem un numr relativ mic, am putea presupune c distribuia rmne aproape

    neschimbat chiar dac bila nu se introduce la loc, adic dac aceiai bil nu mai poate fi

    extras de mai multe ori. Aceasta este situaia unui sondaj real.

    Ideal ar fi deci s avem un recipient mare de tot n care stau cumini toi membrii populaiei

    pe care dorim s o studiem i s extragem de acolo rnd pe rnd cte unul, s-l interogm i s-

    l punem la loc. Aceasta este ns posibil numai parial. S vedem ce corecturi sunt necesare

    pentru a putea s ne apropiem ct mai mult de acest modelul teoretic.

    n primul rnd, n oala noastr nu va sta chiar toat populaia pe care vrem s o cercetm. (i

    spun oal, pentru c urn mi se pare prea morbid, i recipient prea pretenios.) Exist dou

    feluri de aborda problema asta. Pe de o parte, e normal s ncercm s lum o oal ct mai

    cuprinztoare, pe de alt parte e la fel de normal s redefinim populaia n funcie de oala

    aleas. Hai s dau cteva exemple.

    S zicem c dorim s aflm ceva despre populaia oraului Timioara. S alegem recipientul

    din care extragem subiecii cercetrii. De exemplu, Piaa Operei. Punem operatori de sondaj

  • 34

    n pia i i nvm s abordeze ceteni n mod aleator. Indiferent cte ore ar sta operatorii

    notrii n pia i indiferent n ce zile ar sta acolo, recipientul acesta nu va conine toat

    populaia Timiorii n nici un caz. Mai mult, cei ce trec prin pia vor fi probabil persoane

    care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, s fie n

    special persoane care nu sunt angajate n munc: studeni, elevi, pensionari, amatori de fotbal,

    actori i statisticieni. Pur i simplu, faptul de a trece n Timioara prin Piaa Operei e deja un

    anumit mod de comportament i ar putea influena i alte comportamente i opiuni ale celor

    alei s rspund la chestionar. Un astfel de eantion nu va fi reprezentativ pentru ntreaga

    populaie a oraului. Oala e pur i simplu prea mic. Pe de alt parte, nu tiu dac clientul

    cuiva ar fi mulumit cu aseriuni de genul: o treime din cei ce trec prin Piaa Operei ziua n

    amiaza mare ar cumpra detergentul ....

    Bun, e preferabil deci s alegem alt oal. O opiune care se ofer este cartea de telefon. Fie

    deci, cartea de telefon, oala din care se aleg la nimereal numere de telefon. Intervievarea prin

    telefon are i avantajul de a fi rapid i confortabil. Este ns oala asta destul de mare?

    Depinde. Practic punnd astfel problema redefinim populaia de la populaia oraului

    Timioara la populaia oraului Timioara abonat la Romtelecom. Aceast populaie

    poate fi o mai bun sau mai proast aproximare a populaiei iniiale dar nu va fi n nici un caz

    o aproximare statistic pentru c apartenena la cea de a doua populaie nu este una aleatoare

    fa de prima populaie. Mai simplu, populaia celor care au telefon n Timioara nu a fost

    aleas n mod ntmpltor din toat populaia oraului, persoanele cu pricina au avut de fcut

    pai administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit

    minim, poate chiar un efort logistic. Deci putem linistit presupune c cei ce au telefon sunt

    altfel dect cei ce nu au. Deci, cele dou populaii nu sunt interanjabile. Posesorii de telefon

    vor avea probabil n medie un venit mai mare, vor fi localizai n anumite cartiere, etc. Totui,

    clientul nostru s-ar putea s fie mulumit de rezultate obinute pe populaia restrns att timp

    ct volumul ei este suficient de apropiat de volumul populaiei iniial considerate. La nceputul

    anilor 1990 a fi fost clar mpotriva intervievrii telefonice. Pe vremea respectiv foarte multe

    familii nu aveau telefon dei ar fi dorit s aib, iar cei ce aveau telefon aveau n mod clar

    caracteristici particulare, de obicei de natur profesional. Dei aceasta poate s fie teoretic

    adevrat n continuare, deoarece numrul de abonamente telefonice n mediul urban se

    apropie foarte mult de numrul total de gospodrii, redefinirea populaiei nu este una care s

    deranjeze prea mult. Discrepana dintre mediul urban i cel rural rmne ns att de mare nct

  • 35

    un sondaj pe o populaie ce include i mediul rural, ca de exemplu, populaia unui jude, nu se

    poate n nici un caz efectua telefonic.

    O alternativ similar cu cartea de telefon dar, cel puin teoretic mai bun este folosirea

    listelor de alegtori. Din pcate, aa cum s-a vzut la alegeri, migraia populaiei intern i

    internaional a fcut ca listele electorale s fie destul de greu practicabile, adresele de pe liste

    nepotrivindu-se adesea situaiei din realitate. Apoi, obinerea listelor electorale pentru o

    cercetare oarecare nu este ceva chiar aa de uor. Important de notat c listele cu toat

    populaia, cum sunt listele electorale sau crile de telefon, se numesc cadre de eantionare

    i au marele avantaj de a uura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintr-

    un cadru de eantionare este posibil.

    S revenim ns la alegerea recipientului. Daca nici cadre de eantionare bune nu sunt ce se

    poate face? Se poate, de fapt, defini oala astfel nct s cuprind chiar pe toat lumea?

    Probabil nu. Aproximaia cea mai bun este de a considera oraul, judeul sau ara n

    distribuia ei teritorial ca fiind chiar oala i a alegere de aici pe baza adreselor gospodriilor.

    Alegerea unei adrese va fi de fapt o metaforic extragere din urn. Evident, nici aa nu avem

    chiar urna teoretic n care se afl toate bilele. Lipsesc cei ce nu se afl la domiciliul stabil sau

    nu au un domiciliu stabil, fie ei nomazi prin modul lor de via, plecai n concedii sau la

    munc n strintate. Aa cum tim, n cazul Romaniei de astzi numrul acestora este

    important i redefinirea populaiei este esenial n acest caz, dar de obicei ea este ntru totul

    acceptabil. Oala geografic va nsemna parcurgerea oraului pe baza unui itinerariu.

    Operatorul va parcurge strzile - locuinele i va alege - extrage dintre ele. Bineneles, din

    motive practice va trebui ales un punct de unde pornete operatorul n itinerariul lui. Pentru c

    se lucreaz cu mai muli operatori i pentru c exist prejudecata cum c o distribuie

    geografic uniform ar nbunti relevana sondajului, se aleg de obicei puncte de pornire pe

    cartiere. Ideal ar fi ca aceste puncte s fie alese chiar aleator, de exemplu aruncnd cu un dart

    pe un plan al oraului. Pe de alt parte, distribuia uniform a punctelor de pornire, dei nu

    este justificat matematic elimina riscul ca doi operatori s ajung la aceiai familie!

    Am vzut problemele legate de metaforica noastr urn, s vedem cum arat alegerea din

    urn, extragerea aleatoare. n forma teoretic atunci cnd experimentatorul bag mna n urn

    el nu simte nici o diferen ntre bile. Toate sunt la fel, alegerea nu are loc pe baza unei

    caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde dect cele

  • 36

    albe. Regula esenial a alegerii aleatoare, se poate exprima astfel: fiecare membru al

    populaiei trebuie s aib aceiai ans s fie ales n eantion. Pare simplu, nu e. Numai

    dac avem un cadru de eantionare aceasta se poate face (aproape) perfect. Atunci un

    generator de numere aleatoare pe calculator ne poate alege un eantion ct de mare vrem.

    Aceasta ar fi o eantionare aleatoare perfect. Mai exist o variant la fel de bun, dar mai

    puin laborioas. Dat fiind construcia listelor, fie electorale, fie telefonice, care se face

    alfabetic, poziia unei persoane n list nu e legat de anumite caracteristici. De aceea se poate

    folosi o metod mai simpl, aa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim

    nume. Apoi se aplic un pas de eantionare. Acesta se calculeaz ca raport dintre volumul

    populaiei i volumul eantionului. De exemplu, n Timioara sunt aproximativ 140.000 de

    abonamente telefonice. Daca dorim un eantion de 1000 de persoane, pasul de eantionare va

    fi de 140. Punem n eantion, de exemplu, primul numr telefonic din carte, apoi numrul al

    141-lea, apoi al 281-lea, i aa mai departe. ansa unui numr de a fi ales depinde de alegerea

    primului numr, aceste se alege din valori ntre 1 i 140. Oricum toate numerele de telefon au

    aceiai ans de a fi alese independent cui aparin, i n mod evident, ceea ce e cel mai

    important, nu conteaz nici un fel de caracteristici social-economice, etnice sau

    comportamentale ale celor alei.

    S ne gndim la varianta pe care am considerat-o cea mai bun pentru alegerea urnei, anume

    parcurgerea geografic a localitii. n acest caz avantajul de a lucra cu situaia real a

    adreselor este i motivul principalului dezavantaj. Anume, nu exist un cadru de eantionare

    ceea ce face alegerea simpl aleatoare sau pseudo-aleatoare imposibil. Cum alegem

    locuinele ca s dm tuturor aceiai ans, i o dat aleas o locuin cum dm tuturor

    locatarilor aceiai ans? Esenial este desigur ca alegerea s nu fie influenat de caliti ale

    locuirii i persoanelor. Adic, casele mai drgue s nu fie favorizate fa de cele mai

    nentreinute, persoanele mai primitoare fa de cele mai puin primitoare, eventual chiar

    unele etnii fa de altele! Metoda care se folosete este construirea unui itinerariu-algoritm. E

    ca i cum am face o alegere pseudo-aleatoare n care pasul de eantionar


Recommended