+ All Categories
Transcript

STATISTICA INFERENTIALA

STATISTICA INFERENTIALA

Statistica descriptiva se ocupa de analiza datelor sub aspectul caracteristicilor lor intrinseci (frecventa valorilor, indicatorii tendintei centrale, ai mprastierii sau formei distributiilor). Tinta finala a metodei stiintifice insa nu se limiteaza la descrierea datelor ci vizeaza evidentierea relatiilor dintre ele si, pe aceasta baza, predictia si ntelegerea fenomenelor psihice. Aceste proceduri fac parte din ceea ce se numeste statistica inferentiala

Scoruri standard (z)Cnd msurm o anumit caracteristic a unui individ (stabilitatea emotionala, anxietate, etc.) scopul implicit este acela de a efectua comparaii. Pentru aceasta ns, simpla expresie numeric a caracteristicii respective nu este suficient.

Modalitatea de a exprima semnificaia unei anumite valori dintr-o distribuie prin raportare la parametrii distribuiei (medie i abatere standard) este scorul normat z (numit i not z sau scor z). Aceasta msoar distana dintre o anumit valoare i media distribuiei, n abateri standard:

unde X reprezint oricare dintre valorile distribuiei

Scorul z se numete i scor standardizat. Aceasta inseamna c poate fi utilizat pentru a compara valori care provin din distribuii diferite, indiferent de unitatea de msur a fiecreia.

Exemplu: Dac un subiect obine un scor echivalent cu z=+0.5 la un test de memorie i un scor echivalent cu z=+0.4, la un test de inteligenta, se poate spune c are o performan mai bun la primul test dect la al doilea.

Proprietile scorurilor z

1. Media unei distribuii z este ntotdeauna egal cu 0. Aceasta rezult din proprietatea mediei de a se diminua corespunztor dac se extrage o constant din fiecare valoare a unei distribuii. Formula de calcul pentru z implic scderea unei constante din fiecare valoare a distribuiei. Aceasta nseamn c i media noii distribuii (z) se va reduce cu constanta respectiv. Dar aceast constant este nsi media distribuiei originale, ceea ce nseamn c distribuia z va avea media egal cu zero, ca rezultat al diminurii mediei cu ea nsi.

2. Abaterea standard a unei distribuii z este ntotdeauna 1. Acest fapt decurge prin efectul cumulat al proprietilor abaterii standard. Prima proprietate afirm c n cazul scderii unei constante (n cazul scorurilor z, media) din valorile unei distribuii, abaterea standard a acesteia nu se modific. A doua proprietate afirm c n cazul mpririi valorilor unei distribuii la o constant, noua abatere standard este rezultatul raportului dintre vechea abatere standard i constant. Dar constanta de care vorbim este, n cazul distribuiei z, chiar abaterea standard. Ca urmare, noua abatere standard este un raport dintre dou valori identice al crui rezultat, evident, este 1.

Alte tipuri de scoruri standardizate

Notele z prezint dou avantaje importante: permit compararea valorilor unei distribuii, i a valorilor provenind din distribuii diferite, ca urmare a faptului ca se exprim n abateri standard de la medie.

Notele z au, ns, i unele dezavantaje: se exprim prin numere mici, cu zecimale, (greu de manipulat intuitiv) i, n plus, pot lua valori negative. Aceste dezavantaje pot fi nlturate printr-un artificiu de calcul care s conduc la note standardizate convenabile (ce corespund anumitor nevoi specifice). Iata cteva tipuri de note standard calculate pe baza notelor z.

Deci:

Toate variantele sunt obinute prin transformarea operat pe distribuia de note z.

La nici una dintre variante nu mai avem valori negative

Zecimalele nu mai sunt semnificative

Notele standard mari indic o valori mari iar notele standard mici indic valori mici.

PROPRIETATILE CURBEI NORMALE

Asa cum am vazut rezultatelor msurrilor pot lua diverse forme, curba distribuiei putnd fi unimodal sau multimodal, aplatizat sau nalt, simetric sau asimetric. n statistic exist ns un tip special de distribuie, numit distribuie normal, care nu este rezultatul unui proces real de msurare ci reprezint un model teoretic. Conceptul de curb normal are cteva proprieti caracteristice:

are form de clopot- cea mai mare parte a valorilor se concentreaz n zona central

este perfect simetric pe ambele laturi ale sale

de fiecare parte a mediei se afl exact jumtate dintre valorile distribuiei

Curbe normale

Exemple de curbe normale, care respect condiiile de mai sus, chiar dac au medii i abateri standard diferite.

Curba normal standardizat (z)

Curba normal n care valorile sunt exprimate n scoruri z se numete curba normal standardizat. Ea are toate proprietile enunate mai sus, avnd ns i parametrii oricrei distribuii z: m=0 i s=1. Valoarea 0 pentru medie a fost aleas convenional pentru c astfel distribuia este simetric n jurul lui 0.

Curba normal standardizat are cteva caracteristici care sunt figurate n imaginea de mai sus i pe care este important s le reinem:

aproximativ 34% dintre scorurile distribuiei normale se afl ntre medie i o abatere standard deasupra mediei (z=+1)

intre 1z i +1z se afl aproximativ 68% dintre valorile distribuiei

aproximativ 96% dintre scoruri se afl ntre 2z i +2z

Curba normal are o importan aparte pentru analiza statistic. Aceasta, deoarece se accept faptul c variabilele statistice s-ar distribui mai ales sub aceasta form dac ar fi efectuate un numr mare (tinznd spre infinit) de msurri.

Curba normal si problema probabilitatii

Procentajul ariilor de sub curba normal poate fi citit i ca probabilitatea a distribuiei. Probabilitatea nseamn frecvena relativ a apariiei unui eveniment. Acesta se traduce prin ct de siguri putem fi c acel eveniment apare.

Rezult de aici c valorile din zona central a curbei sunt mai frecvente (mai multe), pentru ca apariia lor este mai probabil. n acelai timp, valorile mai puin probabile, apar mai rar, i se plaseaza in zonele extreme ale distribuiei (curbei).

Dac probabilitatea reprezint raportul dintre evenimentul favorabil i toate evenimentele posibile, atunci valoarea ei variaz ntre 0 i 1. Ea poate fi exprimat i n procente. De exemplu, probabilitatea de 0.05 corespunde unui procentaj de apariie de 5%

Utiliznd simbolul p (de la probabilitate), spunem c dac p0.05, one-tailed.

Atentie!

Orice valoare a lui p mai mare de 0.05 este considerat nesemnificativ, dac nu a fost fixat un alt prag, mai sever.

TESTUL T PENTRU EANTIOANE INDEPENDENTE

Unul dintre modelele de cercetare frecvente, ns, este acela care vizeaz punerea n eviden a diferenelor care exist ntre dou categorii de subieci. n situaii de acest gen psihologul compar mediile unei variabile msurat pe dou eantioane compuse din subieci care difer sub aspectul altor variabile (sexul, nivel de instruire, etc.). Variabila supus comparaiei este variabila dependent, deoarece presupunem c suport efectul variabilei sub care se disting cele dou eantioane i care, din acest motiv, este variabil independent. n situaii de acest gen, eantioanele supuse cercetrii se numesc independente, deoarece sunt constituite, fiecare, din subieci diferii.

Procedura statistic pentru testarea semnificaiei diferenei dintre mediile a dou eantioane

Problema pe care trebuie s o rezolvm este urmtoarea: Este diferena dintre cele dou eantioane suficient de mare pentru a o putea considera ca determinat de variabila independent, sau este doar una dintre diferenele probabile, generat de jocul hazardului la constituirea perechii de eantioane? Vom observa c sarcina noastr se reduce, de fapt, la ceea ce am realizat anterior n cazul testului z sau t pentru un singur eantion. Va trebui s vedem dac diferena dintre dou eantioane reale se distaneaz semnificativ de diferena la care ne putem atepta n cazul extragerii absolut aleatoare a unor perechi de eantioane, pentru care distribuia diferenelor este normal. Mai departe, dac probabilitatea de a obine din ntmplare un astfel de rezultat (diferen) este prea mic (maxim 5%) o putem neglija i accepta ipoteza c ntre cele dou variabile este o relaie semnificativ.

Dac avem valoarea diferenei dintre cele dou eantioane cercetate, ne mai sunt necesare doar media populaiei (de diferene ale mediilor) i abaterea standard a acesteia, pentru a calcula testul z (n cazul eantioanelor mari) sau cel t (n cazul eantioanelor mici). n final, nu ne rmne dect s citim valoarea tabelar pentru a vedea care este probabilitatea de a se obine un rezultat mai bun (o diferen mai mare ) pe o baz strict ntmpltoare.

Media populaiei de diferene. Diferena dintre mediile celor dou eantioane ale cercetrii face parte, aa cum am spus, dintr-o populaie compus din toate diferenele posibile de eantioane perechi. Media acestei populaii este 0 (zero). Atunci cnd extragem un eantion aleator dintr-o populaie, valoarea sa tinde sa se plaseze n zona centrala cea mai probabil). Dar aceeai tendin o va avea i media oricrui eantion extras din populaia pereche. Ca urmare, la calcularea diferenei dintre mediile a dou eantioane, cel mai probabile sunt diferenele mici, tinznd spre zero. Astfel, ele vor ocupa partea central a distribuiei, conturnd o medie tot mai aproape de zero cu ct numrul eantioanelor extrase va fi mai mare.

a. Testul t pentru dispersii diferite

Acesta se bazeaz pe considerarea separat a dispersiilor celor dou populaii (estimate prin dispersiile eantioanelor).

b. Testul t pentru dispersia cumulat

Dispersiile celor dou eantioane pot fi considerate mpreun pentru a forma o singur estimare a dispersiei populaiei ((2). Obinem astfel ceea ce se numete dispersia cumulat, pe care o vom nota cu.

EXEMPLU:

S presupunem c vrem s vedem dac recompensa (variabila independent) determin o cretere a duratei de concentrare a atentiei, constatata printr-un numr mai mare de minute in timpul orei in care copii ramin atenti la explicatiile invatatorului (variabil dependent). Pentru aceasta selectm un lot de 10 elevi care vor fi recompensati i un alt lot de 10 elevi care nu vor fi recompensati. Pentru fiecare lot vom msura durata medie de concentrare.

Formularea ipotezei cercetrii, a ipotezei de nul, i a criteriilor deciziei statistice

Pentru exemplul de mai sus:

Problema cercetrii: Are recompensa are efect asupra capacitatii de concentrare a atentiei?

Ipoteza cercetrii (H1): Acordarea recompensei determin o crestere a duratei de concentrare.

Ipoteza de nul (statistic) (H0): Durata de concentrare nu este mai mare nu este mai mare la lotul care a fost recompensat. Aceast variant este potrivit cu o testare unilateral a ipotezei (nu avem n vedere dect eventualitatea ca recompensa sa creasca s creasc durata de concentrare).

Dac, ns, am dori s testm n ambele direcii, bilateral, atunci am avea urmtoarele versiuni ale ipotezelor:

Ipoteza cercetrii: Durata de concentrare a atentiei este diferita la elevii care au fost recompensati fata de cei care n-au fost recompensati

Ipoteza de nul (statistic): Durata de concentrare nu difer semnificativ n funcie de acordarea recompensei.

Fixarea lui t critic. Alegem efectuarea unui test bilateral, pentru c nu putem ti dinainte dac recompensa nu are un efect negativ asupra capacitatii de concentrare. Alegem nivelul: (=0,05. Stabilim gradele de libertate: df=N1+N2-2=18

Utiliznd tabelul distribuiei t pentru 18 grade de libertate (adic 20-2) i (=0,05, bilateral, vom gasi un t critic. Pentru a respinge ipoteza de nul si a accepta ipoteza cercetrii, valoarea t calculat va trebui s fie cel puin egal sau mai mare dect t critic.

DECI:

a. se va compara t calculat cu t critic din tabelul distributiei t

b. se va lua decizia statistic: se respinge sau se accepta ipoteza de nul

c. concluzia cercetrii: se va admite sau respinge ipoteza cercetrii.

Prezentarea rezultatului

La prezentarea testului t pentru diferena dintre mediile a dou eantioane independente vor fi menionate: mediile fiecrui eantion, volumul eantioanelor sau gradele de libertate, valoarea testului, nivelul lui p.

n form narativ:

Lotul x a realizat o performan mai bun (m= ) fa de lotul y (m=), t(df)=, p0.01, pentru (=0.01 bilateral.

TESTAREA DIFERENEI DINTRE MAI MULT DE DOU MEDII-ANALIZA DE VARIN (ANOVA)

Exista situaii de cercetare n care avem de comparat trei sau mai multe medii. La prima vedere, am putea fi tentai s rezolvm problema prin compararea repetat a mediei grupelor, dou cte dou. Din pcate, exist cel puin trei argumente pentru care aceast opiune nu este de dorit a fi urmat:

Trebuie sa stim ca prin efectuarea repetat a testului t se acumuleaz o cantitate de eroare mai mare dect este permis pentru o decizie statistic (0.05). De exemplu, pentru efectuarea repetat a testului t pentru trei eantioane independente, s-ar cumula o cantitate total de eroare 0.15 adic 0.05+0.05+0.05.

Pentru a elimina aceste neajunsuri, se utilizeaz o procedur statistic numit analiza de varian (denumit pe scurt ANOVA). In esen, ANOVA nu este altceva dect o extensie testului t pentru situaiile n care se dorete compararea a mai mult de dou medii independente.

Exist mai multe tipuri de ANOVA, dou fiind mai frecvent folosite:

ANOVA unifactorial presupune:

variabil dependent msurat pe o scal de interval/raport.

variabil independent (nominal sau ordinal) care ia trei sau mai multe valori. Modelul de analiz de varian cu o singura variabil independent se numete ANOVA unifactorial, ANOVA simpl sau, cel mai frecvent, ANOVA cu o singur cale (One-way ANOVA).

ANOVA multifactorial presupune

variabil dependent (similara cazului ANOVA unifactorial)

dou sau mai multe variabile independente, fiecare cu dou sau mai multe valori msurate pe o scal nominal sau ordinal.

Ce inseamna ANOVA unifactorial

Specificul const n faptul c n locul diferenei directe dintre medii se utilizeaz dispersia lor, gradul de mprtiere. Procedura se bazeaz pe urmtorul demers logic: Ipoteza cercetrii sugereaz c fiecare grup are o medie caracteristic, diferit de a celorlalte. Prin opoziie, ipoteza de nul, ne oblig s presupunem c cele trei loturi pe care vrem s le comparm, provin dintr-o populaie unic de valori iar diferenele dintre mediile lor nu reprezint dect expresia variaiei fireti a distribuiei de eantionare.

Loturile pot avea medii diferite care s rezulte ca expresie a variaiei aleatoare de eantionare (m1(m2(m3) i, de asemenea, mprtieri (dispersii) diferite (s1(s2(s3).

S ne gndim la cele trei medii pe care vrem s le comparm ca la o distribuie de sine stttoare, de trei valori (sau mai multe). Cu ct ele sunt fi mai diferite una de alta, cu att distribuia lor are o mprtiere (varian) mai mare. Dac eantioanele ar aparine populaiei de nul, diferena mediilor (exprimat prin dispersia lor) ar fi mai mic dect n cazul n care acestea ar proveni din populaii distincte (corespunztor ipotezei cercetrii).

Se pune astfel urmtoarea problem: ct de diferite (mprtiate) trebuie s fie mediile celor trei eantioane, luate ca distribuie de sine stttoare de trei valori, pentru ca s putem concluziona c ele nu provin din aceeasi populatie ci din trei populaii diferite, corespunztoare eantioanelor de cercetare (1, 2, 3)?

Pentru aceasta trebuie sa aflam:

a) dispersia valorilor individuale la nivelul populaiei care se bazeaz pe toate valorile msurate, indiferent grup;

b) dispersia mediilor fiecarui grup (considrat ca lot separat);

c) raportul dintre aceste dou valori. Obinerea unei valori mai ridicate a acestui raport ar exprima apartenena fiecreia din cele trei medii la o populaie distinct n timp ce obinerea unei valori mai sczute ar sugera proveniena mediilor dintr-o populaie unic.

Care este modul de calcul pentru cei doi termeni ai raportului?

Calcularea exact a dispersiei populaiei este imposibil (deoarece nu avem acces la toate valorile acesteia), dar ea poate fi estimat prin calcularea mediei dispersiei grupurilor de cercetare. Valoarea astfel obinut se numete dispersia intragrup i reprezint estimarea mprtierii valorilor msurate la nivelul populaiei de nul.

La rndul ei, dispersia mediilor grupurilor de cercetare, calculat dup metoda cunoscut de calcul a dispersiei, formeaz ceea ce se numete dispersia intergrup. Valoarea astfel obinut evideniaz ct de diferite sunt mediile eantioanelor care fac obiectul comparaiei.

Raportul dintre dispersia intergrup i dispersia intragrup se numete raport Fisher i ne d valoarea testului ANOVA unifactorial. Cu ct acesta este mai mare, cu att mprtierea mediilor este mai mare i, implicit, diferen lor poate fi una semnificativ, ndeprtat ce o variaie pur ntmpltoare.

Dac distana (mprtierea) dintre mediile eantioanelor care provin din cele trei populaii depete un anumit nivel, atunci putem concluziona c nu avem o singur populaie (ipoteza de nul) ci mai multe, mediile grupurilor prezentnd o diferen semnificativ.

ASADAR

Esena procedurii de calcul pentru ANOVA se bazeaz pe o dubl estimare a dispersiei populaiei cercetrii.

Estimarea dispersiei populaiei pe baza mediei dispersiei grupurilor (variana intragrup)

Pentru ca nu cunoatem dispersia populaiei din care ar putea proveni grupurile, o estimm prin dispersiile celor trei grupuri (s12, s22, s32).

Calculnd media celor trei dispersii vom obine o valoare care estimeaz dispersia pentru cele trei grupuri luate mpreun. Aceast valoare se consider c estimeaz dispersia populaiei totale. Deoarece ea se calculeaz pe baza dispersiilor n interiorul grupurilor, este desemnat n mod uzual prin termenul de intragrup. Se noteaz cu s2intragrup iar formula de calcul va depinde de egalitatea sau inegalitatea volumelor grupurilor supuse cercatarii.

Estimarea dispersiei populaiei de nul pe baza dispersiei mediilor grupurilor( variana intergrup)

Mediile celor trei grupuri (loturi) sunt numere care pot fi analizate ca distribuie n sine, a cror dispersie (varian) poate fi calculat, fiind o estimare a mprtierii valorilor la nivelul populaiei. Din cauz c se bazeaz pe mediile grupurilor, aceasta se mai numete i varian intergrupuri.

Deci analiza de varian are la baza raportul dintre cele dou estimri s2intergrup/s2intragrup. Acesta va tinde de s devin cu att mai mare cu ct diferena dintre mediile grupurilor (tradus prin dispersia mediilor) devine mai mare dect dispersia din interiorul grupurilor (tradus prin media dispersiilor). Acest raport se numete raport Fisher, dup numele celui care a fundamentat acest tip de analiz i se scrie astfel:

Distribuia F

Valorile raportului F (sau testul F) se distribuie ntr-un mod particular, numit distribuia F sau distribuia Fisher, avnd urmtoarele caracteristici:

1. asimetrie pozitiv (tendina valorilor de grupare spre partea stng, cu valori mici);

2. poate lua o valori orict de mari;

3. forma distribuiei variaz n funcie de cele doua tipuri de grade de libertate: numrul grupelor (categoriile variabilei independente) i numrul subiecilor.

Prezentarea rezultatului testului F (ANOVA)

Pentru prezentarea ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor, valoarea testului F cu numrul gradelor de libertate i pragul de semnificaie al testului. Narativ un rezultat poate sa apara in urmatoarea forma:

Mediile pentru cele grupuri au fost: gr.1 - ?, gr.2 - ?, gr.3 - ?. Analiza de varian unifactorial a relevat o diferen semnificativ ntre aceste medii, F (df numarator, df numitor)=?; p(0.05.

Analiza post-hoc

Testul ANOVA ne ofer o imagine global a relaiei dintre categoriile variabilei independente i valorile variabilei dependente. Cercettorul poate fi, ns, interesat care dintre grupuri difer ntre ele i n ce sens.

Pentru a rezolva aceast problem, au fost dezvoltate diverse teste, denumite post-hoc, calculate dup aplicarea procedurii ANOVA. Testele post-hoc (ex.Bonferoni) se interpreteaz n mod similar testului t. Analiza post-hoc este permis numai dac a fost obinut un rezultat semnificativ pentru testul F. Asadar n practic, analiza de varian va cuprinde dou faze: prima, in care se decide asupra semnificaiei testului F, i a doua, n cazul c acest raport este semnificativ, n care se analizeaz comparativ diferenele dintre categoriile analizate, pe baza unui test post-hoc.

REGRESIA LINIAR

Una dintre utilizrile importante ale coeficientului de corelaie este realizarea de predicii. Dac tim corelaia dintre dou variabile, putem s prezicem valorile uneia dintre ele pe baza valorilor celeilalte. Este vorba despre o variabil predictor, si una variabil criteriu.

Asadar corelaia ar putea permite fundamentarea unei proceduri de predicie reciproc ntre variabilele respective. Dac tim, de exemplu, c dou variabile au o corelaie egala cu 1 (indiferent de semn) putem prezice orice valoare a unei variabile pe baza valorii celeilalte.

Formula de mai sus descrie modul de predicie n valori z pentru variabila Y, pornind de la valorile variabilei X, numit din acest motiv predictor. Pentru c valoarea lui Y din formula de mai sus este una prezis, se noteaz cu indicele prim.

S ne imaginm c am descoperit o corelaie perfect (r=+1) ntre scorul la un test de inteligen verbal (X) i cel la un test de inteligen abstract (Y). Conform formulei, pentru o valoare zx=1.5 vom prezice o valoare identic pentru Y, zy=1.5.

Din pcate corelaiile perfecte sunt rare sau de loc ntlnite n realitate. Ca urmare, predicia suport riscul unei erori. Pentru aceasta formula se modifica:

unde r este valoarea coeficientului de corelaie dintre cele dou variabile.

Conceptul de regresie a fost introdus de Francis Galton care, studiind relaia dintre nlimea copiilor i a prinilor a observat c prinii cu nlimi excesive tind s aib copii cu nlime mai mic dect a lor, adic mai aproape de medie dect a prinilor. Galton a denumit aceast tendin ca regresie ctre mediocritate. Dar pentru ca intra in calcul corelaia de tip liniar se vorbeste de regresie liniar ctre medie.

Reprezentarea grafic a regresieiImaginea alturat reprezint linia de regresie simpl n cazul unei corelaii perfecte pozitive (r=+1).

cercurile marcheaz intersecia fiecrei valori X cu valoarea corespondent a variabilei Y.

originea liniei de regresie se afl n punctul 0 iar nclinarea (panta) liniei de regresie este de 45o.

Se poate observa ca distana dintre fiecare punct de intersecie i linie este nul, fapt ce ne spune c linia de regresie estimeaz perfect, fr erori, modelul relaiei dintre cele dou variabile.

Atunci cnd corelaia este diferit de 1, linia regresie este trasat pe o traiectorie de aproximare prin norul de puncte, astfel nct distana dintre fiecare punct i linie sa fie ct mai mic posibil. n esen, pentru a putea trasa dreapta de regresie a dou variabile, ne sunt necesare punctul de origine al acesteia i nclinarea, sau panta. Odat aflate, putem trasa linia de regresie utiliznd formula clasic a liniei drepte: Y=a+b*X, unde: Y este valoarea prezis a fiecrui punct de pe dreapt

a este originea dreptei, punctul n care linia de regresie intersecteaz ordonata (axa Oy).

b este panta liniei de regresie

X este valoarea predictor a variabilei Y

Intuitiv, linia de regresie poate fi vzut ca o medie a norului de puncte, fiind trasat astfel nct distanele fa de punctele distribuiei celor dou variabile s fie similare de o parte i de alta a liniei.

Analiza reziduurilorLinia de regresie se obine, de fapt, prin cutarea unui traseu prin norul de puncte astfel nct distana nsumat dintre dreapt i punctele de deasupra s fie egal cu distana nsumat fa de punctele de sub linie.

in cazul unei corelaii perfecte toate punctele de intersecie ale valorilor celor dou variabile se afl exact pe dreapta de regresie.

in cazul corelaiilor imperfecte distanele dintre puncte i dreapta de regresie exprim, de fapt, eroarea de estimare a asocierii dintre variabile. Distana dintre poziia real a punctelor i cea estimat cu ajutorul liniei de regresie se numete valoare rezidual i exprim, desigur, o eroare de estimare..

Cu ct suma distanelor de la fiecare punct la linia de regresie este mai mare, cu att eroarea de estimare este mai pronunat. Cu ct vor fi mai apropiate punctele de intersecie de linia de regresie, cu att mai puin eroare vom avea n predicie i, implicit, o corelaie mai mare. Invers, cu ct punctele de intersecie vor fi mai ndeprtate de linia de regresie, cu att cu att valoarea rezidual va fi mai mare iar corelaia va fi mai mic. La limit, pentru o corelaie egal cu 0, linia de regresie va avea o traiectorie orizontal, nclinarea ei fiind 0.

Utilitatea analizei de regresieAnaliza de regresie se utilizeaz n situaiile n care suntem interesai s facem predicii asupra unei variabile, pe baza alteia obinuta msurri anterioare. De exemplu, dac am efectuat o analiz de regresie ntre coeficientul de inteligen i performana in munca pe un lot de subieci, putem ulterior s estimm nivelul performanei in munca a altor subieci prin evaluarea inteligenei lor. Aceasta este procedura tipic pe care se bazeaz prediciile psihologice n contextul examenelor de selecie.DIFERENTA INTRE FRECVENTE (TESTUL CHI - (2)

Foarte adesea, rezultatele unei cercetari se paote prezenta sub de frecventa. In aceste situatii nu mai sint operabile comparatiile bazate pe medii. Este cazul datelor categoriale. Pentru asemenea situatii s-a dezvoltat testul (2 , care este una dintre cele mai utilizate proceduri in stiintele sociale atit datorita specificului datelor cit si usurintei de calcul. Situatiile de aplicare a testului sint si ele diverse (comparare, asociere, concordanta).

De retinut ca aplicarea testului (2 cere ca datele sa fie sub forma de frecvente absolute, mai precis variabilele sa fie nominale sau ordinale.

Concret:

presupunem ca ne-ar interesa studiul privind frecventa consumului de droguri in rindul populatiei tinere. In acest scop s-a obtinut o serie de date consemnate in tabelul:

BarbatiFemei

Toxicomani2526

Neconsumatori1838

O analiza imediata a datelor ne-ar duce la concluzii de tipul:

exista mai multe tinere consumatoare decit tineri

proportia barbatilor consumatori este mai mare decit ceaa tinerelor

Pentru compararea datelor, insa, se va porni de la tabelul prezentat care este un tabel cu 4 casute iar in fiecare casuta cite un numar. Aceste numere reprezinta in fapt frecvente observate fo, adica de o parte, frecventa cazurilor de persoane toxicomane iar de alta parte, numarul persoanelor neconsumatoare.

Apare intrebarea in legatura cu diferentele care apar intre barbati si femei. Se datoresc aceste diferente intimplarii sau sint semnificative ? Altfel spus, din punct de vedere al consumului de droguri cele doua populatii sint identice sau nu ?

Raspunsul necesar se poate da numai admitind ipoteza nula si verificindu-o cu ajutorul criteriului (2.

Asadar, in casute sint inscrise proportiile observate, pe care le notam cu fo. Formulam ipoteza nula, adica presupunem ca grupele avute in vedere sint esantioane extrase la intimplare din aceeasi colectivitate, prin urmare diferentele constatate sint pur aleatoare. Deci ipoteza aceleasi colectivitati este admisibila sau nu ?

Procedura:

Admitind aceasta ipoteza ar trebui sa ne asteptam la aceleasi proportii in ambele esantioane.

In exemplul ales, pentru fiecare numar gasit in mod practic (pentru fiecare celula din tabel) vom estima numarul teoretic plecind de la datele existente si efectuind totalurile marginale pe linie si coloana.

BarbatiFemeitotal

Toxicomani252651

Neconsumatori183856

Total4364107

Vom determina frecventele teoretice ft pentru fiecare casuta din tabel apelind la regula de trei simpla. Totalul pe coloana inmultit cu totalul pe linie supra total esantion.

In exemplu: 43 x 51 \ 107 = 20,5. Pentru prima celula frecventa teoretica este de 20,5. Se determina in acest mod ft si pentru celelalte celule obtinindu-se tabelul (cifrele obtinute se inscriu in casutele corespunzatoare intre paranteze).

BarbatiFemei

Toxicomani25 ( 20,5)26 (30,5)

Neconsumatori18 (22,5)38 (33,5)

Pentru a compara frecventele teoretice cu cele observate se vor lua patratele acestor diferente (evitindu-se nulitatea sumei diferentelor simple). Astfel se ajunge la simbolul (2 definit ca suma diferentelor frecventelor observate si teoretice la patrat impartita la frecventa teoretica.

(2= ((fo-ft)2 \ ft

Exemplul de mai sus insumam atitia termeni cite casute avem.

(2= (25-20,5)2\20,5 + ........=3,16

Valoarea obtinuta prin calcul se raporteaza la valorile tabelare ale lui (2. Tabelul indica probabilitatea corespunzatoare diverselor valori ale lui (2 sub ipoteza nula. Acesta tine seama si de numarul gradelor de libertate. Numarul gradelor de libertate se stabileste la (2 ca fiind (r-1)(c-1) in care r=nr.rinduri iar c=nr.coloane.

In exemplu, nr, gr.de libertate = 1

Vom citi in tabel valorile lui (2 corespunzatoare diferitelor probabilitati. Daca valoarea obtinuta prin calcul este mai mica decit cea indicata in tabel, nu putem respinge ipoteza nula. Daca valoarea calculata este superioara celei din tabel vom considera diferentele puternic seminificative.

In exemplu: 3.16 la 1 grad libertate valoarea tabelara este de 3.84 la p=0.05 . Valoarea calculata este mai mica deci nu respingem ipoteza nula.

Criteriul (2 se poate generaliza la tabele cu un numar mare de casute, raminind valabil acelasi procedee de lucru. Totusi esantioanele trebuie sa fie destul de mari iar frecventele din casute sa nu fie sub

PAGE 21


Top Related