+ All Categories
Home > Documents > Ovidiu Lungu Spss

Ovidiu Lungu Spss

Date post: 30-Oct-2015
Category:
Upload: ala-mushkei
View: 142 times
Download: 8 times
Share this document with a friend

of 187

Transcript
  • OVIDIU LUNGU

    SERIA PSIHOLOGIE EXPERIMENTAL I APLICAT

  • 2

    FAMILIARIZAREA CU PROGRAMUL SPSS 10.0 Cuprins: - deschiderea programului si prile componente - deschiderea unei baze de date - crearea unei baze de date - definirea variabilelor - salvarea fiierelor - output-ul Banaliti importante pentru studenii poei. Muli studeni vin la psihologie pentru a scpa de numere, de matematic i pentru c le place s "se joace" cu cuvintele. Probabil c aa se ntmpl i cu dumneavoastr. Ai ales psihologia pentru c suntei fascinai de oameni, de comportamentul lor, de viaa lor interioar, chiar de viaa voastr proprie. V spun bine ai venit la acest curs de statistic aplicat i v asigur c el este un curs special, ncrederea mea, ncercnd s fiu un ghid n lumea statisticii, vine de la faptul c i ali studeni ca voi au reuit s nvee s aplice statistica cu succes, chiar dac anterior au avut eecuri n domeniu. i voi vei nva statistic i o vei face bine. Cuvntul statistic provine din limba italian (statista) i, n trecut, desemna persoana care se ocupa de afacerile statului. Se referea la indivizii care numrau populaia sau alte elemente ce ajutau statul s gestioneze mai bine politica de taxe i costurile rzboaielor. Statistica, ca tiin, deriv din numeroase surse, unele chiar inedite. Ideea de baz de a aduna date provine de la necesitile celor ce guvernau (pentru a stabili taxele), dar i din timpuri mai vechi, cnd armatorii i calculau costurile echiprii corbiilor (folosind probabilitatea de a fi atacate de pirai sau de a naufragia). Teoria modern a corelaiei provine din biologie, din analiza similaritilor dintre prini i copiii lor; teoria analizei de variant i are originea n fabricatele de bere din secolul XVIII i pe cmpurile de orz, unde alegerea soiului potrivit de orz i a timpului potrivit de fermentare permitea promovarea unui anumit gust al berii (dar i supravieuirea a sute de ferme mici); teoria msurrii i are originea n studiul personalitii umane i n special n studiul inteligenei, iar dezvoltarea testelor neparametrice se datoreaz n special sociologiei unde se punea adesea problema apartenenei la diferite clase sociale. Pornind de la ncercrile timpurii ale statisticienilor care erau preocupai s demonstreze existena lui Dumnezeu cu ajutorul numerelor, de la calculele lui John Adams, unul din preedinii americani, care a reuit s obin ajutorul Olandei n Rzboiul de Independen demonstrnd statistic c populaia coloniilor este n cretere i poate s ofere 20.000 militari anual i pn la calculele moderne referitoare la pia i care asigur succesul unei firme, statistica poate sjoace un rol important n viaa noastr Si atunci cine spune c statistica nu are suflet sau nu este uman? Aa cum un chirurg, orict de renumit ar fi el, are nevoie de instrumente specializate pentru a-i face bine treaba, la fel i statisticienii din ziua de azi nu ar putea s analizeze datele fr

  • 3

    ajutorul unor unelte. O astfel de unealt, foarte util, este pachetul informatic SPSS (Statistical Package for Social Sciences), ajuns n prezent la versiunea 10.0. Scopul manualului de fa este de a v oferi un ghid de baz privind utilizarea acestei resurse important n realizarea prelucrrilor statistice. Pentru alte informaii tehnice putei accesa site-ul oficial al companiei care produce acest program, la adresa www.spss.com. Pentru beneficiarii unor versiuni mai vechi ale acestui program, informaiile din ghidul de fa sunt totui folositoare, chiar dac anumite operaii sau aranjarea output-ului (foaia de prezentare a rezultatelor) sunt diferite. Deschiderea programului i prile componente. Ca orice instrument modern, programul SPSS nu poate fi folosit pn nu este mai nti activat sau deschis. Accesul la program se poate face n dou modaliti. Mai nti, fi putei accesa prin efectuarea unui click-dublu asupra pictogramei programului, care ara ca n imaginea de mai jos i se gsete pe desktop-ul computerului, n eventualitatea c ai creat un short-cut pentru program. O a doua modalitate de a pune n funciune SPSS-ul este cu ajutorul meniului START-PROGRAMS prezent n orice versiune WINDOWS mai recent. Astfel, apsai butonul START, apoi un click-simplu pe opiunea PROGRAMS, de unde vei alege opiunea SPSS FOR WINDOWS - SPSS 10.0 FOR WINDOWS, ca n imaginea urmtoare:

    deschiderea programului SPSS din meniul START

    Oricare metod vei folosi, programul se va activa, iar pe ecranul dumneavoastr va aprea un tabel, ca n imaginea de mai jos:

  • 4

    aa se prezint programul SPSS la deschidere

    Observai c avei pe ecran un tabel, deci linii si coloane. Este bine s reinei c ntotdeauna coloanele tabelului reprezint variabilele cercetrii, n timp ce liniile tabelului, numerotate, reprezint subiecii sau participanii la cercetare. Acest lucru sugereaz felul n care datele trebuie introduse n tabel. S analizm acum mai detaliat fereastra, pornind din partea superioar, ctre partea inferioar. Banda colorat din marginea superioar a ferestrei v informeaz asupra numelui fiierului si al programului aflat n uz. Urmeaz apoi o band cu meniurile uzuale ale programului si o bar cu butoane, butoane care nu reprezint altceva dect scurtturi" ale opiunilor ce pot fi activate si din meniurile uzuale. Vom analiza mai detaliat unele comenzi din aceste meniuri, pe msur ce avansm cu acest ghid. Deschiderea unei baze de date De multe ori dorim s lucrm cu baze de date pe care le-am creat anterior sau pe care altcineva naintea noastr a lucrat. Pentru aceasta vom activa meniul FILE - OPEN si vom alege opiunea DATA. Odat activat comanda, computerul va deschide o fereastr-dialog care v permite s selectai att directorul unde se gsete baza voastr de date, ct si fiierul dorit, n exemplul ce urmeaz, am selectat fiierul pretestare din directorul S.P.S.S. Observai n imaginea ce urmeaz c terminaia fiierelor cu date din SPSS este sav.

  • 5

    fereastr-dialog pentru deschiderea unei baze de date

    Deschiderea propriu-zis a bazei de date se face prin apsarea butonului OPEN din fereastra-dialog prezentat anterior, n momentul n care baza de date a fost ncrcat, ecranul va apare astfel:

    Aceasta este fereastra care v prezint datele brute.

    Observai variabilele din studiu, coloanele tabelului adic; de exemplu, variabila GEN descrie genul subiecilor (masculin sau feminin), variabila CONDIIE arat condiia

  • 6

    experimental n care se aflau participanii la studiu, G l sunt notele obinute de subieci la o anume prob, .a.m.d. Fiecare linie a tabelului arat rezultatele unui singur subiect. Astfel, dac observm linia a 11-a, vedem c rezultatele acestei persoane se gsesc n fia cu numrul 11, c este o persoan de sex feminin, n condiia neactivat", care a obinut nota 7 la variabila Gl, nota 7 la G2, nota 13 la G3 etc. Dac dorim s aflm informaii despre tipul variabilelor aflate n baza noastr de date, trebuie s activm opiunea VARIABLE VIEW din partea inferioar a ecranului. Astfel va apare imaginea urmtoare:

    aici aflm informaii despre variabile

    Acum, variabilele sunt aezate pe rnduri, iar coloanele reprezint diveri parametri, diverse caliti pe care le au variabilele noastre. De exemplu, variabila G3 este de tip numeric, are 8 caractere, dintre care dou sunt zecimale, iar ceea ce descrie aceast variabil se refer la comportamentul nclin capul", .a.m.d. Crearea unei baze de date noi Crearea unei baze noi se face din perspectiva DATA VIEW. Observai c n tabel avem un cursor-text sub forma unui contur mai ngroat care nconjur o celul. Acesta fi mutat n tabel cu ajutorul butoanelor cu sgei, din partea dreapt-jos a tastaturii. Dac dorim putem s introducem n computer baza de date redat n tabelul de mai jos, care arat scorurile IQ la un test de inteligen aplicat unor adolesceni, frai de acelasi sex:

  • 7

    Nrfia IQ IQ 1 85 98 2 96 89 3 98 88 4 112 98 5 102 106 6 101 104 7 86 94 8 99 91 9 105 93 10 108 105

    aceasta este baza de date ce dorim s o crem

    Observai c avem trei variabile si zece perechi de subieci. Variabilele sunt: numrul fisei (NRFISA) care arat numrul fielor completate de cei doi frai, coeficientul de inteligent al primului nscut (QI1) si coeficientul de inteligent al celui de-al doilea nscut (QI2). Ducei cursorul-text la nceputul bazei de date (celula cea mai din stnga-sus a tabelului) si apoi tiprii de la tastatur l" si apsai ENTER sau butonul cu sgeata n jos. Pe ecran va aprea imaginea de mai jos:

    Observai c programul definete automat variabila (var000l), cursorul coboar pe celula urmtoare, iar indicativul primei linii devine activ (cifra l de pe margine nu mai este gri). Continuai s introducei astfel toate datele corespunztoare primei variabile, pn ce ajungei la cifra 10. Aceasta este faza introducerii datelor sau crerii unei noi baze de date. Dar pentru a putea folosi aceste date mai uor, avem nevoie s definim variabilele cu care lucrm. Este ceea ce vom prezenta n continuare.

  • 8

    Definirea variabilelor Definirea variabilelor se face din perspectiva VARIABLE VIEW. Aici se poate ajunge prin dou metode:

    1.- executnd un dublu-click pe numele variabilei (var000l), cel scris n capul gri al tabelului

    2.- apsnd pe opiunea VARIABLE VIEW din partea stng-jos a ribctalui; Oricare metod ar fi folosit rezultatul este acelai i pe ecran va apare imaginea urmtoare: aici se definesc variabilele

    Ajuni n acest punct, trebuie s definim anumii parametri ai variabilei, n cazul nostru, vom defini doar numele variabilei (aa cum este el recunoscut de programul SPSS) i eticheta variabilei (LABEL), care este de fapt o descriere mai detaliat a acesteia, folositoare mai ales cnd avem nevoie s ne reamintim ce anume msoar respectiva variabil. Astfel, vom alege numele NRFISA, iar n dreptul etichetei vom scrie numrul fiei" cci asta msoar sau descrie variabila aleas de noi.

  • 9

    aici am definit numele (NAME) i eticheta (LABEL) variabilei alese.

    Dup ce am stabilit parametrii dorii (n alte capitole vom vorbi si despre ali parametri, nu numai despre nume si etichet), vom reveni din nou la perspectiva DATA VIEW, ca s introducem si celelalte date, la celelalte dou variabile, urmnd aceeai procedur, n acest moment, pe ecran vei avea urmtoarea imagine, cu datele introduse la prima variabil si coloana acesteia definit ca atare.

    Continuai s introducei datele si s definii n mod adecvat cele dou variabile, att ca nume, ct si ca etichet.

  • 10

    Salvarea fiierelor Salvarea fiierelor are un dublu scop. Pe de o parte salvm datele pe discul dur al computerului (hard-disk) pentru a le conserva n memoria de lung durat, permanent a computerului n vederea folosirii lor ulterioare, pe de alt parte salvm datele pentru a nu le pierde n eventualitatea apariiei unei pene de curent sau a unei ntreruperi inoportune a computerului. Salvarea datelor se face ca pentru orice fiier, fie acionnd butonul SAVE (al doilea din bara de butoane, cel care seamn cu o dischet), fie din meniul FILE-SAVE, precum n imaginea de mai jos:

    salvarea datelor din meniul FILE

    Oricare ar fi metoda, atunci cnd se activeaz pentru prima dat comanda SAVE, se deschide o fereastr-dialog, precum cea urmtoare:

    fereastra-dialog pentru salvarea bazei de date

  • 11

    Aici alegem directorul n care dorim s salvm fiierul nostru (folosind cmpul SAVE IN din partea superioar a ferestrei) si denumim fiierul (n cazul nostru cu numele FRAI) n cmpul FILE NAME din partea inferioar a ferestrei. Apsam apoi butonul SAVE al ferestrei i operaiunea a luat sfrit. Ouput-ul Pn acum am analizat pe scurt dou din perspectivele programului SPSS: DATA VIEW i VARIABLE VIEW. Trebuie ns s tii c mai exist o perspectiv, o fereastr de fapt, unde programul v prezint rezultatele analizei statistice. Aceast perspectiv sau fereastr, denumit OUTPUT, apare numai ca urmare a folosirii meniului ANALYZE (unde se analizeaz datele) sau GRAPHS (unde se realizeaz ilustraiile grafice). Pentru a ilustra modul n care apare aceast perspectiv, vom alege din meniul ANALYZE opiunea DESCRIPTIVE STATISTICS i comanda DESCRIPTIVES ca n imaginea de mai jos, fr a intra n detalii privind situaiile n care se folosete aceast comand (detalii ce vor fi prezentate ulterior):

    activarea comenzii DESCRITIVES Odat activat comanda DESCRIPTIVES pe ecran va apare o fereastr-dialog, tipic pentru prelucrarea datelor n SPSS. S o analizm puin:

  • 12

    fereastra-dialog DESCRIPTIVES

    Oricare fereastra-dialog, folosit la prelucrarea datelor, cuprinde patru zone importante:

    (1) cmpul ce cuprinde variabilele existente deja n baza de date, (2) cmpul ce cuprinde variabilele pe care dorim s le analizm, (3) butoane sau cmpuri privind opiunile de analiz (4) butoanele obinuite ale oricrei ferestrei.

    Butonul cu sgeat (5) este folosit pentru a transfera" variabilele ntre cmpurile (1) si (2). n exemplul de fa, vom transfera variabila QI1 din cmpul (1) n cmpul (2), pentru a o analiza. Pentru aceasta o vom selecta mai nti, executnd un click simplu pe numele variabilei. Astfel, numele va fi ncadrat ntr-un cmp albastru, faptul indicnd c acea variabil a fost selectat. Apoi, apsam pe sgeata (5) si vom observa c variabila se va transfera n cmpul (2), ca n imaginea urmtoare: transferul unei variabile n cmpul pentru analizat Observai acum c sgeata dintre cmpuri i-a schimbat sensul; ea va avea mereu sensul n funcie de cmpul n care a fost selectat variabila. Mai observai de asemenea c i butonul

    1

    2

    3

    5 3

    4

  • 13

    OK,care nainte nu era activat a devenit activ. Nu vom folosi acum butoanele sau cmpurile cu opiunile suplimentare pentru analiz, ci vom apsa direct butonul OK pentru a observa cum se activeaz fereastra sau perspectiva OUTPUT a programului.

    perspectiva sau fereastra OUTPUT

    Mai nti, observai c aceast nou perspectiv v deschide cu adevrat o nou fereastr, n sensul c apare n mod distinct n bara de sarcini din partea inferioar a ecranului. Revenirea la meniul cu date se face fie prin comanda ALT+TAB (apsnd simultan, scurt, aceste butoane) sau apsnd cu mouse-ul pe numele ferestrei din bara de sarcini. Observai c aceast nou fereastr e organizat n dou cmpuri: cmpul (1) - indic structura sau cuprinsul OUTPUT-ului, cmpul (2) - arat coninutul acestuia. Este ca si cum am avea n partea stng un catalog ce indic volumele aflate ntr-o bibliotec, iar n partea dreapt am avea coninutul acelor volume. Nu insistm acum asupra coninutului acestei analize, acesta fiind obiectul capitolelor viitoare. Exerciiu: Realizai o analiz similar si pentru variabila QI2

    1 2

  • 14

    STATISTICA DESCRIPTIVA (1) - cum s dm un neles datelor brute

    Cuprins: 1.- Generaliti 2.- Identificarea tendinei centrale 3.- Analiza variabilitii

    - Folosirea SPSS: meniul ANALYZE - FREQUENCIES - Folosirea SPSS: meniul ANALYZE - DESCRIPTIVES Folosirea

    SPSS: - Grafice - histograme, bare, linii, plcint", box-plot

    Cum v place berea, cu etichet sau fr etichet?

    Multe departamente de marketing ale firmelor productoare de alimente sunt interesate de preferinele consumatorilor. Una din cele mai acerbe concurene pe pia este ntre firmele productoare de bere. Bani grei au fost alocai de marile firme pentru a testa gustul clienilor fideli. Nu e puin lucru s tii ce apreciaz butorul de bere la o anumit marc. n general, dou tipuri de informaii sunt de interes pentru departamentele de marketing: (1) preferina consumatorilor (estimat pe o scal) pentru marca proprie fa de cele ale competitorilor atunci cnd sticlele sunt clar etichetate i (2) preferina acelorai consumatori atunci cnd servesc butura din sticle neetichetate, cnd singurul indiciu de apreciere rmne gustul. Avnd aceste informaii, departamentele de marketing sunt capabile s determine dac preferina pentru o anume marc depinde de calitile fizice ale produsului sau doar de imaginea mrcii, promovat prin reclam (care este i ea, n ultim instan rodul muncii celor de la marketing, nu?). Un studiu faimos, folosind astfel de date a fost realizat de R. Allison i K. Uhl, n 1965, n Statele Unite. Ei au ales un eantion reprezentativ de 326 butori de bere (brbai ce consumau bere de cel puin trei ori pe sptmn). In prima sptmn ei le-au dat s bea bere din sticle etichetate ale diverselor mrci de prestigiu din domeniu. La sfrit ei au apreciat pe o scal preferina pentru fiecare dintre acele mrci de bere. n sptmna urmtoare experimentul s-a repetat, de data aceasta ns consumatorii nemaiavnd la ndemn etichetele pe sticlele de bere. La sfrit, ei au apreciat din nou preferina pentru o anume bere, fr a ti crei marc aparine. Rezultatele obinute de cei doi cercettori au artat c consumatorii nu au fost capabili s identifice o anume marc de bere numai pe baza gustului. Mai mult, metodele statistice le-au permis acestora s infereze faptul c rezultatul este apHcabil butorilor de bere n general, nu numai celor 326 luai n calcul n studiu. Ulterior, astfel de studii s-au fcut i pentru buturi rcoritoare (Coca-Cola i Pepsi), precum i pentru mrci celebre de cafea. Concluzia studiilor este aceea c noi, ca i consumatori, suntem mult mai ml itfle imaginea unei mrci, a unui produs dect de calitile fizice, "reale" ale uia. Aviz departamentelor de marketing i cheltuielilor publicitare, nu? Deci, cum v place berea: cu etichet sau fr etichet?

  • 15

    Exist cteva motive pentru care este necesar studierea statisticii n psihologie si n tiinele sociale n general. Mai nti, nelegerea metodelor statistice este crucial pentru nelegerea si citirea corect a articolelor de specialitate. Cel ce nu cunoate metodele statistice nu va putea s citeasc aceste materiale dect superficial i nu va fi capabil s neleag tabelele, graficele i corectitudinea concluziilor deduse din cercetare. Al doilea motiv pentru care e necesar studierea statisticii este acela c, fr a avea deprinderile necesare n mnuirea metodelor statistice, nu se poate face cercetare experimental, n fine, nelegerea metodelor statistice ajut la dezvoltarea gndirii analitice i critice. Generaliti Ce este ns statistica? Ea este un instrument care a evoluat din pornind de la procesele de baz ale gndirii: atunci cnd observm un fapt ne ntrebm ce anume 1-a determinat, care a fost cauza. Astfel, avem o anume intuiie asupra a ceea ce a provocat acel fapt, facem o presupunere i n continuare ncercm s ne testm ipoteza printr-o alt observaie, uneori ncercnd s facem unele mici modificri pentru a ne testa intuiia. Ceea ce ne intereseaz este dac noua noastr observaie este exact, dac ceea ce observm din nou este un fapt regulat i nu unul cauzat de ntmplare i dac avem dreptate n ceea ce privete intuiia noastr. n acelai mod, statistica este o metod de a testa sau stabili adevrul. Desigur nu este vorba de adevrul absolut, ci de stabilirea probabilitii ca observaia efectuat s aib cauze precise i s nu fie provocat doar de ntmplare.

    S considerm un exemplu hazliu, care ilustreaz ns foarte bine care este rolul metodelor statistice. Imaginati-va c fierbem o oal de fasole. Dup un timp, dup ce am pus fasolele pe foc, trebuie s verificm dac acestea au fiert. Ce facem? Lum ntr-o lingur cteva boabe i le gustm. Dac acestea sunt fierte, decidem c i restul fasolelor sunt fierte. Este acest raionament corect? De unde tim c nu am luat din ntmplare tocmai pe cele mai fierte dintre boabe? Ei bine, metodele statistice fac tocmai acest lucru. Ele ne pot spune, cu oarecare precizie, pornind de la aceste cteva boabe de fasole, dac i celelalte din toat oala sunt fierte. Cu alte cuvinte, statistica ne ajut s facem generalizri ale unor efecte la nivelul unor populaii largi, pornind de la rezultatele obinute pe eantioane sau grupuri mici de oameni.

    Exist dou ramuri principale privind metodele statistice n psihologie: statistica descriptiv - cuprinde metodele ce ajut psihologii s descrie si s grupeze n diferite moduri grupurile de rezultate obinute n cercetri, metode ce ajut la descrierea scorurilor. statistica inferenial - cuprinde metodele ce ajut psihologii s trag concluzii pe baza rezultatelor obinute si s le generalizeze la populaii mai largi dect cele testate iniial. In general, ntr-o cercetare este preferabil s utilizm ambele metode, pentru c fiecare dintre ele ne ofer anumite tipuri de informaii. De regul, metodele infereniale nici nu se utilizeaz dac nu se aplic mai nti cele descriptive, n cercetarea psihologic se lucreaz cu variabile. O variabil este acea proprietate a unui fenomen, obiect sau proces care poate s ia diferite valori, deci care poate s varieze.

  • 16

    Spre exemplu, notele care se pot lua la scoal, zilele sptmnii, vrsta etc. sunt toate variabile. O variabil este descris de valori. Spre exemplu, pentru variabila "nota colar" valorile acesteia sunt toate notele de la l la 10 pe care le poate cineva lua la scoal. Pentru variabila "zilele sptmnii" valorile sunt toate cele 7 zile ale sptmnii, n psihologie se face distincia ntre valori si scoruri. Un scor este valoarea obinut de o persoan, fenomen, obiect, proces situaie atunci cnd ne referim la o anume variabil. Spre exemplu, nota pe care o ia George la scoal (s zicem 7) este un scor al acestui subiect la variabila "nota colar". Cu toate acestea, valorile variabilei menionate sunt n numr de zece: l, 2, 3, 4, 5, 6, 7, 8, 9 i 10. Dar un subiect nu poate avea dect una din aceste valori, iar aceea este numit scor. De obicei, rezultatele unui experiment psihologic sunt date de un grup de scoruri. Un procedeu prin care se poate analiza acest grup de scoruri este acela de a folosi dubele de frecven. Un tabel de frecven arat ci subieci obin sau au o anume valoare la o variabil. Spre exemplu, un tabel de frecven fcut pentru variabila "nota scolar" arat ci elevi dintr-un grup au obinut o not anume, ca n tabelul de mai jos:

    NOTA SCOLARA FRECVEN 10 15 9 26 8 31 7 13 6 18 5 16 4 12 3 3 2 1 1 2

    Exist trei pai n realizarea unui tabel de frecvene fr ajutorul calculatorului: se face o list cu toate valorile posibile pe care le poate lua variabila si se trec ntr-o coloan, unele sub altele, n ordine descresctoare. se parcurg toate scorurile obinute corespunztoare fiecrei valori ale variabilei si se bifeaz. se trece n tabel numrul de bifri astfel obinut. Un tabel de frecven realizeaz o descriere a grupului prin aceea c arat care sunt tendinele, cum au subiecii tendina de a se grupa n jurul anumitor valori. Tabelele de frecven se pot reprezenta si grafic prin histograme, caz n care tendinele dintr-un grup de rezultate se observ mai bine. Histograma tabelului de frecven de mai sus este prezentat n continuare:

  • 17

    Exist patru etape n realizarea unei histograme, fr ajutorul calculatorului:

    se face mai nti un tabel de frecvene. pe axa orizontal (X) se trec toate valorile pe care le poate lua variabila. pe axa vertical (Y) se marcheaz frecvena sau numrul de subieci ce au obinut un anume rezultat. se traseaz bare verticale pentru fiecare valoare n parte a variabilei, ce vor avea nlimea egal cu numrul de subieci ce au obinut o anume valoare.

    O alt modalitate grafic de a reprezenta un tabel de frecvene este prin poligoanele de frecven. Acestea se obin din histograme, prin unirea mijloacelor prilor superioare ale barelor sau histogramelor, aa cum este artat mai jos.

  • 18

    Un poligon de frecven exprim o distribuie a rezultatelor, n sensul c arat cum se distribuie sau cum se "mprtie" rezultatele n jurul anumitor valori ale unei variabile. De aceea, forma pe care o ia aceast distribuie este un alt mod de a descrie un pup de rezultate. Exist trei parametri, trei caracteristici prin care este descris o distribuie: 1.- modalitatea - este un aspect important al distribuiei care arat cte "vrfuri" are o

    distribuie. Cu alte cuvinte, arat cte valori sunt n jurul crora se grupeaz foarte muli subieci. Din acest punct se vedere, distribuiile pot fi unimodale, adic au un singur vrf, sau ele pot fi multimodale, adic au mai multe vrfuri.

    2.- nclinarea - este un aspect al distribuiei care arat dac scorurile subiecilor testai au tendina de a fi mai mari sau mai mici. Spre exemplu, notele colare au o distribuie nclinat spre dreapta, adic elevii au tendina de a lua mai mult note mari dect note mici. Atunci cnd nclinarea curbei este spre dreapta, spunem c avem o distribuie nclinat pozitiv. Atunci cnd distribuia este nclinat spre stnga, spunem c aceasta este negativ. Dac nu se observ nici o tendin de nclinare, atunci distribuia este simetric.

    3.- turtirea- este un aspect ce se refer la faptul dac o distribuie este foarte turtit (adic scorurile din cadrul ei variaz foarte mult) sau este mai ascuit (adic scorurile variaz foarte puin). Vom reveni asupra acestui aspect atunci cnd vom discuta despre curba normal.

    Definiii: Variabil: o proprietate a unui fenomen care poate lua diferite valori. Valoare: o msur calitativ sau cantitativ a unui fenomen. Scor: o valoare particular obinut de un anumit subiect. Distribuie: modul n care se prezint un grup. de rezultate.

    Criterii de clasificare a variabilelor: a) dup natura msurii:

    - cantitative (variaz cantitatea); - calitative (variaz felul).

    b) dup felul variaiei: - continui (ntre oricare dou valori mai gsim o a treia); - discrete (variaz lund valori dinainte specificate).

    c) dup scopul folosirii lor n studii: - independente (manipulate sau invocate de experimentator, stimuli); - dependente (observate la subieci, rspunsuri).

  • 19

    Identificarea tendinei centrale Dac o parte din metodele descriptive ne folosesc uneori s organizm rezultatele sau scorurile noastre, alteori avem nevoie de metode pentru a putea descrie mult mai pe scurt ceea ce se ntmpl n distribuia noastr. Avem astfel nevoie de metode ce arat tendina central (ce tendine apar) ntr-o mulime de scoruri. Astfel, matematicienii s-au gndit s descrie un grup de scoruri printr-un singur numr. Media aritmetic este un astfel de numr. Media aritmetic este considerat a fi o metod descriptiv pentru c ea descrie tendina central ntr-un grup de rezultate sau arat valoarea tipic sau reprezentativ pentru acele scoruri. Formula matematic a mediei aritmetice este: M= x (1) N Ce arat sau care este mai precis semnificaia mediei? S lum un exemplu. Mai jos v prezentm un grup de scoruri care arat preferina studenilor fa de statistic, pe o scal de la l (nu-mi place deloc) pn la 6 (mi place foarte mult): 4,6,2,2,1,2,3,2,4,4 Calculul mediei, conform formulei (1) este: M= x = 30 = 3 N 10 Care este semnificaia acestui "3"? Ce arat el dincolo de suma scorurilor mprit la numrul total de scoruri? Ne vom folosi de histograma acestei distribuii pentru a defini media, ntr-un mod intuitiv.

    Imaginai-v c pe o scndur aezm nite cuburi, egale ca dimensiune unul cu altul, la diferite distane, ca n imaginea de mai jos:

  • 20

    Observai c aceste cuburi sunt aezate similar cu segmentele din histogram, n aceleai poziii. Acum urmeaz ntrebarea: unde anume trebuie s aezm un butean astfel nct scndura i cuburile de pe ea s rmn n echilibru? Rspunsul este n dreptul mediei. Pornind de la aceast constatare ajungem i la semnificaia acestei msurtori statistice: media este punctul fat de care scorurile sunt egal deprtate, cu alte cuvinte, abaterile de la medie ntr-o direcie (ex. ale scorurilor mai mici ca ea) sunt egale cu abaterile n cealalt direcie (ex. scorurile mai mari). O alt metod de a descrie tendina central a unui grup de scoruri este mediana. i ea mparte distribuia n dou pri, dar de data aceasta din punctul de vedere al frecventelor. Astfel, jumtate dintre scorurile dintr-o distribuie vor avea valori mai mici dect mediana, iar restul - valori mai mari. Pentru a calcula mediana sunt necesare dou etape:

    1) ordonm scorurile cresctor sau descresctor 2) mprim numrul de scoruri (N) la 2.

    Dac N este par, atunci "mijlocul" distribuiei "cade" ntre scorurile situate la mijloc; dac N este impar, atunci mediana este chiar scorul situat la mijloc. S urmm aceti pai pentru scorurile prezentate mai sus, care reprezint prerea studenilor fat de statistic. Pasul 1: ordonarea scorurilor. Pornind de la distribuia: 4,6,2,2,1,2,3,2,4,4 prin ordonare ajungem la distribuia

    1,2,2,2,2,3,4,4,4,6

    Fiind 10 scoruri (deci numr de subieci par, iar jumtatea lui 10 fiind 5), mediana se va gsi ntre scorurile din mijloc, deci ntre scorurile al 5-lea si al 6-lea. Sgeata de mai jos arat poziia medianei, care este astfel 2,5 (media dintre aceste scoruri din mijloc).

  • 21

    1,2,2,2,2,3,4,4,4,6

    Uneori, dei mai rar, obinuim s descriem o distribuie prin modul. Acesta este valoarea cu frecvena cea mai mare. n exemplul de mai sus, valoarea 2 este ntlnit cel mai frecvent (apare de 4 ori), deci modulul distribuiei noastre va fi 2. Cnd folosim totui una din aceste metode pentru a descrie tendina central a unei distribuii? Care dintre ele este mai "bun" i n ce condiii? Pentru a rspunde la aceast ntrebare s analizm ce factori influeneaz pe fiecare din ele. Dac la exemplul de mai sus mai adugm nc un scor (s zicem un 5), observai ce se modific:

    Media va fi 3,18; Mediana va fi 3; Modulul va fi tot 2.

    Dac lum din distribuie un scor, un 4 spre exemplu, schimbrile vor fi: Media va fi 2,88; Mediana va fi 2; Modulul va fi tot 2.

    Dac adugm 2 scoruri, un 2 i un 5, spre exemplu, vom avea urmtoarele Media va f 3,08; Mediana va fi 2,5; Modulul va fi tot 2.

    Din cele de mai sus, constatm c modulul este una dintre mrimile ce sunt cel mai mult afectate de schimbri n structura distribuiei (numr de scoruri sau mrimea acestora ). Mediana este i ea destul de stabil, ns media este cea mai "sensibil" dintre toate aceste mrimi. Concluzia este aceea c media este cea mai descriptiv (ntruct arat orice modificare survenit n distribuie), dar este recomandat s se foloseasc mai mult n distribuiile simetrice i unimodale, n timp ce mediana i modulul, mai stabile sunt recomandabile n descrierea distribuiilor asimetrice i multimodale. Un exemplu concret ar fi de folos:

    Exemplu Pe o plantaie de cafea lucreaz 99 oameni care ctig 100 dolari lunar (deci ntr-o lun ei ctig 9.900 dolari). Patronul plantaiei are un venit lunar de 2.100 dolari, n total, cele 100 persoane (patronul i angajaii) de pe plantaie ctig 12.000 dolari lunar, deci n medie 120 dolari/lun/persoan. Cu toate acestea, dac ne deplasm pe plantaie, n 99% de cazuri vom ntlni persoane care ctig sub valoarea medie, abia n 1% din cazuri gsind pe cineva cu venituri peste medie (patronul). Dac ns calculm mediana (ordonnd cei 99 de 100 i valoarea de 2100 - venitul patronului) vom vedea c valoarea ei este exact 100 (mijlocul distribuiei va "cdea" exact ntre dou scoruri de 100), la fel i modulul. Deci aceste dou din urm msurtori sunt mult mai aproape de realitate n cazul unei distribuii anormale, asimetrice.

    Cu toate aceste diferene ntre cele trei metode de stabilire a tendinelor centrale a unei

  • 22

    distribuii, media aritmetic rmne metoda cel mai des utilizat i ea intr n componena multora dintre metodele statistice cunoscute. Exist ns cazuri (ex. testele neparametrice), unde mediana i modulul sunt metodele folosite. Analiza variabilitii Cunoaterea mediei (sau a medianei) nu ne este uneori de folos n a descrie complet o distribuie. S presupunem c tim despre un grup de persoane c are media de vrst de 20 ani. Ce nseamn acest lucru? Au toi membrii grupului exact 20 de ani fiecare? Sau poate jumtate dintre ei au 10 ani i jumtate 30? Ori poate un sfert au 18, un sfert - 19, un sfert 21 i restul 22? Fiecare din aceste situaii ne arat lucruri diferite, nu-i aa? Dup cum observai, cunoaterea doar a mediei nu este suficient pentru a ne oferi informaii complete despre "realitatea" din grup; avem nevoie s cunoatem i gradul de variabilitate din scorurile noastre. Mai precis, avem nevoie s tim ct de mult (i eventual cu ct) se mprtie scorurile n jurul valorii medii, a tendinei centrale. Un exemplu din viaa cotidian care s v arate c avem nevoie de cunoaterea variabilitii, n general, este acela al pungilor de cafea (sau orice alt produs alimentar livrat ntr-un ambalaj). O privire atent pe pung ne arat gramajul coninutului sub forma greutate net l00g 5 g. Ce nseamn aceast indicaie? Faptul c pungile de cafea, dei ambalate de o mainrie, nu sunt toate de greutate egal i c majoritatea pungilor au greutatea coninutului cuprins ntre 95 i 105 grame. Suntem sau nu mai bine informai? Varianta Varianta unei distribuii arat ct de "mprtiate" sunt scorurile n jurul valorii centrale, care este gradul de variabilitate n grupul nostru de rezultate. S vedem etapele calculrii variantei. Vom utiliza ca exemplu nite date culese de la o companie care are 10 departamente. Scorurile prezentate mai jos arat cte persoane lucreaz n fiecare departament n parte:

    2, 8, 12, 10, 20, 3, 7, 14, 6, 18 S vedem care sunt etapele de calcul ale variantei. calcularea mediei In primul rnd avem nevoie de cunoaterea mediei. Ea se obine pe calea obinuit, mprind suma scorurilor la numrul lor. n cazul nostru, media este m=10. calculul abaterilor simple de la medie Prima dat cnd s-au gndit s calculeze varianta, matematicienii au pornit de la calculul abaterilor simple de la medie. Pentru aceasta ei au realizat un tabel, diferit de cel al frecvenelor, n sensul c folosea scorurile i nu valorile variabilei.

  • 23

    X x-m 2 -8 3 -7 6 -4 7 -3 8 -2 10 0 12 +2 14 +4 18 +8 20 +10

    Iniial matematicienii au dorit s lucreze cu aceste abateri simple de la medie, dar dup cum observai unele sunt pozitive, altele sunt negative, astfel c adunate, ele se anuleaz una pe alta (aceasta este de altfel si proprietatea mediei, nu?). Atunci o soluie a fost s ridicm la ptrat aceste abateri simple de la medie, pentru a obine prin adunare un numr pozitiv. calculul ptratului abaterilor de la medie Continund tabelul mai adugm nc o coloan unde vom calcula ptratul abaterilor de la medie.

    x x-m (x-m) 2 - 8 64 3 - 7 49 6 - 4 16 7 - 3 9 8 - 2 4 10 0 0 12 +2 4 14 +4 16 18 +8 64 20 +10 100

    Adunnd aceste ptrate obinem o valoare pozitiv (notat cu SS, din englezescul sum of squares - suma ptratelor, ntlnit uneori n crile romneti de statistic sub prescurtarea SP, suma ptratelor), n cazul nostru,

    SS = 326. Ce se ntmpl ns cu SS? Poate fi el folosit ca o msur a variabilitii? nc nu, pentru c el depinde de numrul de scoruri. Observai c dac mai adugm un scor la cele existente se schimb media, iar acest nou

  • 24

    scor va abate probabil de la noua medie cu o oarecare cantitate, ce, ridicat la ptrat, face ca SS s creasc. Similar, dac eliminm un scor, SS scade. Pentru a obine o valoare care s nu depind de numrul de scoruri, vom mpri pe acesta la N, tocmai la numrul de scoruri. divizarea la numrul de scoruri sau cazuri pentru ca SS s nu depind de N Aceast valoare nou, obinut prin mprirea lui SS la N este tocmai varianta, notat SD. Deci,

    SD = SSN

    (2)

    n exemplul nostru SD = 32,6

    Aceasta este tocmai varianta. Repet, ea este o msur a gradului de variabilitate a scorurilor i arat ct de mult se abat ele de la tendina central. Cu ct este mai mare aceast valoare, cu att mai mult se mprtie scorurile n jurul valorii centrale. Este ca i cum am cunoate strlucirea unui bec (n sensul c e foarte strlucitor sau mai puin strlucitor), dar nu am ti ci wai are el (75 sau 100?). Pentru a cunoate exact cu ct variaz, scorurile n medie (acele 5 grame n plus sau n minus de pe punga de cafea), este nevoie s calculm deviaia standard. Deviaia standard Deviaia standard ne este mult mai util. Ea arat cu ct se mprtie scorurile n jurul valorii centrale i - fapt poate mai important - se msoar n aceleai uniti de msur ca i variabile iniial, X. Ea este pur i simplu rdcina ptrat a variantei, deci

    SD= 2DT (3) n exemplul nostru valoarea lui SD este 5,70. Semnificaia deviaiei standard Acum, avnd la dispoziie i media i deviaia standard putem descrie mult mai bine distribuia scorurilor din exemplul nostru. Cunoatem astfel c numrul de persoane ce lucreaz la departamentele firmei sus-pomenite este de 10 5,7. Cu alte cuvinte tim c limita minim a variaiei normale a scorurilor este 4,3 (obinut din 10-5,7), iar limita maxim este 15,7 (obinut din 10+5,7). Aproximnd la numere ntregi, dei pierdem cte ceva din vedere n acest fel, putem afirma c la firma respectiv lucreaz ntre 5 i 15 persoane n fiecare departament. Dac valoarea mediei descria doar un singur departament din totalul de 10, observm c acest interval obinut de m SD descrie 6 departamente (deci 60% din totalul populaiei). Acesta este un aspect important al deviaiei standard, n mod obinuit, n intervalul

  • 25

    cuprins de o parte i alta a mediei de deviaia standard gsim aproximativ 2/3 din totalul scorurilor, deci n acest interval vom avea scorurile considerate tipice sau normale pentru acea distribuie. Imaginea de mai jos este mai sugestiv.

    Din aceast cauz numim aceast deviaie "standard", pentru c orice am msura, oricare ar fi forma distribuiei, gsim mereu aproximativ 2/3 din scoruri n acest interval. Deviaia standard joac un rol foarte important n calcularea notelor z, denumite si note standard. Prezentarea notelor z se va face ns n capitolul urmtor. Folosirea SPSS: meniul ANALYZE FREQUENCIES Vom arta n continuare cum se calculeaz parametrii unei distribuii (media si abaterea standard) folosind SPSS, mai precis, meniul ANALYZE - FREQUENCIES. Mai nti s deschidem sau s ncrcm fiierul denumit employee data.sav. Pentru aceasta folosim comanda FILE -> OPEN -> DATA, comand prezentat n capitolul anterior. Din fereastra care se deschide (prezentat mai jos), alegem fiierul dorit (employee data.sav) fcnd click asupra lui, apoi apsnd butonul OPEN.

    selectarea fiierului dorit din meniul FILE OPEN

  • 26

    Baza de date prezint rezultatele unei anchete realizat n Statele Unite n anii '90 si reprezint datele referitoare la angajaii unor bnci. S ne alegem pentru prelucrare variabila salbe gin. Reamintim c numele variabilelor sunt scrise n capul de tabel, de culoare gri. Ce reprezint aceast variabil? Nu putem ti n mod direct. Pentru a afla acest lucru, trebuie s procedm ca si cum am dori s definim variabila. De aceea, facem dublu-click n capul coloanei , acolo unde scrie numele variabilei. Va aprea astfel perspectiva VARIABLE VIEW (ca n imaginea de mai jos):

    descrierea variabilei SALBEGIN n perspectiva VARIABLE VIEW

    Pentru a vedea ce reprezint salbegin ne uitm n cmpul LABEL, unde citim "beggining salary", ceea ce nseamn "salariul iniial sau de nceput". Vom lucra astfel cu date ce arat salariul iniial al subiecilor analizai. S calculm unii parametrii ai distribuiei. Vom folosi pentru aceasta comanda ANALYZE-SUMMARIZE-FREQUENCIES care deschide fereastra FREQUENCIES de unde ne vom putea alege opiunile: calculul mediei, medianei, modulului, precum si al deviaiei standard.

    O dat aleas aceast opiune, pe ecran va aprea fereastra de mai jos care v permite alegerea variabilelor de analizat, precum i opiunile de analiz:

  • 27

    Aici selectm variabila dorit ( ca n imagine ) i acionnd sgeata dintre cmpuri, vom transfera variabila aleas n cmpul cu variabile de analiz. Pentru mai multe detalii revedei ultima parte a capitolului precedent.

    Vom prezenta detaliat aceast fereastr, urmnd ca la altele asemntoare s nu mai insistm detaliat ulterior, ntruct aproape toate ferestrele de analiz au aceast structur. Unde va fi ns cazul vom prezenta elementele de noutate. (1) reprezint cmpul unde sunt prezentate variabilele din baza de date; (2) aceasta este o opiune; seninul din ptrel (similar cu sigla Nike sau Rexona) indic faptul c opiunea este activ, n cazul de fa, activarea opiunii permite realizarea tabelului de frecvene; menionm c, din start, opiunea este activ, iar dezactivarea ei atrage dup sine un mesaj de avertisment din partea programului; (3) este sgeata care permite transferul variabilelor din cmpul cu lista din baza de date, n cel de analiz; (4) este cmpul unde trebuie transferate variabilele de analizat; (5) este un buton care deschide o fereastr cu opiunile de prelucrare statistic (va fi prezentat n continuare); (6) un buton care permite realizarea graficelor concomitent cu prelucrarea statistic; (7) este un buton ce permite modificarea formei OUTPUT-ului;

    1

    2

    3

    4

    8

    5 6 7

  • 28

    (8) acestea sunt butoanele comune, obinuite ale ferestrei. Dup ce am ales variabila sau variabilele pe care dorim s le analizm, trebuie selectate opiunile de analiz statistic, apsnd butonul STATISTICS. Pe ecran va apare fereastra de mai jos:

    Observai c fereastra cuprinde opiuni, grupate n patru cmpuri. Aceste cmpuri au un titlu si sunt delimitate de o linie gri-deschis. Din titlul cmpurilor putei deduce la ce se refer opiunile respective: percentile values: permite calcularea diferitelor valori percentile corespunztoare mpririi subiecilor n grupuri egale sau n funcie de un anumit procentaj ales; dispersion: permite calculul diferiilor parametri referitori la dispersia sau mprtierea datelor n jurul valorii centrale (media, de obicei); central tendency: permite calculul parametrilor ce arat tendinele centrale ale distribuiei (media, mediana, etc.) distribution: permite calcularea turtirii i nclinrii distribuiei pentru a fi comparat cu cea normal (vom reveni ulterior cu detalii, atunci cnd vom vorbi despre curba normal). Din aceast fereastr vom alege pentru moment (bifnd sau fcnd click cu mouse-ul n ptrelul opiunii) doar: media, mediana, modul, varianta, deviaia standard, minimul si maximul. Apsai apoi CONTINUE si deschidei fereastra CHARTS. Pe ecran va apare o fereastr precum cea urmtoare:

  • 29

    Observai c si aici avem dou cmpuri. Unul permite alegerea tipului de grafic (cu bare, plcinte sau histograme), iar al doilea permite alegerea tipului de valori din grafic (frecvene sau procentaje). V recomandm s nu alegei acum nici o opiune si s realizai graficele separat, ntruct astfel vom avea o libertate mai mare n realizarea lor. Apsai CANCEL si activai fereastra FORMAT prin apsarea pe butonul cu acelai nume, care deschide fereastra:

    i aici avem dou cmpuri: unul pentru opiuni privind aranjarea rezultatelor n ordine cresctoare sau descresctoare, etc.) si altul privind compararea variabilelor sau organizarea separat a foii de rezultate, n funcie de variabile.

  • 30

    Fereastra de mai sus ilustreaz modul n care se prezint foia de rezultate (OUTPUT), dup ce ai revenit n fereastra principal DESCRIPTIVES si ai apsat butonul OK. Observai organizarea ei: n partea superioar se afl o bar de butoane; n stnga este un cmp care v arat structura OUTPUT-ului, iar n cmpul din partea dreapt - coninutul OUPTUT-ului. Dup titlul foii de rezultate (FREQUENCIES), observai c sunt prezentate dou tabele: primul arat parametrii statistici pe care i-am cerut prin activarea ferestrei STATISTICS, iar a doua fereastr prezint tabelul frecvenelor. Observai c numrul din primul tabel, din dreptul meniunii VARIANCE (care arat varianta rezultatelor) nu este prezentat normal, ci prescurtat, din cauza limii prea mici a coloanei. Pentru a modifica orice dimensiune a tabelului, ca de altfel a oricrei forme de prezentare a rezultatelor, executai un click-dublu asupra zonei dorite, n acel moment, un cadru special sau chiar o fereastr nou va ncadra zona aleas si cu ajutorul mouse-ului putei modifica dimensiunile (similar cu modificarea tabelelor n WORD sau EXCEL).

    cadrul de modificare al tabelului

    Tabelul urmtor prezint tabelul frecvenelor realizat pentru variabila aleas. El are cinci coloane:

    prima prezint rezultatele valide (adic nu si cazurile lips), a doua coloan arat frecvena propriu-zis (ex. 4 persoane au un venit iniial de

    $9000), a treia coloan arat ce procentaj au aceste persoane raportat la numrul total al

    subiecilor, a patra coloan - procentajul raportat la numrul total al scorurilor valide (fr

    cazuri lips adic), a cincea coloan arat procentajul cumulat de cel mai mic scor pn la cel

    prezent.

  • 31

    tabelul frecvenelor

    EXERCIIU: facei aceeai analiz pentru variabila CURRENT SALARY

    Folosirea SPSS: meniul ANALYZE DESCRIPTIVES Acum s prezentm analiza descriptiv a rezultatelor realizat cu ajutorul comenzii DESCRIPTIVES. Dup cum veti vedea, exist similariti cu comanda precedent, dar si diferene. Din meniul ANALYZE activai comanda DESCRIPTIVES, care va deschide fereastra de mai jos:

    Ea este similar cu cea de la FREQUENCIES, doar c are mai puine butoane cu opiuni (unul n loc de trei). Alegei variabila pentru analiz (BEGINNING SALARY) si transferai-o n cmpul pentru analiz, folosind sgeata dintre cmpuri. Opiunea din partea stng-jos v permite salvarea n baza de date a unei noi variabile care va conine note z ale variabilei analizate. Apsai apoi butonul OPTIONS care va deschide fereastra urmtoare:

  • 32

    Aici observai c gsim mai puine opiuni de analiz statistic dect n cazul meniului anterior, sunt doar cele de baz; de aici si concluzia: comanda DESCRIPTIVES se aplic atunci cnd avem de analizat din punct de vedere descriptiv, simultan, mai multe variabile sau cnd ne intereseaz doar parametrii de baz ai variabilelor, fr tabelele de frecvene. Apsam CONTINUE si apoi butonul OK pentru a face s v apar pe ecran OUTPUT-ul:

    fereastra cu rezultatele analizei DESCRIPTIVES

    De aceast dat apare doar un singur tabel care v prezint parametrii statistici solicitai. Observai c, din nou, varianta i deviaia standard nu sunt prezentate complet datorit limii mici a coloanelor. Executai click-dublu asupra tabelului i modificai-i dimensiunile, la fel ca n WORD.

  • 33

    Folosirea SPSS: Grafice - histograme, bare, linii, plcint", box-plot Se spune c o imagine face ct o mie de cuvinte. Vom prezenta n continuare diferite moduri de reprezentare grafic a rezultatelor. Toate se gsesc n meniul GRAPHS, dar apar uneori i ca opiuni n unele ferestre de prelucrare statistic din meniul ANALYZE. 1.- Histograme Vom alege pentru nceput opiunea HISTOGRAM, ca n imaginea de mai jos:

    alegerea meniului pentru histograme

    O dat activat aceast opiune, ea va deschide urmtoarea fereastr:

    fereastra histogramelor

    n cadrul acestei ferestre alegem o singur variabil pentru care dorim s facem reprezentarea grafic sub forma histogramei, n cazul nostru SALBEGIN (beginning salary) si o introducem - cu ajutorul butonului cu sgeat - n cmpul denumit VARIABLE. Putem bifa opiunea DISPLAY NORMAL CURVE, opiune care va afia curba normal a populaiei de eantioane din care provine eantionul nostru, n cazul nostru nu vom bifa aceast opiune. Pentru a obine graficul, dup aceste operaii apsam butonul OK.

  • 34

    histograma variabilei SALBEGIN O histogram, aa cum se vede si n imaginea de mai sus, este un grafic n care barele sunt lipite una de alta. n ceea ce privete variabila prezentat grafic mai sus, constatm c ea are o distribuie asimetric, valorile mici predominnd ca frecven. Aceast distribuie este tipic pentru reprezentarea grafic a venitului n rndul oricrei populaii. Explicaia const n aceea c n orice populaie exist civa indivizi care ctig mult, n timp ce majoritatea ctig la un nivel mediu sau sczut, comparativ cu aceti indivizi. Observm n exemplul de mai sus c n timp ce marea majoritate ctig pn la 20.000 dolari anual, exist cteva persoane (barele de frecven din partea dreapt abia se zresc pe grafic) care ctig i pn la 80.000 dolari anual. Este posibil s dorim s modificm diferite aspecte ale graficului realizat de SPSS. Pentru aceasta trebuie s efectum un dublu-click pe grafic si vom observa c se deschide o alt fereastr numit CHART EDITOR, care are n partea de sus o bar cu meniuri si o alta cu butoane ce folosesc la modificarea diferiilor parametrii ai graficului (ex. culoarea barelor, haura lor, adugarea sau modificarea titlului, etc.), ca n imaginea de mai jos.

  • 35

    unele butoane utile ale editorului de grafice Pentru a modifica un anume parametru al graficului, se selecteaz zona pe care dorim s o modificm (ex. dac dorim modificarea barelor, facem un click simplu pe ele) si apoi se activeaz unul din butoane. Am selectat mai sus doar patru din butoanele mai importante. Ele vor deschide mici ferestre de unde putei modifica parametrii, dup care apsai pe butonul APPLY si nchidei mica fereastr. (1) acest buton va modifica haura barelor (2) de aici se modific culoarea barelor (3) acest buton servete la modificarea tipului i mrimii literelor titlurilor sau meniunilor-text din grafic (4) butonul permite afiarea valorilor numerice pe bare. S lum un exemplu i s vedem cum putem aduga un titlu graficului nostru. Vom face acest lucru din meniul CHART, comanda TITLE, ca n imaginea de mai jos.

    3

    4 1

    2

  • 36

    n fereastra care se va deschide tiprii titlul SALARIUL DE LA NCEPUT si apsai butonul OK. Titlul va apare deasupra graficului. Mai putem, de asemenea, s modificm si ali parametri. De exemplu, un dublu-click asupra axei orizontale a graficului deschide fereastra de mai jos de unde putem modifica aranjamentul titlului axei (opiunea TITLE JUSTIFICATION), titlul n sine, etichetele (adic sumele corespunztoare fiecrei bare a histogramei), etc.

    ntr-un mod similar putem modifica parametrii legai de axa vertical, efectund un dublu-click pe aceasta, aciune care va deschide fereastra de mai jos. Aici putem modifica intervalul de msur, titlul axei si putem cere trasarea unor linii orizontale la diferite niveluri.

    Pentru a modifica parametrii oricrui titlu, efectuai un click-dublu, care va deschide fereastra de mai jos, de unde se modific stilul si mrimea literelor. Dup care apsai butonul APPLY si apoi CLOSE.

  • 37

    2.- Grafice cu bare Pentru a realiza grafice cu bare trebuie activat meniul urmtor:

    Imediat, apare fereastra de mai jos, de unde trebuie selectat tipul de grafic cu bare ce dorim s-l realizm.

    Dou sunt opiunile ce le putem face aici: (1) alegerea graficului n funcie de variabilele din cercetarea noastr simple: alegem aceast opiune cnd dorim s prezentm variabila sau variabilele dependente din cercetarea noastr n funcie de una din variabilele independente. clustered: se folosete pentru a reprezenta una sau mai multe variabile dependente n funcie de dou variabile independente. stacked: se folosete la fel ca opiunea de mai sus, doar graficul este realizat altfel.

    1

    2

  • 38

    (2) alegerea graficului n funcie de date summariesfor groups of cases: este opiunea cea mai frecvent i dac este aleas, atunci fiecare bar reprezint rezultatele unui grup de cazuri (ex. numai pentru grupul subiecilor femei). summaries of separate variables: fiecare bar reprezint n acest caz o variabil; aceast opiune e folosit mai ales n studiile de tip test-retest sau pentru variabilele care msoar de obicei acelai lucru (sau mcar se exprim n aceleai uniti de msur). values of individual cases: dup cum spune i numele, aceast opiune face ca barele s reprezinte valoarea cazurilor individuale; n acest caz graficul va semna mult cu o histogram. Pentru exemplul nostru, vom alege s reprezentm variabila dependent SALBEGIN (salariul iniial), n funcie de sexul subiecilor (GENDER). Vom alege astfel tipul de grafic simplu (simple) si opiunea de grafic pentru grupuri de cazuri (adic fiecare bar va reprezenta valorile pentru unul din sexe). Apsam apoi butonul DEFINE si pe ecran va apare fereastra:

    Observai c aceast fereastr este mprit n mai multe zone (cmpuri) pe care le vom descrie sumar mai jos: (1) - este cmpul n care se gsesc variabilele existente n baza de date si de unde alegem pe acelea care trebuie reprezentate grafic; (2)- acest cmp precizeaz ce anume dorim s reprezinte variabilele noastre (ex. numrul cazurilor, procentaje, etc.). n exemplul nostru, dorim s reprezentm media ctigului salarial pe sexe. Deoarece media nu se gsete n opiuni, vom alege OTHER SUMMARY

    2

    1

    5 4

    3

    6

  • 39

    FUNCTION i n momentul n care introducem variabila aleas n cmpul respectiv (cu ajutorul butonului cu sgeat), vom constata c acolo apare cuvntul MEAN (adic media). Dac ns am dori s reprezentm altceva dect media, spre exemplu mediana, atunci ar trebui s apsam pe butonul CHANGE SUMMARY. (3) - odat apsat acest buton, el deschid o alt fereastr, cu multe opiuni. Fereastra este prezentat mai jos i constatm c ea conine foarte multe opiuni (ex. s reprezentm deviaia standard sau doar procentajele cazurilor ce depesc o anume valoare, etc.)

    de aici ne alegem mai detaliat ceea ce vrem s reprezentm grafic

    (4) n acest cmp vom introduce variabila independent n funcie de care facem reprezentarea grafic, n cazul nostru sexul subiecilor (GENDER). (5) - este o opiune ce permite ca setrile (aranjamentele) pe care le-am folosit ntr-un grafic executat anterior s fie aplicate si n cazul graficului de fa. Dac bifai aceast opiune trebuie apoi s folosii butonul FILE pentru a selecta fiierul de unde dorii s mprumutai" setrile. (6) - folosind aceste butoane putei aduga un titlu graficului (butonul TITLE) sau s activai alte opiuni (OPTIONS). De altfel, acest din urm buton, care deschide fereastra prezentat n continuare, este important pentru a dezactiva opiunea DISPLAY GROUPS DEFINED BY MISSING VALUES, care realizeaz graficul si pentru subiecii care nu prezint valori ale variabilei independente (n cazul nostru pentru subiecii la care am uitat s completm n baza de date care este sexul lor).

    fereastra butonului OPTIONS

  • 40

    Dup ce am selectat variabilele i opiunile , vom apsa butonul OK i computerul va realiza graficul cu bare, ca n imaginea de mai jos:

    grafic cu bare

    Atenie mare la graficele realizate! Prin construcia lui, programul SPSS alege diferite intervale de reprezentare si - ca urmare - putei fi indui n eroare n ceea ce privete magnitudinea diferenelor. Spre exemplu, dac nu am fi ateni la intervalul de reprezentare (de la 12.000 USD/an la 22.000 USD/an), am putea crede c femeile ctig de vreo 5 ori mai puin dect brbaii (ceea ce este fals, desigur), cnd n realitate, brbaii ctig de doar l ,5 ori mai mult. Pentru a remedia o astfel de distorsiune grafic, putem modifica intervalul de reprezentare. Facei dublu-click pe grafic, apoi pe axa vertical a graficului i n fereastra ce apare, modificai limitele minime i maxime. O astfel de fereastr, numita SCALE AXIS este prezentat n capitolul HISTOGRAME. 3.- Grafice cu linii. Pentru graficele cu linii nu trebuie s intrm n detalii, ntruct realizarea lor este extrem de similar cu cea a graficelor cu bare. Odat selectat opiunea din meniul GRAPHS, apare fereastra:

    de aici selectm tipul de grafic

  • 41

    Urmai aceeai pai ca i n cazul graficul cu bare i vei obine n final o reprezentare precum cea de mai jos. Atenie, nu uitai s dezactivai opiunea DISPLAY GROUPS DEFINED B Y MISSING VALUES de la butonul OPTIONS!

    aa arat graficul cu linii

    i aici trebuie s avei n vedere problema scalrii rezultatelor ( intervalul de reprezentare). 4.- Grafice plcint Graficele de tip plcint" sunt folosite mai ales pentru a reprezenta grafic valorile (mai ales procentuale) pe diferite categorii, dintr-un ntreg dat. Ele sunt denumite plcint" pentru c valorile sunt reprezentate grafic ca si felii dintr-un tort. Activarea opiunii din meniul GRAPHS deschide fereastra de mai jos, care conine doar jumtate din opiunile ce apar la graficele cu bare sau cu linii. Nu le mai prezentm ntru ct am vorbit despre ele la tipurile anterioare de grafice.

    Vom alege prima dintre opiuni, ca i n cazurile anterioare. ntruct prezentm pri dintr-un ntreg nu putem folosi media ca n graficele anterioare, ci vom folosi suma, aa cum e reprezentat n pagina de mai jos:

  • 42

    Alegerea opiunii pentru folosirea sumei se face din butonul CHANGE SUMMARY. Iat cum arat un grafic plcint:

    5.- Graficul box-plot Numele acestui tip specific de grafic este dificil de tradus n limba romn, aa c vom folosi numele preluat din limba englez. Box-plot-urile sunt grafice speciale, care sunt folosite la reprezentarea simultan a indicatorilor de nivel (medie, median) i a celor de dispersie. Vom explica n continuare, detaliat ce nseamn acest lucru. Odat activat opiunea BOXPLOT din meniul GRAPHS, va apare fereastra:

  • 43

    De aici putem alege aproape aceleai opiuni de reprezentare grafic ca i n meniul de reprezentare cu bare, doar c avem la dispoziie mai puine opiuni. Pentru exemplul nostru vom alege graficul SIMPLE i opiunea SUMMARIES FOR GROUPS OF CASES. Dup ce apsm butonul DEFINE activm fereastra urmtoare:

    ntruct ceea ce este reprezentat grafic este dinainte presetat cu acest tip de grafice, nu mai avem aa multe opiuni n aceast fereastr. Alegem variabilele ca n imaginea de mai sus si apsam OK. Graficul rezultat arat astfel:

    5

    4

    3 2

    1

  • 44

    Cinci sunt elementele graficului care trebuie s ne atrag atenia: (1) - linia ngroat din interiorul cutiei" reprezint mediana, deci tendina central.

    Dac ea este mai apropiat de marginea de jos, atunci distribuia este nclinat spre stnga (predomin valorile mici si sunt puine cazuri cu valori mari, dar extreme), dac e mai apropiat de marginea superioar, atunci distribuia este nclinat spre dreapta.

    (2) - cutia" propriu-zis reprezint distribuia a 50% dintre subieci. Astfel, marginea de

    jos a cutiei arat valoarea percentilului 25%, iar marginea superioar - pe cea a percentilului 75%. Cu ct cutia" este mai mare, cu att variabilitatea rezultatelor este mai mare.

    (3) - limitele exterioare ale graficului, acele linii orizontale deasupra dedesubtul cutiei

    (numite n englez whiskers, adic musti c pisic") sunt trasate de la cea mai mic la cea mai mare valoare situate n limitele a 1,5 lungimi de cutie". i ele reprezint o msuri a variabilitii rezultatelor.

    (4) - cazurile extreme situate n intervalul 1,5-3 lungimi de cutie", sui reprezentate prin mici

    o - uri care au trecute n dreptul lor numrul cazului sau al subiectului respectiv.

    (5) - cazurile extreme situate la distane mai mari de 3 lungimi de cutie sunt reprezentate prin mici * (asteriscuri), care au trecute n drepi lor numrul cazului sau al subiectului respectiv.

    Exerciii: Realizai reprezentarea grafic similar, cu toate tipurile de grafice si pentru variabila SALARY, care arat salariul curent al subiecilor Comentai n special graficul box-plot.

  • 45

    STATISTICA DESCRIPTIV (2) - sau cum s mai dm un neles datelor brute

    Cuprins: Notele z Corelaia - Folosirea SPSS: meniul ANALYZE - CORRELATE - BIVARIATE - Folosirea SPSS: meniul DATA - SELECT CASES - Folosirea SPSS: meniul DATA - SPLIT FILES - Folosirea SPSS: meniul GRAPHS SCATTER British Club Francis GaJton este considerat a fi inventatorul corelaiei statistice, dei Karl Pearson i ali matematicieni au conceput de fapt formulele de calcul. Galton era vr cu Charles Darwin, coleg cu Pearson i profesor al lui Gosset (inventatorul testului t), n secolul XIX, dup cum observai, statistica era apanajul unui mic "club" britanic organizat informai n rndul unor studeni de la Cambridge. Mai mult chiar, la vremea respectiv, muli savani din alte tiine fceau parte din acest "club britanic". Unul din membrii "clubului", Galton, era un gentleman bogat, independent i deosebit de excentric. Dincolo de contribuia sa n statistic, el avea studii medicale, participase la explorri n Africa, a inventat ochelarii pentru citit subacvatic, a fcut descoperiri n meteorologie i antropologie, ba chiar a scris un articol despre captarea semnalelor inteligente de pe alte planete. Dincolo ns de toate acestea, Galton a fost un "numrtor" nfocat. El numra aproape orice; de exemplu, el a numrat odat de cte ori casc audiena la o conferin, n funcie de plictiseala indus de vorbitor. Alt dat, n timp ce un pictor i fcea portretul, a numrat de cte ori trage acesta cu pensonul pe pnz (el a constatat c un pictor d cu pensula cam de 20.000 ori n timp ce face un portret). Ajunsese chiar s-i construiasc un mic dispozitiv de numrat, pe categorii. Pe acesta din urm 1-a folosit n timp "ce cltorea n coloniile britanice din Pacific, nregistrnd frumuseea localnicelor de acolo ca fiind "atrgtoare", "medie" i "neatrgtoare". Dar corelaia s-a nscut din preocuparea lui Galton de a numra criminalii, geniile i alte tipuri extreme umane n diverse familii. Adept al eugeniei (naterea sau creterea controlat a oamenilor) Galton dorea s vad n ce msur caracteristicile genetice se transmit de la prini la copii. Astfel el a descoperit o metod de a msura faptul c "un lucru merge mpreun cu alt lucru" - de fapt corelaia, ns n acele vremuri, stabilirea legturii dintre dou variabile era echivalent cu stabilirea unei legturi cauzale. Astfel, Galton trgea concluzia c din moment ce putem arta matematic c oamenii cei mai detepi provin din cteva familii nstrite, de vi nobil, iar majoritatea celor puin inteligeni - din familii srace, inteligena este cauzat de anumite gene. Era el oare ndreptit s afirme astea ? Voi din ce fel de familii v tragei?

  • 46

    Am vzut n capitolul anterior c pentru a descrie complet o distribuie trebuie s cunoatem nu numai tendina central (de obicei media), ci si gradul de mprtiere a scorurilor n jurul acestei valori. Necesitatea cunoaterii ambelor valori rezid n faptul c n tiinele sociale avem de-a face cu mrimi variabile, ca urmare trebuie s lum n consideraie i variabilitatea, nu numai valoarea medie. Notele z i funciile lor Dup ce au descoperit formula de calcul a variantei i a deviaiei standard, statisticienii au simit nevoia calculrii unei mrimi care s sintetizeze att tendina central, ct i variabilitatea i care s, descrie scorurile unei distribuii din ambele perspective simultan. Aceast nevoie a aprut astfel din necesitatea de a putea compara un scor cu o distribuie (de a estima de fapt poziia scorului n raport cu celelalte) i din trebuina de a compara dou distribuii diferite. Estimarea unui scor n cadrul unei distribuii

    Caz: Gic este psihoterapeut. El este specializat n tratarea depresiei. La o bere, el i povestete unui coleg c ultimul su pacient s-a vindecat n 5 edine de terapie. "Avea depresie grav sau uoar?" ntreab colegul. Gic d s rspund, dar i d seama c pentru a fi sigur de rspuns ar avea nevoie de statistic. Scoate un carneel n care avea notai ultimii si pacieni i constat c ei s-au vindecat n medie n 8 edine. E suficient media pentru a stabili c pacientul care s-a vindecat n 5 edine avea o depresie uoar?

    Din moment ce deviaia standard i media ne spun care sunt scorurile tipice sau medii, putem s stabilim dac un nou scor se abate de la distribuia noastr ntr-un sens mai mic dect limita minim de variaie (m-SD) sau n altul mai mare dect limita maxim (m+SD). n cazul lui Gic, cunoaterea mediei nu e suficient pentru a stabili c 5 edine sunt anormal de puine pentru pacienii si, deci c acest ultim pacient avea o depresie uoar. Pentru a stabili acest fapt avem nevoie i de deviaia standard. Calculai singuri media i deviaia standard cunoscnd c distribuia scorurilor pentru ultimii 10 pacieni ai lui Gic este cea de mai jos:

    4, 12, 8, 8, 8, 9, 9, 6, 12, 4 Calculele arat c media este 8, iar deviaia standard este 2,64. Refcnd schema, vedem c scorurile tipice sunt cuprinse n intervalul 5,32 i 10,64.

  • 47

    Rotunjind valorile la numere ntregi, aceasta nseamn c n mod obinuit, pacienii lui Gic au nevoie de 6-10 edine pentru a se trata de depresie. Din moment ce intervalul 6-10 este considerat tipic, atunci ceea ce este n afara acestuia vor fi scoruri considerate atipice. Astfel, cei care se trateaz de depresie n mai puin de 6 edine vor fi pacienii cu depresie uoar, iar cei care se vindec n mai mult de 10 edine pot fi considerai ca avnd o depresie grav. Acum, avem i rspunsul la cazul nostru: pacientul care s-a vindecat n 5 edine a avut ntr-adevr o depresie uoar. Dar dac el s-ar fi vindecat n 6 sau chiar 7 edine, el era cu depresie normal, ntruct scorul su s-ar fi ncadrat n intervalul tipic de variaie. Este la fel cum punga de cafea de 96 grame este normal pentru intervalul de variaie 100 5, abia una de 94 de grame abtndu-se de la standard. Vedei aadar c n statistic, unde lucrm cu variabile, nu totdeauna un numr poate fi considerat "mai mic" sau "mai mare" dect altul (n general dect media). Este necesar s inem cont i de variabilitate. Situaia seamn cu aceea a cunoaterii intervalului de variaie a adncimii unui ru. Acesta nu are mereu aceeai adncime; uneori este mai adnc, alteori este mai puin adnc. Pe noi ne intereseaz care sunt fluctuaiile normale pentru a ti dac mai putem naviga pe el ori dac va fi secet (limita minim a adncimii), precum i dac nu cumva se anun vreo inundaie (limita maxim a adncimii, dincolo de care apele se revars). La fel este cazul i cu variabilele n statistic. Ne intereseaz nu doar media (adncimea medie a rului), ci si deviaia standard pentru a putea vedea limitele de variaie tipic. Pentru a nu face apel mereu la schema desenat anterior ori de cte ori dorim s comparm un scor cu o distribuie (s spunem dac el este mic, mediu sau mare), statisticienii au inventat notele Z. Formula pentru nota Z este:

    x mZSD-= (4)

    Dac "citim" n cuvinte aceast formul vedem c nota Z, numit si not sau scor standard, arat deviaia unui scor (x) de la medie (m), iar aceast abatere este exprimat n deviaii standard (SD). Mai precis, nota standard arat cu cte deviaii standard se abate un scor de la medie. S vedem, pe schema de mai jos, ce note standard corespund mediei, precum si limitelor de variaie, maxim si minim.

  • 48

    nlocuind datele n formula (4) constatm c mediei i corespunde mereu (oricare ar fi ea si orice am msura) scorul standard Z = 0. Similar, limitei minime de variaie tipic i corespunde scorul standard Z = -1 , iar limitei maxime de variaie normal i corespunde nota standard Z = +1. Acum putem stabili nite reguli simple, care ne permit s stabilim imediat ce fel de scor este x n raport cu o distribuie la care cunoatem media (m) i abaterea sau deviaia standard (SD) pe baza calculrii scorului Z corespunztor lui: un scor x va ficonsiderat "mic"n raport cu o distribuie la care cunoatem

    media i deviaia standard, dac scorul su Z va fi mai mic dect -1; un scor x va fi considerat "mediu" n raport cu o distribuie la care cunoatem

    media si deviaia standard, dac scorul su Z va fi cuprins n intervalul [-l, +11]. un scor x va fi considerat "mare" n raport cu o distribuie la care cunoatem media si deviaia standard, dac scorul su Z va fi mai mare dect +1.

    Din regulile de mai sus deducem prima funcie pe care o joac scorurile Z: aceea de a compara un scor cu o distribuie la care cunoatem parametrii (media si deviaia standard), cu alte cuvinte de a preciza dac un scor este mic, mediu sau mare. Interesant este de tiut c notele Z arat nu numai poziia unui scor fa de o distribuie, dar i de cte ori acel scor este mai mare sau mai mic dect media (innd cont i de variabilitate). Spre exemplu, dac scorurile la un test de inteligen ntr-o populaia sunt descrise de media m=100 i deviaia standard SD=15, o persoan considerat "de dou ori mai detept ca ceilali" nu va avea un coeficient de inteligen de 200, cum am fi tentai s credem la prima vedere (inteligena nu e o constant, nu?), ci doar unul de 130 (Z = +2; adic el se abate de la medie cu dou deviaii standard n plus). Compararea a dou distribuii diferite Dar notele Z mai au o funcie: aceea de a compara scorurile aceleiai persoane obinute la probe diferite.

    EX: O educatoare vine la psihologul grdiniei afirmnd c un copil din clasa ei este handicapat i ar trebui transferat la o alt grdini, cu program special. Psihologul nu poate da o recomandare fr investigarea prealabil a copilului. Astfel, el/ea i aplic copilului o prob de inteligen (ex. testul WISC - Wechsler Intelligence Scale for Children) i o prob de interaciuni sociale (ex. de cte ori copilul ia iniiativa n timp de o or atunci cnd se joac cu ali copii). Pot fi rezultatele de la cele dou probe comparate sau considerate mpreun? Scorurile lor brute nu pot fi comparate direct (la urma urmei, ele msoar lucruri diferite, nu?), dar scorurile lor standard - da.

    S presupunem c la testul WISC, copii de vrsta subiectului investigat n exemplul de mai sus obin n general media ml=60 cu o deviaie standard de SD1=14. Copilul investigat de psiholog obine la aceast prob scorul x l =81. Dac transformm acest scor n not standard, conform formulei (4), obinem nota Z 1=1,5. Ea ne spune c, comparativ cu ceilali

  • 49

    copii, copilul nostru este de 1,5 ori mai inteligent. Deci problema mizat de educatoare nu se gsete la nivelul inteligenei. La proba de interaciuni sociale s presupunem c distribuia scorurilor n populaia de copii precolari are urmtorii parametri: m2 = 16 si SD2 = 4, care arat numrul de iniiative ntr-o or dejoac cu ali copii. Aplicnd proba copilului investigat obinem scorul x2 = 8. Exprimnd acest scor brut n scor standard obinem valoarea 72=-2. Deci, din punct de vedere al interaciunilor sociale, copilul nostru este de dou ori mai timid, mai puin sociabil. ntruct notele Z arat raporturi si sunt adimensionale (ele nu depind de ceea ce msurm), putem s calculm un scor Z total, al celor dou probe. Astfel Z=Z1+Z2 ne ofer valoarea Z=-0,5. Acest scor standard fiind unul mediu (cuprins n intervalul -1/+1) ne permite s afirmm c subiectul investigat este normal pe ansamblu si nu necesit o educaie special. Cauza problemelor sale sociale poate fi n cadrul familiei sau poate c st n marginalizarea sa de ctre educatoare. Corelaia Cunoatei c a doua funcie a scorurilor Z este de a compara scorurile obinute de aceeai persoan la probe diferite (v mai amintii de exemplul cu copilul considerat handicapat de educatoare?). S vedem cum putem s ne folosim de aceast funcie pentru a studia relaia dintre dou variabile.

    Caz: Un psiholog de la o firm este interesat s stabileasc dac ntre numrul de subordonai i gradul de stres al managerilor exist vreo legtur. Pentru aceasta alege 6 manageri de la diferite departamente ale firmei, aplic un chestionar care msoar stresul i apoi msoar ci subordonai are fiecare dintre managerii alei. Obine tabelul de rezultate de mai jos, unde xl este scorul la chestionarul de stres i x2 este numrul de subordonai.

    X1 X2 9 18 11 29 6 11 14 35 12 25 2 8

    Observai c numerele din cele dou coloane, nu numai c sunt diferite ca ordin de mrime (prima coloan nu depete valoarea 20, iar a doua are aproape toate scorurile mai mari de aceast valoare), dar ele msoar n plus lucruri diferite. Cum am putea atunci s le asociem? Cel mai bine ar fi dac am transforma aceste scoruri brute (x1 i x2) n note Z (Zii Z2). Atunci, fiecare not Z ar arta poziia scorului n cadrul distribuiei din care face parte i putem apoi compara poziia scorurilor (adic s vedem, spre exemplu, dac scorurile "mici"

  • 50

    de la o variabil sunt asociate scorurilor "mici" la cealalt variabil, iar scorurile "mari" - celor "mari"). Pentru aceasta avem nevoie de tabelul de mai jos, dup ce n prealabil am calculat mediile celor dou variabile. Astfel, avem ml=9, iar m2=21.

    X1 X2 X1-m1 X2-m2 (X1-m1)2 (X2-m2)2 Z1 Z2 9 18 0 - 3 0 9 0 - 0,31 11 29 +2 +8 4 64 +0,50 +8,83 6 11 - 3 - 10 9 100 - 0,75 - 1,04 14 35 +5 +14 25 196 +1,25 +1,45 12 25 +3 + 4 9 16 +0,75 +0,41 2 8 - 7 -13 49 169 - 1,75 - 1,35

    SS1= 96, iar SS2=554. Putem calcula apoi varianta si deviaia standard. Astfel, SD1=4, iar SD2=9,60. Avnd valorile mediei si deviaiilor standard putem completa ultimele dou coloane ale tabelului. Urmrii cu atenie si comparai ultimele dou coloane ale tabelului. Ce fel de scoruri avem n ele. Conform semnificaiei scorurilor Z putem s "reformulm" ultimele dou coloane astfel:

    Z1 Z2 Semnificaia lui Z1

    Semnificaia lui Z 2

    0 - 0,31 Scor mediu Scor mediu +0,50 +8,83 Scor mediu Scor mediu - 0,75 - 1,04 Scor mediu Scor mic +1,25 +1,45 Scor mare Scor mare +0,75 +0,41 Scor mediu Scor mediu - 1,75 - 1,35 Scor mic Scor mic

    Observm astfel c pare s existe o relaie ntre cele dou variabile: ntlnim cam aceleai tipuri de scoruri la ambele variabile (scoruri mici asociate cu scoruri mici, iar cele mari); singurul caz n care nu avem aceast "potrivire" este la managerul al treilea, care are scoruri de tipuri diferite. Pe ansamblu ns putem spune c exist o relaie. Cum putem face s ilustrm mai uor relaia ce exist ntre cele dou variabile? Cum am putea avea doar un singur numr care s ne arate aceast relaie? Simplu, nmulind scorurile Z i apoi adunndu-le. n acest fel, dac ele sunt de acelai tip (ambele pozitive sau ambele negative) rezultatul acestei operaii va fi pozitiv, dac ele sunt de tipuri opuse (unul negativ i altul pozitiv) - rezultatul va fi unul negativ, iar dac nu exist o tendin de asociere, atunci numrul obinut va fi apropiat de zero. S procedm n consecin

  • 51

    Z1 Z2 Z1*Z2 0 - 0,31 0 +0,50 +8,83 0,41 - 0,75 - 1,04 0,78 +1,25 +1,45 1,81 +0,75 +0,41 0,30 - 1,75 - 1,35 2,36

    (Z1*Z2) = 5,66 Adunnd aceste produse (Z1*Z2) obinem numrul 5,66. ns acest numr nu este suficient pentru a arta relaia de care avem nevoie. De ce? Pentru c el depinde ntr-o oarecare msur de numrul de perechi de cazuri pe care le-am luat n calcul. Gndii-v c el ar creste dac am fi aplicat msurtorile folosind 10 manageri n loc de 6. Ca s nu mai depind acest numr de numrul de cazuri, trebuie s divizm suma obinut prin N. Si astfel, obinem formula corelaiei Pearson:

    r = ( 1* 2)Z ZN

    (5) n cazul nostru, r=0,94. Coeficienii de corelaie au valori cuprinse ntre -l (care arat existenta unei legturi perfect si invers proporional ntre variabile), O (care arat independena total a variabilelor luate n analiz) i +1 (care arat existena unei legturi perfecte, direct proporional). Acum calculai singuri coeficientul de corelaie dintre greutatea (n kg.) si nlimea (n cm.) colegilor din subgrupa voastr. Folosirea SPSS: meniul ANALYZE - CORRELATE BIVARIATE Corelaia este o metod statistic descriptiv, ntruct ea descrie ce se petrece ntr-un grup de rezultate, "cine cu cine merg mpreun", dar nu arat o relaie cauzal. Pentru a putea exemplifica cum folosim SPSS pentru calculul corelaiei, avem nevoie de o baz de date. Aa c vom lucra cu o baza de date pe care o vom crea acum, dar care va fi similar cu cea denumit "frai", pe care am creat-o n primul capitol. Vom deschide programul SPSS si vom introduce datele n computer, ca n tabelul de mai jos:

  • 52

    QI1 QI2 Sex

    109 110 1 101 102 1 104 103 1 106 106 1 112 115 1 115 115 1 116 119 1 109 104 1 115 121 1 121 110 1 120 123 2 113 111 2 102 114 2 104 101 2 106 106 2 104 106 2 108 109 2 106 105 2 106 107 2 124 103 2

    Reamintim c datele arat coeficientul de inteligen msurat la perechi de frai (primul nscut - QI1 si al doilea nscut - QI2) de acelai sex. Salvai baza de date cu numele corei". Folosii pentru aceasta butonul de salvare sau comanda SAVE din meniul FILE. Observai c am codificat sexul subiecilor folosind cifrele l" (pentru feminin") si 2" (pentru masculin"). Aceste cifre sunt la libera noastr alegere, ele fiind pur si simplu coduri si fr s aib semnificaia de numr (adic, n acest caz l nu este de dou ori mai mic dect 2, ci pur si simplu un alt cod). La fel de bine puteam s avem 23 si 68, n loc de l si 2. n programul SPSS, aceast baz de date ar trebui s arate astfel, dup ce definii n prealabil si numele variabilelor:

  • 53

    n cazul n care avem variabile categoriale sau independente (variabile care arat categorii de scoruri, cum ar fi sexul subiecilor, mediul de provenien, zilele sptmnii, categorii de vrst, tipuri de boli, etc.), este indicat s definim aceste categorii pentru a ne uura munca de analiz a rezultatelor si pentru a nu uita care scoruri corespund fiecrei valori (n cazul nostru care sunt rezultatele femeilor si care sunt ale brbailor). Definirea valorilor se face din perspectiva VARIABLE VIEW activat din josul paginii (revedei primul capitol dac ai uitat cum se face acest lucru). Odat activat perspectiva VARIABLE VIEW, pe ecran va apare imaginea:

    Observai c n dreptul variabilei SEX, pe coloana VALUES avem meniunea NONE. Aici trebuie s definim noi valorile acestei variabile (adic s asociem codurile l si 2 cu cele dou sexe). Pentru aceasta executai un click pe coloana VALUES n dreptul variabilei SEX. Va apare fereastra de mai jos:

    Observai c butonul AD s-a activat dup ce ai scris. Drept urmare el trebuie apsat pentru a activa codul i eticheta astfel alese.Dup apsare fereastra va arta ca n imaginea urmtoare:

  • 54

    Se observ c 1 este un cod care are semnificaia feminin i nu semnificaia sa obinuit de numr. La fel se procedeaz i pentru cellalt cod, ca n imaginea de mai jos:

    Revenii apoi n perspectiva DATA VIEW. Constatai c nu apare nici oschimbare vizibil. Si totui, dac dorii s vizualizai etichetele alese, activai comanda VALUE LABELS din meniul VIEW, ca mai jos:

    Astfel, pe ecran va aprea eticheta aleas, n dreptul variabilei SEX:

  • 55

    S vedem acum cum calculm corelaia cu ajutorul programului SPSS. Toate prelucrrile statistice se fac, reamintim, din meniul ANALYZE. De aici alegem comanda CORRELATE, opiunea BIVARIATE (adic corelaia ntre dou variabile), ca n imaginea urmtoare:

    Activarea comenzii va deschide o fereastr din care putem alege opiunile ca n imaginea de mai jos:

    S analizm puin fereastra: (1) - este, ca de obicei, cmpul ce prezint variabilele din baza de date (2) - este cmpul n care introducem variabilele de analizat. Atenie! Putem introduce aici mai mult de dou variabile, chiar dac metoda se cheam BIVARIATE. Programul va calcula apoi corelaiile ntre toate variabilele, luate dou cte dou. (3) - de aici putem selecta tipul corelaiei pe care dorim s-1 folosim. Ele au la baz diferite formule. Corelaia PEARSON se folosete pentru date parametrice (rezultate din msurtori ce au la baz scale ordinale, de interval sau de raport). Corelaiile Kendall si Spearman sunt folosite pentru variabile categoriale, ordinale sau atunci cnd datele noastre se abat puternic de la distribuia normal.

    1

    2

    3 4

    2

  • 56

    (4) - permite selectarea pragului de semnificaie n funcie de tipul ipotezei de cercetare. Recomandarea mea este ns s folosii totdeauna pragul bidirecional, TWO-TAILED, pentru a avea mai mult ncredere n rezultatele astfel obinute. (5) - bifarea acestei opiuni (care este activ din start) face ca n dreptul corelaiilor ce sunt semnificative s apar un asterisc (*). Introducei variabilele pentru analiz, ca n imaginea de mai jos:

    Putei folosi butonul OPTIONS pentru a solicita programului s fac o mic analiz descriptiv a rezultatelor sau pentru a preciza cum s trateze valorile lips.

    Observai n imaginea de mai sus c exist dou modaliti de a trata valorile lips (cmpul MISSING VALUES). Prima opiune (EXCLUDE CASES PAIRWISE) exclude de la analiz perechile de rezultate pentru care nu avem una din valori, n timp ce a doua opiune (EXCLUDE CASES LISTWISE) exclude de la analiz un rnd ntreg din baza de date dac doar una din valori lipsete. De obicei, mai frecvent este prima opiune, cea care si este activ din start. Apsai CONTINUE si apoi butonul OK. Programul va deschide automat fereastra OUTPUT unde v sunt prezentate rezultatele.

  • 57

    S vedem acum n ce mod se citesc si se interpreteaz informaiile de pe ecran, n primul rnd, observai dispunerea rezultatelor: ele seamn cu datele despre distana dintre orae pe care le gsim n mod obinuit n agende. Pe rndul orizontal de sus sunt aezate toate variabilele alese pentru corelaie (aa cum erau scrise oraele ntre care calculam distantele n agende); pe vertical, de asemenea avem toate variabilele. Corelaia dintre dou variabile se citete la intersecia numelor lor pe vertical i orizontal (la fel cum citeam distanele). Desigur, ntre o variabil i ea nsi nu putem avea corelaie (de fapt ea exist, dar are valoarea l , adic corelaie perfect pozitiv), fapt observat prin absena lui p (despre p vom discuta ulterior), deci nu vom lua n seam corelaiile de pe aceast diagonal. Mai observai c ceea ce se gsete n dreapta diagonalei este identic cu ceea ce se afl n stnga ei (adic corelaia dintre variabilele A i B este aceeai cu cea dintre variabilele B i A). Prag de semnificaie S comentm puin ce este pragul de semnificaie. n statistic, avem nevoie s generalizm concluziile studiilor, chiar i ale acelora descriptive, cum este corelaia. Astfel, ne intereseaz s vedem dac relaia gsit de noi (la un grup de oameni) poate fi extins la ntreaga populaie. Mai precis, ne intereseaz s tim n ce msur rezultatele noastre se datoreaz ntmplrii i n ce msur - nu. Ei bine, acest p (prescurtare de la procent) ne arat n ce msur ne nelm atunci cnd afirmm ceva (n cazul corelaiei: c exist o legtur ntre dou sau mai multe variabile). n cercetarea tiinific se lucreaz de obicei cu dou praguri de semnificaie, corespunztoare procentajului de eroare: pragul de 0,01 (1% eroare) i pragul de 0,05 (5% eroare).Cnd folosim unul sau altul? S lum un exemplu.

    Exemplu: S presupunem c suntei angajat de un mprat despotic ca i prezictor oficial. mpratul se folosete de "puterile" voastre pentru a-i impresiona supuii, n general, atunci cnd facem predicii se pot ntmpla patru situaii, conform tabelului de mai jos:

  • 58

    Evenimentul Apare Nu apare Predicia Apare Corect Eroare 1 evenimentului Nu apare Eroare 2 Corect

    Observai c sunt dou situaii n care putem s greim: (I) afirmm c un eveniment se produce cnd n realitate nu se produce; (II) - afirmm c un eveniment nu se produce atunci cnd el se produce.

    Cnd va fi mpratul mai suprat c greim? R: n situaia (I); atunci el apare prost n ochii supuilor si, mai mult dect n situaia (II). De altfel, dac suntei ateni, situaia (I) corespunde cu minciuna, iar situaia (II) - cu ignorana.

    i n tiin exist aceste dou situaii n care noi putem grei. Deoarece prima greeal are consecine mai grave, preferm n cazul acesta pragul de semnificaie de 0,01; dac dorim ns s avem mai multe anse n a demonstra ceva i consecinele nu sunt aa grave n caz de greeal, atunci preferm pragul de eroare de 5%, deci un p=0,05 n concluzie, vom considera un test statistic ca fiind semnificativ dac pragul de semnificaie este mai mic sau egal cu valoarea 0,05. Interpretarea corelaiei Revenind la exemplul nostru (rezultatele, aa cum sunt ele prezentate n SPSS) s vedem acum cum anume se interpreteaz corelaia, cunoscnd si felul n care se interpreteaz pragul de semnificaie. Cele trei numere prezentate de computer la intersecia dintre numele variabilelor sunt, n ordine de sus n jos: coeficientul de corelaie (n exemplul nostru r=0,50), pragul de semnificaie (n exemplul nostru p=0,02) si numrul de subieci (n exemplul nostru, numrul 20). Trei sunt elementele ce conteaz n interpretarea corelaiei: pragul de semnificaie: dac este mai mic de 0,05, atunci putem considera c exist o relaie ntre variabilele studiate; n cazul nostru putem spune c exist o legtur ntre coeficientul de inteligent al primului nscut si al celui de-al doilea nscut de acelai sex. Reamintim c pragul de semnificaie arat probabilitatea de a grei atunci cnd afirmm c ntre variabile ar fi o legtur. Deci el trebuie s fie ct mai mic pentru a putea face aceast afirmaie. semnul corelaiei: arat natura legturii care exist: direct proporional, dac semnul este pozitiv sau invers proporional cnd semnul este negativ, n cazul nostru, semnul este pozitiv, deci legtura este direct proporional sau, dac interpretm folosind cuvintele: dac primul nscut are un coeficient de inteligen ridicat, atunci exist tendina ca si al doilea s aib un coeficient similar, mrimea absolut a coeficientului: descrie tria legturii ce exist ntre variabile; se consider astfel c legtura este slab dac valoarea absolut a lui r nu depete 0,30;

  • 59

    legtura este de trie medie la o valoare cuprins ntre 0,30-0,50 si vorbim de legturi puternice dac mrimea absolut este mai mare de 0,50. n exemplul nostru, tria legturii este medie, pentru c nu depete cu mult valoarea de 0,50. Toate aceste elemente trebuie s apar n interpretare, pentru ca ea s fie complet. OBS: Ai observat c n interpretare am folosit cuvntul "exist tendina". De ce? Pentru c relaia descoperit nu este ntlnit exact, n toate cazurile (nu uitai c noi lucrm cu variabile, fenomene sociale care sunt influenate de mai muli factori), ci este vorba de o relaie probabilistic. i arunci, n ce msur gsim relaia n realitate? Coeficientul de corelaie ridicat la ptrat ne indic proporia de variant explicat de relaia gsit, mai precis ce procentaj din populaia general prezint exact relaia, n cazul nostru, se observ c abia 25% din variaia observat n populaie o ntlnim n realitate, deci relaia gsit este prezent exact n acest mod (direct proporional) la 25% dintre frai. Folosirea SPSS: meniul DATA - SELECT CASES Uneori ne este util s selectm anumite cazuri din populaie pentru a face o prelucrare statistic. Spre exemplu, credei c acelai coeficient de corelaie l vom gsi n egal msur si la femeile si la brbaii din studiul nostru? Nu, desigur. Spre exemplu, dac la o petrecere 25% dintre participani se mbat (astfel c toat lumea a avut impresia c "s-a but, nu glum!"), iar petrecerea a avut loc n trei camere, vom gsi n fiecare din acele trei camere exact 25% de persoane n stare de ebrietate? Nu se poate ti. Este posibil, dar la fel de bine, cei bei se puteau gsi doar ntre-o singur camer, nu-i aa? La fel i n exemplul nostru. Suntem interesai s vedem dac relaia dintre coeficienii de inteligen a celor doi frai o gsim, s zicem, la subiecii de sex feminin? Pentru aceasta vom folosi comanda SELECT CASES din meniul DATA, ca n imaginea urmtoare (atenie!, pentru a avea meniul DATA activ, trebuie s revenii la perspectiva DATA VIEW. Facei click pe numele fiierului din bara de sarcini situat la baza ecranului, cea care are butonul START n stnga sau activai numele fiierului din meniul WINDOWS).

  • 60

    Odat activat acest comand deschide fereastra:

    Fereastra este organizat ntr-un mod tipic: are n partea stng variabilele din baza de date, iar n dreapta diverse opiuni. Pe noi ne intereseaz doar opiunea IF CONDITION IS SATISFIED, pentru c dorim s selectm cazurile care ndeplinesc condiia c pentru variabila SEX au valoarea 1 ( femeilor li s-a atribuit acest valoare n cadrul variabilei SEX). Prin urmare vom alege acest opiune i vom activa butonul IF care deschide fereastra urmtoare:

    Aici, selectm variabila SEX, o trecem n cmpul din dreapta cu ajutorul sgeii si adugm condiia SEX-1 (de la tastatur sau folosind butoanele din mijlocul ferestrei). Observai c putem scrie aici condiii mult mai complicate si putem folosi pentru aceasta diferite funcii (precizate n cmpul FUNCTIONS din partea dreapt-jos a ferestrei). Apsam apoi butonul CONTINUE, apoi pe OK si observai ce se ntmpl n fereastra SELECT CASES:

  • 61

    n dreptul butonului IF a aprut condiia specificat de noi. Atenie! Avei grij ca n partea de jos a ferestrei n cmpul UNSELECTED CASES ARE s fie marcat opiunea FILTERED si nu DELETED, altfel programul va terge datele neselectate! Apsai butonul OK si observai ce se ntmpl n baza de date:

    Vedei c apare o nou variabil la sfrit, intitulat FILTER_$, dup care se realizeaz selecia. Mai observai c pe margine apar cazurile neselectate ca fiind "tiate", adic ele vor fi ignorate de la analiz, iar n partea din dreapta-jos a ecranului apare anunul FILTER ON, care v informeaz c selecia dup variabila filtru este activ. Atenie! Muli se ateapt ca odat datele selectate computerul s efectueze i analiza statistic dorit. Nu este aa! Selectarea datelor nu implic si efectuarea analizei statistice! De aceea, dup ce ai selectat, facei din nou prelucrarea, n cazul nostru corelaia. Pentru aceasta repetai paii efectuai anterior; adic activai comanda ANALYZE-CORRELAT


Recommended