+ All Categories
Home > Documents > Statistic A

Statistic A

Date post: 04-Jul-2015
Category:
Upload: alexandraaly22
View: 294 times
Download: 9 times
Share this document with a friend
122
Universitatea « Alexandru Ioan Cuza » Iaşi Facultatea de Educaţie Fizică şi Sport Învăţământ la distanţă ELEMENTE DE STATISTICĂ GEOGRAFICĂ Conf. dr . Octavian Groza Departamentul de Geografie Univ. „Al.I.Cuza” Iaşi Prof. dr. Claude Grasland Lector univ.Mihai Apetrei Département de géographie Departamentul de Geografie Université Paris VII Univ. „Al.I.Cuza” Iaşi Editura Universităţii « Alexandru Ioan Cuza » Iaşi, 2003
Transcript
Page 1: Statistic A

Universitatea « Alexandru Ioan Cuza » Iaşi Facultatea de Educaţie Fizică şi Sport

Învăţământ la distanţă

ELEMENTE DE STATISTICĂ GEOGRAFICĂ

Conf. dr . Octavian Groza Departamentul de Geografie Univ. „Al.I.Cuza” Iaşi

Prof. dr. Claude Grasland Lector univ.Mihai Apetrei Département de géographie Departamentul de Geografie Université Paris VII Univ. „Al.I.Cuza” Iaşi

Editura Universităţii « Alexandru Ioan Cuza » Iaşi, 2003

Page 2: Statistic A

3

CUPRINS

INTRODUCERE......................................................................................................................................................... 5

CAP.I. NOŢIUNI GENERALE ................................................................................................................................. 6 1.1. Cercetarea geografică şi metodele statistice............................................................................................. 6

1.1.1 Ce este Statistica? ................................................................................................................... 6 1.1.2. Statistica în Geografie ........................................................................................................... 7

1.2. Vocabularul de bază al Statisticii........................................................................................................... 10

CAP.II. PARAMETRII UNEI DISTRIBUŢII STATISTICE ................................................................................ 23 2.1. Valorile centrale..................................................................................................................................... 23

2.1.1. Modul (sau moda, sau valoarea modală)............................................................................ 23 2.1.2. Mediana (valoarea mediană) .............................................................................................. 24 2.1.3. Media aritmetică.................................................................................................................. 25

2.2. Parametrii dispersiei .............................................................................................................................. 26 2.2.1. Amplitudinea de variaţie..................................................................................................... 27 2.2.2. Cuartilele şi abaterile cuartile............................................................................................. 27 2.2.3. Indici de dispersie care au la bază media aritmetică ......................................................... 27

2.3. Parametrii formei................................................................................................................................... 29 2.3.1. Indici de asimetrie ............................................................................................................... 30 2.3.2. Indici de exces (de aplatizare) ............................................................................................. 30

CAP.III. TRANSFORMAREA ŞI STANDARDIZAREA DATELOR. ................................................................. 32 3.1. Standardizarea (normarea).................................................................................................................... 32 3.2. Transformarea ....................................................................................................................................... 33

CAP.IV. FUNDAMENTUL PROBABILIST AL JUDECĂŢILOR STATISTICE .............................................. 34 4.1. Distribuţia (curba) normală şi caracteristicile sale................................................................................ 34 4.2. Caracteristicile eşantioanelor (sondajelor) ............................................................................................ 38

4.2.1. Relaţiile dintre parametrii de sondaj şi cei ai populaţiei originare ................................... 38 4.2.2.Eşantioane mici..................................................................................................................... 41 4.2.3. Specificarea mărimii eşantionului ...................................................................................... 42

4.3. Verificarea ipotezelor statistice .............................................................................................................. 43 4.3.1. Ipoteze statistice................................................................................................................... 43 4.3.2. Teste statistice ...................................................................................................................... 44

4.3.2.1. Teste parametrice ............................................................................................... 46 4.3.2.2. Teste neparametrice. .......................................................................................... 53

CAP.V. PROBLEME GENERALE PRIVIND RELAŢIA DINTRE DOUĂ VARIABILE (NOŢIUNI DE ANALIZĂ BIVARIATĂ )................................................................................................. 57 5.1. Noţiunea de relaţie între două caracteristici .......................................................................................... 57 5.2. Tabelul de contingenţă şi studiul relaţiei între două caracteristici discrete........................................... 58

5.2.1. Crearea unui tabel de contingenţă...................................................................................... 58 5.2.2. Analiza unui tabel de contingenţă....................................................................................... 60

5.2.2.1. Stabilirea profilelor liniilor ................................................................................... 61 5.2.2.2. Stabilirea profilelor coloanelor ............................................................................. 61 5.2.2.3. Stabilirea existenţei / non-existenţei unei legături între cele două

caracteristici........................................................................................................ 61 5.3. Măsurarea relaţiei dintre două caracteristici cantitative continue ........................................................ 66

5.3.1. Coeficienţii de corelaţie ....................................................................................................... 69

Page 3: Statistic A

4

5.3.2. Regresia liniară.................................................................................................................... 72 5.3.2.1. Principiul regresiei ............................................................................................... 73 5.3.2.3. Reziduurile regresiei............................................................................................. 81 5.3.2.4. Testarea modelului de regresie ............................................................................. 84 5.3.2.5. Aplicaţiile regresiei liniare în geografie ................................................................ 86

5.4.1. Coeficientul de corelaţie Spearman .................................................................................... 88 5.4.2. Coeficientul de corelaţie Kendall ........................................................................................ 89

5.5. Măsurarea relaţiei dintre o caracteristică cantitativă şi una calitativă nominală sau dintre două caracteristici calitative nominale ........................................................................................... 90 5.5.1. Raportul empiric de corelaţie ............................................................................................. 90 5.5.2. Măsurarea relaţiei dintre două caracteristici calitative nominale .................................... 91

5.5.2.1. Coeficientul de contingenţă .................................................................................. 92 5.5.2.2. Coeficientul de asociere Yule ............................................................................... 92

5.6. Corelaţie şi cauzalitate ........................................................................................................................... 94

CAP.VI. SERII CRONOLOGICE ........................................................................................................................... 95 6.1. Definiţie şi termeni................................................................................................................................. 95 6.2. Serii cronologice şi indici....................................................................................................................... 96 6.3. Analiza seriilor cronologice ................................................................................................................... 98

6.3.1. Verificarea (testarea) caracterului aleator ......................................................................... 99 6.3.2. Descompunerea (filtrarea) seriilor cronologice................................................................ 100

6.3.2.1. Analiza trendului ................................................................................................ 101 6.3.2.2. Analiza variaţiilor sezoniere ............................................................................... 107

BIBLIOGRAFIE ....................................................................................................................................................... 113

Anexa I 114

Anexa II 115

Anexa III .................................................................................................................................................................... 116

Anexa IV .................................................................................................................................................................... 117

Anexa V 118

Anexa VI .................................................................................................................................................................... 119

Anexa VII................................................................................................................................................................... 120

Anexa VIII ................................................................................................................................................................. 121

Anexa IX .................................................................................................................................................................... 122

Page 4: Statistic A

5

INTRODUCERE

În scopul descoperirii structurilor spaţiale şi a dinamicilor de care acestea sunt

afectate, Geografia modernă este obligată să lucreze cu volume imense de date statistice.

Utilizarea echipamentelor electronice de calcul facilitează mult această sarcină însă esenţială

este pregătirea cercetătorului care încearcă să surprindă eventualele regularităţi dintr-o lume

în care accelerarea fenomenelor creează impresia unei evoluţii haotice. În acest context,

stăpînirea metodelor statistice devine primordială.

Prezentul curs este destinat transmiterii elementelor de bază ale statisticii

descriptive, respectiv a metodelor de analiză univariată şi bivariată a informaţiei disponibile.

Obiectivul său principal este acela de a pune la îndemîna studenţilor tehnicile fundamentale

de sintetizare a informaţiei conţinută în tabelele statistice, etapă care trebuie să preceadă orice

operaţie ulterioară (în special cartografierea informaţiei).

Primul capitolul prezintă specificul statisticii în domeniul geografiei (unde

unităţile statistice sînt reprezentate de obiecte, procese şi fenomene spaţializate), precum şi

vocabularul statistic de bază, necesar înţelegerii şi însuşirii teoriei şi practicii Statisticii.

Capitolele al II-lea, al III-lea şi al IV-lea sunt axate pe expunerea noţiunilor teoretice

elementare, în contextul analizei univariate a distribuţiilor statistice. Obiectivul urmărit în

aceste trei capitole este acela de a familiariza studenţii cu analiza tabelelor unidimensionale

(„cu o singură intrare”). Capitolul al V-lea introduce studentul în domeniul analizei bivariate,

respectiv al studiului tabelelor bidimensionale („cu două intrări”), strict necesară în geografie

deoarece în lumea înconjurătoare nici un obiect, proces sau fenomen nu evoluează singur,

izolat de evoluţiile vecine. În fine, ultimul capitol, al VI-lea, prezintă metodologia cercetării

seriilor cronologice, respectiv al tabelelor în care una dintre dimensiuni este cea a unităţilor de

timp (ore, zile, luni, ani, decade, etc.), foarte utilă în efortul de sesizare a sensului şi direcţiei

evoluţiei în timp a obiectelor, proceselor şi fenomenelor geografice. Anexele I-IX conţin

tabelele necesare testării ipotezelor statistice, precum şi un eşantion de numere aleatoare.

Însuşirea metodelor prezentate în acest curs, precum şi a fundamentelor lor

matematice, va acorda în final studentului o independenţă sporită în rezolvarea problemelor

care apar inerent în domeniul cercetării geografice.

Page 5: Statistic A

6

CAP.I. NOŢIUNI GENERALE. 1.1. Cercetarea geografică şi metodele statistice. 1.1.1 Ce este Statistica? O definiţie riguroasă a acestei discipline este greu de dat - în literatura de specialitate au fost inventariate peste o sută de încercări în acest sens; mai mult, în aceeaşi literatură termenul „statistică” este folosit în cel puţin două sensuri diferite1, ca să nu mai vorbim de conotaţiile termenului în limbajul comun. Din punctul de vedere al Geografiei, ca ştiinţă a naturii, o definiţie acceptabilă ar fi următoarea: Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a

fenomenelor de masă, dezvăluind particularităţile lor de mărime, structură, dinamică, precum şi conexiunile lor interne. În felul acesta Statistica îşi propune să contribuie la evidenţierea legilor ce guvernează manifestările spaţio-temporale ale acestor fenomene.

Dar ce înseamnă fenomene de masă? În limba greacă „phainomenon” înseamnă „ceea ce apare”. Altfel spus, numim „fenomene” acele caracteristici exterioare, vizibile sau, oricum, observabile ale realităţii materiale înconjurătoare. Ceea ce diferenţiază fenomenele de masă de alte tipuri de fenomene este faptul că ele se constituie ca rezultat al acţiunii colective şi repetate a unui mare număr de factori întâmplători. De aceea pentru a accede la esenţă, adică pentru a vedea ce se ascunde în spatele fenomenului, este nevoie să analizăm un mare număr de cazuri individuale. Câteva exemple de fenomene de masă: · comportamentul demografic al unei populaţii, ca rezultat al interacţiunii complexe dintre factorii economici, sociali, culturali, educaţionali, psihologici. Ca fenomen de masă, el poate fi pus în evidenţă doar prin intermediul unor indici demografici (natalitate, mortalitate, spor natural, fertilitate feminină, structura populaţiei pe sexe, grupe de vârstă sau profesională, apoi gradul de instruire a populaţiei, nivelul de trai etc.) obţinuţi din inventarierea unui mare număr de indivizi ai populaţiei respective; · tendinţa de încălzire a climei globului terestru - reprezintă un fenomen complex, ce poate fi decelat doar prin analiza şi prelucrarea unor cantităţi uriaşe de date climatologice provenite de la mii de puncte de observaţie ce acoperă suprafaţa întregului glob. La scări spaţiale mai mari sau mai mici se pot identifica nenumărate exemple de astfel de fenomene, pentru care se mai utilizează denumiri alternative ca „fenomene colective”, „fenomene statistice” sau „fenomene atipice”. Acest ultim termen exprimă destul de sugestiv esenţa unui fenomen de masă: aceea de a nu se putea reproduce în mod identic aproape niciodată (iar dacă se reproduce în mod identic, faptul se datorează doar întâmplării).

1. a) Ştiinţa cu acest nume; b) criteriu formal pentru verificarea ipotezelor statistice (vezi § 4.3).

Page 6: Statistic A

7

Statistica, privită ca domeniu distinct al cunoaşterii umane, a apărut iniţial ca o generalizare sui generis a unor date despre fenomenele social-economice. Pe la mijlocul secolului trecut ea era, încă, privită ca o ştiinţă socială. Treptat, însă, Statistica s-a „infiltrat” în domenii aparţinând ştiinţelor naturii, încât s-au conturat, cu timpul, noi discipline ştiinţifice - de ex. statistica matematică, fizica şi mecanica statistică, statistica biologică ş.a. Statutul actual al Statisticii ca ştiinţă este încă neclar, de unde şi marea diversitate a definiţiilor în circulaţie despre care aminteam anterior. În literatura dedicată acestui subiect se pot distinge, totuşi, două curente principale de opinie: unii califică statistica drept o ştiinţă, iar alţii o consideră (şi) o metodă. Este cert, însă, că începând din perioada interbelică, sub impulsul unor personalităţi de seamă din domeniu ca K.Pearson (1857-1936) şi R.A.Fisher (1890-1962), statistica şi-a elaborat fundamente ştiinţifice (mai ales matematice) foarte precise. Ea se dezvoltă în prezent ca ştiinţă cvasi-independentă, dar având însuşirea, mai mult decât altele, de a fi în acelaşi timp o ştiinţă, dar şi o metodă cu aplicabilitate în alte domenii ştiinţifice. Indiferent dacă este concepută ca ştiinţă sau ca metodă, statistica actuală prezintă două laturi diferite, dar complementare: 1°. descrierea statistică - fixarea informaţiei rezultate din prelucrarea datelor de observaţie (empirice) sub forme diverse, dar cel mai adesea sub formă de indici sau parametri statistici; 2°. inferenţa2 statistică - tratarea teoretică a datelor de observaţie pentru a trage concluziile logice, concluzii care depind de specificul domeniului din care provin respectivele date. Prima latură, mai accesibilă înţelegerii comune, este cunoscută sub denumirea de statistică descriptivă. Cea de-a doua, mai dificilă, întrucât mai formalizată din punctul de vedere al fundamentelor matematice, constituie aşa-numita statistică inferenţială sau inductivă, numită uneori şi statistică probabilistă datorită faptului că baza ei matematică o constituie teoria probabilităţilor. Trebuie subliniat că în cadrul demersului statistic cele două aspecte trebuie privite ca etape ale unuia şi aceluiaşi proces de cunoaştere umană. 1.1.2. Statistica în Geografie O incursiune în literatura geografică ce vizează problemele teoretico-epistemologice specifice ar putea conduce la concluzia că Geografia nu beneficiază, până în prezent, de o riguroasă circumscriere a sferei sale de cercetare. Însă diversele opinii asupra obiectului de studiu converg cel puţin într-un punct: în sarcina Geografiei intră analiza repartiţiei şi localizării spaţiale a obiectelor, fenomenelor şi proceselor naturale sau sociale. Deoarece repartiţia şi localizarea spaţială creează organizări teritoriale cu trăsături diferite de la un loc la altul, se evidenţiază existenţa unor diferenţieri spaţiale ale sistemelor naturale, sociale sau ale geosociosistemelor. Aceste diferenţieri sunt, fără doar şi poate, expresia unor fenomene de masă. Prin urmare rolul Geografiei este acela de a dezvălui esenţa acestor fenomene de masă, deci a structurii lor spaţiale. Într-adevăr, „nu distribuţiile însele interesează geografii, ci mai degrabă faptul că ele variază în configuraţie şi intensitate de la un loc la altul” (M.Chapot, 1977, p.11). Analiza geografică a fenomenelor şi proceselor ce caracterizează dinamica spaţio-temporală a învelişurilor terestre, ca şi analiza relaţiilor dintre om (societate) şi suportul spaţial al activităţii sale, este permanent condiţionată de apelul la date cantitative obţinute prin măsurători. 2 Inferenţa (lat. inferre - a duce) este operaţia logică de derivare a unui enunţ din altul, prin care se admite o judecată (al cărei adevăr nu este verificat direct) în virtutea unei legături a ei cu alte judecăţi considerate ca adevărate (cf. F.Marcu şi C.Maneca, Dicţionar de neologisme, Ed. Academiei, 1978).

Page 7: Statistic A

8

Câteva exemple: · caracteristicile poziţionale şi morfometrice ale unor obiecte de la suprafaţa Terrei pretind informaţii numerice de tip coordonate geografice, distanţe, suprafeţe, altitudini etc.; · studiul interacţiunilor dintre învelişurile naturale terestre face apel la date cantitative asupra unor elemente ca temperatura aerului şi solului, precipitaţii, debite, presiune atmosferică, viteza vântului, eroziune etc.; · localizarea activităţilor umane şi a resurselor aferente necesită informaţii precise asupra suprafeţelor de teren cu diferite utilizări/tipuri de sol, asupra populaţiei active, resurselor subsolice, punctelor de concentrare a activităţilor industriale ş.a.; · repartiţia şi dinamica populaţiei umane nu pot fi urmărite decât prin intermediul unor indici cantitativi cum ar fi numărul total sau pe diverse categorii, natalitatea, mortalitatea, structura (pe sexe, pe grupe de vârstă, profesională), indici de mobilitate teritorială etc.; · studiul reţelelor de schimburi comerciale şi al fluxurilor dintre nodurile reţelelor, fluxuri ce constituie manifestări ale interacţiunilor spaţiale3, pretind date cantitative referitoare la reţelele feroviare, rutiere, fluviale, de transport maritim etc., date asupra volumului schimburilor comerciale ş.a. Determinările cantitative (observaţii şi măsurători) asupra obiectelor, proceselor şi fenomenelor constituie, aşadar, punctul de plecare pentru demersul cognitiv geografic. În acelaşi timp, ele oferă posibilitatea unui demers geografic ştiinţific (în sensul exactităţii) deoarece permit, pe de o parte, emiterea unor ipoteze asupra realităţii, iar pe de altă parte permit verificarea acestor ipoteze prin aplicarea metodelor statistico-matematice de analiză a datelor. Datele geografice provenite din măsurători şi observaţii se referă, în mod obişnuit, la caracteristici ale unor fenomene şi/sau procese care se desfăşoară într-un anumit loc de pe glob şi într-un anumit moment (interval) de timp. De aici ideea de a generaliza natura datelor geografice sub forma unei matrici tridimensionale numită „cubul datelor geografice” (Johnston,1978; v.fig.1.1). Cele trei dimensiuni ale acestui cub sunt localizările (locurile)4, timpul şi fenomenele (procesele). În secţiunea din fig.1.1 fiecare rând reprezintă un loc, iar fiecare coloană corespunde unui fenomen (proces); momentelor (intervalelor) de timp în care se manifestă fenomenele cu localizări diferite le corespund „strate” succesive ale cubului.

3 Prin „interacţiuni spaţiale” se înţelege acţiunea reciprocă a două sau mai multe sisteme cu localizări spaţiale diferite. În domeniul geografiei studiul i.s., abordate la scară macro-spaţială (în aceasta constând deosebirea dintre geografie şi alte ştiinţe care studiază astfel de interacţiuni - de ex. sociologia, psihologia, economia, fizica), a condus la elaborarea unor modele de intracţiune spaţialţ dintre care cel mai important este modelul gravitaţional. Acest model se bazează pe analogia dintre intracţiunea spaţială şi interacţiunea fizică din teoria gravitaţională a lui Newton:

d

mmk = I n

ij

jiij

, în care: Iij - interacţiunea dintre locurile i şi j; mi, mj - „masele” locurilor i şi j (de ex. numărul de locuitori); k, n - constante empirice. 4În literatura geografică românească termenul „localizare” are mai multe sensuri: - poziţie (aşezare) geografică; - acţiunea de a repera (identifica) obiecte, fenomene, procese; - acţiunea de a implanta în teritoriu, într-un anumit loc, un obiect, o activitate economică etc.; - acţiunea de a aduce la scară locală, de a descentraliza. De regulă sensul reiese din context; atunci când acesta din urmă este insuficient, este preferabil să se folosească sinonimele corespunzătoare - spre exemplu, în fig.1.1. s-a folosit termenul „locuri” pentru a desemna poziţia în spaţiu a fenomenelor.

Page 8: Statistic A

9

Este clar că un asemenea cub poate cuprinde cantităţi foarte mari (teoretic nelimitate) de date. Tocmai asemenea ansambluri mari de date cantitative constituie, îndeobşte, materialul de lucru pentru analizele statistice. Aceasta nu înseamnă, însă, că Statistica nu poate să analizeze şi ansambluri mici, sau seturi de date non- numerice, calitative. În toate cazurile, în termeni cantitativi, ea descrie sintetic, clasifică, ierarhizează, evidenţiază structuri şi izomorfisme5, încearcă să precizeze (cuantifice) tăria şi intensitatea legăturilor dintre fenomene, permite generalizări şi interpretări ale acestora. Utilizarea metodelor statistice conferă demersului geografic un spor de rigurozitate ştiinţifică, înţeleasă ca precizie a rezultatelor cercetării, obiectivitate a concluziilor, precum şi ca diminuare a redundanţei şi ambiguităţilor discursului geografic. Ca şi în cazul altor ştiinţe naturale sau sociale, demersul ştiinţific geografic are două laturi complementare: 1°. există, pe de o parte, demersul inductiv, care încearcă să generalizeze o serie de observaţii empirice, încercând să ajungă la formularea de legităţi şi, apoi, la elaborarea de modele ale realităţii. Exemplu. Se măsoară temperatura aerului la diferite altitudini de-a lungul unui versant muntos. Să presupunem că s-au găsit 10°C la 1000 m, 4°C la 2000 m şi -2°C la 3000 m altitudine. Repetarea măsurătorilor pe un alt versant a dat rezultate asemănătoare. Se trage concluzia că temperatura scade, în medie, cu 0,6°C la fiecare 100 m creştere a altitudinii; altfel spus, se stabileşte o legitate pe calea demersului inductiv (trecerea de la particular la general); 2°. pe de altă parte, există demersul deductiv, care se desfăşoară în sens invers faţă de cel inductiv: se porneşte de la o regulă generală pentru a se trage nişte concluzii în legătură cu un fapt particular. În acest caz regula este preluată sub forma unei ipoteze care, confruntată cu datele de observaţii, poate să fie confirmată sau infirmată. Exemplu. Se porneşte de la legea scăderii, de la Ecuator spre poli, a cantităţii de căldură recepţionată de suprafaţa terestră. Se emite ipoteza că temperatura medie a aerului scade în acelaşi sens, ştiut fiind faptul că ea este dependentă de cantitatea de căldură menţionată. Confruntarea ipotezei cu datele climatologice dovedeşte că ipoteza testată este valabilă doar sub forma uneitendinţe generale, pe fondul căreia apar excepţii datorate unor factori diverşi (altitudinea şi orientarea culmilor muntoase, albedo-ul suprafeţei terestre, curenţii marini etc.). Procesul cunoaşterii ştiinţifice constă într-o permanentă succesiune a celor două tipuri de demersuri: inducţia furnizează reguli şi legităţi care stau la baza unor deducţii (ipoteze) ce se

5 Izomorfism (grec. isos - egal şi morphe - formă) - identitate de structură între două sau mai multe sisteme cu conţinut diferit; modalitate riguroasă a analogiei, întemeind „analogia structurală”, diferită de „analogia funcţională” sau „analogia substanţială” (cf. Dicţionar de filozofie, Ed. Academiei, 1979).

Figura 1.1. Cubul datelor geografice.

Page 9: Statistic A

10

cer, apoi, confruntate cu datele de observaţii; eventualele diferenţe intre modelul teoretic şi realitatea faptică pot conduce, pe cale inductivă, la reformulări ale legităţilor, ce se cer şi ele verificate ş.a.m.d. Acest ciclu generator al progresului cunoaşterii ştiinţifice a fost numit, sugestiv, „spirala inductiv-ipotetic-deductivă” (IID). Orice ştiinţă, inclusiv Geografia, cunoaşte o dezvoltare condiţionată de înscrierea în modelul IID. Iar pentru Geografie, ca ştiinţă al cărei obiect de studiu este încă insuficient precizat şi nesatisfăcător încadrată în legi şi postulate, recursul la metodele statistice este inevitabil. * * * Iată de ce, pentru un geograf, metodele statistice constituie un sprijin valoros. Cunoaşterea acestor metode de către geograf are aceeaşi importanţă ca şi stăpânirea limbilor străine de către un diplomat. Nici statistica, pentru geograf, nici limbile străine, pentru diplomat, nu constituie obiectul lor de studiu, însă reprezintă instrumente indispensabile pentru succesul activităţilor specifice. Aşa cum un diplomat ignorant poate face apel la un translator, tot astfel un geograf poate face apel la un statistician cu experienţă în analiza datelor de observaţii. Dar şi într-un caz şi în altul prezenţa unui intermediar riscă să reducă eficienţa acţiunilor, ca să nu mai vorbim de posibilitatea apariţiei erorilor: de traducere, în cazul interpretului care nu stăpâneşte complexitatea situaţiilor diplomatice, respectiv de interpretare, în cazul statisticianului care nu cunoaşte în profunzime problemele geografice. 1.2. Vocabularul de bază al Statisticii În sens cronologic, primul domeniu de aplicare a Statisticii a fost demografia. De aceea, deşi în prezent Statistica a pătruns în numeroase alte domenii, o parte din vocabularul său de bază include termeni originari din demografie. S-a menţionat deja că demersul analitic în Geografie are la bază cubul datelor geografice. Acesta constituie, în fond, un masiv de date al cărui volum poate deveni impresionant atunci când cercetarea se extinde pe spaţii mari sau pe intervale mari de timp. Un asemenea masiv de date poartă, în Statistică, denumirea de populaţie. O populaţie este un ansamblu finit sau infinit de elemente (unităţi, indivizi)

distincte care intră sub incidenţa observaţiilor şi măsurătorilor. Acesta este ansamblul de referinţă asupra căruie se exercită analiza statistică. El trebuie să fie omogen şi precis definit. Elementele care îl formează au în comun una sau mai multe proprietăţi, astfel încât să se poată preciza clar dacă un element oarecare face parte sau nu din ansamblul luat în considerare, în funcţie de prezenţa/absenţa proprietăţii (proprietăţilor) respective. Exemple. · populaţia (locuitorii) judeţului Iaşi la 1.01.1992 - un ansamblu finit, elementele au o proprietate comună (domiciliul stabil în judeţul Iaşi), spaţiul este precis delimitat de către graniţele administrative ale judeţului, momentul de timp este precizat; · populaţia lacurilor din Câmpia Moldovei la sfârşitul anului 1993 - ansamblu finit, există o proprietate comună a elementelor (faptul că sunt ape stătătoare permanente), spaţiul delimitat, timpul deasemenea; · populaţia oraşelor cu peste 1 milion de locuitori din Europa, la sfârşitul anului 1992;

Page 10: Statistic A

11

· populaţia cantităţilor lunare de precipitaţii la staţia Iaşi - ansamblu practic infinit, din care şirul de observaţii existent (după 1893) reprezintă doar o mică parte. În majoritatea cazurilor, în geografie populaţiile sunt ansambluri de elemente spaţiale precis localizabile şi susceptibile de a fi cartografiate. Se pot distinge trei tipuri mari de unităţi spaţiale: * unităţi de tip areal (planiforme) - de exemplu judeţe, regiuni, state, bazine hidrografice, zone climatice ş.a.; * unităţi de tip punctual (punctiforme) - aşezări umane, puncte geodezice, vulcani, staţii meteo, confluenţe de râuri ş.a. De remarcat că unităţile spaţiale de tip areal pot trece în unităţi de tip punctual şi invers, odată cu trecerea de la o scară spaţială de analiză la alta; * unităţi de tip liniar (axiale) - străzi, tronsoane de cale ferată, râuri, linii de falie, linii de intersecţie a fronturilor atmosferice cu suprafaţa terestră ş.a. Individ (vezi şi definiţia de mai sus). Un individ, sau unitate statistică, este un element ce aparţine unei populaţii;

apartenenţa sa la populaţia respectivă este indubitabilă, întrucât este definită după criterii/proprietăţi neambigui.

Eşantion Un eşantion este un subansamblu al unei populaţii, alcătuit prin extragerea de

elemente din populaţia de bază. Extragerea se face după reguli precis stabilite, în funcţie de scopul analizei statistice şi de natura datelor de observaţii. Concluziile analizei pot fi apoi extinse asupra întregii populaţii, bineînţeles, cu o anumită marjă de eroare. Dar, lucru foarte important, marja de eroare poate fi calculată; mai mult, în unele cazuri această marjă de eroare poate fi stabilită încă înainte de prelevarea eşantionului. Fundamentele matematice ale prelevării eşantioanelor sunt oferite de către o ramură a Statisticii numită „Teoria eşantionajului”. Pentru majoritatea disciplinelor geografice metodologiile de cercetare specifice implică lucrul cu eşantioane - de exemplu studiul granulometric al solului sau aluviunilor, studiul proprietăţilor fizico-chimice ale aerului, apei sau rocilor se bazează, inevitabil, pe eşantioane. Pe de altă parte, studiul variaţiilor spaţiale sau temporale ale elementelor climatice sau hidrologice porneşte de la şirurile de date de observaţii care, oricât de lungă ar fi perioada pe care o acoperă, constituie de fapt nişte eşantioane ce provin dintr-o populaţie practic infinită, sau măcar inaccesibilă (timpul geologic). Caracteristică statistică Caracteristica (statistică a) unei populaţii este o însuşire, un caracter care este

comun tuturor elementelor respectivei populaţii. Exemple: · vârsta, sexul - în cazul populaţiei umane; · numărul de locuitori - în cazul populaţiei oraşelor dintr-o anumită regiune; · debitul mediu anual (sau zilnic,lunar) - în cazul populaţiei râurilor dintr-o zonă oarecare. · valoarea producţiei industriale - în cazul populaţiei judeţelor din România etc.

Page 11: Statistic A

12

Din punct de vedere statistic, a defini o caracteristică a unei populaţii înseamnă a stabili o corespondenţă astfel încât fiecărui individ al populaţiei să i se asocieze una şi numai una dintre valorile pe care le poate căpăta caracteristica respectivă. În funcţie de scopurile analizei, indivizii pot fi descrişi (caracterizaţi) prin intermediul unei caracteristici sau al mai multora (vezi tabelele 1.1 şi 1.2). Diferitele valori (nu neapărat numerice) pe care le poate căpăta un individ în raport cu o anumită caracteristică poartă denumirea de modalităţi ale caracteristicii respective. Modalităţile unei caracteristici trebuie să îndeplinească simultan două condiţii: 1°. Să fie incompatibile, altfel spus corespondenţa dintre indivizi şi modalităţile caracteristicii trebuie să fie univocă (unui individ îi corespunde o modalitate şi numai una, chiar dacă una şi aceeaşi modalitate poate corespunde la mai mulţi indivizi - vezi tab.1.2, 1.3); 2°. Să fie exhaustive, adică să nu existe indivizi cărora nu le corespunde nici o modalitate a caracteristicii. Exemplu. Să considerăm populaţia studenţilor de la Facultatea de Geografie din Iaşi, la începutul anului 2003, repartizată după caracteristica „preferinţe muzicale” cu modalităţile: rocker, metalist, reggae-ist, „simfonist” (adică adept al muzicii simfonice). În acest caz modalităţile nu sunt incompatibile (un rocker poate agrea la fel de bine şi muzica simfonică), nici nu sunt exhaustive (sunt destui studenţi pasionaţi de muzica bănăţeană...). S-a menţionat mai sus că reciproca condiţiei de incompatibilitate nu este valabilă. Altfel spus, unei modalităţi îi pot corespunde mai multe elemente din cadrul populaţiei. Numărul de elemente (indivizi) care corespund unei modalităţi a caracteristicii constituie aşa-numitul efectiv (frecvenţă brută, frecvenţă absolută) al (a) modalităţii respective. Este clar că, dacă sunt respectate condiţiile menţionate mai sus, suma efectivelor modalităţilor va fi egal cu numărul total de elemente din populaţia de bază (vezi tab.1.3). Se disting două categorii de caracteristici: calitative şi cantitative. Criteriul de diferenţiere îl constituie, de regulă, posibilitatea şi/sau sensul calculării mediei aritmetice a modalităţilor. Caracteristicile calitative pot fi, la rândul lor, de două feluri: nominale, la care modalităţile sunt exprimate printr-un substantiv sau un cod (de ex. caracteristica „sex” din tab.1.2) şi ordinale, în cazul cărora modalităţile reprezintă ranguri ale fiecărui individ în raport cu caracteristica respectivă (de ex. caracteristica „poziţia pe lista admişilor”, după care poate fi repartizată populaţia studenţilor anului I Geografie, anul şcolar 2003/2004). Caracteristicile cantitative sunt cele la care modalităţile sunt exprimate prin numere. Drept urmare media aritmetica a modalităţilor caracteristicii poate fi calculată şi, spre deosebire de caracteristicile calitative ordinale, are un sens intuitiv. Caracteristicile cantitative pot fi şi ele grupate în funcţie de mai multe criterii. Astfel, după cum valoarea 0 (zero) a modalităţilor indică sau nu absenţa fenomenului, ele pot fi:

Tabel 1.1. Populaţia oraşelor României repartizată după numărul de locuitori.

Populaţia P (oraşele din

România,1992)

Caract. X (numărul de

locuitori) 1.Alba-Iulia 2.Arad . . . 82.Iaşi . . . 260.Zimnicea

x1 x2 . . . xi . . .

xN

71254190088

...

342994...

17140

Tabel 1.2. Populaţia judeţului Iaşi la 1 ianuarie 1992, repartizată după vârstă şi sex.

Populaţia P (loc.jud.

Iaşi,1992)

Car. X (vârsta)

Car.Y (sexul)

1.Apetrei M. 2.Zlăvog P. . . . 7777.Groza O. . . . 806778.Costin V.

x1 x2 . . . xi . . .

xN

37 58 . . .

32 . . .

16

y1y2

.

.

.yi...

yN

MF . . .

M. . . F

Page 12: Statistic A

13

- de interval (reperabile pe o scară de intervale) - sunt acele caracteristici cantitative care permit precizarea poziţiei fiecărui element al populaţiei în raport cu o origine arbitrară. Deci valoarea 0 este convenţională şi nu semnifică absenţa fenomenului. Exemple: altitudinea, temperatura, latitudinea, longitudinea ş.a.; - de scară (măsurabile pe o scară numerică) - la care valoarea 0 a modalităţilor nu este convenţională, ci are un sens concret, respectiv absenţa fenomenului. Exemple: precipitaţiile lunare ( pentru populaţia precipitaţiilor atmosferice la o staţie meteo), producţia de cereale (pentru populaţia statelor lumii) etc. O altă grupare a caracteristicilor cantitative ţine cont de semnificaţia sumei valorilor modalităţilor: * de stoc - la care suma menţionată are o semnificaţie concretă, de ex. numărul de locuitori, precipitaţiile anuale, numărul de zile cu diferite fenomene meteo etc.; * de raport - în cazul cărora suma valorilor modalităţilor (valori obţinute, eventual, prin raportul a două mărimi) nu are un sens fizic, concret - de ex. densitatea populaţiei, exprimată în loc./km². În sfârşit, o clasificare uzuală în statistică este cea întemeiată pe proprietăţile aritmetice ale modalităţilor. După acest criteriu se deosebesc: · caracteristici (cantitative) discrete, ale căror modalităţi pot căpăta numai anumite valori, eventual întregi, din cadrul intervalului de variaţie posibilă. Exemple: numărul de zile cu ploaie sau cu soare, numărul de copii pe familie, numărul de locuitori/comună etc.; · caracteristici (cantitative) continue, ale căror modalităţi sunt numere reale şi, deci, pot căpăta orice valoare (altfel spus, o infinitate de valori) în interiorul intervalului de variaţie. Exemple: densitatea populaţiei, producţiile agricole sau industriale, durata anuală de strălucire a soarelui, presiunea atmosferică, temperatura etc. De remarcat că unele caracteristici discrete, cum ar fi, de exemplu, numărul de locuitori ai unităţilor administrativ-teritoriale, pot fi asimilate cu nişte caracteristici continui atunci când numărul modalităţilor este foarte mare. În cazul lor metodele de prelucrare statistică rezervate caracteristicilor discrete sunt greu de aplicat, încât se apelează la metodele specifice pentru caracteristicile continui. Variabilă statistică O caracteristică (cantitativă) ale cărei modalităţi pot suferi modificări, în timp

şi/sau spaţiu, ca nivel de dezvoltare (i.e. ca valoarea numerică), sub influenţa diverşilor factori ce acţionează asupra populaţiei statistice, poartă numele de variabilă statistică.

De regulă nu se utilizează termenul „variabilă” atunci când este vorba despre o caracteristică calitativă; dacă totuşi se utilizează, atunci se adaugă determinativul specific („variabilă calitativă”). Trebuie menţionat că aproape toate caracteristicile cantitative ale populaţiilor de date geografice au însuşirea menţionată în definiţia de mai sus, deci sunt nişte variabile statistice. Distribuţie (repartiţie) statistică Ansamblul ordonat al modalităţilor unei caracteristici poartă denumirea de

distribuţie (repartiţie) a populaţiei după caracteristica respectivă sau, mai scurt, distribuţie (repartiţie) statistică.

Mai ales la populaţiile numeroase, pot exista mai multe elemente care prezintă o aceeaşi valoare a modalităţii caracteristicii cantitative şi care formează efectivul modalităţii respective. În acest sens se vorbeşte despre distribuţia statistică ca despre o distribuţie de frecvenţe. În cazul

Page 13: Statistic A

14

acesteia din urmă avem de-a face cu un ansamblu de perechi modalitate-frecvenţă6 ordonate crescător după valorile modalităţilor respective (vezi tab.1.3). Analiza statistică se poate exercita şi asupra distribuţiilor de frecvenţe ale unor caracteristici (variabile) calitative. În cazul acestora ordonarea, de regulă descrescătoare, nu se poate face după valorile (non-numerice) ale variabilei, ci după frecvenţele corespunzătoare (vezi tab.1.3). Elementul prin care repartiţia unei variabile de tip calitativ intră în judecăţile statistice este frecvenţa. Orice comparaţie sau eventuală asociere (relaţie) între variabilele calitative sunt precizate prin metode statistice care iau în considerare frecvenţele diferitelor modalităţi ale variabilei. Prezentarea unei distribuţii statistice Există două forme principale de prezentare a unei distribuţii statistice: sub formă de tabel statistic sau sub forma unor reprezentări grafice, cel mai adesea de tip histogramă. Ele au menirea de a oferi un rezumat numeric sau grafic al repartiţiei după o caracteristică, prin regruparea şi stabilirea frecvenţelor fiecărei modalităţi a caracteristicii. În cadrul acestei prime etape de prelucrare a datelor empirice se urmăreşte, deci, să se răspundă la întrebarea: câte elemente din populaţia de bază corespund fiecărei modalităţi7, sau fiecărui grup de modalităţi?8 Tabelul de distribuţie a frecvenţelor modalităţilor unei caracteristici este un tabel statistic simplu (numit şi „tabel cu simplă intrare”) a cărui machetǎ are două coloane: prima destinată înscrierii modalităţilor caracteristicii, iar a doua - înscrierii frecvenţei (efectivului) fiecărei modalităţi (pentru ilustrare vezi tab.1.3, care include forma generalizată a unui tabel de distribuţie a frecvenţelor pentru două tipuri de caracteristici, motiv pentru care are 4 coloane).

6 Frecvenţa unei modalităţi poate fi de mai multe feluri, în funcţie de modul în care este determinată: - efectiv sau frecvenţă brută = numărul de indivizi ce corespund modalităţii respective; - frecvenţă relativă = proporţia, eventual procentuală, a efectivului unei modalităţi din totalul N al indivizilor populaţiei. Fiecare dintre aceste două tipuri poate fi, la rândul său, de două feluri: - frecvenţă simplă, care corespunde unei modalităţi oarecare, independent de celelalte modalităţi; - frecvenţă cumulată, care se obţine prin cumularea frecvenţelor simple ale tuturor modalităţilor care, în cadrul şirului ordonat de modalităţi, sunt anterioare modalităţii pentru care se calculează frecvenţa cumulată. 7Esenţa acestei prime etape de prelucrare a datelor de observaţii, în vederea prezentării distribuţiei sub formă tabelară, este bine surprinsă de termenul corespunzător în literatura de specialitate franceză: „tableau de dénombrement” (tabel de numărare). 8 În cazul variabilelor cantitative continui cu număr foarte mare de modalităţi se procedează, pentru reducerea volumului de muncă, la o grupare a modalităţilor în clase de valori, urmând a se determina frecvenţa fiecărei clase prin numărarea elementelor ale căror valori sunt cuprinse între limitele clasei respective. Noţiunea de „clasă” este utilizată curent în descrierea distribuţiilor de frecvenţe ale variabilelor cantitative şi, prin extindere, ale variabilelor calitative.

Tabel 1.3. Tabelul elementar al unei distribuţii de frecvenţe pentru o variabilă cantitativă , respectiv calitativă.

Caract. X (cantitativă )

Efectivul e

Caract. A (calitativă)

Efectivul e

x1 x2 . . . xi . . .

xn

e1 e2 . . . ei . . . en

a1 a2 . . . ai . . . an

e1 e2 . . . ei . . . en

xi-1<xi<xi+1 Σei = N ei-1>ei>ei+1 Σei = N

Page 14: Statistic A

15

Histograma este un grafic al repartiţiei pe clase de valori, format dintr-o succesiune de dreptunghiuri (coloane) alăturate ce au suprafeţele proporţionale cu frecvenţele claselor corespunzătoare (vezi fig.1.3). Ca formă de prezentare a unei distribuţii de frecvenţe ea prezintă avantajul că permite o comparare mai rapidă şi mai precisă a frecvenţelor diferitelor modalităţi, dar şi o evidenţiere mai pregnantă a grupurilor de modalităţi cu frecvenţe mari/mici din cadrul domeniului de variaţie a caracteristicii. Modul concret de prezentare a unei distribuţii statistice depinde de tipul caracteristicii după care este repartizată populaţia şi de raportul dintre numărul de elemente ale populaţiei (N) şi numărul de modalităţi ale caracteristicii (n). În felul acesta se disting trei cazuri: a) Caracteristici cantitative discrete, sau calitative nominale, având un număr de modalităţi inferior numărului de elemente ale populaţiei (n<N) Tabelul de distribuţie va fi unul simplu, incluzând, pentru a facilita comparaţiile între frecvenţele diferitelor clase, o a treia coloană cu frecvenţele relative simple exprimate procentual sau ca numere subunitare (vezi tab.1.4). Reprezentarea grafică uzuală este, în acest caz, diagrama în bastoane (vezi fig.1.2). Dacă avem de-a face cu o variabilă discretă, modalităţile trebuie ordonate; la variabilele calitative nominale nu mai contează ordonarea. b) Caracteristici calitative având numărul de modalităţi egal cu numărul de elemente ale populaţiei (n=N) Este cazul tipic pentru caracteristicile calitative ordinale, dar apare uneori şi la cele nominale care joacă rol de identificatori exclusivi ai elementelor populaţiei (de ex. seria paşaportului, pentru populaţia umană dintr-o regiune). Întrucât N=n, este clar că nu este nevoie de un tabel de distribuţie a frecvenţelor, sau o reprezentare grafică, pentru prezentarea distribuţiei (toate frecvenţele sunt egale cu 1). c) Caracteristici cantitative continui, sau asimilabile cu acestea (discrete, dar cu număr foarte mare de modalităţi) În acest caz, întrucât numărul modalităţilor este foarte mare (potenţial infinit), operaţiunea de stabilire a frecvenţelor fiecărei modalităţi este practic imposibilă. Din acest motiv, ca şi pentru o concentrare a informaţiei oferite de datele brute, devine necesară gruparea

Tabel 1.4. Tabelul distribuţiei de frecvenţe pentru o variabilă cantitativă discretă sau calitativă nominală.

Caracteristica X

Efectiv e

Frecv.relativă f%=(e/N)*100

x1 x2 . . . xi . . .

xn

e1 e2 . . . ei . . . en

f1 f2 . . . fi . . . fn

Σei = N Σfi = 100

Figura 1.2. Repartiţia născuţilor vii după rangul născutului viu în România, 1979 (după V.Trebici & colab.,1985).

Page 15: Statistic A

16

modalităţilor în clase9; prin numărarea elementelor ce corespund modalităţilor din interiorul claselor se determină frecvenţele acestora din urmă. Gruparea modalităţilor caracteristicii pe clase de valori trebuie să respecte următoarele reguli: · reuniunea claselor (privite ca mulţimi de valori) trebuie să acopere cel puţin domeniul de variaţie al caracteristicii ( condiţia de exhaustivitate); altfel spus, valorile extreme trebuie obligatoriu incluse în clasele corespunzătoare (clasele extreme); · clasele de modalităţi să fie două câte două disjuncte, astfel încât intersecţia lor să fie nulă ( condiţia de incompatibilitate); altfel spus, limita superioară a unei clase nu poate fi identică cu limita inferioară a clasei următoare. Această condiţie este necesară pentru a evita situaţiile în care una şi aceeaşi valoare, egală cu cele două limite, este inclusă în două clase vecine. Exemplu. Se cere alcătuirea distribuţiei de frecvenţe pentru variabila „temperatura medie zilnică în luna iunie” ale cărei modalităţi acoperă intervalul 1971-1990 (20 ani x 30 zile = 600 de valori). Pentru aceasta se procedează la împărţirea intervalului total de variaţie în clase de valori. Analiza valorilor din şirul iniţial sugerează o amplitudine a claselor de 5°C; în condiţiile în care valoarea minimă este de 6,5°C, iar cea maximă de 34,2°C, aceasta permite separarea unui număr de 6 clase de temperaturi: (5,0;10,0]; (10,0;15,0]; (15,0;20,0]; (20,0;25,0]; (25,0;30,0]; (30,0;35,0] Se observă ca sunt satisfăcute ambele condiţii de mai sus. Astfel, cele două clase de la extremităţi includ valorile extreme de temperatură, iar condiţia de incompatibilitate este satisfăcută prin modul de delimitare a intervalelor de clasă: interval deschis în cazul limitelor inferioare, respectiv închis în cazul limitelor superioare. La acelaşi rezultat practic (satisfacerea condiţiei de incompatibilitate) se ajunge dacă, lăsând intervalele de clasă închise la ambele capete, se stabilesc limitele inferioară, respectiv superioară ale claselor succesive în aşa fel încât ele să nu coincidă. În felul acesta clasele din exemplul nostru se modifica astfel: [5,0..9,9];[10,0..14,9];...;[30,0..34,9] (vom ţine cont de faptul că temperatura aerului se exprimă în grade şi zecimi, astfel încât orice valoare din şir va fi inclusă în una sau alta dintre clase, neexistând pericolul de a rămâne vreuna pe dinafară).

9 Prin clasă se înţelege o subdiviziune a domeniului de variaţie a variabilei. Pentru clasele constituite din grupe de valori trebuie determinate elementele caracteristice ale acestora: limitele (inferioară şi superioară), amplitudinile claselor (care pot fi egale sau inegale) şi centrele claselor (valorile situate în mijlocul claselor, ca medii aritmetice ale celor două limite de clasă). O schemă simplă ar putea facilita înţelegerea acestor noţiuni: clasa 1: [li1..c1..ls1], iar a1=ls1-li1; clasa 2: [li2..c2..ls2], iar a2=ls2-li2; . . clasa n: [lin..cn..lsn], iar an=lsn-lin. Semnificaţia notaţiilor: li - limita inferioară a unei clase; ls - limita superioară; c - centrul de clasă; a - amplitudinea clasei.

Page 16: Statistic A

17

Construcţia tabelului de distribuţie este asemănătoare cu cea de la punctul (a), cu deosebirea că în locul modalităţilor individuale apar acum clasele de modalităţi. Pentru caracterizarea completă a distribuţiei de frecvenţe în tabel se mai introduc două coloane, corespunzând frecvenţelor cumulate ascendent, respectiv descendent10 (vezi tab.1.5). Reprezentările grafice uzuale sunt, în acest caz, histogramele şi curbele cumulative. Histograma (vezi fig.1.3, 1.4-a) se construieşte într-un sistem de coordonate rectangulare: pe abscisă se trec valorile care delimitează clasele, iar pe ordonată valorile frecvenţelor. Atunci când clasele au o amplitudine constantă dreptunghiurile au lăţimi (baze) egale, iar înălţimile lor sunt proporţionale cu frecvenţele de clasă. În cazul distribuţiilor cu clase de amplitudine variabilă, însă, relaţia de proporţionalitate trebuie aplicată la suprafeţele dreptunghiurilor, nu la înălţimile lor. Soluţia uzuală a acestei probleme constă în alegerea unui interval-etalon de clasă, a cărui amplitudine (de preferinţă unitară) să fie divizor comun al amplitudinii tuturor celorlalte clase. Câtul dintre amplitudinea unei clase oarecare şi amplitudinea clasei-etalon, calculat atunci când amplitudinea clasei-etalon nu este unitară, serveşte la reducerea (prin împărţire) frecvenţei de clasă la frecvenţa clasei-etalon, rezultând aşa-numitele „frecvenţe medii” (vezi tab.1.6 şi fig.1.4-b, în care amplitudinea clasei-etalon este egală cu 1). În felul acesta dreptunghiurile histogramei, cu lăţimi (baze) inegale, întrucât proporţionale cu amplitudinile claselor corespunzătoare, vor avea înălţimi proporţionale cu frecvenţele reduse („medii”) aferente claselor respective.

10 Cumularea frecvenţelor relative simple se numeşte ascendentă, respectiv descendentă în raport cu ordinea (crescătoare) a claselor de valori din tabel. De aceea în tab.1.5 frecvenţele cumulate ascendent se succed de sus în jos (în sensul creşterii valorilor claselor), iar cele cumulate descendent se succed de jos în sus (în sensul descreşterii valorilor claselor).

Tabel 1.5. Tabelul de distribuţie a frecvenţelor pentru o variabilă cantitativă continuă sau una discretă cu număr foarte mare de modalităţi.

Caracteristica X

Efectivul e

Frecv.relativă f%=(e/N)×100

Frecvenţa cumulată

ascendent descendent c1 c2 . . . ci . . . cn

e1 e2 . . . ei . . . en

f1 f2 . . . fi . . . fn

fca1=f1 fca2=fca1+f2 . . . fcai=fcai-1+fi . . . fcan=100

fcd1=100 . . . . fcdi=fcdi+1+fi . . fcdn-1=fcdn+fn-1 fcdn=fn

ci-1<ci<ci+1 Σei = N Σfi = 100

Figura 1.3. Distribuţia celor 80 de studenţi ai anului I Geografie după nota obţinută la disciplina Geografie generală.

Page 17: Statistic A

18

Tabel 1.6. Tabelul de distribuţie a frecvenţelor pentru o variabilă cantitativă continuă sau una discretă cu număr foarte mare de modalităţi, cazul claselor cu amplitudine inegală: rata şomajului în departamentele regiunii Franche Comte, Franţa, în 1982.

Caracteristica X (rata şomajului,%)

Amplitudinea ai

Raportul ri=ai/1

Efectivul ei

Frecv.simplă fi%

Frecv.medie fmi=fi/ri

Frecvenţa cumulată

asc. desc. [5;6)

[6;8,5) [8,5;11) [11;13)

1 2,5 2,5 2

1 2,5 2,5 2

1 5 5 2

7,7 38,5 38,5 15,4

7,7 15,4 15,4 7,7

7,7 46,2 84,7 100

100 92,3 53,8 15,4

Total Σei = 13 Σfi = 100%

Prin unirea

punctelor situate la

mijlocul părţilor

superioare ale dreptunghiurilor se obţine o linie frântă cunoscută sub denumirea de

„poligonul frecvenţelor”

(vezi fig.1.3). Suprafaţa

cuprinsă între linia poligonală

şi axa absciselor este aproximativ egală cu suprafaţa histogramei (egalitatea perfectă există atunci când numărul de clase este infinit). Poligoanele frecvenţelor se utilizează frecvent pentru prezentarea simultană pe acelaşi grafic a mai multor distribuţii. Curbele cumulative se construiesc la fel ca şi histogramele, cu două deosebiri: - se folosesc frecvenţele cumulate (ascendent sau descendent) în locul celor simple; - pe grafic nu mai apar dreptunghiurile întregi, ci doar lăţimile de la partea lor superioară; acestea se unesc apoi prin linii verticale, ceea ce conferă curbei cumulative aspectul specific de curbă în trepte (vezi fig.1.5). Atunci când numărul de clase este foarte mare graficul în trepte tinde către o curbă „netezită” având aproximativ forma literei S, respectiv S întors; analogia de formă poate fi făcută şi cu simbolul matematic pentru integrală ( ∫ ), cu atât mai mult cu cât, în sens matematic, curba frecvenţelor cumulate ascendent reprezintă integrala curbei frecvenţelor simple (în cazul distribuţiilor cu număr infinit de clase). Curbele frecvenţelor cumulate permit, ca şi histogramele, localizarea, în cadrul intervalului total de variaţie, a claselor sau grupelor de clase cu frecvenţe mari (pantă mai accentuată a curbei) sau mici (pante mai reduse). Dar importanţa lor deosebită pentru analizele statistice rezultă din faptul că ele permit aflarea răspunsului la două întrebări complementare: a) care este proporţia (sau frecvenţa, sau, la limită, probabilitatea) cazurilor cărora le corespunde o modalitate inferioară sau superioară unei anumite valori-prag?

Figura 1.4. Histograma unei distribuţii de frecvenţe cu clase de amplitudini egale (a) şi inegale (b).

Page 18: Statistic A

19

Din fig.1.5-a reiese destul de clar, credem, modul de rezolvare a acestei probleme: fiind dată nota-limită 7,50, din grafic rezultă prin citire directă că 71% din studenţi au note mai mici, sau cel mult egale cu aceasta, în timp ce diferenţa până la 100%, adică 29% din studenţi, au note mai mari decât nota-limită. Dacă distribuţia ar avea o infinitate de clase, atunci am putea spune - trecând de la noţiunea de frecvenţă la cea de probabilitate - că probabilitatea unei valori mai mici sau cel mult egale cu 7,50, numită probabilitate sau asigurare de nedepăşire, este de 0,71 (sau 71%); probabilitatea complementară, numită probabilitate sau asigurare de depăşire, va fi de 1-0,71 = 0,29 (sau 29%). Deoarece graficul din fig.1.5-a permite citirea directă a asigurării de nedepăşire, el mai

poartă denumirea de graficul (curba) asigurării de nedepăşire. Prin comparaţie, curba cumulativă descendent din fig.1.5-b, care permite citirea directă a asigurării de depăşire, se mai numeşte graficul (curba) asigurării de depăşire sau pur şi simplu grafic (curbă) de asigurare (denumire folosită curent în hidrologie şi climatologie). b) care este modalitatea (valoarea) căreia îi corespunde o proporţie dată a cazurilor cu valori inferioare sau superioare modalităţii respective? Este clar că pentru rezolvarea acestei probleme demersul este invers: proporţia (frecvenţa, probabilitatea) se identifică pe ordonata graficului, iar valoarea căutată se citeşte direct de pe abscisă . Dacă se utilizează graficul din fig.1.5-a, atunci valoarea găsită este aceea faţă de care proporţia dată include cazurile mai mici, sau cel mult egale cu aceasta (urmând ca diferenţa până la 100% să includă cazurile mai mari ca valoarea respectivă); cu graficul din fig.1.5-b, proporţia dată include, dimpotrivă, cazurile mai mari sau cel mult egale cu valoarea citită direct de pe abscisa graficului. O problemă foarte importantă, asupra căreia trebuie insistat, este aceea a stabilirii claselor de frecvenţe, deoarece de aceasta depind atât prelucrările ulterioare, cât şi corectitudinea rezultatelor şi a interpretărilor acestora. În legătură cu această operaţiune fundamentală două aspecte au un rol deosebit: stabilirea numărului de clase şi fixarea limitelor claselor (implicit, a amplitudinii claselor). a) Stabilirea numărului de clase. Numărul de clase depinde, în general, de numărul de modalităţi ale caracteristicii (numărul de valori din şir). Nu putem grupa 30 de valori în 10 clase (o medie de 3 valori/clasă), căci frecvenţele ar fi prea mici şi nu ar putea să sintetizeze

Figura 1.5. Curba cumulativă ascendent (a) şi descendent (b).

Page 19: Statistic A

20

distribuţia statistică. La fel, fixarea unui număr de 5 clase pentru un şir de 3000 de valori este inacceptabilă, căci acest lucru ar simplifica grosier repartiţia, ducând la o pierdere de informaţie. Nu există o reţetă infailibilă pentru stabilirea numărului de clase. Cei mai mulţi statisticieni recomandă un număr de clase cuprins între 7 şi 15. Unii au încercat să găsească o soluţie matematică acestei probleme, ajungând la nişte formule orientative de calcul. Iată doua exemple: - relaţia Huntsberger: (n)*3.3+1 = k log ; - relaţia Brooks-Caruthers: lg(n)*5 < k în care k = numărul de clase, n = efectivul total al modalităţilor (nr. de valori din şir). b) Fixarea limitelor claselor (şi, implicit, a amplitudinilor de clasă) este o operaţiune hotărâtoare pentru sintetizarea corectă a distribuţiei valorilor în cadrul intervalului total de variaţie. Pentru a se limita cât mai mult erorile cauzate de împărţirea în clase se urmăreşte, de obicei, respectarea a două reguli: limitele claselor să varieze regulat, iar repartizarea valorilor pe clase să fie cât mai uniformă. Din păcate, cele două cerinţe sunt antagonice: dacă se stabilesc limitele de clasă ca termeni ai unei progresii regulate, se obţin frecvent fie clase vide (dar, din motive de corectitudine a prelucrărilor ulterioare, se recomandă ca efectivul unei clase să nu fie mai mică de 5), fie clase foarte „aglomerate”; dacă se încearcă o repartizare uniformă a valorilor pe clase, atunci limitele succesive nu urmează o progresie regulată, rezultând clase cu amplitudini inegale. Inegalitatea amplitudinilor de clasă atrage după sine imposibilitatea comparării directe a frecvenţelor claselor. În acest caz se calculează aşa-numitele „frecvenţe medii”, ca raporturi între frecvenţele de clasă şi frecvenţa clasei cu cea mai mică amplitudine (numită „clasă de referinţă”); acestea vor fi apoi utilizate în prelucrările ulterioare şi în construirea graficelor de distribuţie (histograme şi curbe cumulative). Este clar că stabilirea unor clase cu amplitudini inegale duce la creşterea volumului de muncă în vederea alcătuirii distribuţiei de frecvenţe. De aceea se va evita, pe cât posibil, această alternativă de lucru şi se va încereca fixarea unor limite de clasă care să se succeadă într-o progresie regulată. Cele mai utilizate progresii sunt progresia aritmetică, progresia geometrică şi cea pătratică. Cu ajutorul lor limitele se pot stabili precis, utilizând valorile extreme şi numărul de clase. - în cazul progresiei aritmetice diferenţele dintre două limite succesive, respectiv amplitudinile de clasă, sunt constante şi se obţin în felul următor:

km - M

= a0,

unde a = amplitudinea (şi rata progresiei, în acelaşi timp), M = valoarea maximă din şir, m = valoarea minimă, k = numărul de clase. Limitele obţinute vor fi respectiv m, m+a, m+2a, ..., m+ka=M. Neajunsul principal al acestei metode este că detaliază în mod exagerat zona valorilor extreme din şir (acolo unde, de regulă, exista un număr mai mic de valori). - în cazul progresiei geometrice limitele de clasă succesive se obţin prin înmulţirea cu un raport constant R. Acest raport (rata progresiei) se calculează astfel:

0)>(m k

m

M = R

0, iar limitele vor fi de forma m, R×m, R²×m, R³×m, ..., Rk×m=M. Neajunsul acestei metode este acela că detaliază, în cadrul distribuţiei de frecvenţe, zona valorilor mici, iar amplitudinile sunt inegale. În plus, metoda nu se poate aplica decât dacă m este strict pozitiv. Pentru uşurarea

Page 20: Statistic A

21

calculelor se poate valorifica faptul ca logaritmii limitelor urmează o progresie aritmetică - deci limitele vor fi de forma log(m), log(m)+log(R), log(m)+2×log(R) etc. - progresia pătratică, prin proprietăţile sale, elimină dezavantajele primelor două. Limitele succesive se obţin prin ridicarea la pătrat a termenilor unei progresii aritmetice la care raţia se calculează cu formula:

k

m-M=P

,

rezultând seria: m, ( m 0+P)², ( m 0+2P)², ..., ( m 0+kP)². În general vorbind, progresia aritmetică este aplicabilă mai ales în cazul distribuţiilor uniforme sau/şi simetrice, pe când celelalte două sunt utile în cazul distribuţiilor asimetrice11. Odată fixate numărul de clase, limitele şi amplitudinile acestora, se determină efectivele, frecvenţele relative simple (sau medii) şi cele cumulate şi, pe baza acestora, se construiesc histogramele şi curbele cumulative. aşa cum s-a menţionat deja, se obişnuieşte o „netezire” (ajustare) a poligoanelor frecvenţelor, respectiv a curbelor cumulative. Curbele ajustate se compară, apoi, cu nişte curbe teoretice în ceea ce priveşte numărul şi poziţia, în cadrul intervalului de variaţie, ale claselor cu frecvenţă maximă. Din acest punct de vedere se pot întâlni mai multe cazuri tipice de curbe ale frecvenţelor relative simple/medii (vezi fig.1.6):

a) curbă în formă de clopot (cu un singur maxim de frecvenţă) şi simetrică - în acest caz distribuţia se numeşte unimodală12 şi simetrică, apropiată ca formă de aşa-numita curbă normală sau „clopotul lui Gauss” (fig.1.6-a: presiunea atmosferică medie lunară). Curba normală este o curbă teoretică fundamentală pentru Statistică şi asupra ei vom reveni pe larg într-unul din capitolele următoare; 11 La nivelul acestui prim capitol simetria/asimetria unei distribuţii de frecvenţe s-ar putea defini astfel: spunem că o distribuţie este simetrică atunci când clasele cu cele mai mari frecvenţe se grupează spre mijlocul intervalului total de variaţie; dimpotrivă, distribuţia este asimetrică atunci când clasele cu frecvenţe mari se grupează spre extremităţile intervalului total de variaţie (fie în zona valorilor mici, fie în cea a valorilor mari). 12 Noţiunea de mod sau valoare modală a unei distribuţii statistice va fi discutată în capitolul următor.

Figura 1.6. Câteva forme tipice ale unor curbe de distribuţie a frecvenţelor întâlnite în geografie.

Page 21: Statistic A

22

b) curbă în formă de J sau J întors, cu maximul de frecvenţă în imediata apropiere a unuia din capetele intervalului de variaţie (fig.1.6-c: presiunea atmosferică minimă absolută lunară; fig.1.6-d: debite minime lunare ale ale Bahluiului la Iaşi, 1956-1992). Este un tip de curbă destul de răspândită în geografie - de ex. la distribuţiile de frecvenţe ale cantităţilor zilnice de precipitaţii (majoritatea dintre acestea fiind, de regulă, sub 1 mm). Asimetria unei astfel de curbe este maximă; c) curba unimodală cu asimetrie intermediară este cea mai frecventă în cazul distribuţiilor de frecvenţe ale variabilelor geografice (fig.1.6-b: umezeala relativă a aerului - toate datele meteo sunt pentru staţia Iaşi, 1961-1992); d) curbele bimodale sau chiar plurimodale sunt cele la care apar două sau mai multe maxime de frecvenţă. Prezenţa mai multor maxime indică, de regulă, un amestec de populaţii diferite în cadrul eşantionului prelucrat (fig.1.7). e) curbele amodale sunt cele la care nu se evidenţiază clar unul sau mai multe maxime de frecvenţă. În această categorie pot fi incluse curbele în formă de U (la care, deci, maximele de frecvenţă sunt plasate la extremităţile intervalului de variaţie. Toate tipurile de distribuţii statistice cărora le corespund curbele de mai sus pot fi caracterizate numeric cu ajutorul unui număr relativ redus de indici (parametri) sintetici care permit două operaţiuni de bază în analizele statistice: 1° compararea între ele a curbelor şi, implicit, a distribuţiilor corespunzătoare; 2° compararea acestora cu nişte curbe (distribuţii) teoretice care joacă rolul unor modele de referinţă.

Figura 1.7. Distribuţia ţărilor lumii după consumul zilnic de calorii pe cap de locuitor.

Page 22: Statistic A

23

CAP.II. PARAMETRII UNEI DISTRIBUŢII STATISTICE. Pentru caracterizarea numerică sintetică a unei distribuţii statistice, implicit a curbei de distribuţie corespunzătoare, se determină patru tipuri de parametri (indici), fiecare tip descriind anumite caracteristici ale acestora: - parametrii de nivel, numiţi deseori şi parametri aitendinţei centrale sau valori centrale. Sunt numiţi parametri „de nivel” pentru că ei exprimă nivelul până la care se dezvoltă („urcă”) ansamblul valorilor distribuţiei; „valori centrale” deoarece ei se plasează, îndeobşte, în zona de maximă concentrare a valorilor (zona frecvenţelor maxime), astfel încât în jurul lor se plasează, la distanţe mai mari sau mai mici, celelalte valori din şir; * parametrii dispersiei, care exprimă gradul de împrăştiere a valorilor din şir în jurul valorilor centrale; * indicii de asimetrie, care exprimă asimetria curbelor de distribuţie, adică măsura (cantitativă ) în care maximul de frecvenţă este deplasat spre stânga sau spre dreapta faţă de centrul intervalului de variaţie; * indicii de exces, care exprimă numeric gradul de grupare (concentrare) a valorilor din şir în apropierea valorilor centrale, de aici decurgând forma mai ascuţită sau, dimpotrivă, mai aplatizată, a curbelor de distribuţie. Deoarece se referă explicit la curbele de distribuţie, ultimele două tipuri de parametri sunt grupaţi uneori sub denumirea de parametrii formei (curbei de distribuţie). 2.1. Valorile centrale Trei sunt parametriitendinţei centrale care sunt mai des utilizaţi în analizele statistice: modul, mediana şi media (aritmetică). 2.1.1. Modul (sau moda, sau valoarea modală) (Mo) În cazul caracteristicilor calitative sau cantitative discrete, modul este valoarea dominantă din şir (valoarea cu cea mai mare frecvenţă) şi ea se obţine direct din tabelul de distribuţie. În cazul distribuţiilor cu clase de frecvenţe (caracteristici cantitative continui) se vorbeşte despre o „clasă modală”, care este clasa căreia îi corespunde cea mai mare frecvenţă. Valoarea modală se calculează cu ajutorul unei formule care ia în considerare atât clasa modală, cât şi clasele vecine acesteia, formulă bazată pe principiul interpolării liniare (în ipoteza că valorile sunt uniform distribuite în interiorul clasei modale):

a(Mo)

2 + 1

1 + li(Mo) = Mo *∆∆

,

unde f 1)-(Mo - f (Mo) = 1∆ , iar f 1)+(Mo - f (Mo) = 2∆ . Simbolurile folosite reprezintă: Mo - modul; li(Mo) - limita inferioară a clasei modale; f(Mo) - frecvenţa clasei modale; f(Mo-1) - frecvenţa clasei de dinaintea celei modale (clasele fiind ordonate crescător); f(Mo+1) - frecvenţa clasei de după cea modală; a(Mo) - amplitudinea clasei modale.

Page 23: Statistic A

24

Prin comparaţie cu celelalte valori centrale, modul prezintă unele avantaje, dar şi unele dezavantaje. Avantaje: · este singura valoare centrală care poate fi determinată în cazul caracteristicilor calitative nominale - de aceea este deosebit de important pentru geografie, unde se lucrează deseori cu date de acest tip; · este util atunci când se urmăreşte reliefarea unei trăsături dominante a fenomenului analizat pe baza datelor de observaţii - de ex. suprafaţa lacurilor dintr-un teritoriu, sau numărul de locuitori/comună, unde modul poate indica predominarea unei categorii sau alteia de mărime. În felul acesta „modul poate fi expresia unei structuri spaţiale ce caracterizează o regiune, căci el poate traduce o dominantă în climat, peisaj, economie etc.” (Chadule, 1974). Dezavantaje: · întrucât este legat numai de frecvenţă, modul nu reuşeşte să caracterizeze suficient o distribuţie; · poziţia şi, eventual, numărul claselor modale13 depind foarte mult de modul de grupare în clase; o schimbare a numărului de clase sau a limitelor acestora poate provoca modificări dramatice în acest sens; · la unele distribuţii statistice este posibil ca modul să nu existe, altfel spus nu se pune în evidenţă o valoare, sau o clasă modală, cu frecvenţă maximă; · prin felul cum se determină, valoarea modală nu posedă calităţi aritmetice bine definite şi, deci, nu poate fi preluată în calcule ulterioare pentru derivarea unor caracteristici suplimentare ale distribuţiilor statistice. 2.1.2. Mediana (valoarea mediană) (Me) Mediana este valoarea situată la mijlocul şirului de modalităţi ordonate crescător (sau descrescător, în unele cazuri), împărţindu-l în două jumătăţi egale, astfel încât jumătate din valorile şirului se află deasupra, iar jumătate dedesubt. Ea mai este numită „medie probabilă”, în sensul că există o probabilitate de 0,5 (sau 50%) ca o valoare oarecare din şir să fie inferioară/superioară medianei. În cazul şirurilor de valori individuale (caracteristici cantitative discrete) mediana se calculează diferit, după cum numărul de valori din şir (n) este par sau impar:

· n = 2k (număr par): 2x 1+k + xk = Me

, adică mediana este media aritmetică a celor două valori din mijlocul şirului; · n = 2k+1 (număr impar): x 1+k = Me , adică mediana este chiar valoarea din mijlocul şirului. În cazul distribuţiilor cu clase de frecvenţe avem de-a face cu o „clasă mediană”, care este prima clasă (în sensul, crescător sau descrescător, al ordonării claselor) la care frecvenţa cumulată depăşeşte 50%. Pentru determinarea medianei se iau în considerare caracteristicile acestei clase, precum şi frecvenţa cumulată a clasei anterioare. Formula de calcul este următoarea:

)f 1)-c(Me - (50%

f (Me)

a(Me) + li(Me) = Me

, unde Me - mediana; 13 Distribuţiile cu un singur maxim de frecvenţă (un singur mod) se numesc distribuţii unimodale; în cazul distribuţiilor bi- sau plurimodale vom avea un mod principal şi unul, respectiv mai multe moduri secundare.

Page 24: Statistic A

25

li(Me) - limita inferioară a clasei mediane; a(Me) - amplitudinea clasei mediane; f(Me) - frecvenţa simplă a clasei mediane; fc(Me-1) - frecvenţa cumulată a clasei dinaintea celei mediane. Avantajele medianei faţă de celelalte valori centrale: · prin definiţie, mediana este valoarea cea mai apropiată, ca poziţie, de toate celelalte valori din şir; altfel spus, suma distanţelor, în valoare absolută, dintre mediană şi celelalte valori din şir este minimă, aserţiune care poate fi formalizată astfel:

minim = |A - xi|

n

1=i∑

, dacă A este mediana14. Această însuşire este importantă în unele probleme de ordin practic. Exemplu. De-a lungul unei autostrăzi cu lungimea de 600 km sunt amplasate 6 staţii de benzină, conform schiţei de mai jos: _n______n____________n___n___________n___________n 5 100 250 300 450 600 km Se cere să se găsească poziţia optimă a unui depozit de carburant, în aşa fel încât cheltuielile de transport pentru aprovizionarea celor 6 staţii să fie minime. Conform proprietăţii menţionate mai sus, amplasamentul optim al depozitului va fi în punctul ce corespunde medianei celor 6 distanţe (kilometrul 275 al autostrăzii). Suma distanţelor dintre acest punct şi staţiile de benzină este de 975 km, mai mică decât suma distanţelor dintre orice alt punct şi staţiile respective - pentru comparaţie să luăm punctul ce corespunde mediei aritmetice (kilometrul 284), faţă de care distanţele însumate totalizează 995 km. · spre deosebire de următorul parametru (media), mediana nu este influenţată de valorile extreme ale şirului, menţinându-se astfel mai aproape de zona centrală a intervalului de variaţie. 2.1.3. Media aritmetică15 ( x ) Media este valoarea centrală cea mai utilizată, datorită faptului că are proprietăţi aritmetice clare şi, deci, poate fi utilizată în calcule ulterioare. Pentru şirurile de valori individuale formula de calcul este cea cunoscută:

n

x = x

i

n

1=i∑

, unde n este numărul de valori din şir. Pentru distribuţiile de frecvenţe acest parametru se calculează ca medie a centrelor de clasă ponderate cu frecvenţele aferente claselor respective: 14 În cazul variabilelor calitative ordinale (pentru care se poate calcula, de asemenea, o valoare mediană) relaţia de minim nu mai are sens. 15 În analizele statistice se vehiculează şi alte tipuri de medii, în afara celei aritmetice (care rămâne, totuşi, cea mai importantă), cum ar fi: media geometrică, media pătratică, media armonică, media glisantă ş.a. Din motive de economie a limbajului în expunerea ulterioară termenul „medie” se va referi exclusiv la media aritmetică, urmând ca pentru alte tipuri de medii termenul să fie însoţit de determinativul specific.

Page 25: Statistic A

26

f i

n

1=i

f ixin

1=i = x

∑ *

, unde n este numărul de clase. Proprietăţile aritmetice ale mediei sunt următoarele: 1°. suma abaterilor valorilor din şir de la medie este nulă:

0 = ) x - xi(

n

1=i∑

2°. dacă valorile din şir se modifică prin adăugarea/scăderea unei constante, atunci media creşte/scade cu aceeaşi constantă :

a x = x a xi = x i ±′⇒±' 3°. dacă y este media unui alt şir şi di sunt diferenţele (xi - yi), atunci

d + y =

n

d in

1=i + y = x∑

Această proprietate este utilă, spre exemplu, în climatologie şi hidrologie pentru prelungirea şirurilor de observaţii. 4°. suma pătratelor abaterilor valorilor din şir de la media lor aritmetică este minimă:

minim = )2A - xi(

n

1=i∑

, dacă A = x . Această proprietate este larg utilizată în calculele ulterioare implicate de analizele distribuţiilor statistice. Dezavantajul mediei aritmetice este că, întrucât ia în consideraţie ordinul de mărime al tuturor valorilor, devine sensibilă la valorile foarte mari sau foarte mici. Aceste valori extreme pot fi deseori puţin semnificative, excepţionale sau chiar aberante (erori grosiere de observaţii sau măsurători). În felul acesta media nu mai reflectă corect tendinţa centrală a distribuţiei statistice. Pe de altă parte, media „comprimă” excesiv valorile extreme, comparativ cu cele aflate mai spre centrul repartiţiei. La distribuţiile simetrice faptul acesta contează mai puţin, însă la cele cu asimetrie pronunţată situaţia se schimbă. Exemplu. Într-o zonă cu climat arid şirul de precipitaţii anuale (în mm) înregistrate pe 10 ani consecutiv etalează următoarele valori: 0; 10; 0; 0; 100; 20; 250; 0; 0; 20. Valorile ordonate crescător, pentru determinarea modului şi a medianei: 0; 0; 0; 0; 0; 10; 20; 20; 100; 250.

Valorile centrale sunt: Mo = 0 mm; Me = 5 mm; x = 40 mm. Este clar ca mediana, şi chiar modul, reflectă mai corect condiţiile pluviometrice din deşert; faţă de acestea media este „trasă” în sus de către cele două valori foarte mari. Rezultă de aici şi dezavantajul de a folosi o singură valoare centrală pentru caracterizarea unei distribuţii. 2.2. Parametrii dispersiei Dacă datele sunt reprezentate grafic, cea mai simplă şi eficientă indicaţie asupra împrăştierii valorilor în cadrul intervalului total de variaţie o oferă curba de distribuţie a frecvenţelor. Pentru exprimarea numerică a acestei împrăştieri se folosesc parametrii dispersiei.

Page 26: Statistic A

27

La determinarea acestor parametri se pot lua în considerare valorile extreme, mediana sau media aritmetică. 2.2.1. Amplitudinea de variaţie (ω) Reprezintă diferenţa dintre valoarile maximă şi minimă ale şirului: x - x = minmaxω Dezavantajul principal, care face ca acest parametru să fie practic inutilizabil pentru caracterizarea dispersiei, este că amplitudinea nu poate preciza gradul de dispersie a valorilor faţă de o valoare centrală. Ea exprimă doar ordinul de mărime al intervalului de variaţie a caracteristicii, presupunând că în interiorul acestuia valorile ar fi repartizate uniform (ceea ce, de regulă, nu este adevărat). Se utilizează, totuşi, atunci când valorile extreme au o semnificaţie deosebită pentru fenomenul studiat - de ex. amplitudinea termică absolută, în caracterizarea gradului de continentalism climatic al unei regiuni. 2.2.2. Cuartilele şi abaterile cuartile Dacă valoarea centrală folosită este mediana, atunci dispersia poate fi exprimată sub forma abaterilor cuartile. Cuartilele (sau quartile, în ortografiere etimologică) sunt parametri analogi medianei, dar care împart şirul de valori în 4 părţi egale, fiecare incluzând 25% din valorile şirului 16. De-a lungul unui şir ordonat crescător vom identifica, deci, un număr de 3 cuartile, notate de regulă cu Q1, Q2 (= Me) şi Q3.Cu ajutorul acestora se pot calcula doi indici de dispersie: · abaterea cuartilă (intercuartilă), care reprezintă diferenţa, în valoare absolută, dintre prima şi a treia cuartilă ( Q1 - Q3 ). Se obţine o imagine asupra dispersiei comparând abaterea intercuartilă cu amplitudinea totală (ω);

· abaterea semiintercuartilă ( 2

Q1 - Q3

), care se defineşte ca „media probabilă a abaterilor de la mediană” - altfel spus, jumătate din modalităţile caracteristicii diferă de mediană prin mai mult decât această valoare, iar cealaltă jumătate prin mai puţin. Având, ca şi mediana, avantajul că nu sunt influenţate de valorile extreme ale şirului, abaterile cuartile păstrează şi dezavantajul acesteia: nu iau în considerare toate valorile, deci nu exprimă întreaga distribuţie statistică. 2.2.3. Indici de dispersie care au la bază media aritmetică Atunci când valoarea centrală luată în considerare este media, dispersia unei distribuţii poate fi exprimată cu ajutorul mai multor indici. · abaterea (absolută) medie (ea) reprezintă media aritmetică a abaterilor valorilor din şir (în valoare absolută) de la media acestuia:

n

|x - xi|n

1=i = ea∑

16 Atunci când se doreşte o analiză mai detaliată a modului cum sunt repartizate valorile în interiorul intervalului total de variaţie, şirul poate fi împărţit în mai mult de 4 părţi egale. Valorile care delimitează aceste subşiruri sunt cunoscute sub denumirea generică de cuantile. Exemple de cuantile: mediană, cuartile, decile (împart şirul iniţial în 10 părţi egale), centile (împart şirul în 100 de părţi) etc.

Page 27: Statistic A

28

La distribuţiile cu clase de frecvenţe abaterile centrelor de clasă se ponderează cu frecvenţele aferente:

f i

n

1=i

f i|x - xi|n

1=i = ea

Întrucât lucrează cu abaterile absolute, ignorând semnul acestora, utilizarea ea în calcule ulterioare este restrânsă; · dispersia sau varianţa (σ²) reprezintă media aritmetică a pătratelor abaterilor valorilor din şir de la media acestuia:

n

)2x - xi(n

1=i = 2∑

σ

Pentru distribuţiile de frecvenţe formula se modifică în mod corespunzător:

f i

n

1=i

f i)2x - xi(n

1=i = 2

∑σ

Deci problema semnului abaterilor este rezolvată (corect, din punct de vedere matematic) prin ridicarea acestora la pătrat. În schimb, semnificaţia concretă a indicelui este alterată de faptul că unitatea de măsură a mărimii pe care o exprimă (de ex. °C, loc/km² etc.) este şi ea ridicată la pătrat. O cale simplă de înlăturare a acestui neajuns o constituie extragerea rădăcinii pătrate din varianţă, obţinându-se cel de-al treilea parametru şi anume · abaterea standard (sau deviaţie standard, abatere medie pătratică, ecart-tip) (σ) reprezintă, deci, rădăcina pătrată a varianţei unei distribuţii:

n

)2x - xi(n

1=i = 2 = ∑

σσ,

iar pentru distribuţiile de frecvenţe:

f i

n

1=i

f i)2x - xi(n

1=i = 2 =

∑σσ

Parametrii prezentaţi până aici exprimă dispersia în valori absolute, adică în valori cărora li se poate ataşa o unitate de măsură (°C, m³/s, mm, ha, loc/km² etc). Aceasta înseamnă că ordinul lor de mărime depinde de ordinul de mărime al valorilor distribuţiei analizate, în speţă de ordinul de mărime al Me sau x . Acest lucru constituie un impediment atunci când dorim să comparăm între ele mai multe distribuţii sub aspectul dispersiei. Problema se rezolvă exprimând dispersia în procente din valoarea centrală pe baza căreia a fost estimată, rezultând aşa-numiţii indici de variabilitate relativă. Aceşti indici sunt foarte utili în geografie, mai ales în studierea variabilităţii spaţiale şi/sau temporale a unui fenomen. Pornind de la parametrii de dispersie prezentaţi anterior se pot calcula trei astfel de indici:

Page 28: Statistic A

29

· abaterea cuartilă (intercuartilă) relativă, care reprezintă raportul procentual dintre abaterea intercuartilă şi mediană:

x100

Q2

Q1 - Q3

; · variabilitatea relativă - raportul procentual dintre abaterea absolută medie şi media aritmetică:

x100

xea

; · coeficientul de variaţie (notat de regulă cu CV), ca raport procentual dintre abaterea standard şi medie:

x100

x = CVσ

. Cei trei indici au avantajele/dezavantajele mărimilor ce intră în calcul. Prin urmare coeficientul de variaţie este, potenţial, cel mai potrivit pentru a fi utilizat în prelucrări ulterioare.

* * *

Atunci când se analizează un set de date se pune problema alegerii parametrilor statistici care să corespundă cel mai bine scopurilor analizei statistice. Fără a exista nişte reguli precise, alegerea parametrilor de calculat trebuie să ţină cont de următoarele aspecte: - în general este bine să se calculeze toate cele trei valori centrale: Mo (dacă avem o distribuţie de frecvenţe), Me şi x , întrucât cu ajutorul lor poate fi evaluată asimetria distribuţiei: i) x 0 < Me < Mo - asimetrie de dreapta, sau negativă; ii) x 0 > Me > Mo - asimetrie de stânga, sau pozitivă; iii) x 0 ≈ Me ≈ Mo - distribuţie cvasi-simetrică. - scopul prelucrării datelor, ca şi faptul dacă rezultatele urmează, sau nu, să fie preluate în calcule ulterioare. Dacă se urmăreşte doar descrierea şi caracterizarea sintetică a unor ansambluri de date pentru a facilita înţelegerea unor fenomene, atunci modul sau mediana, împreună cu abaterea medie, abaterile cuartile şi, eventual, variabilitatea relativă vor fi suficiente, având în vedere şi faptul că aceşti indici sunt mai intuitivi (deci mai uşor de pus în relaţie cu fenomenul descris). Pentru analize statistice mai complexe, însă, utilizarea mediei şi a indicilor care au la bază media este obligatorie; - natura datelor supuse prelucrărilor, altfel spus tipul de caracteristică a cărei distribuţie statistică se vrea a fi analizată. Contează, deci, dacă avem de-a face cu o carecteristică calitativă nominală sau ordinală, una cantitativă discretă sau una cantitativă continuă, întrucât, aşa cum s-a văzut anterior, posibilitatea şi modul de calculare a parametrilor statistici diferă de la un tip la altul; - nivelul de înţelegere a beneficiarului rezultatelor analizei. Este clar că un beneficiar fără cunoştinţe de statistică va prefera un material mai bogat în ilustraţii, fără prea multe formule şi indici (cifre) ale căror semnificaţii sunt mai greu de evaluat şi interpretat; - prezenţa/absenţa calculatorului, întrucât, aşa cum s-a văzut, determinarea unora dintre indici presupune calcule laborioase. 2.3. Parametrii formei Aşa cum s-a menţionat, aceşti parametri se referă în primul rând la forma poligoanelor (curbelor) frecvenţelor. Utilizarea lor în geografie este mai puţin frecventă, deoarece capacitatea

Page 29: Statistic A

30

lor descriptivă este mai redusă comparativ cu alţi indici statistici. Totuşi, parametrii de formă sunt foarte utili atunci când se urmăreşte compararea unei distribuţii empirice (alcătuită pe baza unui eşantion) cu o distribuţie teoretică susceptibilă de analogii cu distribuţia eşantionului. 2.3.1. Indici de asimetrie Indicii (coeficienţii) de asimetrie exprimă numeric măsura în care maximul de frecvenţă al unei distribuţii este deplasat, spre stânga sau spre dreapta, faţă de centrul intervalului de variaţie al caracteristicii. Din multitudinea indicilor de asimetrie oferiţi de literatura de specialitate prezentăm aici doar doi, a căror utilizare este mai frecventă. • coeficientul Pearson - se calculează doar pentru distribuţiile de frecvenţe, deoarece ia în considerare modul:

σ

Mo- x = As

În funcţie de raporturile de mărime dintre x şi Mo coeficientul poate fi negativ, nul sau pozitiv, aceleaşi atribute fiind conferite asimetriei distribuţiei de frecvenţe: i) x < Mo - asimetrie negativă (numărătorul din formulă este mai mic ca 0) sau de dreapta (modul este mai mare ca media, ceea ce înseamnă că maximul de frecvenţă este deplasat spre dreapta faţă de centrul intervalului de variaţie - vezi fig.2.1-b); ii) x = Mo - asimetrie nulă. Curba de distribuţie este perfect simetrică, iar cele trei valori centrale coincid, fiind plasate în centrul intervalului de variaţie; iii) x > Mo - asimetrie pozitivă (numărătorul este pozitiv) sau de stânga (modul este plasat, în cadrul intervalului de variaţie, la stânga faţă de medie şi faţă de centrul intervalului - vezi fig.2.1-a). • coeficientul Fisher (γ1) - ia în considerare cubul abaterilor valorilor de la media lor aritmetică:

σγ 3n

)3x - xi(n

1=i = 1

pentru şiruri de valori individuale, iar pentru distribuţia pe clase de frecvenţă

f in

1=i

3

f i)3x - xi(n

1=i = 1∑

σ

γ

. Acest indice poate fi pozitiv, negativ sau nul, interpretarea asimetriei făcându-se la fel ca în cazul coeficientului Pearson. 2.3.2. Indici de exces (de aplatizare) Sunt indici care exprimă numeric gradul de aplatizare a curbei de distribuţie, aplatizare ce depinde de gradul de concentrare a valorilor caracteristicii în apropierea maximului de frecvenţă; altfel spus, de diferenţa dintre frecvenţa clasei modale şi cea a claselor din apropiere - cu cât diferenţa este mai netă, cu atât curba va fi mai ascuţită şi invers.

Figura 2.1. Asimetrie pozitivă (a) şi negativă (b) a unei curbe de distribuţie a frecvenţelor.

Page 30: Statistic A

31

Cel mai des utilizat este coeficientul γ2 al lui Fisher:3 - 4n

)4x - xi(n

1=i = 2σ

γ∑

, iar pentru distribuţiile

cu clase de frecvenţe

3 - f i

n

1=i

4

f i)4x - xi(n

1=i = 2∑

σ

γ

Acest indice poate fi pozitiv, nul sau negativ şi interpretarea lui se face astfel (vezi fig.2.2): i) γ 2 < 0 - curba este mai aplatizată decât una normală şi se numeşte platikurtică (grec. kurtosis = boltire); ii) γ 2 = 0 - gradul de aplatizare a curbei este identic cu cel al curbei normale; iii) γ 2 > 0 - curba prezintă un „exces” de boltire, deci este mai ascuţită decât cea normală şi se numeşte leptokurtică.

Figura 2.2. Modificarea formei unei curbe de distribuţie a frecvenţelor în funcţie de excesul acesteia.

Page 31: Statistic A

32

CAP.III. TRANSFORMAREA ŞI STANDARDIZAREA DATELOR. Metodele de prelucrare numerică şi grafică a distribuţiilor statistice, prezentate până acum, au fost ilustrate cu exemple în care valorile concrete erau date reale, aşa cum rezultă ele din operaţiunile de măsurare sau, mai general, din observaţii asupra fenomenelor şi proceselor din lumea reală. Aplicarea metodelor menţionate direct asupra datelor de observaţii şi măsurători este pe deplin posibilă atunci când scopul analizei nu trece dincolo de descrierea unui fenomen sau proces cu ajutorul tabelelor, al diagramelor şi al parametrilor statistici. Situaţia se schimbă, însă, atunci când dorim să extindem analiza (1) prin compararea mai multor distribuţii statistice, sau (2) prin valorificarea unor modele teoretice utilizate în Statistica inferenţială. În cazul (1) compararea directă a distribuţiilor statistice întâmpină trei tipuri de dificultăţi: · valorile din şiruri au ordine de mărime diferite - de ex. debitele medii zilnice ale unui râu se exprimă prin valori de ordinul zecilor (de m³/s), în timp ce nivelurile corespondente au ordine de mărime de ordinul sutelor (de cm); · valorile din şiruri, chiar având acelaşi ordin de mărime, se referă la mărimi care au unităţi de măsură diferite; · chiar dacă nu apar dificultăţile de mai sus, este posibil ca dispersiile şirurilor, exprimate în valori absolute, să difere foarte mult, împiedicând comparaţiile directe. Asemenea dificultăţi pot fi înlăturate în mare parte prin operaţiunea de standardizare („normare”) a datelor. În cazul (2) distribuţia empirică de frecvenţe poate să difere mult de distribuţia teoretică ce constituie modelul de referinţă şi punctul de plecare pentru raţionamente şi inferenţe statistice. Diferenţa dintre distribuţia empirică şi cea teoretică poate fi redusă printr-o operaţiune de transformare a datelor din şirul supus prelucrării. 3.1. Standardizarea (normarea) Standardizarea este acţiunea de transformare a datelor iniţiale în aşa fel încât să devină posibile comparaţiile între două sau mai multe distribuţii empirice, sau între o distribuţie empirică şi una teoretică, indiferent de ordinul de mărime, dispersie sau unităţi de măsură. Standardizarea combină două operaţiuni: centrarea şi reducăia. 1° centrarea valorilor unui şir constă, în general vorbind, în înlocuirea valorilor originale cu abaterile acestora de la valoarea de referinţă: mediana, media, sau o valoare oarecare, considerată semnificativă pentru scopul analizei statistice. De remarcat, însă, că centrarea, ca primă etapă în cadrul standardizării, presupune centrarea valorilor în raport cu media aritmetică. Valorile centrate au o caracteristică ce derivă din proprietăţile mediei aritmetice, anume aceea că suma lor este nulă. Dacă X este variabila analizată, iar X ′ este

variabila centrată, atunci x - x = x ii ′ , iar 0 = xi

n

1=i′∑

. 2° reducţia unei variabile constă, în general vorbind, în împărţirea valorilor acesteia la abaterea standard:

σxi = xi′

. Ca o a doua etapă a standardizării, însă, reducăia se aplică variabilei centrate:

Page 32: Statistic A

33

σ

x - xi = xi′.

O proprietate importantă a unei variabile reduse este aceea că abaterea sa standard este egală cu unitatea: σx’ = 1. Prin urmare o variabilă standardizată (centrată + redusă) este o variabilă a cărei medie este întotdeauna 0 şi a cărei abatere standard este întotdeauna 1. Valorile standardizate exprimă abaterile valorilor variabilei originale de la media lor aritmetică, abateri care sunt măsurate în număr de abateri standard. În felul acesta dispar unitatea de măsură, dispersia şi ordinul de mărime ale variabilei şi devine posibilă compararea directă cu altă/alte variabile standardizate, întrucât ele vor avea aceeaşi medie (0), aceeaşi dispersie (1) şi diferă numai prin mărimea abaterilor valorilor lor de la medie. 3.2. Transformarea O parte din interpretările şi concluziile referitoare la o distribuţie empirică are la bază prezumţia că aceasta urmăreşte îndeapraoape distribuţia normală, în ceea ce priveşte alura curbei de distribuţie, asimetria, excesul. Ori, în realitate, deseori această prezumţie nu se verifică şi din această cauză caracteristicile distribuţiei normale nu mai pot fi valorificate în relaţie cu distribuţiile empirice. O soluţie la îndemână în asemenea cazuri este aceea de a manipula datele de observaţii în aşa fel, încât distribuţia empirică să se apropie cât mai mult de cea normală. Se procedează, deci, la o transformare matematică a valorilor variabilelor, care are drept rezultat o concordanţă mai bună între distribuţia empirică şi cea teoretică. Întrucât distribuţia teoretică vizată este, cel mai adesea, cea normală, transformarea datelor originale mai poartă denumirea de „normalizare”. Posibilităţile de transformare sunt multiple, însă doar câteva dintre ele sunt mai des utilizate, întrucât şi-au demonstrat eficienţa: transformarea prin logaritmarea valorilor variabilei, prin extragerea radicalului din acestea şi prin ridicarea lor la putere. Experienţa dobândită în acest domeniu recomandă transformările prin logaritmare şi extragerea radicalului pentru corectarea asimetriilor pozitive (vezi fig.3.1), iar cele prin ridicare la pătrat pentru corectarea asimetriilor negative ale distribuţiilor empirice. De menţionat că pentru interpretarea rezultatelor unei analize făcute asupra unui şir de valori transformate, în termenii reali ai problemei în discuţie, acestea, ca şi valorile, trebuie re-transformate în forma lor originală .

Figura 3.1. Normalizarea unei distribuţii de frecvenţe (tensiunea medie lunară a vaporilor de apă la staţia Iaşi, 1961-1992).

Page 33: Statistic A

34

CAP.IV. FUNDAMENTUL PROBABILIST AL JUDECĂŢILOR STATISTICE 4.1. Distribuţia (curba) normală şi caracteristicile sale S-a menţionat anterior că unul din scopurile prelucrării datelor de observaţii sub formă de distribuţii de frecvenţe este acela de a face comparaţii între distribuţia (şi curba aferentă ) empirică şi una teoretică, fixată ca model de referinţă. Similitudinea de formă a celor două tipuri de curbe (empirică şi teoretică) este foarte importantă, căci ea oferă nişte posibilităţi de analiză statistică complexă şi aprofundată în urma căreia se pot trage multe concluzii de ordin ştiinţific. La originea multor astfel de analize se află tocmai curba normală, cu proprietăţile sale. Dar ce este distribuţia normală? Toate distribuţiile de frecvenţe empirice, adică alcătuite pornind de la date reale, se bazează pe un număr finit (chiar dacă foarte mare, uneori) de cazuri. În matematică însă, unele generalizări cu privire la distribuţiile de frecvenţe se pot face mai uşor dacă se admite că respectivele distribuţii au la baza o infinitate de valori, deci şi o infinitate de clase. Histogramei frecvenţelor îi corespunde în acest caz un poligon al frecvenţelor ce apare sub forma unei curbe „netezite” care poate fi uşor descrisă cu ajutorul ecuaţiilor matematice. O asemenea curbă este şi cea normală. La o histogramă a frecvenţelor aria unui dreptunghi este proporţională cu frecvenţa clasei corespunzătoare. Acest fapt este valabil şi în cazul distribuţiei normale, a cărei curbă de distribuţie trece prin capătul superior al unui număr foarte mare (la limită, infinit) de dreptunghiuri de lăţime foarte mică (la limită, egală cu 0), având drept rezultat netezirea curbei. În acelaşi timp, se admite că suprafaţa totală a tuturor dreptunghiurilor este egală cu unitatea (sau 100%), ceea ce înseamnă că aria cuprinsă între curba normală şi abscisă este deasemenea 1 (sau 100%). Curba normală este o curbă simetrică, unimodală şi cu o alură specifică care-i conferă aspectul de clopot (clopotul lui Gauss). Relaţia matematică ce o defineşte este următoarea:

e 22

)2x-(x-2

1=y σπσ ,

în care: y = ordonata (frecvenţa) unui punct oarecare de pe curbă; x = abscisa punctului respectiv, corespunzând unei valori din populaţia infinită descrisă de curba normală; x şi σ - parametri. Întrucât este perfect simetrică, în cazul curbei normale x = Me = Mo. Dacă ţinem cont că alura curbei normale este în relaţie cu σ atunci putem spune că o distribuţie (curbă) normală este perfect descrisă de cei doi parametri - x şi σ. Vom observa că exponentul lui e seamănă cu formula de calcul pentru valorile unei

variabile standardizate având x = 0 şi σ = 1; deci, dacă notăm u=

x-x

σ obţinem ecuaţia curbei normale standardizate (normate):

e 2

u2-

2

1=y

π .

Page 34: Statistic A

35

Bineînţeles că cele două curbe (normală propriu-zisă şi normală standardizată) sunt identice ca formă (vezi fig.4.1). Diferenţa dintre ele este dată de valoarea centrală ( x , respectiv 0) şi de unitatea de măsură a variabilei pe axa Ox (la cea standardizată valorile xi sunt exprimate ca abateri de la x , măsurate în număr de σ). Ordonatele curbei normale (valorile y) corespund frecvenţelor de apariţie a diferitelor valori; întrucât numărul acestor valori este infinit, este justificată, matematic vorbind, trecerea de la noţiunea de frecvenţă la cea de „probabilitate”17 . O proprietate foarte importantă a curbei normale este aceea că, indiferent de mărimea mediei şi a abaterii standard, există o proporţie (sau arie sub curbă) constantă cuprinsă între x şi o ordonată oarecare a cărei distanţă faţă de x este măsurată în număr de σ (vezi fig.4.2). Atunci când această distanţă este egală cu 1 σ, spre dreapta faţă de x , aria de sub curbă este de 34,13% din aria totală, iar dublul ei (68,26%) reprezintă aria de sub curbă de o parte şi alta a x , până la o distanţă de 1 σ; altfel spus, 68,26% din valorile distribuţiei diferă de x prin mai puţin de 1 σ sau, ceea ce înseamnă acelaşi lucru, există o probabilitate de 68,26% ca o valoare oarecare să fie cuprinsă în intervalul dintre -1 σ şi +1 σ. În mod corespunzător, probabilitatea ca o valoare oarecare să fie inclusă în intervalul dintre -2 σ şi +2 σ este de 95,45%, iar pentru intervalul dintre -3 σ şi +3v probabilitatea este de 99,74%. Regula celor 3 σ. După cum se observă, probabilitatea unei valori care să difere de x cu mai mult de 3 σ este practic nulă (0,26%). Acest fapt este foarte util în practica verificării acurateţii datelor de observaţii care constituie valori ale unei variabile ce urmează o distribuţie normală. Dacă, de exemplu, într-un şir de 50 de valori apare una care diferă de medie cu mai mult de 3σ, atunci valoarea respectivă trebuie privită cu neîncredere, chiar dacă ea nu poate fi considerată a priori ca find eronată. Trebuie verificate corectitudinea determinărilor/măsurătorilor, sau cea a transcrierii datelor, sau omogenitatea datelor etc. Această „regulă a celor 3σ ” constituie, deci, o cale de a ne feri de erori grosiere atunci când analizăm seturi de date empirice.

17 Probabilitatea este egală cu valoarea-limită spre care tinde o frecvenţă , atunci când numărul elementelor din populaţia originară tinde spre infinit.

Figura 4.1. Curba normală (a) şi curba normală normată (b).

Figura 4.2. Repartiţia suprafeţelor sub curba normală.

Page 35: Statistic A

36

În sens strict procentul 100% nu este niciodată atins, căci curba normală nu atinge niciodată axa Ox, ci se apropie asimptotic de aceasta. Să observăm că în figură ordonatele care delimitează suprafeţele de sub curbă corespund unor multipli întregi (1,2,3) de σ. O imagine mult mai completă se obţine atunci când suprafeţele de sub curbă vor fi precizate pentru un număr mai mare de ordonate, cărora le vor corespunde valori intermediare nσ (n - număr real). Aceste suprafeţe procentuale (sau probabilităţi), ca şi cele corespunzând probabilităţilor cumulate ascendent, au fost calculate şi sunt trecute în tabele speciale, larg utilizate în cursul prelucrărilor statistice (vezi Anexele I şi II). Cu ajutorul unor asemenea tabele pot fi rezolvate patru tipuri de probleme (fireşte, în ipoteza că distribuţia empirică urmează o lege normală de repartiţie): 1° determinarea probabilităţii cazurilor mai mici ca o anumită valoare dată, numită valoare critică („probabilitate de nedepăşire” sau „asigurare de nedepăşire”), respectiv mai mari sau egale ca valoarea respectivă („asigurare de depăşire”). Exemplu. Pentru şirul de temperaturi medii anuale la staţia Iaşi, perioada 1961-1992, s-au calculat x = 9,42°C şi σ = 0,82°C. În ipoteza că distribuţia variabilei este una normală, să se determine probabilităţile procentuale de apariţie a unor valori de temperatură mai mici de 10°C, respectiv mai mari de 10°C.; sau, folosind simbolurile matematice uzuale în statistica matematică, să se determine P(x < 10°C), respectiv P(x ≥ 10°C). Pentru a putea utiliza tabelul din Anexa I trebuie mai întâi să standardizăm valoarea critică

respectivă: 0,71 =

0,82

0,58 =

x - xi =u σ . Intrând în tabel cu valoarea u calculată găsim o probabilitate de

nedepăşire de 0,7611 sau 76,11%. Probabilitatea de depăşire este una complementară faţă de cea anterioară, deoarece suma lor trebuie să acopere întreaga suprafaţă de sub curba normală; deci ea se obţine scăzând din 1 (sau 100%) probabilitatea de nedepăşire: 100 - 72,11 = 23,89%. Dacă valoarea critică xi este mai mică decât media x , atunci u<0, iar probabilitatea de nedepăşire va fi cea complementară celei citite în Anexa I (datorită proprietăţii de simetrie a curbei normale). 2° determinarea probabilităţii cazurilor cuprinse între două limite (valori critice) date. Această probabilitate este egală cu suprafaţa de sub curba normală delimitată de cele două valori. Cu ajutorul tabelului această suprafaţă se obţine ca diferenţă între probabilităţile cumulate ce corespund celor două valori. Să presupunem, lucrând cu datele din exemplul de mai sus, că se cere probabilitatea ca în unul din ani să se înregistreze o temperatură medie anuală cuprinsă între 9 şi 10°C, sau, folosind simbolurile uzuale: P(9°C < x < 10°C). Probabilităţile cumulate ce corespund celor două valori critice le extragem din Anexa I, după ce am procedat, în prealabil, la standardizarea lor: u1 = (10-9,42)/0,82 = 0,71; în Anexa I găsim P1 = 0,7611 = 76,11%. u2 = (9-9,42)/0,82 = -0,51; deoarece u2<0, probabilitatea căutată este cea complementară probabilităţii pe care o găsim în Anexa I intrând cu valoarea absolută a lui u2: P2 = 1-0,6950 = 0,3050 = 30,5%. P(9°C < x < 10°C) = P1-P2 = 76,11-30,5 = 45,61%. 3° Determinarea valorii căreia îi corespunde o probabilitate dată (de depăşire sau de nedepăşire).

Page 36: Statistic A

37

În exemplu nostru, cărei temperaturi medii anuale îi corespunde o probabilitate de 80% de a nu fi depăşită? Sau, într-o altă formulare, care este valoarea faţă de care 80% din valorile şirului de temperaturi sunt mai mici, sau cel mult egale cu aceasta? - se caută în Anexa I probabilitatea cea mai apropiată de 0,80, apoi se extrage valoarea u corespunzătoare (0,84);

- din formula σ

x-x=u

se scoate x = uσ + x = 0,84´0,82 + 9,42 = 10,1°C. 4° mărimea intervalului (implicit, limitele acestuia), exprimat în număr de σ de la x , care include un procent dinainte stabilit de valori. În exemplul nostru, care este intervalul ce include 95% din valorile de temperatură? Altfel spus, care este intervalul în interiorul căruia există 95% şanse de a fi inclusă o valoare oarecare din şir? Întrucât acum nu mai avem de-a face cu o probabilitate de depăşire sau nedepăşire, ci cu probabilitatea ca o valoare să fie situată în interiorul unui interval centrat pe media aritmetică, vom folosi Anexa II: - se caută în tabel probabilitatea care reprezintă jumătate din 95%, aceasta deoarece în tabel sunt considerate abaterile faţă de medie doar într-o singură direcţie (ori, intervalul nostru se extinde de ambele părţi ale mediei); - se scoate valoarea z corespunzătoare (1,96); - intervalul nostru va fi x ± 1,96 σ (dar, pentru repartiţia normală normată σ =1), adică (7,4...11,4°C). De notat că distribuţia normală este doar una (chiar dacă cea mai cunoscută şi uzitată) dintre distribuţiile teoretice ale căror proprietăţi pot fi valorificate în analizele statistice. Menţionăm alte câteva distribuţii teoretice care pot fi utilizate cu succes în analiza datelor geografice: a) distribuţia log-normală, sau a lui Galton - este o variantă a legii normale, în sensul că dacă X este o variabilă ale cărei valori xi urmează o distribuţie log-normală, atunci valorile log(xi) urmează o distribuţie normală. Curba log-normală prezintă o asimetrie caracteristică de stânga, destul de accentuată (vezi fig.4.3). Distribuţia log-normală este potrivită, de exemplu, pentru aproximarea distribuţiei de frecvenţe a precipitaţiilor zilnice (variabilitate accentuată şi multe valori mici, sau chiar nule, corespunzătoare zilelor fără precipitaţii, care „trag” maximul de frecvenţă, adică Mo, spre stânga); b) distribuţia binomială - este una din distribuţiile teoretice fundamentale în statistica inferenţială, alături de cea normală. Spre deosebire de distribuţia normală, cea binomială se aplică, îndeobşte, variabilelor discrete. Ea aproximează distribuţia statistică a unei variabile (discrete) ale cărei valori se grupează, în funcţie de un criteriu sau o valoare critică dată, în două categorii care se exclud reciproc, iar suma probabilităţilor ce corespund celor două categorii este egală cu probabilitatea totală (1 sau 100%). Spre exemplu, un şir de aruncări ale unei monede: fiecare eveniment individual (aruncare) poate să aparţină la 1 din 2 categorii: capul sau pajura,

Figura 4.3. Curba distribuţiei log-normale.

Page 37: Statistic A

38

niciodată şi una şi alta, iar suma frecvenţelor (probabilităţilor, în cazul unui număr infinit de aruncări) dă numărul total de evenimente (respectiv probabilitatea 1 sau 100%). c) distribuţia Poisson este o distribuţie căreia i se supun variabilele cantitative (tot discrete) ale căror valori au o frecvenţa de producere foarte mică (în timp sau spaţiu), motiv pentru care mai este numită şi „distribuţia evenimentelor rare”. Exemple de astfel de variabile: număr de viituri în sezonul cald; număr de zile cu îngheţ timpuriu/târziu (dintr-o perioadă multianuală) ş.a. Caracteristica distribuţiei Poisson o constituie egalitatea a doi parametri de bază: media aritmetică şi abaterea standard. Curba de distribuţie este de regulă asimetrică, dar asimetria scade odată cu creşterea frecvenţei de producere a acelor „evenimente rare” (fig.4.4). De remarcat, în final, că legea (distribuţia) normală rămâne una fundamentală, de vreme ce ea aproximează destul de bine alte distribuţii teoretice (ca cea binomială sau Poisson) în condiţiile în care numărul de valori ale variabilei studiate este suficient de mare, sau frecvenţa de producere a unor evenimente creşte suficient de mult. 4.2. Caracteristicile eşantioanelor (sondajelor) În mod obişnuit generalizările (inferenţele inductive) statistice au drept scop evidenţierea unor caracteristici ale fenomenelor şi proceselor care sunt studiate prin intermediul unor ansambluri de date de observaţii. Aceste ansambluri de mari dimensiuni (eventual infinite ca număr de elemente) poartă denumirea de populaţii. Însă din diferite motive (de ex. nu sunt disponibile date asupra tuturor elementelor; pentru economie de timp; numărul de elemente este infinit etc.), cel mai adesea caracteristicile populaţiei pot fi studiate doar cu ajutorul unor subseturi de elemente (eşantioane) prelevate după anumite reguli din populaţia respectivă. Drept urmare trebuie să facem o distincţie clară între parametrii statistici ai populaţiei, numiţi şi „parametri adevăraţi”, şi parametrii corespunzători calculaţi pe baza eşantioanelor, numiţi „parametri de sondaj” (de selecţie). 4.2.1. Relaţiile dintre parametrii de sondaj şi cei ai populaţiei originare. Este clar că parametrii adevăraţi (de ex. adevărata medie, adevărata σ) pot fi cunoscuţi cel mai adesea doar prin intermediul celor de sondaj, care, în acest caz, reprezintă o estimare a parametrilor populaţiei. Precizarea tipului de parametru la care ne referim se face cu ajutorul unor simboluri (notaţii) specifice: µ = adevărata medie (a populaţiei); σ = adevărata abatere standard (a populaţiei); x = media eşantionului (de sondaj); s = deviaţia standard de sondaj Este necesar ca înainte de a proceda la o evaluare a diferenţelor dintre diferite seturi de date (eşantioane), sau la formularea unor concluzii bazate pe parametrii de sondaj, să ştim câte ceva despre relaţiile dintre cele două tipuri de parametri.

Figura 4.4. Curba distribuţiei Poisson pentru diferite valori ale mediei λ.

Page 38: Statistic A

39

Parametrii care caracterizează o populaţie sunt nişte valori fixe (stabile) şi sunt de regulă, necunoscuţi. Spre exemplu, vârsta medie a populaţiei studenţilor de la Universitatea Iaşi în anul şcolar 2003/2004 este un parametru cu o valoare anume, stabilă în intervalul temporal de definiţie a populaţiei; această valoare poate fi cunoscută printr-un efort de inventariere a tuturor studenţilor, dar ea poate fi şi estimată cu ajutorul unor eşantioane extrase din populaţia respectivă. Prin comparaţie cu parametrii populaţiei, cei de sondaj variază de la un eşantion la altul extrase din una şi aceeaşi populaţie. În exemplul de mai sus, este de aşteptat ca pentru 10 eşantioane aleatoare prelevate din populaţia de studenţi să obţinem 10 vârste medii diferite, chiar dacă foarte apropiate între ele. Parametrii de sondaj sunt mărimi cunoscute (sau calculabile) şi acest fapt, combinat cu dificultatea - chiar imposibilitatea, uneori - cunoaşterii parametrilor adevăraţi (ai populaţiei), evidenţiază importanţa cunoaşterii legăturii dintre cele două tipuri de parametri. Altfel spus, este important să ştim cât de reprezentativ este un eşantion pentru populaţia din care este extras, sau cu ce grad de precizie reuşeşte un parametru de sondaj să aproximeze (estimeze) corespondentul său „adevărat”. Din punctul de vedere al statisticii inductive, un eşantion reprezintă o secţiune reală şi reprezentativă - atât cât permite mărimea sa - prin populaţia studiată. Ideal ar fi ca prelevarea elementelor pentru constituirea eşantionului să fie pur aleatoare pentru a asigura reprezentativitatea - şi există metode şi reguli care asigură această cerinţă fundamentală (vezi Anexa IX). În multe cazuri, totuşi, inclusiv în analizele geografice, selecţia aleatoare este fie imposibilă, fie neconvenabilă din diverse motive; dar şi în aceste cazuri există reguli de selecţie care să asigure reprezentativitatea eşantionului faţă de populaţia originară. Întrucât, însă, conceptele generale ale statisticii inductive pot fi cel mai bine explicate în termenii sondajului aleator, în continuare vom adopta această premisă pentru abordarea problemelor de prezentat. Ştiind că un sondaj este aleator, factorul major care controlează relaţia dintre parametrii populaţiei şi cei ai eşantionului este mărimea eşantionului. Pentru a intui cum acţionează acest factor, să revenim puţin la curba de distribuţie normală. Aspectul curbei este determinat de frecvenţa fiecărei valori individuale, ca şi de σ, x fiind plasată central. Să presupunem acum că valorile individuale au fost grupate în eşantioane aleatore de câte 10 itemuri, iar pentru fiecare eşantion s-a calculat x . Distribuţia de frecvenţe a mediilor eşantioanelor va fi deasemenea una normală, având aceeaşi medie ca distribuţia iniţială, dar σ mai mică, de aici rezultând forma diferită a curbei (vezi fig.4.5, n = 10). Acest fapt este firesc, căci selecţia aleatoare a itemurilor pentru fiecare eşantion face puţin probabilă extragerea unor valori situate,toate, de o singură parte a mediei generale, iar prin medierea celor 10 itemuri amplitudinea de variaţie (deci şi deviaţia standard) a „mediilor din 10 itemuri” va fi mai scăzută ca amplitudinea de variaţie (respectiv deviaţia standard) a valorilor individuale iniţiale. În plus, se poate intui uşor că o creştere în continuare a numărului de itemuri din eşantioane va cauza o scădere proporţională a deviaţiei standard a distribuţiei mediilor de sondaj respective (vezi fig.4.5, n = 20), curba de distribuţie devenind din ce în ce mai ascuţită, iar mediile mai strâns grupate în jurul mediei generale.

Figura 4.5. Curbele distribuţiilor de frecvenţe ale mediilor eşantioanelor de diferite mărimi.

Page 39: Statistic A

40

Concluzia: varianţa (deci şi deviaţia standard) distribuţiei mediilor de sondaj este în relaţie cu numărul de itemuri din eşantion, iar această relaţie se poate scrie astfel18:

,

n

2 = 2

σ, deci n

= nσ

σ

în care σσ n2n , = varianţa, respectiv abaterea standard a mediilor eşantioanelor de câte n itemuri;

σσ ,2 = varianţa, respectiv abaterea standard ale distribuţiei normale (cu valori individuale); n =

volumul eşantioanelor. Această relaţie este foarte importantă pentru interpretarea rezultatelor obţinute prin prelucrarea datelor de sondaj. Astfel, dacă mediile eşantioanelor alcătuiesc o distribuţie normală, atunci, date fiind proprietăţile curbei normale, există o probabilitate foarte scăzută (≈0,3%) ca media oricărui eşantion să difere de media generală („adevărată”, pentru că s-au luat

în calcul toate itemurile individuale) cu mai mult de 3σn, adică )n/3(σ ; sau, este puţin probabil (probabilitatea ≅ 5%) ca respectiva medie să difere de media generală cu mai mult de

)n/2(σ . Dacă aşa stau lucrurile, atunci şi reciproca este adevărată, adică: dacă este cunoscută media unui eşantion, atunci, este foarte puţin probabil (probabilitate 0,3%) ca media generală

(„adevărată”) să difere de media de sondaj cu mai mult de )n/3(σ , sau este puţin probabil

(probabilitatea ≅5%) să difere cu mai mult de )n/2(σ . Cu alte cuvinte, dacă se obţine media unui eşantion, este posibil să se precizeze limitele între care se va situa, cu o anumită probabilitate, media adevărată (a populaţiei din care provine eşantionul). Adică:

)

n+x ,

n-x(

σσµ ∈

, cu o probabilitate de 68,26%;

)

n2+x ,

n-2x(

σσµ ∈

, cu o probabilitate de 95,45%;

)

n3+x ,

n-3x(

σσµ ∈

, cu o probabilitate de 99,74%;

)

nu p%+x ,

nu p%-x(

σσµ ∈

, cu o probabilitate oarecare p%, dată dinainte (u p% putând fi extras din Anexele I sau II). Exemplu. Pentru a se evalua vârsta medie a populaţiei studenţilor de la Universitatea Iaşi, în anul şcolar 1994/95, s-a alcătuit un eşantion (aleator) de 50 valori (vârste). Pentru acest eşantion s-au calculat x =23 ani şi s=2,5 ani. Limitele intervalelor în interiorul cărora, cu probabilităţile de mai sus, se va situa adevărata vârstă medie vor fi:

)7,12,5+23 ,

7,12,5-(23∈µ

⇔ (23-0,35, 23+0,35) ⇔ (22,65¸23,35) (P=68,26%);

)7,12,52+23 ,

7,12,52-(23 **∈µ

⇔ (23-0,70, 23+0,70) ⇔ (22,30¸23,70) (P=95,45%);

)7,12,53+23 ,

7,12,53-(23 **∈µ

⇔ (23-1,05, 23+1,05) ⇔ (21,95¸24,05) (P=99,74%). 18 Relaţia respectivă, ca şi normalitatea distribuţiei mediilor de sondaj, sunt matematic demonstrabile.

Page 40: Statistic A

41

Se va observa că intervalul în care se află µ este cu atât mai larg, cu cât probabilitatea este mai mare; deci sporul de certitudine se obţine cu preţul lărgirii intervalului în care se află parametrul adevărat căutat.

Mărimea care controlează limitele intervalului, adică ns/ , este cunoscută sub denumirea de eroarea standard a mediei de sondaj, notată ES x . O eroare standard analoagă se poate obţine şi pentru deviaţia standard de sondaj:

2n

s = ES s

, iar )

2n

su p%+ s,

2n

su p%-(s∈σ

, up% fiind abaterea s de la σ, exprimată în număr de s şi corespunzând unei probabilităţi date. 4.2.2.Eşantioane mici În exemplu cu vârsta medie a studenţilor, pentru calculul ES x a fost luată în calcul nu σ, ci s, ceea ce înseamnă că am asimilat pe s cu σ, lucru ce nu se poate justifica din punct de vedere matematic. La fel am făcut şi în cazul ESs. Corect ar fi fost să folosim σ, însă aceasta nu era cunoscută. Într-adevăr, în practică se întâmplă deseori să nu avem la îndemână decât valori de sondaj. Totuşi, pentru a putea aplica formulele de obţinere a erorilor standard cu o oarecare justificare, se poate face aşa-numita estimare a σ. Această operaţiune, numită în statistică „a obţine cea mai bună estimaţie”, se realizează prin aplicarea unei corecţii la valoarea s. Această

corecţie, cunoscută sub denumirea „corecţia lui Bessel” este de forma 1-n

n

şi ea transformă s în „cea mai bună estimaţie a σ”, notată cu σ̂ . Atunci când corecţia Bessel este introdusă în formula de calcul a deviaţiei standard se obţine direct cea mai bună estimaţie a σ:

1-n)x-xi(2

= ∑

σ̂.

În exemplu cu vârsta medie a studenţilor:

2,52ani = 1,012,5 =

49

502,5 =

1-n

n s= ***σ̂

0. Diferenţa dintre s şi σ̂ 0 este foarte mică (0,02), şi aceasta pentru că volumul eşantionului (50) este destul de mare. Într-adevăr, dacă examinăm formula corecţiei lui Bessel intuim că, cu

cât eşantionul este mai mare, cu atât valoarea 1)-n/(n se apropie de 1; pe măsură, însă ce n scade, valoarea corecţiei devine considerabil mai mare ca 1, afectând mărimea ES. Este clar, deci, că în cazul eşantioanelor mici (n<30, de regulă) este mai corect să se lucreze cu σ̂ şi nu cu s. La eşantioanele mici, însă, mai apare o problemă. Datorită aplicării corecţiei, distribuţia mediilor mai multor eşantioane, chiar dacă păstrează aceeaşi medie µ ca şi populaţia originară, va avea o deviaţie standard σ ce nu mai conferă distribuţiei caracteristicile unei curbe normale. Aceasta înseamnă că valorile de probabilitate şi, în general, proprietăţile curbei normale nu mai pot fi aplicate la un eşantion mic, chiar dacă populaţia din care provine acesta urmează o distribuţie normală. În locul ei se foloseşte o altă distribuţie teoretică numită distribuţia „t” a lui Student. Curba de distribuţie „t” este ceva mai aplatizată decât cea normală şi mai efilată la capete (fig.4.6).

Page 41: Statistic A

42

În orice caz, trebuie reţinut că proprietăţile distribuţiei „t” se folosesc numai în cazul eşantioanelor mici care provin din populaţii normale. Valorile t calculate pentru diferite volume ale eşantioanelor (1-30) şi diferite praguri de probabilitate sunt tabelate (vezi Anexa III) şi pot fi folosite pentru rezolvarea diferitelor probleme specifice. În cazul intervalului în care este situată µ, valorile t înlocuiesc valorile u atunci când se

multiplică ES x - deci )

nt p%+x ,

nt p%-x(

σσµ ∈

, cu o probabilitate p% hotărâtă dinainte. Exemplu. Se face un studiu asupra numărului de locuitori dintr-o serie de localităţi mici (comune) de pe un teritoriu vast. Numărul total de localităţi este mare, însă anumite similarităţi în ce priveşte numărul lor de locuitori sunt sugerate de cunoştinţe le existente asupra regiunii. De aceea s-a hotărât să se facă o analiză preliminară rapidă, pe baza unui eşantion aleator de numai 10 comune, astfel încât numai caracteristicile demografice majore să fie evidenţiate. Pentru acest eşantion s-au calculat următorii parametri:

x =350 loc/com; s=25 loc; n = 10. Care sunt limitele intervalului în care se află media adevărată a numărului loc/comună, cu o probabilitate de 95%? a) folosind proprietăţile curbei normale (ca şi cum am avea un eşantion mare) şi luând z47,5%≈2:

)n

s2+x ,

n

s-2x(95% ∈µ

⇔ (350-2×7,9, 350+2×7,9) ⇔ (334,2÷365,8);

b) tot cu proprietăţile curbei normale, dar ţinând cont de corecţia Bessel: 26,34 = 1,1125 =

1-n

n s= σ̂

, deci

)n

2+x ,n

-2x(95%σσ

µˆˆ

∈ ⇔ (350-2×8,3, 350+2×8,3) ⇔ (333,4÷366,6);

c) ţinând cont că lucrăm cu un eşantion mic, deci folosind proprietăţile distribuţiei „t” (vezi Anexa III; intrarea în tabel se face cu probabilitatea dată şi cu numărul gradelor de libertate19, care aici este egal cu n-1, adică 9):

)n

t 1-n95%;+x ,n

t 1-n95%;-x(95%σσ

µˆˆ

∈0 ⇔ (350-2,3×8,3, 350+2,3×8,3) ⇔ (330,9÷369,1).

Examinând cele trei rezultate constatăm că prin considerarea regulilor statistico-matematice de prelucrare, mărimea intervalului a crescut sensibil, ceea ce înseamnă că pentru eşantioanele mici se iau o serie de precauţii suplimentare atunci când se estimează valoarea unui parametru „adevărat”, precauţii care conduc, în ultimă instanţă, la lărgirea intervalului de încredere. 4.2.3. Specificarea mărimii eşantionului Reiese din cele spuse referitor la eşantioane că mărimea intervalului în care se află parametrii populaţiei (µ, σ) este controlată de: - nivelul de probabilitate fixat (direct proporţional); - s (direct proporţional); - mărimea (volumul n) eşantionului (invers proporţional). 19 Pentru semnificaţia noţiunii „grade de libertate“ vezi § 4.3.2.1.2

Figura 4.6 Comparaţie între curba normală şi curba distribuţiei ”t”.

Page 42: Statistic A

43

Dintre aceste variabile una (s) este dependentă de datele eşantionului . Rămân celelalte două, care pot constitui elemente de alegere deliberată în funcţie de scopul şi natura analizei şi de gradul de acurateţe cerut. Să presupunem că intervalul în care se află µ, cu o probabilitate dată, ni se pare prea larg şi dorim să-l restrângem, ba chiar să-i fixăm dinainte limitele. Acest lucru este posibil prin creşterea volumului eşantionului până la un anumit număr de valori. Dar câte? Rezolvarea problemei e destul de simplă. Intervalul are forma generală

)

nu p%+x ,

nu p%-x( )ES xu p%+x ,ES xu p%-x(

σσ_

. Pentru a fixa dinainte limitele intervalului dăm valoarea necesară expresiei care se adună şi se

scade din media aritmetică: C =

nu p%

σ

, deci intervalul va fi C)+x -C,x( . Din expresia

nu p% = C

σ

scoatem pe n şi problema e rezolvată. În exemplul de mai sus, să presupunem că dorim ca µ să difere de x cu ± 5 loc./com., la nivelul de probabilitate de 95%. Avem z47,5% (reamintim că în Anexa II sunt date probabilităţile corespunzătoare unor intervale situate de o singură parte a mediei) = 1,96 ≈ 2; σ̂ = 26,34; C = 5.

5

26,342 =

Cz47,5% = n

*ˆ*σ

= 10,53 ⇒ n = (10,53)2 ≈ 111 valori. Verificarea poate fi făcută foarte uşor. 4.3. Verificarea ipotezelor statistice 4.3.1. Ipoteze statistice În mod obişnuit cercetătorul care analizează diferite fenomene/procese cu ajutorul metodelor statistice este interesat în primul rând de caracteristicile populaţiilor din care provin eşantioanele de lucru. Alcătuite după anumite reguli, eşantioanele nu au alt rol decât acela de a servi ca punct de plecare pentru o serie de inferenţe asupra caracteristicilor (necunoscute) ale populaţiilor, pornind de la caracteristicile cunoscute, dar fără o relevanţă intrinsecă, ale eşantioanelor. Aceste inferenţe (concluzii logice fundamentate statistico-inductiv) sunt numite ipoteze statistice. Ca orice ipoteze de lucru, şi cele statistice se cer verificate, iar verificarea lor se realizează prin intermediul unor procedee specifice numite teste statistice. În comparaţie cu alte ipoteze formulate şi verificate în practica ştiinţifică din diferite domenii, ipotezele statistice prezintă câteva particularităţi impuse de fundamentele probabilistice ale statisticii inferenţiale (inductive): a) în marea majoritate a cazurilor ipotezele statistice se formulează în termenii existenţei unei diferenţe: diferenţă între parametrii de sondaj şi cei ai populaţiei; diferenţă între parametrii a două sau mai multe populaţii; diferenţă între o distribuţie de frecvenţă empirică şi una teoretică, sau între două distribuţii empirice ş.a. Testarea ipotezelor înseamnă, în acest caz, evaluarea gradului de semnificaţie sau de siguranţă statistică a acestor diferenţe. Fireşte, concluziile testării sunt de natură probabilistă, altfel spus concordanţa diferitelor ipoteze cu realitatea se realizează în limitele unui anumit risc (probabilitate) de eroare acceptat (şi stabilit) dinainte. Acest risc este cunoscut sub denumirea de prag sau nivel de semnificaţie al testului folosit pentru verificările ipotezelor statistice.

Page 43: Statistic A

44

b) lipsa unei siguranţe depline face ca la verificarea unei ipoteze statistice să fie posibile două tipuri de erori: - respingerea ipotezei, atunci când, în realitate, ea este adevărată. Acest tip de eroare este cunoscut sub numele de „eroare de ordinul I” şi ea afectează cerectarea ştiinţifică prin aceea că nu permite nişte generalizări inductive care, ulterior, ar putea deveni puncte de plecare pentru demersul cognitiv complementar, adică cel deductiv; - acceptarea ipotezei, în condiţiile în care în realitate ea este falsă („eroare de ordinul II”). Acest tip de eroare este mult mai periculos pentru cercetarea ştiinţifică, căci furnizează generalizări false care, apoi, constituie puncte de plecare pentru demersul deductiv, erorile propagându-se în lanţ de-a lungul spiralei inductiv-ipotetico-deductive care stă la baza progresului ştiinţific. Este remarcabil faptul că, de regulă, ipotezele formulate în practica cercetării ştiinţifice au tendinţa de a se baza pe nişte diferenţe observate în urma prelucrării datelor de sondaj - diferenţe cărora spiritul analitic, înclinat prin natura sa spre discriminări, încearcă instinctiv să le găsească explicaţii raţionale, adesea foarte ingenioase. Dacă, însă, diferenţele observate se datorează doar întâmplării (eşantioanele fiind alcătuite după regulile selecţiei aleatoare), atunci creşte riscul unei erori de ordinul II, adică acela al acceptării unei ipoteze de lucru care în realitate este falsă. Tocmai pentru a preveni o asemenea situaţie, în practica verificării ipotezelor statistice se operează cu ipoteza care, din punct de vedere logic, reprezintă o negaţie a ipotezei curente de lucru - altfel spus, cu ipoteza care neagă existenţa acelei (acelor) diferenţe observate, pe baza cărora cercetătorul ar fi înclinat să construiască eşafodajul explicativ. Această ipoteză inversă este cunoscută în statistica inferenţială sub denumirea de ipoteza nulă (a diferenţei nule) notată H0. În raport cu ea ipoteza curentă de lucru devine o ipoteză alternativă (H1), care va fi acceptată doar dacă, în urma operaţiunii de testare, ipoteza nulă este respinsă. Testarea ipotezei nule în locul celei alternative are ca principal avantaj micăorarea, în ce priveşte ipoteza de lucru, a riscului erorii de ordinul II (mai nocivă pentru demersul ştiinţific, după cum am văzut), chiar dacă creşte corespunzător riscul unei erori de ordinul I. 4.3.2. Teste statistice Un test statistic este un criteriu (într-un sens mai larg - o tehnică) pentru

verificarea unei ipoteze statistice, constând în calculul unei statistici şi stabilirea unei reguli prealabile de acceptare sau respingere a ipotezei nule H0, cu o anumită probabilitate de a lua o decizie inexactă.

Din definiţie reiese că elementul central al unui test este statistica acestuia. Statistica testului este o funcţie de valorile concrete ale eşantionului: f(x1,x2,..., xn).Ansamblul valorilor posibile ale statisticii defineşte o variabilă (caracteristică cantitativă continuă) aleatoare a cărei distribuţie statistică este utilizată pentru verificarea ipotezei nule. Domeniul tuturor valorilor posibile ale unei statistici se împarte în două regiuni disjuncte şi complementare (vezi fig.4.7): a) regiunea de acceptare - o mulţime de valori astfel încât, dacă valoarea calculată a statisticii aparţine acestei regiuni, se acceptă i.n. H0; b) regiunea de respingere (critică) - o mulţime de valori astfel încât, dacă valoarea calculată a statisticii aparţine acestei regiuni, se respinge i.n. H0. Mărimea α (vezi fig.4.7) se numeşte prag (nivel) de semnificaţie al testului şi reprezintă probabilitatea ca decizia de acceptare/respingere a i.n. H0 să fie eronată. În funcţie de concluzia testului interpretarea riscului de eroare se face astfel:

Page 44: Statistic A

45

i) se acceptă i.n. H0 - atunci există riscul (probabilitatea) ca în α% din cazuri aceasta să se dovedească, totuşi, neadevărată (riscul erorii de ordinul II); ii) se respinge i.n. H0 - atunci există riscul ca în α% din cazuri aceasta să se dovedească, totuşi, adevărată (riscul erorii de ordinul I). Există o mare varietate de teste statistice, unele mai simple, altele foarte sofisticate. Marea majoritate a lor verifică (testează) semnificaţia statistică a unor diferenţe de genul celor menţionate în paragraful anterior. În funcţie de modul în care sunt considerate diferenţele testate, se obişnuieşte o grupare a testelor în două categorii: a) teste bilaterale - sunt acele teste la care regiunea de respingere (critică) apare sub forma a două sectoare ale curbei teoretice de distribuţie a statisticii testului, cele două sectoare fiind situate la extremităţile curbei. Prin urmare nivelul de semnificaţie α este distribuit în mod egal (α/2) între cele două sectoare (vezi fig.4.7-b). Testul bilateral se aplică atunci când ipoteza nulă H0 nu postulează decât existenţa unei diferenţe, nu şi sensul (direcţia) acesteia - de ex. σx≠σy, dar nu σx>σy sau σx<σy. Atunci când se precizează şi sensul diferenţei, se aplică un test din cea de-a doua categorie, respectiv b) teste unilaterale - la care regiunea critică este plasată la unul din capetele curbei teoretice de distribuţie a statisticii testului (vezi fig.4.7-a). Rezultă că un test din această categorie poate fi unilateral-stânga sau unilateral-dreapta. O altă clasificare a testelor statistice ţine cont de cunoaşterea sau nu a unor parametri ai populaţiilor din care provin eşantioanele analizate, ca şi de adoptarea sau nu a unor presupoziţii în legătură cu tipul de distribuţie teoretică urmată de populaţiile respective. În felul acesta se disting două tipuri de teste: a) teste parametrice - sunt testele care presupun cunoscute anumite caracteristici ale populaţiei originară (µ, σ, tip de distribuţie etc.) şi ele sunt relevante numai dacă presupunerile sunt valide. Cele mai frecvente presupoziţii la aplicarea testelor parametrice sunt: - populaţiile sunt distribuite normal; - eşantioanele au un caracter aleator (observaţiile sunt independente); - populaţiile comparate au aceeaşi varianţă (σ1 = σ2); - datele de observaţii sunt din categoria celor cantitative continue. Cele mai uzitate teste din această categorie sunt testul „t” al lui Student şi testul „F” al lui Snedecor. b) teste neparametrice - sunt acele teste care nu fac nici o presupoziţie în legătură cu populaţia originară, cu excepţia independenţei observaţiilor şi, poate, a continuităţii subînţelese în şirurile de date. Deoarece nu pretind cunoaşterea unor parametri ai populaţiei, testele neparametrice pot fi folosite nu numai în cazul datelor cantitative continui, ci şi al celor cantitativ discrete, calitative ordinale şi chiar calitative nominale. Cele mai uzitate tehnici neparametrice sunt testul „χ2” (hi-pătrat) şi testul Kolmogorov-Smirnov. Indiferent de tipul testului ales pentru verificarea unei ipoteze de lucru, în aplicarea acestuia se parcurg obligatoriu următoarele etape:

Figura 4.7. Regiunile critice ale distribuţiei statisticii unui test unilateral (a) şi bilateral (b).

Page 45: Statistic A

46

1° Definirea i.n. H0 şi a i.a. H1. Această primă etapă este extrem de importantă, căci o formulare incorectă a ipotezei nule H0 atrage după sine lipsa de validitate a deciziei adoptate şi a interpretării concluziilor testului. Hotărâtoare este, aici, experienţa cercetătorului în ce priveşte aplicarea testelor statistice, pe lângă o bună cunoaştere a problemelor implicate de ipoteza de lucru. 2° Alegerea nivelului de semnificaţie α al testului. Dacă ţinem minte că α reprezintă probabilitatea de a lua o decizie neconformă cu realitatea, atunci cu cât α este mai mic, cu atât riscul de eroare este şi el mai redus. Cele mai frecvente valori adoptate pentru α sunt 0,05, 0,01 şi 0,001 (sau 5,1 şi 0,1%), 3° Alegerea statisticii testului - adică alegerea variabilei aleatoare a cărei lege de repartiţie (distribuţie teoretică), cunoscută, să servească drept criteriu de decizie. Alegerea statisticii înseamnă, implicit, alegerea testului aplicabil în condiţiile date, având în vedere că testele statistice diferă între ele în primul rând prin statistica utilizată. 4° Stabilirea regiunii critice - adică stabilirea acelui domeniu al valorilor statisticii pentru care, dacă statistica calculată intră în acest domeniu, se respinge i.n. H0 (şi se acceptă ca adevărată i.a. H1), cu o probabilitate α de a greşi. Regiunea critică se identifică cu ajutorul tabelelor sau graficelor specifice pentru legea de repartiţie (distribuţia teoretică) urmată de statistica testului, tabele sau grafice care sunt oferite în literatura de specialitate. 5° Luarea deciziei: acceptarea/respingerea ipotezei nule H0. Decizia luată permite o serie de concluzii şi interpretări ulterioare bazate pe generalizarea condiţiilor sugerate de datele de sondaj şi pe informaţii specifice domeniului din care provin datele respective. Importanţa luării unei decizii corecte nu trebuie, în acest caz, să mai fie subliniată . În continuare prezentăm câteva dintre cele mai uzitate teste statistice, grupate în două categorii: parametrice şi neparametrice. 4.3.2.1. Teste parametrice Majoritatea testelor parametrice presupun cunoscute media şi/sau dispersia populaţiilor din care provin eşantioanele analizate; deasemenea, ele admit unele presupoziţii în legătură cu distribuţia statistică a populaţiilor respective (de regulă, distribuţia normală). Vom prezenta câteva teste parametrice, grupându-le după numărul de eşantioane luate în considerare. 1. Cazul unui singur eşantion. În acest caz testele parametrice se mai numesc şi teste de semnificaţie (a unui parametru de sondaj, în raport cu parametrul „adevărat”) sau teste de apartenenţă (a eşantionului la populaţia originară). Practic, un asemenea test evaluează semnificaţia diferenţei dintre un parametru de sondaj ( x sau s) şi adevăratul parametru corespunzător (µ, respectiv σ), considerat cunoscut. Dacă eşantionul este suficient de mare (n>50, dar mai bine n>100) şi se cunoaşte σ a populaţiei (normale) din care provine eşantionul, atunci se poate aplica testul „z”. Statistica acestui test este de forma:

n/

- x =z σ

µ

Ea exprimă, după cum se observă, diferenţa dintre cele două medii în număr de erori standard ale x ; ca variabilă aleatoare aceasta urmează, deasemenea, distribuţia normală. Valoarea z calculată o comparăm cu cea teoretică (extrasă din tabelele distribuţiei normale) corespunzătoare nivelului de semnificaţie α ales; dacă valoarea calculată este mai mare ca valoarea tabelată , atunci ea intră în regiunea critică şi i.n. H0 va fi respinsă. Exemplu. Un studiu efectuat de o grupă de studenţi de la Facultatea de Sociologie din Iaşi asupra veniturilor populaţiei din municipiu debutează cu prelevarea unui eşantion aleator format din 100 de familii. Pe

Page 46: Statistic A

47

baza eşantionului se doreşte estimarea veniturilor medii ale populaţiei. Îndrumătorul grupei de studenţi are motive să creadă că eşantionul prelevat nu este reprezentativ, în sensul că familiile cu venituri medii şi mari sunt supra-reprezentate comparativ cu cele care au venituri mici. Datele de recensământ (lista completă a familiilor, cu

veniturile lor) furnizează µ = 120.000 lei şi σ = 30.000 lei. Venitul mediu calculat pe baza eşantionului este x 0 = 130.000 lei. Are îndrumătorul dreptate să creadă că eşantionul este nereprezentativ sau, altfel spus, că eşantionul nu

aparţine populaţiei analizate? Dacă da, atunci diferenţa dintre µ şi x trebuie să fie statistic semnificativă. Etapele de lucru: • definirea i.n. H0. Aceasta va fi ipoteza care neagă (contrazice) ipoteza cu care s-a pornit la verificare, adică aceea că eşantionul este nereprezentativ. Prin urmare i.n. H0 se va formula astfel: nu există o diferenţă

semnificativă între µ şi x , faţă de i.a.H1: µ< x ; • alegerea nivelului de semnificaţie α - să zicem 5%; • calcularea statisticii testului:

n/

- x =z σ

µ

= 10030.000/

120.000 - 130.000

= 3000

10.000

= 3,33

• stabilirea regiunii critice: întrucât a fost precizat sensul diferenţei dintre µ şi x , avem de-a face cu un test unilateral, în cazul căruia regiunea critică corespunde unui prag de probabilitate de α %. În tabelul distribuţiei normale (Anexa I) unei probabilităţi de 95% îi corespunde o valoare u » 1,65. • deoarece valoarea z calculată este mai mare decât valoarea u tabelată , conchidem că diferenţa între µ şi x este semnificativă şi, deci, respingem i.n. H0. Prin urmare, există o probabilitate de 95%20 ca eşantionul să fie nereprezentativ pentru populaţia din care a fost extras, rămânând un risc de eroare de 5% atunci când facem această afirmaţie. Se pare, deci, că profesorul avea dreptate... Dacă eşantionul este mic (n<30) şi nu cunoaştem pe σ, atunci în locul testului „z” putem folosi testul „t” bazat pe distribuţia omonimă a lui Student. Statistica acestuia este asemănătoare cu cea a testului „z”, cu deosebirea că în locul erorii standard a mediei, bazată pe σ (necunoscută, în acest caz), se calculează eroarea standard a mediei pe baza celei mai bune

estimaţii a σ: n/ = ES x σ̂ . Dacă înlocuim pe σ̂ cu formula de calcul ce include corecţia Bessel, atunci după câteva transformări aritmetice obţinem expresia de la numitorul statisticii testului „t”:

=

1)-n(n)2x-xi(

= n

1)-/(n)2x-xi( =

n

∑∑σ̂

1-n

s =

1-n

/n)2x-xi(

Deci statistica testului va fi:

1 - ns/

- x = t

µ

. După cum se observă, nu mai este nevoie să se calculeze cea mai bună estimaţie a σ, calculul abaterii standard de sondaj fiind suficient. Statistica testului urmează o distribuţie uşor diferită de cea normală. Însă una dintre presupoziţiile acestui test este aceea că populaţia din care provine eşantionul urmează o lege de distribuţie normală; presupoziţia trebuie verificată, mai ales atunci când volumul eşantionului este mic (cazul de faţă).

20 În tabelul distribuţiei normale sunt incluse probabilităţile ca o valoare oarecare să fie mai mică, sau cel mult egală cu valoarea u corespunzătoare (reamintim că valorile u sunt valorile standardizate ale variabilei distribuite normal). Pe de altă parte, statistica „z” a testului este şi ea tot o variabilă standardizată, repartizată normal, ale cărei valori pot fi comparate direct cu valorile u din Anexa I.

Page 47: Statistic A

48

2. Cazul a 2 eşantioane. Tehnicile parametrice bazate pe considerarea a două eşantioane aleatoare şi independente21 se mai numesc şi teste de comparare: compararea, de regulă, a unor parametri de sondaj pentru a decide apartenenţa eşantioanelor la populaţii diferite sau nu, în funcţie de concluzia testului. şi în acest caz testele evaluează semnificaţia statistică a unei diferenţe - cea dintre doi parametri de sondaj (medii, în mod obişnuit). Testele cele mai uzitate sunt analoage cu cele de la cazul unui singur eşantion, adică testul „z” şi testul „t”. Diferenţa este dată de faptul că se compară între ele cele două medii de sondaj, fiecare dintre ele fiind afectată de o eroare standard. Din această cauză statisticile testelor vor lua în considerare aşa-numita eroare standard a diferenţei dintre mediile de sondaj, care se obţine pornind de la următoarea regulă (matematic demonstrabilă): varianţa sumei sau diferenţei a două medii de sondaj este egală cu suma varianţelor celor două medii (reamintim că varianţa unei medii de sondaj este pătratul erorii standard a mediei respective). Prin urmare, varianţa diferenţei va fi:

n +

n =

2

22

1

212

|x - x|21

σσσ

, iar eroarea standard a acestei diferenţe va fi rădăcina pătrată a varianţei:

n2

22 +

n1

21 = ES |x2 - x1|

σσ

. Această eroare standard este folosită, ca şi la testele anterioare, pentru standardizarea („normarea”) diferenţei dintre mediile de sondaj, astfel încât aceasta să nu fie exprimată în valori absolute, ci în număr de erori standard. Având în vedere toate acestea, statisticile celor două teste se vor modifica, în cazul a două eşantioane, în felul următor: · testul „z”, care se aplică atunci când eşantioanele au volum mare (n>30), iar abaterile standard ale celor două populaţii (normale) din care provin eşantioanele sunt cunoscute:

n2/22 + n1/2

1

x2 - x1 =z σσ

· testul „t”, recomandat atunci când eşantioanele au volum mic (n<30), iar abaterile standard ale celor două populaţii (normale) nu sunt cunoscute - situaţie în care se lucrează cu cele mai bune estimaţii ale acestora:

n2/22 + n1/2

1

x2 - x1 = tσσ ˆˆ

Exemplu (după Gregory,1968). În cadrul unui studiu comparativ asupra a două bazine carbonifere se aleg la întâmplare, din fiecare bazin, câte 10 puncte de extracţie (mine), împreună cu producţiile acestora într-o perioadă dată. Se cere să se stabilească dacă între cele două bazine există o diferenţă statistic semnificativă în ce priveşte

producţia de cărbune per mină (deci, dacă µµ 2 1≠ ), admiţând că dispersiile populaţiilor sunt egale ( σσ 22 = 2

1 )22. Parametrii de sondaj implicaţi în aplicarea testului „t” sunt:

- la primul bazin: x1 = 0,30 mil.tone; s1 = 0,042 mil.tone; n1 = 10 mine.

21 Două eşantioane extrase din aceeaşi populaţie se numesc independente atunci când constituirea unuia dintre ele, după regulile sondajului aleator, nu influenţează în nici un fel constituirea celuilalt. 22 Dacă se acceptă ipoteza de inegalitate a dispersiilor, atunci aplicarea testului „t” se face după un algoritm întrucâtva diferit de cel prezentat mai jos; principala diferenţă constă în modul de calculare a gradelor de libertate pentru statistica testului, cu ajutorul unor formule ce iau în consideraţie dispersiile de sondaj.

Page 48: Statistic A

49

- la al doilea bazin: x2 =0,34 mil.tone; s2 = 0,05 mil.tone; n2 = 10 mine. Etapele de lucru: · definirea i.n.H0. Este clar că acceptarea existenţei unei diferenţe semnificative de productivitate între cele două bazine carbonifere poate servi ca punct de plecare pentru o serie de explicaţii cauzale în ce priveşte gradul general de dezvoltare industrială a regiunilor din jur, întensitatea fluxurilor comerciale cu acest combustibil, importanţa relativă a bazinelor în complexul industriei extractive naţionale etc. De aceea trebuie evitată , pe cât posibil, o eroare de ordinul II (acceptare unei diferenţe semnificative, în condiţiile în care aceasta nu există în realitate), încât i.n.H0 se va formula astfel: nu există o diferenţă semnificativă între cele două bazine în ce priveşte producţia de cărbune/mină - şi aceasta este ipoteza supusă testării. Dacă ea va fi respinsă, atunci va fi acceptată ipoteza alternativă - anume aceea că diferenţa actuală dintre cele două bazine este semnificativă, ea corespunzând unei diferenţe reale de productivitate medie a minelor. · alegerea nivelului de semnificaţie α a testului. Reamintim că α reprezintă probabilitatea de a lua o decizie greşită în urma aplicării testului; cu cât α este mai mic, cu atât această eventualitate este mai puţin probabilă. Se observă, însă, că reducerea n.s. α înseamnă, implicit, o scădere a şanselor de a respinge i.n.H0, întrucât regiunea de respingere se reduce şi ea în mod corespunzător. În acelaşi timp, însă, se diminuează şi pericolul de a clădi un întreg eşafodaj explicativ pe o diferenţă de productivitate care în realitate nu există - fapt care, din punctul de vedere al cercetării ştiinţifice, constituie un avantaj clar. De fapt, alegerea n.s. α depinde hotărâtor de rolul fenomenului vizat de testele statistice în ansamblul factorilor care influenţează procesele şi fenomenele studiate. În exemplul nostru, dacă este dovedit prin cercetări anterioare că producţia de cărbune/mină (fenomenul vizat de test) este factorul hotărâtor pentru gradul de dezvoltare industrială, comercială etc. al unei regiuni carbonifere, atunci se poate alege un n.s. α mai mare. Prin aceasta, chiar şi o diferenţă actuală relativ mică poate deveni „statistic semnificativă”, lucru cu care putem fi de acord, dată fiind importanţa prezumată a factorului ”producţie de cărbune/mină”. Dacă, însă, factorul respectiv este doar unul printre mulţi alţii, fără o importanţă deosebită în ce priveşte gradul de dezvoltare economică, atunci vom alege un n.s. α mai mic, astfel încât, pentru a putea fi declarată „statistic semnificativă”, diferenţa actuală dintre bazine trebuie să fie mult mai mare. În exemplul nostru, să luăm α = 5% . · statistica testului:

2 = 0,02

0,04 =

n2/22 + n1/2

1

x2 - x1 = tσσ ˆˆ

. · stabilirea regiunii de respingere (regiunii critice). Întrucât avem de-a face cu un test bilateral (nu a fost precizat sensul diferenţei dintre cele două bazine) vom căuta în tabelul cu valorile critice ale variabilei aleatoare „t” (Anexa III) valoarea ce corespunde pragului de 2,5% (α/2). Dacă valoarea t calculată depăşeşte, ca valoare absolută, pe cea tabelată , atunci statistica testului intră în regiunea de de respingere şi, deci, i.n. H0 va fi respinsă. Intrarea în tabelul distribuţiei „t” se face cu n.s. ales (în cazul nostru, 2,5%) şi cu numărul gradelor de libertate ale variabilei aleatoare „t” (18). Numărul gradelor de libertate ale unei variabile aleatoare se obţine scăzând din numărul total de valori numărul de relaţii independente care leagă între ele valorile variabilei respective. O relaţie independentă este o relaţie care implică numai valorile dintr-un eşantion, fără a include parametri calculaţi cu ajutorul altor relaţii. O relaţie de acest gen face ca una dintre valorile eşantionului să nu mai poată varia

aleator: într-adevăr, dacă, de exemplu, se dă media x a unui eşantion cu n elemente, numai n-1 dintre acestea pot

căpăta valori arbitrare, în timp ce una dintre ele va avea o valoare predeterminată, astfel încât să producă media x . În formula de definiţie a statisticii „t” între elementele fiecăruia dintre cele două eşantioane există câte o

relaţie independentă de forma nxi = x

(formulele de calcul pentru cele mai bune estimaţii ale abaterilor standard nu introduc alte relaţii independente). Aceasta înseamnă că numărul gradelor de libertate, notat prescurtat g.l. sau v, va fi egal cu numărul total de valori (n1 + n2) din care se scade numărul de relaţii independente (două):

18 = 2 - 20 = 2 - n2 + n1 = g.l. . Intrând în tabelul distribuţiei „t”, pentru α/2 = 2,5% şi g.l. = 18 găsim că valoarea critică corespunzătoare este cuprinsă între 2,101 şi 2,552, deci mai mare decât valoarea t calculată. · întrucât valoarea calculată este mai mică decât valoarea tabelată (critică), tragem concluzia că diferenţa observată dintre producţiile/mină din cele două bazine carbonifere nu este statistic semnificativă; altfel spus, nu respingem i.n. H0, ştiind că există, totuşi, o probabilitate de 5% de a greşi acceptând-o.

Page 49: Statistic A

50

3. Cazul mai multor eşantioane. Pentru testarea diferenţelor dintre mediile a mai mult de două eşantioane se utilizează testul „F” al lui Snedecor (testul raportului varianţelor). Acest test are la bază o procedură ceva mai complexă cunoscută sub numele de „analiza varianţei”. Analiza varianţei (AV) poate fi considerată o extensie a testului „z”, cazul a două eşantioane: se lucrează, într-o primă fază, cu mediile eşantioanelor, iar premisele sunt aceleaşi - populaţii normale, eşantioane aleatoare şi independente, la care se adaugă prezumţia că devIaşiile standard ale eşantioanelor sunt egale. Testul propriu-zis, însă, ia în considerare două varianţe estimate: varianţa valorilor în interiorul fiecărui eşantion (în jurul mediei) şi varianţa mediilor eşantioanelor în jurul mediei generale (varianţa între eşantioane). Cele două varianţe sunt apoi analizate sub aspectul raportului lor (şi nu al diferenţei dintre ele). Reamintim că varianţa este media aritmetică a pătratelor abaterilor valorilor unui eşantion de la media acestora. Dacă mediile eşantioanelor nu diferă semnificativ între ele, atunci varianţa „între grupe” (eşantioane) va fi aproximativ egală cu cea „în interiorul grupelor” (eşantioanelor), iar raportul lor va fi apropiat de 1; deci nu există diferenţe reale între medii, diferenţele între eşantioane fiind datorate varianţei din interiorul acestora. Dacă mediile diferă semnificativ, atunci raportul varianţelor va fi clar mai mare ca 1. Acest raport al varianţelor, notat cu F, reprezintă tocmai statistica testului omonim şi el constituie o variabilă aleatoare a cărei distribuţie (teoretică) a fost stabilită de Snedecor. Modul de prezentare a datelor pentru analiza varianţei este redat în tabelul

4.1. În tabel s-a notat cu x.j media unui eşantion oarecare j, iar cu x.. media generală a valorilor tuturor celor k eşantioane. Tabel 4.1. Forma generală de prezentare a datelor pentru analiza varianţei (cazul unei singure variabile). Grupe (eşantioane) Total 1 2 . . . j . . . k x11

x21 x31 . . .

xi1 . . .

x 1n1

x12 x22 x32 . . .

xi2 . . .

x 2n2

. . .

. . .

. . .

. . .

. . .

x1j x2j x3j . . .

xij . . .

x jn j

. . .

. . .

. . .

. . .

. . .

x1k x2k x3k . . .

xik . . .

x knk

Valori

individuale Media x.1 x.2

. . . x.j . . . x.k

N

x=x

ij

n

1=i

k

1=j..

j

∑∑

Numărul de valori n1 n2 . . . nj . . . nk

n=N j

k

1=j∑

Analiza varianţei operează într-o primă fază doar cu sumele de pătrate ale abaterilor de la medie (SPA), pentru fiecare eşantion şi pentru cele k eşantioane. Aceste SPA sunt numite variaţii (nu varianţe!). Avem mai întâi variaţia totală, pentru ansamblul N al tuturor valorilor din cele k eşantioane, care se calculează cu ajutorul unei relaţii de forma:

Page 50: Statistic A

51

)x..-xij( 2

n j

1=i

k

1=j∑∑

. Variaţia (SPA) totală poate fi repartizată (alocată) pe cele două componente ale sale (SPA „între grupe”, respectiv „în interiorul grupelor”), astfel încât în final să se poată calcula cele două varianţe menţionate mai sus. Dacă vom lua un element oarecare dintr-un eşantion, atunci putem scrie o relaţie algebrică simplă:

)x.. - x.j( + )x.j - xij( = x.. - xij ,

adică scădem şi adunăm x.j . În felul acesta diferenţa între xij şi x.. este exprimată ca sumă a două cantităţi: (1) diferenţa între xij şi media eşantionului (grupei) din care ea face parte şi (2)

diferenţa între x.j şi x.. . Pentru a ajunge la SPA-uri, ridicăm la pătrat relaţia de mai sus:

)x..-x.j( 2

+ )x..-xij)(x.j-xij2( + )x.j-xij( 2 = )x..-xij( 2

Apoi aplicăm operaţia de însumare la ambii membri ai ecuaţiei - caz în care termenul central din membrul drept devine nul (conform proprietăţilor mediei aritmetice). Rezultă:

)x..-x.j( 2n j

1=i

k

1=j + )x.j-xij( 2n j

1=i

k

1=j = )x..-xij( 2

n j

1=i

k

1=j∑∑∑∑∑∑

adică SPAtotală = SPAîn interiorul grupelor + SPAîntre grupe. Pentru a obţine cele mai bune estimaţii ale varianţelor corespunzătoare, SPA-urile de mai sus se împart la numărul de grade de libertate aferente: - pentru varianţa totală, g.l. = N-1, căci un grad de libertate s-a pierdut prin calcularea x.. (singura relaţie independentă între cele N valori); - pentru varianţa „între grupe” g.l. = k-1, căci fiecare medie este tratată ca o valoare individuală, un grad de libertate pierzându-se prin calculul x.. ; - pentru varianţa „în interiorul grupelor” se pierde câte un grad de libertate pentru fiecare eşantion (prin calculul mediei corespunzătoare), deci g.l. = N-k. De menţionat că egalitatea de la SPA-uri este valabilă şi la gradele de libertate: N-1 = (N-k) + (k-1). Acum pot fi calculate varianţele estimate pentru cele două componente, iar raportul acestor estimaţii, adică

micà mai estimatà varianta

mare mai estimat varianta = F

à

este tocmai statistica testului „F”. Calculele aferente acestei etape se trec de regulă în aşa-numitul „tabel de analiză a varianţei” (vezi tab.4.2). Tabel 4.2. Forma generală a tabelului de analiză a varianţei.

Sursa de variaţie SPA g.l. Varianţa estimată

F

Total Între grupe În interiorul grupelor

SPAtot. SPAî.g.

SPAî.i.g.

N-1 k-1 N-k

SPAî.g./(k-1) SPAî.i.g./(N-k) )2

å.g.

2å.i.g.(2

å.i.g.

2å.g.

σ

σ

σ

σ

Page 51: Statistic A

52

Valoarea F calculată se compară cu valoarea F teoretică, corespunzătoare n.s. α al testului şi gradelor de libertate ale celor două variabile estimate (Anexele IV şi V). Dacă Fcalculat < Fteoretic, atunci diferenţele dintre mediile celor k eşantioane nu sunt semnificative statistic. În caz contrar diferenţele sunt considerate semnificative. De remarcat că valorile F tabelate sunt mai mari, sau cel mult egale cu 1, ceea ce înseamnă că testul „F” este un test unilateral (întotdeauna varianţa estimată mai mare constituie numărătorul raportului). Să precizăm, în final, că procedura descrisă mai sus constituie aşa-numita „analiză simplă a varianţei”. Simplă, deoarece cele k eşantioane corespund la k modalităţi ale unei caracteristici calitative nominale sau ordinale, modalităţile respective corespunzând unor „populaţii” ale căror medii sunt comparate cu ajutorul AV. Atunci când eşantioanele corespund modalităţilor a două sau mai multe caracteristici calitative, se vorbeşte despre „analiza dublă a varianţei”, repectiv „analiza multiplă a varianţei”, metode de analiză statistică a căror prezentare depăşeşte cadrul acestui curs. Exemplu (după Gregory, 1968). Se studiază potenţialul agropedologic din nordul ţării (Pod. Sucevei). Prin metodele sondajului aleator au fost prelevate 3 eşantioane în scopul comparării producţiei de secară de pe suprafeţe cu soluri diferite: pe substrat turbos, dezvoltate pe marne, respectiv pe argile. Pentru fiecare tip de sol a fost alcătuit câte un eşantion de 10 terenuri cultivate cu secară. Producţiile medii înregistrate au fost respectiv de 24,3 q/ha (sol turbos), 22,2 q/ha (sol marnos) şi 21,0 q/ha (sol argilos). Se pune întrebarea dacă diferenţele de productivitate între cele 3 eşantioane este suficient de mare pentru a putea afirma că producţia de cereale din zonă variază semnificativ în raport cu tipul de sol. Datele de lucru sunt redate în tabelul de mai jos. Prelucrarea lor după metodologia expusă mai sus conduce la următoarele rezultate:

SPAtot. =

)x..-xij(10

1=i

3

1=j∑∑

= 301,5;

SPAî.g. =

)x..-x.j10(3

1=j∑

= 55,8; SPAî.i.g. = SPAtot. - SPAî.g. = 301,5 - 55,8 = 245,7.

Tip de sol Total turbos marnos argilos

Producţii (q/ha)

24 27 21 22 26 13 25 29 26 24

17 25 24 19 28 21 20 25 19 24

19 18 22 24 23 18 21 19 25 21

Media

Nr. de valori

x.1 =24,3

10

x.2 0=22,2

10

x.3 =21,0

10 30x

=xij

10

1=i

3

1=j.. ∑∑

=22,5 30

. ipoteza nulă H0: nu există o diferenţă semnificativă între medii, faţă de i.a.H1: există o diferenţă semnificativă între acestea. . n.s. α = 5% . statistica testului: F = 27,9/9,1 = 3,07. . regiunea critică: în tabelul distribuţiei „F” (Anexa V), pentru α = 5%, υ1 = 2 şi υ2 = 27, valoarea Ftabelată = 3,35.

Page 52: Statistic A

53

. deoarece 3,07<3,35, se acceptă ipoteza nulă H0, deci producţia de cereale nu variază semnificativ în raport cu tipul de sol. Sursa de variaţie SPA g.l. Varianţa estimată „F”

Total Între grupe În int. grupelor

301,5 55,8 245,7

29 2 27

27,9 9,1

3,7

4.3.2.2. Teste neparametrice. Sunt tehnici de verificare a ipotezelor statistice foarte utile în practica cercetării geografice, unde sunt frecvente situaţii cum ar fi: - nu se dispune de valori absolute (deci nu se pot calcula mediile), datele fiind sub formă de frecvenţe (distribuţii de frecvenţe); - populaţiile din care sunt prelevate eşantioanele nu urmează o lege de distribuţie normală, sau pur şi simplu nu se ştie ce fel de lege de distribuţie urmează. Nefiind restricţionate de calculul unor parametri ai eşantionului (eşantioanelor) analizate, sau de presupoziţii cu privire la tipul de distribuţie urmat de populaţia originară, testele neparametrice au un câmp de aplicabilitate mult mai larg. Singura exigenţă pretinsă de majoritatea acestor teste este aceea ca datele să fie calitative ordinale sau sub formă de frecvenţe (brute). Deasemenea, este hotărâtor modul cum este formulată ipoteza nulă H0, care de cele mai multe ori condiţionează însăşi posibilitatea aplicării testului, pe lângă corectitudinea concluziilor. Dintre testele neparametrice două sunt mai des utilizate: testul χ² şi testul Kolmogorov-Smirnov. Testul χ². Este un test relativ uşor de aplicat, dar este esenţial ca datele să fie aranjate corect, iar problema de rezolvat să fie una potrivită pentru aplicarea acestei metode. Testul χ² verifică dacă frecvenţele observate ale fenomenului analizat diferă semnificativ de nişte frecvenţe probabile (teoretice) ce corespund unei ipoteze prealabile. Această ipoteză prealabilă trebuie definită cu atenţie şi bine înţeleasă, astfel încât rezultatul aplicării testului să fie corect interpretat. Vom ilustra modul de aplicare a acestui test cu ajutorul unui exemplu (după Gregory,1968). Să presupunem că trebuie făcut un studiu asupra unui număr de ferme considerate în relaţie cu caracteristicile lor de localizare. Pe un teritoriu cu relief variat se prelevează un eşantion de 200 ferme, care sunt grupate apoi în câteva categorii în funcţie de caracteristica fizico-geografică a sit-ului: şes aluvial, terasă, versant, platou calcaros, platou grezos. Numărul de ferme pentru fiecare categorie este dat în tab.4.3, alături de ponderea suprafeţelor pentru fiecare categorie în suprafaţa totală a teritoriului studiat. Examinarea datelor sugerează clar că distribuţia fermelor pe cele 5 categorii este legată de proporţia suprafeţelor corespunzătoare: pe terase, care acoperă cea mai mare suprafaţă, sunt instalate cele mai multe ferme. Pe de altă parte, distribuţia fermelor pare să indice o localizare preferenţială, deoarece şi terasele, şi platourile grezoase au un număr de ferme mai mare decât ar sugera ponderea arealului lor, în timp ce celelalte 3 categorii sunt oarecum sub-reprezentate. Dacă dorim să găsim o explicaţie cauzală pentru distribuţia spaţială a sit-urilor fermelor, una din problemele de rezolvat este verificarea ipotezei sugerate de datele empirice. Dacă numărul de ferme de pe un anumit tip de teren este legat în primul rând de frecvenţa cu care apar respectivul tip, atunci nu se poate argumenta că caracterele fizico-geografice ale acelui tip de teren reprezintă factori ce favorizează (influenţează) amplasarea fermelor.

Tabel 4.3. Distribuţia celor 200 de ferme pe tipuri de sit. Sit şes aluvial terasă versant platou calcaros platou grezos

Număr ferme 10 100 2 38

50

% din supr. Totală 10 35 10 25

20

Page 53: Statistic A

54

Pentru a testa care din cele două posibilităţi este mai probabilă, aplicăm testul χ². Ipoteza nulă H0 o formulăm astfel: nu există o diferenţă semnificativă între cele 5 categorii de terenuri în ce priveşte frecvenţa amplasării fermelor, acestea fiind repartizate uniform pe întreg arealul studiat. Altfel spus, distribuţia observată a fermelor poate fi dedusă satisfăcător din proporţiile diferitelor categorii de teren în cadrul arealului studiat. Statistica testului, notată cu χ², se calculează pornind de la diferenţele între frecvenţele observate şi cele „aşteptate” sau „probabile”. Frecvenţele probabile sunt cele care rezultă în cazul în care ipoteza nulă H0 ar fi adevărată. Pentru fiecare categorie (grup, clasă) diferenţa ridicată la pătrat se împarte la frecvenţa probabilă, în felul acesta eliminându-se variabilitatea de la o grupă la alta (un procedeu similar cu standardizarea). Prin însumarea acestor diferenţe „standardizate” se obţine valoarea χ²:

f p

)f p-f o( 2 = 2 ∑χ

Statistica χ² constituie o variabilă aleatoare cu k-1 grade de libertate (k - numărul de grupe/categorii), a cărei distribuţie teoretică este disponibilă sub formă de tabele (sau grafice). În tabelul distribuţiei χ² (Anexa VI) se intră cu n.s. α al testului şi cu g.l. Dacă valoarea χ²calculată> χ²teoretică, atunci ne aflăm în regiunea critică şi, deci, ipoteza nulă H0 va fi respinsă. În exemplul nostru, pentru a calcula valoarea χ² trebuie stabilite frecvenţele. Cele observate (fo) sunt disponibile deja, iar cele aşteptate (fp) se calculează pornind de la ponderea fiecărui tip de teren în suprafaţa totală (vezi tabelul de mai jos). Astfel, de exemplu, dacă şesurile aluviale acoperă 10% din teritoriu studiat, atunci ar trebui (conform ipotezei nule H0) ca 20 (adică 10%) din cele 200 de ferme să fie situate în şesuri aluviale.

Statistica testului:

39,5=f p

)f p-f o( 2=2 ∑χ

În tabelul distribuţiei χ² (vezi Anexa VI), pentru g.l. = 5-1 = 4, valorile tabelate sunt mult mai mici decât cea calculată, chiar şi la praguri de semnificaţie α mici (2% sau 1%). Este clar deci că ipoteza nulă H0 trebuie respinsă, iar concluzia testului este că există realmente o localizare preferenţială a fermelor în funcţie de tipul de teren - altfel spus, caracteristicile fizico-geografice ale sit-ului influenţează semnificativ frecvenţa fermelor. În exemplul de mai sus testul χ² a fost utilizat pentru analiza unei singure variabile - numărul de ferme pe diferite tipuri de terenuri. Acelaşi test poate fi, însă, folosit pentru compararea a două sau mai multe variabile care apar, ca şi la exemplul anterior, sub forma unor distribuţii de frecvenţe (empirice). De remarcat că testul χ² poate fi folosit şi pentru compararea unei distribuţii empirice cu una teoretică, caz în care se încadrează în categoria aşa-numitelor teste de concordanţă (de adecvare). În cazul comparării a două sau mai multe distribuţii empirice frecvenţele observate, corespunzătoare diferitelor categorii (grupe, clase) se prezintă în mod obişnuit sub forma unui tabel cu r linii (r - numărul de variabile comparate) şi c coloane (c - numărul de grupe). Un asemenea tabel poartă numele de tabel de contingenţă. Un exemplu pentru două variabile cu trei categorii (grupe) apare în tabelul alăturat. Frecvenţele observate sunt xi şi yj. Frecvenţele aşteptate se calculează destul de simplu, sub forma unor probabilităţi condiţionate de totalurile pe linii şi coloane - spre exemplu lui x1 îi corespunde o

frecvenţă probabilă calculată cu formula N1x ∑∑ *

. Deci pentru orice celulă din tabel frecvenţa probabilă se obţine împărţind produsul dintre suma liniei şi suma coloanei aferente la frecvenţa

Tip de sitFrecvenţe

şes aluvial

terasă versant platou calcaros

platou grezos

fo fp

10 20

100 70

2 20

38 50

50 40

fo-fp -10 30 -18 -12 10

GrupeVariabile

1 2 3 Total

X Y

x1 y1

x2 y2

x3 y3

SX SY

Total S1 S2 S3 N

Page 54: Statistic A

55

totală N. Odată determinate frecvenţele probabile, valoarea χ² se calculează după formula cunoscută:

f p

)2f p - f o( = 2 ∑χ

, însumarea făcându-se pentru toate celulele din tabel. Statistica astfel calculată este o variabilă aleatoare cu (r-1)(c-1) grade de libertate. Valoarea tabelată (Anexa VI) se compară cu cea calculată, iar concluzia testului se stabileşte după aceleaşi reguli ca şi în cazul unei singure variabile. Testul Kolmogorov-Smirnov - este un test neparametric care, ca şi testul χ² se utilizează în cazul acelor eşantioane (variabile) ce apar sub formă de distribuţii de frecvenţe brute. Deasemenea, ca şi testul χ², testul K.-S. se utilizează atât pentru compararea a două distribuţii empirice, cât şi pentru compararea unei distribuţii empirice cu una teoretică (test de concordanţă). Pentru a putea aplica testul este necesar ca frecvenţele brute să fie transformate în proporţii (frecvenţe relative subunitare). După aceea aceste proporţii se cumulează, pentru fiecare din cele două distribuţii de frecvenţe. Pentru fiecare categorie (grupă, clasă) se face diferenţa între cele două proporţii cumulate. În ultima etapă a testului se ia în considerare cea mai mare dintre diferenţe, a cărei semnificaţie statistică poate fi evaluată direct (deci fără a fi implicată în calculul vreunei statistici). Evaluarea se face cu ajutorul tabelului sau graficului diferenţelor maxime, în funcţie de mărimea eşantionului de bază (cel pe baza căruia s-a alcătuit distribuţia de frecvenţe) (Anexa VII). Exemplu. Analiza frecvenţei cantităţilor zilnice de precipitaţii la o staţie meteo, pentru o perioadă lungă de timp, a condus la distribuţia de frecvenţe din tabelul alăturat. Pentru o lună particulară de 30 zile frecvenţele brute ce corespund celor 4 categorii (clase) au fost respectiv 12, 6, 9, 3. Problema de rezolvat este aceea de a decide dacă între distribuţia „teoretică” şi cea a lunii respective există o

diferenţă semnificativă sau nu. · ipoteza nulă H0 va fi, fireşte, aceea care neagă existenţa unei diferenţe semnificative între cele două distribuţii. · n.s. α=5%. · după cum s-a văzut, în cazul testului Kolmogorov-Smirnov statistica testului este reprezentată de acea diferenţă maximă între proporţiile cumulate aferente categoriilor (claselor). Deci transformăm mai întâi frecvenţele de mai sus în proporţii, apoi calculăm proporţiile cumulate şi diferenţele respective (vezi tabelul de mai jos). Pentru distribuţia empirică (cea a lunii particulare de 30 de zile) proporţiile se calculează simplu, împărţind fiecare din frecvenţele observate la numărul total de cazuri (30).

Clasa 0 mm 0,1-2 mm 2-10 mm >10 mm Frecvenţa(%) 50 25 20 5

Page 55: Statistic A

56

· δmax = 0,15. · în tabelul cu diferenţele maxime pentru testul Kolmogorov-Smirnov (Anexa VII) găsim că pentru un

eşantion de 30 valori (zile, în cazul nostru) şi α=5%, δmax teoretic este 0,24. Deci diferenţa între cele două distribuţii este nesemnificativ statistic. Aşa cum s-a menţionat, testul K.-S. se poate aplica şi în cazul a două eşantioane (distribuţii empirice). Dacă se lucrează cu eşantioane mici (n<40), atunci este necesar ca ele să aibă aceeaşi mărime, pentru a putea folosi tabelul testului - aceasta întrucît în tabel se intră cu n.s. α şi volumul unui eşantion (nu cu volumul total al celor două eşantioane). În cazul eşantioanelor mari (n>40) volumele pot fi inegale, iar diferenţele maxime corespunzătoare diferitelor nivele de probabilitate (semnificaţi e) se obţin cu ajutorul unor formule indicate de Smirnov (pentru testul bilateral):

- pentru n.s. α =5%: ämax = n2n1

n2+n11,36* ;

- pentru n.s. α =1%: ämax = n2n1

n2+n11,63* ;

- pentru n.s. α =0,1%: ämax = n2n1

n2+n11,95* .

Clasa

0 mm

0,1-2 mm

2-10 mm

>10 mm

Proporţii

d.teoretică

0,50

0,25

0,20

0,05

d.empirică

0,40

0,20

0,30

0,10

Proporţii cumulate

d.teoretică

0,50

0,75

0,95

1,00

d.empirică

0,40

0,60

0,90

1,00

Diferenţa (δ)

0,10

0,15

0,05

0

Page 56: Statistic A

57

CAP.V. PROBLEME GENERALE PRIVIND RELAŢIA DINTRE DOUĂ VARIABILE (NOŢIUNI DE ANALIZĂ BIVARIATĂ ) 5.1. Noţiunea de relaţie între două caracteristici Una dintre întrebările fundamentale ale geografilor este următoarea: există o relaţie23 oarecare între fenomene situate în locuri diferite ale spaţiului? (Johnston,1978). Răspunsul la această întrebare oferă posibilitatea de a sesiza eventualele structuri spaţiale, care funcţionează de multe ori incifrat, greu de perceput cu ajutorul simăurilor umane. De asemenea, a răspunde la această întrebare înseamnă a putea avansa mai departe în cercetarea geografică, respectiv a ajunge la stadiul de a sesiza diferenţierile spaţiale. Adică la a răspunde la a doua întrebare fundamentală a geografiei: locurile caracterizate de acelaşi fenomen sunt diferite între ele? (Johnston, 1978). Baza de pornire pentru a demonstra existenţa sau non-existenţa relaţiilor dintre fenomene cu localizări diferite este ordonarea elementelor mulţimii studiate într-un tabel elementar. Să considerăm o mulţime M alcătuită din n elemente (observaţii) 1..i..n, descrise de două caracteristici (variabile) X şi Y, care iau modalităţile X1..Xi..Xn şi respectiv Y1..Yi..Yn. Variabilele (caracteristicile) X şi Y pot fi calitative sau cantitative, continue sau discrete. Tabloul elementar care corespunde acestei mulţimi are forma din tabelul alăturat. Spunem că pentru mulţimea observată M există o relaţie între X şi Y dacă cunoaşterea modalităţii Xi permite prezicerea, într-o oarecare măsură, a modalităţii Yi corespondente. O relaţie se poate exprima sub formă literară (calitativă) sau sub formă algebrică (cantitativă ). Pentru a ilustra aceste două forme, vom considera mulţimea M a statelor tropicale în anul 1985, fiecare stat fiind caracterizat de două variabile: rata analfabetismului feminin (X) şi mortalitatea infantilă masculină (Y). Aceste două variabile iau, pentru fiecare stat 1..i..n, modalităţile X1..Xi..Xn şi Y1..Yi..Yn. 23 Trebuie să se remarce faptul că în statistică, termenul de relaţie nu este sinonim cu cel de legătură. Termenii de legătură şi de dependenţă permit să se precizeze noţiunea de relaţie : a) Noţiunea de legătură este simetrică : a spune că există o legătură între X şi Y înseamnă acelaşi lucru cu a spune că există o legătură între Y şi X (aceasta înseamnă că valorile lui X şi Y nu sunt distribuite în mod întâmplător); b) Noţiunea de dependenţă nu este simetrică, deoarece ea dă un sens relaţiei : a spune că Y depinde de X nu înseamnă acelaşi lucru cu a spune că X depinde de Y. De exemplu, salariul creşte în general cu vechimea în muncă a lucrătorului. Salariul depinde de vechime. În schimb, vechimea nu depinde de salariu, deoarece timpul trece şi fără mărirea salariului. Prin urmare, o relaţie, care presupune şi dependenţă între variabile, este mai mult decât o legătură, deoarece are un sens : a scrie Y = f(X) înseamnă că se admite că Y este variabila dependentă (de explicat) iar X este variabila independentă (explicativă).

n ∈ M X Y

1 X1 Y1

2 X2 Y2

. . .

. . .

i Xi Yi

. . .

. . .

n Xn Yn

Page 57: Statistic A

58

a) Forma literară: Dacă un element i din M ia modalitatea Xi a variabilei X, atunci ne putem aştepta ca modalitatea sa pentru variabila Y să fie Yi. În termenii exemplului de mai sus, se spune că „pentru mulţimea ţărilor tropicale, la nivelul anului 1985, se observă în medie că, cu cât nivelul de alfabetizare a femeilor este mai scăzut, cu atât mortalitatea infantilă masculină este mai mare”. b) Forma algebrică (sau funcţională): Y = f(X), respectiv Y este o funcţie de X. În termenii aceluiaşi exemplu, expresia devine: Y = 1,73×X + 38,6, cu rXY = +0,820, unde: Y = rata analfabetismului femeilor adulte în 1985; X = rata mortalităţii băieţilor sub 5 ani, în 1989; rXY = coeficientul de corelaţie între cele două variabile (vezi § 5.3.1). Prin urmare, se observă că a dovedi faptul că între două variabile există o relaţie înseamnă a demonstra că atribuirea modalităţilor lui X şi lui Y pentru fiecare dintre elementele i din M nu se face la întâmplare, respectiv a demonstra că valorile lui X depind de valorile lui Y sau că valorile lui Y depind de valorile lui X. De vreme ce se caută logica atribuirii acestor modalităţi în aşa fel încât, cunoscând modalitatea Xi, să se poată prezice modalitatea Yi (sau invers), se poate spune că se urmăreşte să se sesizeze faptul dacă cele două variabile sunt corelate. Cea mai simplă modalitate de a observa dacă două variabile sunt corelate este studierea diagramei lor de dispersie. Diagrama de dispersie este un sistem de coordonate rectangulare, în planul căruia se pot localiza punctele ce corespund perechilor de valori XY (obţinându-se un „nor de puncte”). Mulţimea de puncte ce alcătuieşte norul se ordonează într-o anumită manieră, dându-i acestuia o anumită formă. Aspectul norului permite caracterizarea relaţiei prin intermediul a trei criterii: intensitatea relaţiei, forma relaţiei şi sensul relaţiei. Dacă punctele prezintă tendinţa de a se apropia de o aceeaşi curbă, variabilele respective sunt corelate. În funcţie de cele trei criterii, corelaţiile pot fi puternice sau slabe, lineare sau neliniare, pozitive sau negative. Lipsa unei direcţii vizibile a ordonării punctelor care alcătuiesc norul semnifică faptul că variabilele nu sunt corelate. Studierea relaţiilor stabilite între două variabile se efectuează în funcţie de felul variabilelor în cauză: calitative sau cantitative, discrete sau continue. Pentru a ilustra cele mai frecvente situaţii, vom analiza trei cazuri de relaţii prin intermediul modalităţilor lor de studiu24: 1. - relaţia între două variabile discrete (cantitative sau calitative), cu număr k redus de modalităţi (k<n pentru X şi Y): studiul tabelului de contingenţă; coeficienţi de asociere; 2. - relaţia dintre două variabile cantitative continue, sau asimilabile unor variabile continue (k>n pentru X şi Y): studiul coeficientului de corelaţie liniară Bravais-Pearson (r); regresia liniară; 3. - relaţia dintre două variabile calitative ordinale (k=n pentru X şi Y); studiul coeficientului de rang Spearman (ρ). 5.2. Tabelul de contingenţă şi studiul relaţiei între două caracteristici discrete25 5.2.1. Crearea unui tabel de contingenţă26

24 Trebuie remarcat că majoritatea celorlalte situaţii pot fi aduse la nivelul uneia sau alteia dintre cele prezentate în text, cu condiţia transformării variabilelor (prin discretizare, prin standardizare, etc.). 25 Vezi şi capitolul „Teste neparametrice”. 26 Studiul tabelului de contingenţă se poate aplica şi în cazul caracteristicilor continue, cu condiţia ca acestea să fie discretizate (de exemplu să fie grupate în clase).

Page 58: Statistic A

59

Tabelele de contingenţă sunt tabele constituite din numere întregi, descriind repartiţia elementelor unei mulţimi în funcţie de două serii de modalităţi. Tabelele de contingenţă se construiesc plecând de la tabelele elementare. Exemplu. Fie un tabel elementar care descrie fiecare cetăţean al oraşului Albeni (cu 20.000 de locuitori) în funcţie de cartierul unde locuieşte, respectiv variabila X, cu patru modalităţi (X1 = cartierul Morilor-M, X2 = cartierul Papura-P, X3 = cartierul Neagra-N, X4 = cartierul Tăbăcărie-T) şi în funcţie de naţionalitate, respectiv variabila Y, cu două modalităţi (Y1 = localnic-LOC şi Y2 = străin-STR). În tabel, apartenenţa la o modalitate este notată cu 1 iar non-apartenenţa cu 0. De la acest tabel elementar se poate crea tabelul de contingenţă, prin însumarea numărului de cetăţeni care îndeplinesc simultan ambele modalităţi. De exemplu, există cel puţin un individ (Ionescu), care locuieşte în cartierul Morilor şi este localnic (îndeplineşte modalităţile X1 şi Y1), în schimb există cel puţin doi indivizi (Ghaffar şi Zhu) care locuiesc în cartierul Neagra şi sunt străini (îndeplinesc amândoi modalităţile X3 şi Y2). După gruparea tuturor celor 20.000 de locuitori, se efectuează suma tuturor coloanelor şi a tuturor liniilor şi se obţine următorul tabel, care este tabelul de contingenţă:

X: \ Y: Y1 (LOCALNIC) Y2 (STRĂIN) TOTAL

X1 (Morilor) 5.000 0 5.000

X2 (Papura) 4.000 1.000 5.000

X3 (Neagra) 3.000 2.000 5.000

X4 (Tăbăcărie) 2.000 3.000 5.000

TOTAL 14.000 6.000 20.000

Pentru o mai bună înţelegere a analizei efectuate, prezentăm mai jos schema unui tabel de contingenţă. Notaţiile unui tabel de contingenţă, cu care ne vom întâlni şi în alte capitole, sunt următoarele (Bezencri, 1973): * i - desemnează liniile (sau modalităţile caracterului X); * n - desemnează numărul total de linii; * j - desemnează coloanele (sau modalităţile caracterului Y); * p - desemnează numărul total de coloane; * kij - desemnează efectivul căsuţei aflată la intersecţia liniei i cu coloana j (de exemplu numărul cetăţeni care locuiesc în cartierul i şi au naţionalitatea j); * knp - desemnează efectivul căsuţei aflată la intersecţia ultimei linii (n) cu ultima coloană (p); * k.j (k punct j) - desemnează efectivul total al coloanei j, adică

Nr. / Nume M P N T LOC STR

1. Ionescu V. 1 0 0 0 1 0

2. Ghaffar M. 0 0 1 0 0 1

. .

. .

. .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

452. Popescu I. 0 0 0 1 1 0

. .

. .

. .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

20000. Zhu Liao 0 0 1 0 0 1

i \ j 1 2 ... j ... p ΣY

1 k11 k12 ... k1j ... k1p k1.

2 k21 k22 ... k2j ... k2p k2.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

i ki1 ki2 ... kij ... kip ki.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

n kn1 kn2 ... knj ... knp kn.

ΣX k.1 k.2 ... k.j ... k.p k..

Page 59: Statistic A

60

k=.k ij

n

1=ij ∑

(respectiv numărul cetăţenilor de naţionalitate j). Efectivul k.j este efectivul care posedă în acelaşi timp modalitatea Yj şi diferitele modalităţi ale caracterului X. Punctul înseamnă că respectivul caracter pus în coloană este considerat în totalitatea sa. Diferitele efective k1j, k2j, . . . kij, . . . knj formează distribuţia condiţională a lui X dacă Yj este realizat sau distribuţia condiţională a lui X pentru modalitatea27 Yj, ceea ce se notează X/Yj. Pentru un j fixat, efectivul

său total este kij

p

1=j = knj...+kij+...+k 2j+k1j = . jk = /Y jX ∑

Există deci p distribuţii condiţionale ale lui X (p coloane). Valorile ultimei linii (k.1, k.2, . . . k.j, . . . k.p) formează distribuţia marginală a caracterului Y în funcţie de caracterul X;

* ki. (ki punct) - desemnează efectivul total al liniei i, adică: kij

p

1=j = .ki ∑

(respectiv numărul cetăţenilor din cartierul i). Efectivul ki. este efectivul care posedă în acelaşi timp modalitatea Xi şi diferitele modalităţi ale caracterului Y. Punctul înseamnă că respectivul caracter pus în linie este considerat în totalitatea sa. Diferitele efective k1i, k2i, . . . kij, . . . kip formează distribuţia condiţională a lui Y dacă Xi este realizat sau distribuţia condiţională a lui Y pentru modalitatea28 Xi, ceea ce notează Y/Xi. Pentru un i fixat, efectivul său total este:

kij

n

1=i = kip+...+kij+...+k 2i+k1i = .ki = / X iY ∑

Există deci n distribuţii condiţionale ale lui Y (n linii). Valorile ultimei coloane (k1., k2., . . .ki., . . . kn.) formează distribuţia marginală a caracterului X în funcţie de caracterul Y; * k.. (k punct punct) - desemnează efectivul total al tabelului, adică:

k = kijp

1=j

n

1=i = k.. ∑∑

(respectiv numărul total al cetăţenilor din Albeni). De exemplu, în tabelul de contingenţă cu situaţia cetăţenilor oraşului Albeni, k12 = 0, k31 = 3.000, k.2 = 6.000, k2. = 5.000, k.. = 20.000. Un tabel este un tabel de contingenţă dacă suma coloanelor şi suma liniilor au sens. De exemplu, însumarea temperaturilor medii care caracterizează cele patru cartiere ale Albenilor nu ar avea sens, iar tabelul care le-ar cuprinde nu ar putea fi un tabel de contingenţă. Un tabel de contingenţă este definit de trei parametri: - unităţile elementare de numărat (în cazul nostru cetăţenii din Albeni); - două caractere (variabile) discrete care descriu unităţile elementare (în cazul nostru apartenenţa la unul dintre cartiere şi naţionalitatea). 5.2.2. Analiza unui tabel de contingenţă Într-un tabel de contingenţă, liniile şi coloanele joacă roluri perfect simetrice. Acest lucru (respectiv posibilitatea transformării coloanelor în linii şi invers) nu trebuie uitat, deşi, din comoditate, în analiza unui tabel de contingenţă se foloseşte pentru linii termenul de de cazuri sau indivizi29 iar pentru coloane cel de variabile (Sanders, 1989). 27În cazul în care variabilele au fost discretizate în clase, Yj este centrul clasei j. 28 În cazul în care variabilele au fost discretizate în clase, Xi este centrul clasei i. 29 Aceasta deoarece în geografie, liniile unui tabel de contingenţă sunt deseori unităţi spaţiale (în cazul nostru cartierele oraşului fictiv Albeni). În statistică, prin individ se înţelege o observaţie, adică unul dintre elementele

Page 60: Statistic A

61

Rolul analizei unui tabel de contingenţă este acela de a stabili dacă între variabilele considerate există o legătură oarecare, dacă între unităţile spaţiale descrise de aceste variabile există asemănări sau deosebiri, etc. Pentru a putea efectua analiza şi a compara liniile sau coloanele tabelului de contingenţă este necesară realizarea profilelor30 liniilor şi coloanelor. 5.2.2.1. Stabilirea profilelor liniilor Profilul unei linii se obţine prin împărţirea efectivului fiecărei căsuţe a liniei la efectivul total al liniei respective (kij/ki.). Astfel se obţine partea relativă a coloanei j în linia i (adică partea relativă a cetăţenilor cartierului i care au cetăţenia j). Suma fiecărei linii astfel obţinută este întotdeauna 1 (sau 100, dacă relativizarea se face procentual, adică(kij/ki.)*100) (vezi tabelul alăturat). Analiza tabelului profilurilor liniilor permite deja câteva consideraţii referitoare la relaţia stabilită între cele două variabile şi la diferenţierile induse de acestea între cele patru cartiere. Astfel, este vizibil faptul că în Albeni sunt 30% străini şi că în cartierul Tăbăcărie aceştia sunt predominanţi (60% din populaţia cartierului). Relaţia abia sesizată este incompletă, deoarece lipsesc informaţii referitoare la raportarea fiecărei unităţi spaţiale la totalul populaţiei oraşului. Această lacună poate fi acoperită prin repetarea operaţiei de relativizare a modalităţilor, de această dată în plan vertical (pentru coloane). 5.2.2.2. Stabilirea profilelor coloanelor Profilul unei coloane se obţine prin împărţirea efectivului fiecărei căsuţe a coloanei la efectivul total al coloanei respective (kij/k.j sau (kij/k.j)*100). Se obţine astfel partea relativă a liniei i în coloana j (adică partea relativă a cetăţenilor de naţionalitate j din cartierul i în raport cu oraşul întreg) (vezi tabelul alăturat). De această dată, analiza tabelului profilelor coloanelor permite situarea fiecărui cartier în cadrul oraşului în funcţie de cele două variabile care îl caracterizeazăi. Astfel, se evidenţiază faptul că în cartierul Tăbăcărie locuieşte 25% din populaţia oraşului, însă aici este concentrată cea mai mare parte din populaţia de origine străină (50%) şi cea mai mică parte dintre localnici (14%). 5.2.2.3. Stabilirea existenţei / non-existenţei unei legături între cele două caracteristici mulţimii caracterizat de variabilele alese. 30Profilul unei linii sau al unei coloane înseamnă relativizarea valorii din fiecare căsuţă a liniei (coloanei) prin raportarea sa la totalul liniei (coloanei).

Y: X:

LOCALNICI STRĂINI TOTAL

Morilor 100% 0% 100%

Papura 80% 20% 100%

Neagra 60% 40% 100%

Tăbăcărie 40% 60% 100%

TOTAL 70% 30% 100%

Y: X:

LOCALNICI STRĂINI TOTAL

Morilor 36% 0% 25%

Papura 29% 17% 25%

Neagra 21% 33% 25%

Tăbăcărie 14% 50% 25%

TOTAL 100% 100% 100%

Page 61: Statistic A

62

Cea mai simplă cale de a sesiza existenţa / non-existenţa unei legături între cele două variabile este compararea distribuţiei frecvenţelor lor teoretice cu distribuţia frecvenţelor observate. Deoarece tabelul de contingenţă este de fapt tabelul distribuţiei frecvenţelor observate, putem construi, plecând de la ultima sa linie şi de la ultima sa coloană, tabelul de contingenţă teoretică (sau tabelul de contingenţă a frecvenţelor teoretice). Efectivul teoretic al unei căsuţe oarecare k'ij este dat de relaţia:

k..

. jkx

k..

.k i(k..)x = k ji′

adică efectivul total înmulţit cu probabilitatea de a lua modalitatea i înmulţit cu probabilitatea de a lua modalitatea j. Simplificată prin k.. relaţia devine:

k..

. j.xkki = k ji′

De exemplu, numărul teoretic al străinilor din cartierul Tăbăcărie este de 6000´5000/20000 = 30000000/20000 = 1500. Prin urmare, tabelul de contingenţă teoretică este cel alăturat. Comparaţia dintre distribuţia teoretică şi distribuţia observată (efectuată de obicei prin efectuarea diferenţei dintre cele două distribuţii) permite stabilirea faptului existenţei sau non-existenţei unei legături între cele două caracteristici X şi Y: - dacă distribuţia observată este conformă cu distribuţia teoretică, nu există nici o legătură între cele două caracteristici; - dacă distribuţia observată diferă în mod semnificativ de distribuţia teoretică, există o legătură între caracteristicile analizate. Comparând distribuţia observată a cetăţenilor oraşului Albeni şi distribuţia lor teoretică, se observă că acestea diferă evident, deci între cartierul de reşedinţă şi naţionalitatea cetăţenilor există o oarecare legătură. Prin această metodă s-a putut demonstra doar că între caracteristicile X şi Y există o oarecare legătură, dar nu s-a demonstrat că există şi o relaţie care, să ne amintim, implică şi dependenţă (statistică sau matematică). Două caracteristici sunt independente atunci când nu există nici o relaţie între ele. Independenţa lor este dovedită atunci când contingenţa unei căsuţe oarecare a tabelului este nulă, adică

0 =

k....xkk-k ji

ij

Această situaţie corespunde la două cazuri: fie acela în care efectivele sunt răspândite în toate căsuţele, fie acela în care ele sunt dispuse pe o linie sau pe o coloană (fig.5.1). În aceste cazuri, diagramele de dispersie corespunzătoare sunt fie sub forma unui nor fără formă determinată, fie sub forma unei linii paralele cu axa oX (independenţă faţă de Y) sau cu axa oY (independenţă faţă de X). Caracterele se află astfel în independenţă matematică (Calot, 1973). Conform acestui principiu, se poate vorbi şi de independenţă statistică, care apare atunci când variabilele variază independent una de cealaltă (fig.5.2).

Y: X:

LOCALNICI STRĂINI TOTAL

Morilor 3500 1500 5000

Papura 3500 1500 5000

Neagra 3500 1500 5000

Tăbăcărie 3500 1500 5000

TOTAL 14000 6000 20000

Page 62: Statistic A

63

Figura 5.1. : Tip de tabel de contingenţă care ilustrează independenţa matematică şi diagrame de dispersie aferente situaţiilor de independenţă matematică (după Chadule, (1979)

Figura 5.2. : Tip de tabel de contingenţă care ilustrează independenţa statistică şi diagrame de dispersie aferente situaţiilor de independenţă statistică (după Chadule, (1979)

Page 63: Statistic A

64

Situaţia opusă (caracterele sunt perfect dependente) se realizează atunci când o funcţie matematică Y = f(X) leagă în mod riguros variabilele, care astfel se află în relaţie funcţională.

condiţiile acestei situaţii sunt îndeplinite doar atunci când unei modalităţi Yj îi corespunde o modalitate Xi şi numai una (adică, în tabelul de contingenţă doar o singură căsuţă pe linie şi doar o singură căsuţă pe coloană are un efectiv non-nul (fig.5.3).

Figura 5.4. : Tip de tabel de contingenţă care ilustrează dependenţa statistică şi diagrame de dispersie aferente situaţiilor de dependenţă matematică (după Chadule, (1979)

Figura 5.3. : Tip de tabel de contingenţă care ilustrează independenţa matematică şi diagrame de dispersie aferente situaţiilor de independenţă matematică (după Chadule, (1979)

Page 64: Statistic A

65

Este evident faptul că cele două situaţii limită (independenţa matematică şi dependenţa funcţională) nu se observă în câmpul de cercetare al geografiei, sau sunt fără interes pentru cercetarea geografică. Geografia este dominată de cupluri de variabile aflate în relaţie de dependenţă parţială, numită şi dependenţă statistică (fig.5.4). Dependenţa statistică poate fi puternică, medie sau slabă, aceasta din urmă fiind în unele cazuri greu de luat în seamă, deoarece seamănă destul de mult cu independenţa. Din această cauză, este necesară construirea şi aplicarea unor teste de independenţă, cărora li se poate fixa un prag de încredere (sau prag de decizie sau prag de eroare) cunoscut. Cel mai adecvat test este testul de independenţă χ² (se citeşte hi pătrat). Acest test are ca bază compararea distribuţiei efectivelor observate (kij) din fiecare căsuţă ij a tabelului de contingenţă observată cu efectivele teoretice (k'ij) din fiecare căsuţă ij a tabelului de contingenţă teoretică, sub ipoteza independenţei matematice. Pentru aceasta, se calculează în primul rând efectivul teoretic (k'ij) pe care l-ar avea fiecare căsuţă în cazul independenţei matematice:

k..

. j.xkki=k ji 0=k..

. j.xkki-k ji ′⇒′

În continuare, se însumează diferenţele dintre efectivele teoretice şi efectivele observate, statistica D a testului având forma:

k ji

)kij-k ji( 2p

1=j

n

1=i = D

′∑∑

Ea urmează o lege de repartiţie χ ² cu v grade de libertate, iar ν = (n-1)(p-1) (n = numărul de clase (linii) ale caracterului X; p = numărul de clase (coloane) ale caracterului Y). După efectuarea acestor calcule, se testează ipoteza nulă (H0), conform căreia X şi Y sunt independente. Caracteristicile sunt independente doar dacă se îndeplineşte condiţia D≥C. [C este valoarea citită în tabelul distribuţiei χ² prezentat în Anexa VI; citirea sa se face exclusiv în funcţie de v - deci de numărul de grade de libertate, şi de α, adică de pragul de încredere pe care îl alegem]. Pentru ca această metodă să fie valabilă, trebuie ca efectivul claselor distribuţiilor condiţionale să fie egal sau superior lui 5 (ki. ≥ 5 şi k.j ≥ 5). Exemplu. Testul ne permite să sesizăm, dacă există, relaţia de dependenţă dintre cele două caractere care descriu cetăţenii oraşului Albeni. Pentru aceasta, vom relua tabelele de contingenţă observată şi teoretică, cu valorile exprimate în mii de locuitori. Din analiza tabelului de contingenţă, dependenţa nu pare să existe: doar o singură căsuţă are efectiv nul (Y2,X1) iar efectivele sunt distribuite în tot restul tabelului. Cu toate acestea, caracterele nu se află în relaţie de independenţă matematică, deoarece contingenţa nu este nulă (de ex. Y'1,X'1 - Y1,X1 = -1,5). Este necesar deci ca să pornim de la ipoteza nulă H0, conform căreia nu există dependenţă între locul de reşedinţă şi naţionalitatea cetăţenilor din Albeni. Deoarece am făcut ipoteza de independenţă matematică, vom considera de asemenea tabelul de contingenţă teoretică (care va fi utilizat la calcularea cantităţilor (k'ij - kij)²/k'ij), necesare ulterior aflării lui D. [Pentru a sintetiza demonstraţia, vom utiliza un singur tabel care va cuprinde toate cele trei serii de valori; pentru comoditate, cantităţile (k'ij-kij)²/k'ij sunt notate în tabelul de mai jos cu d].

Page 65: Statistic A

66

Pentru calcularea valorilor celor trei serii din tabelul următor, un exemplu numeric poate facilita înţelegerea. Pentru căsuţa X1,Y2 valoarea se obţine astfel: - efectivul observat este k12 = 0 - efectivul teoretic este k'12 = (k1. × k.2)/k..=(5×6)/20 = 1,5; - cantitatea (k'ij - kij)²/k'ij, sau d, este (1,5 - 0 )²/1,5=1,50. D se obţine deci prin însumarea valorilor d din tabel: D = 0,64+0,07+1,07+0,64+1,50+0,17+0,17+1,50 = 4,76; v = (4-1)(2-1) = 3 grade de libertate α = 0,05 (pragul de încredere) C = 7,81 (se citeşte în tabelul distribuţiei χ ²). În acest moment putem testa ipoteza nulă (care stipula că variabilele alese sunt independente). Ne amintim că, pentru ca relaţia de independenţă să se verifice, D trebuie să fie mai mare sau egal cu C. În exemplul nostru D<C (4,76 < 7,81), deci trebuie să refuzăm ipoteza de independenţă şi să acceptăm că variabilele noastre sunt corelate, ele aflându-se în relaţie de dependenţă. Analiza primară a tabelului de contingenţă poate sugera ipoteza existenţei unei legături între caracterele studiate. Testul χ² permite sesizarea existenţei relaţiei de dependenţă. Nici una dintre metode nu oferă însă informaţii asupra intensităţii şi sensului acestei relaţii. Pentru a avea aceste informaţii este nevoie să se calculeze raporturi şi coeficienţi de corelaţie sau de asociere. La aceste măsuri vom ajunge prin intermediul exemplelor următoare. 5.3. Măsurarea relaţiei dintre două caracteristici cantitative continue5.3. Măsurarea relaţiei dintre două caracteristici cantitative continue Faptul de a pune în evidenţă o relaţie între două fenomene geografice înseamnă doar a lua contact în mod superficial cu formele de organizare a spaţiului. Nevoia de ordine - resimţită nu numai de cercetătorul geograf, dar şi de omul de rând - necesită mai multe informaţii asupra acestei legături, pentru a şti cum şi cât de puternic este organizată realitatea geografică. Este nevoie în primul rând de informaţii referitoare la forma, la sensul şi la intensitatea relaţiei. Relaţia trebuie măsurată. Ce înseamnă pentru geograf a măsura o relaţie? să ne amintim că a pune în evidenţă o relaţie între două variabile înseamnă a demonstra faptul că valorile luate de cele două variabile nu sunt distribuite la întâmplare. Deci, a sesiza relaţia existentă între două distribuţii înseamnă a emite ipoteza că ele variază împreună, într-o manieră mai mult sau mai puţin corelată . Prin urmare, a măsura această corelaţie înseamnă a stabili măsura în care valorile unei distribuţii fluctuează mai mult sau mai puţin regulat simultan cu valorile altei distribuţii (Chapot, Dauphiné, 1977). Altfel spus, măsurarea corelaţiei se rezumă în linii mari la măsurarea fluctuaţiei care afectează valorile uneia dintre cele două distribuţii atunci când valorile celeilalte suferă o modificare oarecare (Gregory, 1968). Cum poate geograful să măsoare o relaţie? Ori de câte ori cercetătorul în geografie studiază modul cum două fenomene variază simultan, el încearcă să efectueze o măsurare. Gradul de precizie al acesteia oscilează în funcţie de metoda utilizată. Există trei metode principale de măsurare a relaţiilor (Chapot, Dauphiné, 1977): - suprapunerea hărţilor tematice; - analiza diagramelor de distribuţie; - analiza statistică.

Y:X:

Y1 Y'1 d Y2 Y'2 d ki.; k'i.; Sd

X1; X'1 d 5 3,5 0,64 0 1,5 1,50 5 5 2,14

X2; X'2 d 4 3,5 0,07 1 1,5 0,17 5 5 0,24

X3; X'3 d 3 3,5 0,07 2 1,5 0,17 5 5 0,24

X4; X'4 d 2 3,5 0,64 3 1,5 1,50 5 5 2,14

k.j; k'.j; Sd 14 14 1,42 14 6 3,34 20 20 4,76

Page 66: Statistic A

67

* Suprapunerea hărţilor (sau metoda cartografică) este metoda specifică geografiei clasice. Unui meteorolog i se va părea firesc să studieze variaţia simultană a altitudinii şi a temperaturii. Pentru a măsura relaţia dintre aceste două variabile, cea mai simplă metodă va fi aceea de a suprapune o hartă cu izotermele peste una cu izohipsele regiunii analizate. Există toate şansele ca, în linii mari, traseul izotermelor să coincidă cu cel al izohipselor, încât, studiind dinamica spaţială a gradientului termic şi al celui altitudinal, cercetătorul să ajungă la concluzia că între temperatură şi înălţimea reliefului există o relaţie invers proporţională: pe măsură ce altitudinea creşte, temperatura scade. Rezultatele acestei metode sunt modeste, rămânând la nivelul discursului imprecis, calitativ: cercetătorul a stabilit că există o legătură între cele două variabile, că legătura este de dependenţă şi că sensul acesteia este negativ. Metoda nu poate spune cât de intensă este relaţia, încât aceasta nu poate fi comparată cu alte relaţii sesizate în regiunea respectivă. În plus, cercetătorul nu va fi niciodată sigur că relaţia sa este semnificativă sau că nu reflectă de fapt o situaţie excepţională, accidentală. * Analiza diagramelor de distribuţie (sau a graficului de corelaţie sau metoda grafică) este metoda care face trecerea de la analiza hărţilor suprapuse la cea statistică. Metoda consistă în a trece în planul unui sistem de axe rectangulare (grafic cartezian) punctele corespunzătoare perechilor de valori XY (mai exact a perechilor de modalităţi XiYi) ale distribuţiilor studiate. Studierea aspectului norului de puncte rezultat oferă unele informaţii asupra existenţei / non-existenţei unei relaţii, asupra formei, sensului şi intensităţii relaţiei. Forma relaţiei este sugerată de configuraţia norului după cum punctele se ordonează pe o direcţie anumită în planul sistemului de axe. * O relaţie este liniară dacă norul de puncte prezintă o formă alungită pe o direcţie dominantă (fig.5.5); relaţia este deci liniară dacă forma norului poate fi ajustată corect cu ajutorul unei drepte, adică dacă se poate găsi o relaţie între X şi Y care să aibă forma Y = aX + b. În fig.5.5 relaţia între X şi Y este liniară; punctele se grupează pe o direcţie anume, fapt care conferă norului un aspect alungit. * O relaţie este non-liniară dacă norul de puncte prezintă o formă complexă, curbată (fig.5.6); relaţia este non-liniară dacă relaţia dintre X şi Y nu este de forma Y = aX + b, ci de tip diferit: parabolică (Y=a+bX+cX²), hiperbolică [Y=1/(a+bX)], exponenţială (Y=abX), etc. În fig.5.6 relaţia dintre X şi Y nu este liniară; deşi norul este alungit, acesta îşi schimbă direcţia alungirii. Sensul relaţiei este indicat de orientarea direcţiei principale de alungire a norului în raport cu axele coordonatelor.

Figura 5.5. Aspectul norului de puncte în cazul relaţiei liniare dintre două variabile.

Figura 5.6. Aspectul norului de puncte în cazul relaţiei neliniare dintre două variabile.

Page 67: Statistic A

68

* O relaţie este pozitivă dacă cele două variabile variază în acelaşi sens, adică dacă se observă că: - valorilor mari ale variabilei X le corespund în general valorile mari ale variabilei Y; - valorilor medii ale variabilei X le corespund în general valorile medii ale variabilei Y; - valorilor mici ale variabilei X le corespund în general valorile mici ale variabilei Y. Generalizând pentru două unităţi i şi j ale distribuţiei, se spune că relaţia este pozitivă dacă se observă că, dacă Xi>Xj, atunci este probabil ca Yi>Yj (fig.5.7). În fig.5.7 relaţia dintre X şi Y este pozitivă, deoarece valorile lui Y variază în acelaşi sens ca şi valorile lui X. * O relaţie este negativă dacă cele două variabile variază în sens invers, adică dacă se observă că: - valorilor mari ale variabilei X le corespund în general valorile mici ale variabilei Y; - valorilor medii ale variabilei X le corespund în general valorile medii ale variabilei Y; - valorilor mici ale variabilei X le corespund în general valorile mari ale variabilei Y. Generalizând pentru două unităţi i şi j ale distribuţiei, se spune că relaţia este negativă (sau inversă) dacă se observă că, dacă Xi>Xj, atunci este probabil ca Yi<Yj (fig.5.8). În fig.5.8 relaţia dintre X şi Y este negativă, deoarece valorile lui Y variază în sens invers variaţiei valorilor lui X. * O relaţie este nulă dacă cele două variabile sunt total independente una faţă de alta, adică dacă se observă că: - valorilor mari ale variabilei X le corespund valori mari, medii sau mici ale variabilei Y; - valorilor medii ale variabilei X le corespund valori mari, medii sau mici ale variabilei Y; - valorilor mici ale variabilei X le corespund valori mari, medii sau mici ale variabilei Y (fig.5.9). Generalizând, se spune că o relaţie este nulă dacă faptul că se cunoaşte că Xi>Xj nu permite să se prevadă că Yi>Yj sau că Yi<Yj. În fig.5.9 relaţia dintre X şi Y este nulă, deoarece variaţia valorilor lui Y este indiferentă la variaţia valorilor lui X. Intensitatea relaţiei este sugerată de modul de grupare pe graficul de corelaţie a valorilor YiYj în funcţie de valorile XiXj. * O relaţie este puternică dacă unităţile care au valori vecine pe X au de asemenea valori vecine pe Y (caz în care punctele norului îi dau acestuia un aspect

Figura 5.7. Raporturile de mărime dintre cele două variabile în cazul relaţiei pozitive.

Figura 5.8. Raporturile de mărime dintre cele două variabile în cazul relaţiei negative.

Figura 5.9. Raporturi de mărime aleatoare între cele două variabile, în cazul relaţiei nule.

Page 68: Statistic A

69

compact). Generalizând, se spune că o relaţie este puternică dacă faptul că Xi este aproape de Xj implică faptul că Yi este aproape de Yj. În fig.5.10 relaţia dintre X şi Y este puternică, deoarece punctele sunt apropiate unele de altele, ceea ce semnifică variaţia în paralel a valorilor vecine pe X şi pe Y. * O relaţie este slabă dacă unităţile care au valori vecine pe X pot avea valori îndepărtate pe Y (caz în care punctele norului îi dau acestuia un aspect rarefiat). Generalizând, se spune că o relaţie este slabă dacă faptul că Xi este aproape de Xj nu implică faptul ca Yi să fie aproape de Yj. În fig.5.11 relaţia dintre X şi Y este slabă, deoarece punctele sunt îndepărtate unele de altele, ceea ce semnifică non-paralelismul variaţiei valorilor vecine pe X şi pe Y. Din cele expuse, se observă că analiza grafică este mai precisă decât analiza cartografică, oferind informaţii mai detaliate asupra existenţei/non-existenţei relaţiei, asupra formei, sensului şi intensităţii acesteia. Cu toate acestea, rămânem încă la nivelul discursului calitativ, deoarece nici prin analiza grafică nu se obţin măsuri precise pentru intensitatea sau pentru semnificativitatea relaţiei evidenţiate, iar informaţiile obţinute nu pot servi pentru efectuarea comparaţiilor cu alte relaţii existente în spaţiul analizat. * Analiza statistică, una dintre metodele geografiei moderne, poate să acopere lacunele celor două metode precedente. Trebuie să remarcăm că ipotezele analizei statistice pot să aibă ca punct de plecare ipotezele sugerate de primele două metode. Principalele tehnici ale analizei statistice sunt corelaţia şi regresia, cu ajutorul cărora se obţin toţi parametrii necesari măsurării precise a relaţiilor, precum şi comparării relaţiilor între ele. 5.3.1. Coeficienţii de corelaţie Intensitatea dependenţei dintre două caracteristici este măsurată de coeficienţi şi de raporturi, care sunt numere fără dimensiune31 şi care sunt folosite în funcţie de natura caracteristicilor şi a relaţiilor. De exemplu: 31 Adică independente de unităţile de măsură a variabilelor şi invariante la orice transformare liniară a variabilelor

Figura 5.10. Relaţie strânsă între două variabile.

Figura 5.11. Relaţie slabă între două variabile.

Page 69: Statistic A

70

- coeficientul de corelaţie liniară (r) este utilizat în cazul unor caracteristici cantitative şi al unor relaţii liniare; - raportul de corelaţie (η) este utilizat fie în cazul a două caracteristici cantitative, fie a unei caracteristici cantitative şi a celeilalte calitative nominale, în condiţiile în care relaţia poate să nu fie liniară; - coeficientul de corelaţie a rangurilor Spearman (ρ) se utilizează în cazul caracteristicilor calitative ordinale, când condiţia de liniaritate a relaţiei nu este obligatorie; - coeficienţii de asociere măsoară fie dependenţa dintre două caracteristici calitative nominale, fie cea dintre o caracteristică cantitativă şi una calitativă nominală. Coeficienţii de corelaţie permit obţinerea unei măsuri sintetice a sensului şi a intensităţii relaţiei dintre două caracteristici. Coeficientul de corelaţie liniară Bravais-Pearson Coeficientul de corelaţie liniară Bravais-Pearson permite detectarea prezenţei sau absenţei unei relaţii liniare dintre două caracteristici cantitative. Pentru a calcula acest coeficient, este nevoie de calcularea covarianţei, aceasta la rândul ei având la bază calcularea covariaţiei32. Un exemplu concret poate facilita înţelegerea acestor parametri. În tabelul de mai jos, fiecare dintre cele opt judeţe ale Moldovei este caracterizat de variabilă X (populaţia urbană, în procente, România= 100%) şi de variabila Y (valoarea producţiei industriale, în procente, România = 100%), la nivelul anului 1989. În tabel: x = ecarturile la medie pentru variabila X (x = X- X ); y = ecarturile la medie pentru variabila Y (y = Y-Y ); x²= variaţia totală a variabilei X; y²= variaţia totală a variabilei Y; xy= covariaţia totală dintre X şi Y. În exemplul de mai sus, x şi y reprezintă variaţia fiecărui judeţ, respectiv ecartul fiecărui judeţ faţă de media ansamblului de judeţe considerat. [Trebuie să remarcăm faptul că, deoarece este vorba de variaţia unui loc în raport de alte locuri, din punct de vedere al geografiei, acest parametru este de fapt variaţia spaţială]. Variabile Judeţul

X

x=X- X

Y

y=Y- Y

xy

BACĂU 2,9 0,7 0,6 4,0 1,8 3,1 1,3 BOTOŞANI 1,4 -0,7 0,5 0,9 -1,4 1,8 1,0 GALAŢI 3,0 0,9 0,7 4,1 1,8 3,4 1,6 IAŞI 3,3 1,1 1,3 2,7 0,5 0,2 0,5 NEAMŢ 1,8 -0,3 0,1 2,1 -0,1 0,0 0,1 SUCEAVA 1,9 -0,2 0,0 1,8 -0,5 0,2 0,1 VASLUI 1,5 -0,6 0,3 1,2 -1,1 1,1 0,6 VRANCEA 1,2 -0,9 0,8 1,2 -1,1 1,1 0,9 Σ (suma) 17,1 0,0 4,4 18,0 0,0 10,9 6,1 Media 2,1 0,0 0,6 2,3 0,0 1,4 0,8 σ (ecart tip) 0,7 0,4 1,2 1,2 0,5

cu coeficienţi pozitivi. 32 Vezi şi capitolul „Parametrii unei distribuţii statistice“. Dacă pentru o variabilă se calcula variaţia şi varianţa, pentru două variabile se calculează covariaţia şi covarianţa, în funcţie de modul cum variabilele variază împreună.

Page 70: Statistic A

71

Pentru a obţine variaţia totală a fiecăreia dintre variabilele X şi Y, trebuie ca valorile x şi y să fie ridicate la pătrat, deoarece, conform proprietăţilor mediei aritmetice, Σx = 0 şi Σy = 0. Prin urmare, suma pătratelor ecarturilor la medie oferă măsura variaţiei totale a unei variabile; aici Σx² = 4,4 iar Σy² = 10,9. Deoarece trebuie să măsurăm relaţia dintre două variabile, trebuie să cunoaştem variaţia care există între cele două variabile. Suma produselor dintre ecarturile la medie ale lui X şi ale lui Y (Σxy) este tocmai această măsură a covariaţiei în spaţiu ale lui X şi ale lui Y. ştiind că varianţa este media sumei pătratelor ecarturilor unei variabile, prin analogie se poate calcula covarianţa (adică varianţa simultană a două variabile):

N

xyn

1=i = COV XY∑

adică: COVXY = 6,1/8 = 0,762 (N = numărul judeţelor = 8). Analiza covarianţei poate să fie utilă în sesizarea sensului relaţiei: * Dacă COVXY > 0, relaţia este pozitivă; * Dacă COVXY < 0, relaţia este negativă; * Dacă COVXY = 0, relaţia este nulă. Din capitolele anterioare se ştie că varianţa nu măsoară decât distribuţia unei variabile, depinzând de unitatea de măsură a acesteia. În mod logic, covarianţa depinde de unităţile de măsură ale celor două variabile, din care cauză nu putem compara covarianţele distribuţiilor care au ecarturi-tip diferite. Pentru a se depăşi acest neajuns, a fost imaginat coeficientul de corelaţie liniară Bravais-Pearson, care este într-o oarecare măsură o standardizare a covarianţei, ceea ce o face comparabilă pentru distribuţii cu ecarturi tip diferite. Coeficientul de corelaţie liniară (r) a două variabile X şi Y este egal cu covarianţa dintre X şi Y divizată cu produsul ecarturilor tip ale lui X şi Y:

σσ YX

COV XY = r XY* adică 0,762/(0,7×1,2) = +0,877

Trebuie să remarcăm faptul că dacă cele două variabile sunt standardizate (X,Y = X',Y'), atunci σ(X') = σ(Y') = 1, încât coeficientul de corelaţie liniară devine egal cu covarianţa celor două variabile: rX'Y' = COVX'Y'/1 = COVX'Y'. Coeficientul de corelaţie liniară Bravais-Pearson (rXY) variază între -1 şi +1 şi măsoară gradul de asociere dintre Y şi X. Cu cât valoarea coeficientului este mai aproape de -1 sau de +1, cu atât relaţia dintre cele două variabile este mai puternică. Dacă rXY=0, se spune că cele două variabile nu sunt corelate; aceasta nu înseamnă că cele două variabile sunt independente, deoarece între ele poate exista o relaţie non-liniară, imposibil de detectat cu ajutorul lui rXY. Interpretarea coeficientului de corelaţie liniară este prin urmare relativ simplă: - dacă rXY are o valoare apropiată de 0 (de exemplu -0,021, +0,012), nu există o relaţie liniară între X şi Y; - dacă rXY are o valoarea apropiată de -1 (de exemplu -0,785, -0,954), între X şi Y există o puternică relaţie liniară negativă; - dacă rXY are o valoare apropiată de +1 (de exemplu, în cazul nostru, +0,877), între X şi Y există o puternică relaţie liniară pozitivă. În concluzie, semnul lui rXY (+ sau -) indică sensul relaţiei (pozitivă sau negativă) iar valoarea absolută a lui rXY, respectiv IrXYI, indică intensitatea relaţiei (puternică, slabă sau nulă). În unele cazuri, prezenţa valorilor excepţionale poate perturba măsura corelaţiei şi să conducă la concluzii eronate.

Page 71: Statistic A

72

În fig. 5.12 prezenţa unor valori foarte mari în comparaţie cu toate celelalte falsifică intepretarea. Dacă păstrăm în cadrul analizei municipiul Bucureşti şi judeţul Constanţa obţinem rXY=+0,153 (graficul de sus). Eliminîndu-le (graficul de jos), coeficientul nu numai că se îmbunătăţeşte în mod simţitor, ci îşi schimbă şi semnul : rXY=-0,361, arătînd clar că între cele două relaţii este o legătură strînsă, invers proporţională (numărul migranţilor creşte pe baza scăderii populaţiei rurale). Dacă eliminăm încă două judeţe care se comportă diferit de celelalte (Sibiu şi Caraş-Severin), coeficientul se îmbunătăţeşte şi mai mult (rXY=-0,419). Interpretarea coeficientului de corelaţie liniară Bravais-Pearson trebuie să fie făcută cu reticenţă, deoarece rXY nu oferă informaţii asupra gradului de semnificaţie al relaţiei, care depinde într-o egală măsură şi de numărul de observaţii (de indivizi analizaţi). De exemplu, se doreşte studierea relaţiei între cancer şi tabagism: - un rXY de +0,800 obţinut pe un eşantion de 10 persoane chestionate nu este semnificativ, putând fi datorat hazardului; - un rXY de +0,200 obţinut pe un eşantion de 2000 de persoane chestionate este foarte semnificativ şi dovedeşte în mod sigur că între cele două fenomene există o anumită relaţie, deoarece mărimea eşantionului face să existe puţine şanse ca relaţia să fie datorată întâmplării. În exemplul numeric de mai sus, rXY = +0,877, ceea ce sugerează faptul că există o relaţie puternică între rata urbanismului şi volumul producţiei industriale, însă talia eşantionului (doar 8 judeţe) induce o oarecare îndoială asupra adevărului exprimat de această valoare. În scopul reducerii la maximum a incertitudinii, corelaţia se asociază cu o altă tehnică statistică, şi anume cu regresia. 5.3.2. Regresia liniară Coeficientul de corelaţie liniară permite detectarea existenţei unei relaţii liniare între două caracteristici cantitative continue. Este nevoie însă întotdeauna să se verifice faptul că legătura măsurată de coeficientul rXY este semnificativă. În acest scop se efectuează următoarele operaţii: -se aplică testul de semnificaţi e, ţinându-se cont de rXY şi de efectivul N; ipoteza nulă H0 este că rXY = 0; -se examinează norul de puncte pentru a se verifica dacă relaţia nu este influenţată de valori excepţionale; -se verifică dacă ajustarea liniară este cea mai indicată (cea mai bine adaptată) pentru studierea relaţiei dintre X şi Y. Pentru aceasta, se pot utiliza două metode simple: fie se examinează forma norului, fie se compară rXY cu rlogX,Y şi cu rlogX,logY. Dacă se estimează că ipoteza unei legături liniare între X şi Y este valabilă, se poate încerca să se exprime relaţia dintre cele două caracteristici cu ajutorul unei drepte. În acest moment al analizei, se face în general o ipoteză asupra sensului relaţiei:

Figura 5.12. Rolul valorilor aberante în falsificarea corelaţiei dintre două variabile (Corelaţia dintre dinamica populaţiei rurale şi dinamica bilanţului migrator în România, între 1977 şi 1992) ; sursa datelor : INSSE

.

Page 72: Statistic A

73

- dacă se încearcă exprimarea lui X în funcţie de Y, ecuaţia dreptei de regresie liniară va fi de forma X=aY+b; - dacă se încearcă exprimarea lui Y în funcţie de X, ecuaţia dreptei de regresie liniară va fi de forma Y=aX+b; - dacă nu se face nici o ipoteză de dependenţă, se va căuta doar rezumarea cât mai exact a relaţiei între X şi Y prin intermediul unei drepte de tipul a1X+a2Y+b=0. Este foarte importantă precizarea ipotezei făcute, deoarece cele trei drepte sunt în general diferite: ele nu se suprapun în planul coordonatelor carteziene decât în cazul existenţei unei legături perfecte între X si Y, adică atunci când rXY este egal cu +1 sau cu -1. În cadrul prezentei lucrări ne vom limita doar la primele două cazuri, respectiv la cele care încearcă să exprime o variabilă (numită dependentă, explicată, sau regresată ) în funcţie de o alta (numită independentă, explicativă sau regresoare). 5.3.2.1. Principiul regresiei Spre deosebire de corelaţie, care este „o metodă statistică ce caută să caracterizeze situaţia de dependenţă dintre două distribuţii numerice prin intermediul unei mărimi referitoare la gradul lor de dependenţă”, regresia este „o metodă statistică ce defineşte o corespondenţă funcţională de forma Y=f(X), încercând să definească în mod precis funcţia f care leagă cele două distribuţii X şi Y” (Chapot, Dauphiné, 1977). Atunci când se studiază relaţiile posibile existente între două distribuţii din perspectiva evoluţiei simultane a valorilor celor două distribuţii, se încearcă de fapt definirea funcţiei care uneşte respectivele distribuţii. Aceasta înseamnă că a studia pe Y ca pe o oarecare funcţie a lui X înseamnă a descrie cum anume Y covariază cu X. Astfel, temperatura variază în funcţie de altitudine, numărul de navetişti variază în funcţie de distanţa până la centrul urban atractor, numărul de unităţi comerciale urbane variază în funcţie de numărul populaţiei, debitul râurilor variază în funcţie de lungimea lor, etc. Se observă prin urmare că folosirea metodei regresiei permite cercetătorului să facă „preziceri” asupra evoluţiei comportamentului unui fenomen (a variabilei de explicat sau a variabilei-„efect”) în funcţie de altul (de variabila explicativă sau de variabila-"cauză"). Trebuie să amintim faptul că a acorda mai mult uneia dintre cele două variabile decât celeilalte calificativul de „cauză” sau de „efect” trebuie să se bazeze pe un raţionament logic bine argumentat sau pe o solidă structură teoretică. În plus, „cauzalitatea” stabilită prin intermediul regresiei trebuie privită de foarte aproape, deoarece universul în care trăim este mai degrabă probabilist decât determinist. Din această cauză, „a prezice” prin intermediul regresiei trebuie să fie înţeles ca „a stabili sau a anticipa tendinţe generale” ale evoluţiei variabilei de explicat. A vorbi de variabilă-efect şi de variabilă-cauză implică a accepta existenţa unei posibilităţi de a „explica” relaţia stabilită între cele două distribuţii. De aici rezultă diferenţa esenţială dintre corelaţie şi regresie: pentru a măsura intensitatea relaţiei dintre două distribuţii se utilizează corelaţia; pentru a explica această relaţie se foloseşte regresia. 5.3.2.2. Modelul regresiei liniare Regresia este un mijloc de modelare a factorilor explicativi, adică de realizare a unui model cu putere de predicţie, care permite în plus, prin analiza reziduurilor rezultate, studierea detaliată a cazurilor care nu sunt bine „explicate” de factorii explicativi consideraţi. Modelul general de bază al regresiei liniare este aditiv şi defineşte o legătură funcţională: Y=aX+b. Deoarece s-a demonstrat în paginile anterioare faptul că în domeniul de studiu al geografiei legăturile funcţionale sunt foarte rare, dacă nu inexistente, modelul trebuie

Page 73: Statistic A

74

completat, pentru a ilustra o relaţie de dependenţă statistică. Astfel, modelul aditiv funcţional devine: Y=aX+b+ε, unde cantitatea ε defineşte reziduurile regresiei. În fig. 5.13 sunt prezentate trei exemple de funcţii de tipul Y=f(X). Deoarece funcţiile respective descriu legături funcţionale, este perfect posibil să prezicem valoarea lui Y pentru oricare dintre valorile luate de X. Astfel, pentru funcţia Y=0,5X, fiecare creştere cu o unitate a valorilor lui X va conduce la o creştere cu 0,5 a valorilor Y corespondente: dacă X=4, atunci Y=0,5×4=2. Pentru funcţia Y=2X, fiecare creştere cu o unitate a valorilor lui X va conduce la o creştere cu 2 a valorilor Y corespondente: dacă X=4, atunci Y=2×4=8; dacă X=250, atunci Y=2×250=500. Geografia este însă obligată să studieze fenomene a căror covariaţie nu este perfectă, diagrama lor de dispersie având un aspect asemănător celui din fig.5.14. Unirea cu o linie a punctelor XY de pe diagramă, care ar trebui să uşureze interpretarea relaţiei dintre cele două distribuţii, nu are nici pe departe această utilitate: în figura respectivă nu se poate sesiza nici o continuitate şi nici o tendinţă generală a evoluţiei valorilor distribuţiilor studiate. Cu toate aceste, intuiţia umană permite ipoteza existenţei unei relaţii între variabilele considerate. Pentru a sesiza această relaţie trebuie ca variaţia variabilelor să fie privită de la o oarecare distanţă, ignorând detaliile care îngreunează analiza. Cu alte cuvinte, este nevoie de ajustarea mulţimii de puncte XY în funcţie de tendinţa sa generală. A ajusta norul de puncte înseamnă de fapt a înlocui linia frântă din fig.5.15 cu o linie dreaptă care trece cât mai aproape posibil de fiecare dintre punctele norului. O asemenea linie dreaptă este propusă, pentru aceeaşi mulţime de puncte reprezent^nd judeţele Moldovei (Bc, Bt, Gl, Is, Nt, Sv, Vs), în fig.5.15. Este evident că linia dreaptă trece prin apropierea majorităţii punctelor dar destul de departe de altele. Acest lucru nu trebuie să afecteze cercetătorul, care are libertatea de a se îndepărta fără scrupule de anumite valori cu comportament particular (valori excepţionale sau valori accidentale), pentru a descoperi linia generală a relaţiei. Această linie, care ajustează cel mai bine posibil norul de puncte se numeşte linia sau dreapta de regresie. Linia obţinută este de fapt expresia grafică a modelului analitic Y=f(X). În fig.5.15 se observă faptul că linia obţinută nu trece prin punctele mulţimii, ci prin apropierea lor, fiind separată de acestea prin anumite distanţe (reprezentate pe figură cu linie punctată între Bt-Bt’, Vs-Vs’, Is-Is’, etc.). Aceste distanţe se numesc ecarturile (reziduurile) regresiei. Dacă aceste reziduuri nu sunt luate în consideraţie, modelul analitic devine nu numai incomplet, ci şi fals. Din această cauză, modelul analitic statistic devine Y=f(X)+ε sau, mai exact, Y = aX+b+ε.

Figura 5.13. Tipuri de funcţii liniare (după Johnston,1978).

Figura 5.14. Relaţia dintre X şi Y nu poate fi descrisă cu precizie în lipsa unei analize atendinţei generale de evoluţie (Relaţia între salariaţii în industrie şi producţia industrială în judeţele Moldovei în 1994 ; sursa datelor :INSSE)

.

Page 74: Statistic A

75

Ajustarea norului de puncte cu ajutorul acestui model este utilă cercetătorului doar în măsura în care modelul este suficient de fidel realităţii pentru a funcţiona ca o lege empirică şi în măsura în care este suficient de simplu pentru a putea fi utilizat în evaluări, comparaţii sau combinaţii cu alte legi similare (Chapot, Dauphiné, 1977). În procesul găsirii modelului analitic care să ajusteze norul de puncte trebuie avute în vedere două probleme. Prima dintre acestea este legată de traiectoria liniei de regresie care se obţine. Astfel, se poate găsi o ecuaţie care să descrie o curbă care să treacă prin absolut toate punctele norului. În exemplul din figura 5.14, unde sunt 7 puncte, ecuaţia obţinută va fi o ecuaţie de gradul 6, posibil de rezolvat. Distribuţia va fi astfel complet descrisă însă cercetătorului îi va fi imposibil să izoleze şi să studieze fluctuaţiile accidentale, care în geografie sunt deosebit de frecvente şi deosebit de importante, deoarece permit descoperirea factorilor răspunzători de comportamentul spaţial al unui fenomen oarecare în plan local. A doua problemă - şi cea mai importantă - este găsirea unei funcţii de tipul Y=f(X) cât mai simplă, care să conducă la o linie de regresie cât mai fiabilă, fără a fi perfectă. Descoperirea acestei linii de regresie presupune utilizarea următorului algoritm metodologic: alegerea tipului cel mai indicat de funcţie, calculul coeficienţilor funcţiei şi controlul validităţii modelului rezultat. Alegerea modelului de regresie liniară Alegerea modelului analitic susceptibil de a fi utilizat nu se poate baza pe o anumită „reţetă”, pe un anumit algoritm valabil în toate cazurile. Matematica nu oferă decât o colecţie de funcţii liniare sau non-liniare, dintre care cercetătorul o poate alege pe aceea pe care o consideră a fi cel mai bine adaptată pentru a descrie fenomenul analizat. Funcţiile matematice sunt descrise de ecuaţiile corespondente, care sunt de fapt „scheme de organizare ale lumii în care trăim” (Chapot, Dauphiné, 1977). Deoarece sensibilitatea umană este cel mai bine adaptată să sesizeze relaţiile liniare ale lumii înconjurătoare, cercetătorul are toate motivele să prefere funcţiile liniare, caracterizate prin eficacitate, comoditate şi simplitate. Conceptul de liniaritate decurge din principiul aditivităţii fenomenelor: o variabilă Y este o combinaţie liniară a unei variabile X dacă variabila Y este o combinaţie aditivă a variabilei X. Forma modelului de regresie este, cum s-a văzut, aditivă: ε + b + aX = Y în care: Y = o variabilă aleatoare observabilă; X = o variabilă dată, cu valori cunoscute; ε = o variabilă aleatoare neobservabilă; a = coeficientul lui X (parametru care trebuie estimat); b = termen constant (parametru care trebuie estimat). De multe ori însă, teoria geografică conduce la modele în care relaţia dintre variabile nu se poate reprezenta sub această formă liniară simplă. De exemplu, modelele de interacţiune

Figura 5.15. Linia de regresie oferă elementele pentru o analiză atendinţei generale; ecarturile permit izolarea cazurilor deosebite. (Relaţia între salariaţii în industrie şi producţia industrială în judeţele Moldovei în 1994 ; sursa datelor :INSSE)

Page 75: Statistic A

76

spaţială sunt modele multiplicative, cele de creştere a populaţiei urbane sunt modele exponenţiale (sau logistice, în cazul în care se fixează o valoare-limită creşterii), etc. În aceste cazuri, este nevoie ca modelele geografice să fie transformate (liniarizate), pentru a se subordona exigenţelor modelului de regresie liniară. Principalele funcţii non-liniare şi metodele de liniarizare a lor sunt: -Funcţia putere: ε*aX = Y b

care, liniarizată , devine: ε+Xb+a = Y log*logLog -Funcţia exponenţială: ε*a = Y bX

care, liniarizată , devine: ε+abX = Y log*Log Prin urmare, în alegerea modelului de regresie, trebuie întâi sesizată forma relaţiei studiate (prin examinarea norului de puncte) şi apoi trebuie verificată ajustarea norului prin funcţia corespunzătoare. Dacă funcţia este non-liniară, se va proceda întâi la liniarizarea sa şi apoi se va efectua regresia propriu-zisă. Calcularea coeficienţilor de regresie Presupunând că X este variabila independentă şi că Y este variabila dependentă, ecuaţia dreptei de regresie va fi Y=aX+b. A calcula coeficienţii acestei ecuaţii înseamnă a avea ulterior posibilitatea de a afla valorile estimate ale lui Y, care vor permite trasarea dreptei de regresie. În figura 5.15, valorile estimate ale lui Y (Ŷ1, Ŷ2, Ŷ3, Ŷ4, Ŷ5, Ŷ6, Ŷ7,), pentru aceleaşi valori X1, X2, X3, X4, X5, X6, X7 cunoscute, au permis aflarea punctelor a',b',c',d',e',f',g' prin care este trasată dreapta de regresie. Problema care se pune este următoarea: cum trebuie să fie calculaţi coeficienţii a şi b încât estimarea lui Y de către ecuaţia Y=aX+b să fie cea mai bună posibilă? Pentru a răspunde la această întrebare este necesar să se fixeze un criteriu care să permită evaluarea ajustării realizate. Dacă se presupune că X şi Y sunt două caracteristici care descriu o mulţime M compusă din n elemente (i=1,2...n), atunci oricărui element i din mulţimea M îi corespund modalităţile Xi şi Yi ale caracteristicilor X şi Y. Cu alte cuvinte, pe diagrama de distribuţie se vor trece punctele i1(X1Y1), i2(X2Y2)...in(XnYn). Coordonatele Yi (adică Y1, Y2...Yn) sunt valorile observate ale lui Y. Coordonatele Ŷi (respectiv Ŷ1, Ŷ 2... Ŷn) sunt valorile estimate de către dreapta de regresie Ŷi=aXi+b (de exemplu, Ŷ 2=aX2+b). Diferenţa dintre valoarea observată şi valoarea estimată se numeşte reziduu de regresie sau eroarea de estimare, şi are forma: Yi-Ŷi = εi. Reziduurile pot fi pozitive, când Ŷi este sub-estimat (cazul punctelor a, d, g de pe fig.5.15) sau negative, când Ŷi este supra-estimat (cazul punctelor b, c, e, f de pe fig.5.15). Fără îndoială că ajustarea va fi cu atât mai bună cu cât eroarea de estimare εi va fi cea mai mică posibilă pentru fiecare dintre elementele mulţimii M. Dar care dintre criteriile globale, care să ţină seama de toate valorile εi, poate fi utilizat? La această întrebare, există trei răspunsuri posibile: a) Primul criteriu ar putea să fie suma tuturor reziduurilor (Σεi), însă nu este o soluţie bună, deoarece rezultatul va fi întotdeauna zero, fiindcă erorile de subestimare le anulează pe cele de supraestimare; b) Al doilea criteriu ar putea fi suma valorilor absolute ale tuturor ecarturilor (ΣIεiI): este un criteriu corect (suma nu se anulează), însă extrem de incomod, deoarece este foarte greu de găsit o soluţie rapidă de aflare a parametrilor a şi b; c) Al treilea criteriu ar putea fi criteriul celor mai mici pătrate, adică al sumei pătratelor reziduurilor de regresie: Σ(εi)². Acest criteriu pare să fie cea mai bună alegere, deoarece un pătrat este întotdeauna pozitiv, ceea ce face ca erorile de sub-estimare să nu se anuleze reciproc

Page 76: Statistic A

77

cu cele de supraestimare. Mai mult, acest criteriu are avantajul de a conduce la soluţii simple şi rapide de calculare a coeficienţilor de regresie a şi b. Conform obiectivului vizat, a aplica metoda celor mai mici pătrate înseamnă a găsi acele valori ale lui a şi b care pot să conducă la cea mai mică sumă a pătratelor ecarturilor dintre valoarea observată Yi şi valoarea estimată Ŷi (Ŷi = aXi+b):

²min²

^min²min b)]+aX i(-Y i[

N

1=i = )Y-Y i(

N

1=i = i

N

1=i∑∑∑ ε

A obţine valorile lui a şi b care să permită cea mai mică sumă a pătratelor ecarturilor înseamnă deci a găsi acele valori care vor minimiza varianţa pătratelor ecarturilor: σ²(εi) = minim. ştiind că varianţa unei distribuţii este media pătratelor ecarturilor fiecărei valori la valoarea medie33 şi ştiind că valoarea medie este

N

Y iN

1=i = Y∑

, atunci varianţa (σ²) în Y a distribuţiei va fi:

N

)Y-Y i(N

1=i = 2Y

∑σ

Apare astfel evident faptul că, pentru a afla parametrii a şi b ai regresiei, interesul major îl reprezintă cunoaşterea varianţei variabilei dependente Y precum şi cunoaşterea relaţiei dintre aceasta şi varianţa variabilei independente X, care, prin analogie, este:

N

)X-X i(N

1=i = 2X

∑σ

Figura 5.16 ilustrează contribuţia fiecărei observaţii (respectiv a judeţelor din tabelul de mai jos34, notate pentru comoditate pe grafic cu 1, 2, 3, 4, 5, 6, şi 7) la varianţa variabilei X (în funcţie de X ) şi la varianţa variabilei Y (în funcţie de Y ). Astfel, contribuţia punctului 1 (Vrancea) la varianţa în Y este (εy1)² = (-1,05)² = 1,10 = pătratul ecartului dintre punctul 1 şi Y . Contribuţia aceluiaşi punct la varianţa în X este (εx1)² = (-0,89)² = 0,80 = pătratul ecartului dintre punctul 1 şi X . Contribuţiile respective pentru punctul 5 (Suceava) sunt (εx5)² = 0,04 şi (εy5)² = 0,20. Se observă prin urmare că unele observaţii contribuie într-o măsură mai mare la varianţa distribuţiei (Vrancea, Vaslui, Botoşani, Bacău, Galaţi, Iaşi) iar altele într-o măsură mult mai mică (Neamţ, Suceava). Cunoscând faptul că cele două variabile oscilează împreună, se poate calcula covarianţa, după formula cunoscută:

33 Vezi subcapitolul "Coeficienţii de corelaţie". 34 Tabelul este reluarea celui de la subcapitolul "Coeficienţii de corelaţie", însă valorile nu mai sunt rotunjite la o singură zecimală.

Figura 5.16. Reprezentarea grafică a calculării varianţei variabilelor X şi Y.

Page 77: Statistic A

78

N

yixiN

1=i = N

)Y-Y i)(X-X i(N

1=i = COV XY

εε *∑∑

Pentru exemplul numeric covarianţa este următoarea: COVXY = (Σεxiεyi)/N = (εx1×εy1 + εx2×εy2 + εx3×εy3 + εx4×εy4 + εx5×εy5 + εx6×εy6 + εx7×εy7 + εx8×εy8)/8 = [(-0,89)×(-1,05) + (-0,74)×(-1,35) + (-0,59)×(-1,05) + (-0,32)×(-0,15) + (-0,21)×(-0,45) + (+0,74)×(+1,75) + (+0,86)×(+1,85) + (+1,14)×(+0,45)]/8 = (0,94 + 1,00 + 0,62 + 0,05 + 0,09 + 1,30 + 1,59 + 0,51) = 6,10/8 = 0,762 Judeţ \ Var. X

εx=X- X εx² Y

εy=Y - Y εy² εxy

6-BACĂU 2,88 +0,74 0,55 4,00 +1,75 3,06 1,30 2-BOTOŞANI 1,40 -0,74 0,55 0,90 -1,35 1,82 1,00 7-GALAŢI 3,00 +0,86 0,74 4,10 +1,85 3,42 1,59 8-IAŞI 3,28 +1,14 1,30 2,70 +0,45 0,20 0,51 4-NEAMŢ 1,82 -0,32 0,10 2,10 -0,15 0,02 0,05 5-SUCEAVA 1,93 -0,21 0,04 1,80 -0,45 0,20 0,09 3-VASLUI 1,55 -0,59 0,35 1,20 -1,05 1,10 0,62 1-VRANCEA 1,24 -0,89 0,80 1,20 -1,05 1,10 0,94 Σ=suma 17,09 0,0 4,42 18,00 0,0 10,94 6,10 Media=Σ/N 2,14 0,0 0,55 2,25 0,0 1,47 0,76 σ=ecart tip 0,74 0,38 1,17 1,22 0,51

Din acest moment, aplicarea metodei celor mai mici pătrate permite aflarea constantelor a şi b ale regresiei:

σε

εε

2x

COV XY =

xiN

1=i

yixiN

1=i = a²

*

, adică a este raportul dintre covarianţă şi varianţa lui X, iar Xa-Y = b Din ecuaţiile de mai sus rezultă pe de o parte că a este raportul dintre covarianţa distribuţiei, respectiv COVXY, şi varianţa variabilei independente, respectiv σX², iar pe de altă parte că dreapta de regresie trece prin centrul de gravitate al norului de puncte, de coordonate , (deoarece b = Y -a X => = a X +b). Prin urmare se poate stabili legătura existentă între parametrul a şi coeficientul de corelaţie rXY. Deoarece se cunoaşte X ,Y , σX, σY şi rXY şi se ştie că

σσ YX

COV XY = r XY* , rezultă că )YX(r XY = COV XY σσ

Înlocuindu-se în formula de calculare a parametrului a termenul COVXY cu expresia sa obţinută mai sus, se obţine:

σ

σ

σ

σσ

σ X

Yr XY = a 2X

)YX(r XY = a 2X

COV XY = a***

⇒⇒

iar b se calculează după aceeaşi formulă. Prin urmare, atunci când se cunoaşte coeficientul de corelaţie dintre X şi Y este inutil să se calculeze covarianţa dintre X şi Y pentru a găsi valorile corespondente parametrilor de regresie. În exemplu numeric referitor la relaţia dintre rata urbanizării şi cea a producţiei industriale, COVXY = 0,762 iar σX² = 0,55. Înlocuind în expresiile de mai sus, a = 0,762/0,55 =

Page 78: Statistic A

79

+1,38 iar b = 2,25 - 1,38×2,14 = 2,25 - 2,94 = -0,69. Ecuaţia dreptei de regresie devine: 0.69 - 1.38X = Y

Interpretarea parametrilor de regresie După calcularea coeficienţilor regresiei devine legitimă următoarea întrebare: care este semnificaţia celor doi parametri a şi b şi cum pot fi utilizaţi ei în „explicarea” relaţiei dintre variabilele considerate? Utilizarea unui exemplu grafic poate facilita înţelegerea răspunsului la această întrebare. În figura 5.17 sunt prezentate două relaţii perfect liniare între punctele care descriu distribuţia a 8 şi respectiv 7 observaţii. Pentru prima regresie (cu punctele sub forma unor pătrate pline) se observă că pentru o creştere p a valorilor lui X cu 10 unităţi (Xj-Xi=10) se obţine o creştere q a valorilor lui Y cu 5 unităţi (Yj-Yi=5). Dreapta de regresie descrie, împreună cu p şi q, un triunghi dreptunghic. Aplicând formulele geometriei descriptive în respectivul triunghi, se poate afla valoarea unghiului α dintre dreapta de regresie şi p, unghi care este de fapt panta dreptei de regresie, respectiv coeficientul a, numit şi coeficientul unghiular al regresiei: a = tgα = q/p = 5/10 = 0,5 Coeficientul a este aşadar indicatorul de magnitudine al relaţiei dintre cele două variabile, indicând mărimea creşterii lui Y în funcţie de X (în cazul prezentat, pentru o creştere cu o unitate a valorii lui X, valoarea corespondentă Y înregistrează o creştere cu o jumătate de unitate). Faptul că a este un indicator de magnitudine este clar dacă se analizează comparativ şi panta dreptei celei de-a doua regresii (cu punctele sub forma unor pătrate goale). Se observă că în acest al doilea caz pentru p (adică Xj-Xi) = 10, q+r (adică Yk-Yi) = 10, de unde: a = tg α' = (q+r)/p = 10/10 = 1 Panta este mai mare decât în cazul primei regresii (1 > 0,5): pentru o creştere cu o unitate a valorii lui X, valoarea corespondentă Y înregistrează o creştere identică. Din figură rezultă clar faptul că b, al doilea coeficient al regresiei, este parametrul care determină poziţia punctului de intersecţie al dreptei de regresie cu axa Y, atunci când X este 0; din această cauză, b mai este denumit şi originea sau intercepţia dreptei de regresie. În cazul primei regresii, b = 15. Ecuaţia dreptei este prin urmare Y = 0,5X + 15. În cazul celei de-a doua regresii, dreapta trece prin origine, deci b = 0, de unde rezultă că ecuaţia este Y = 1X+0 => Y = X. Cunoscând magnitudinea (a) şi originea (b), se poate estima oricare Y pentru o valoare X dată: Yi=0,5Xi+15. Dacă Xi = 65, atunci Yi = 65×0,5+15 = 32,5+15 = 47,5. Reluând exemplul numeric, unde ecuaţia dreptei de regresie era Y=1,38X+(-0,69), se poate acum „explica” relaţia existentă între X (proporţia populaţiei urbane judeţene din totalul populaţiei urbane a României) şi Y (proporţia producţiei industriale judeţene din totalul producţiei industriale a României): pentru fiecare creştere de 1% a populaţiei urbane, se înregistrează o creştere medie a producţiei industriale cu 1,38%. Intensitatea (forţa) relaţiei: formă de control a modelului de regresie

Figura 5.17. Reprezentarea grafică a interpretării şi semnificaţiei parametrilor de regresie a şi b.

Page 79: Statistic A

80

Parametrii a şi b ai ecuaţiei de regresie indică forma şi semnificaţia relaţiei existente între variabilele X şi Y, însă nu oferă nici o informaţie referitoare la justeţea estimării valorilor Ŷ de către dreapta de regresie. Eliminarea acestui neajuns se poate face cu ajutorul coeficientului de corelaţie liniară rXY, care măsoară reducerea varianţei variabilei dependente Y atunci când variabila independentă X este utilizată pentru a estima valorile Ŷ. Utilizarea coeficientului de corelaţie este legitimă deoarece prin adoptarea modelului de regresie Y=aX+b se acceptă implicit că variaţia totală a variabilei Y depinde de variabila X. Cu alte cuvinte, se încearcă explicarea varianţei lui Y (adică a cantităţii Σy²) prin raportarea sa la varianţa lui X (adică la Σx²). Făcând apel la o analogie, se poate spune că variabila independentă X funcţionează ca un burete ce absoarbe o parte din varianţa variabilei Y (Abler, Adams, Gould, 1971). Problema se reduce la a determina cât anume din Σy² este „absorbită” de Σx². Procedeul de apreciere a eficacităţii modelului de regresie se numeşte analiza varianţei35 şi este clar legat de ideea de corelaţie. În tabelul următor, varianţa totală în Y, respectiv suma pătratelor ecarturilor SPE = Σ(Y-Y )²) sau SPE = Σ[(Y-Ŷ)+(Ŷ-Y )]², este 10,94. În figura 5.18, cu linie punctată, sunt indicate ecarturile Y faţă

de Y . Aplicând modelul regresiei calculat în paginile precedente Y=1,38X-0,69, se obţine dreapta de regresie din figura 5.19, trasată în funcţie de Ŷ. Se poate vedea în mod clar că ecarturile valorilor observate Y faţă de valorile estimate Ŷ sunt mai mici decât cele faţă de Y . Suma pătratelor acestor ecarturi (Σ(Y-Ŷ)²), calculată în tabel, este 2,53.

Este evident că Σ(Y-Y )²>Σ(Y-Ŷ)², respectiv 10,94>2,53. O parte a varianţei originale a lui Y (10,94) a fost „absorbită” (10,94-2,53=8,41) prin acţiunea variabilei regresoare X. Partea absorbită (8,41) se numeşte varianţă explicată (Σy²e=σ²Ŷ) iar partea neabsorbită (2,53) se numeşte varianţă reziduală (Σy²r=σ²(Y-Ŷ)). Prin urmare putem spune că varianţa totală a lui Y (sau σ²Y) se compune din varianţa explicată (respectiv σ²Ŷ) plus varianţa reziduală (adică σ²(Y-Ŷ)) :

σσσ 2)-(Y

+2 = 2Y YY

^^

. De aici se poate calcula varianţa explicată, respectiv varianţa determinată de introducerea variabilei X în calcule:

σσσ 2

)Y-(Y

2Y

2

Y- = ^^

(varianţa explicată = varianţa totală - varianţa reziduală). 35 Vezi şi subcapitolul "Teste parametrice".

Judeţ \ Var. X Y (Y-)² Ŷ (Y-Ŷ)² 6-BACĂU 2,88 4,00 3,06 3,28 0,522-BOTOŞANI 1,40 0,90 1,82 1,23 0,117-GALAŢI 3,00 4,10 3,42 3,44 0,448-IAŞI 3,28 2,70 0,20 3,82 1,264-NEAMŢ 1,82 2,10 0,02 1,81 0,095-SUCEAVA 1,93 1,80 0,20 1,97 0,033-VASLUI 1,55 1,20 1,10 1,44 0,061-VRANCEA 1,24 1,20 1,10 1,02 0,03Σ=suma 17,09 18,00 10,94 18,00 2,53Media=Σ/N 2,14 2,25 1,47 2,25 0,32σ=ecart tip 0,74 1,17 1,22 1,03 0,40

Figura 5.18. Reprezentarea grafică a varianţei variabilei Y faţă de Y .

Figura 5.19. Reprezentarea grafică a varianţei variabilei Y faţă de Ŷ.

Page 80: Statistic A

81

Raportul dintre varianţa explicată şi varianţa totală se numeşte coeficientul de determinare, care măsoară partea din varianţa lui Y „explicată” prin utilizarea variabilei X în modelul de regresie:

σ

σ2Y

2

Y2XY = r

^

Se deduce de aici că partea „neexplicată” din varianţa lui Y (Σ²Y) este

r2

XY-1 = 2)-(Y Y

σ ^

În cazul exemplului numeric, r²XY=8,41/10,94 = 0,768. Coeficientul de determinare este intuitiv mai uşor de interpretat decât coeficientul de corelaţie, datorită faptului că se poate "citi" procentual, deoarece poate fi calculat şi astfel: r²XY = (σ² Ŷ /σ²Y)×100 = (8,41/10,94)×100 = 0,768×100 = 76,8%: utilizarea variabilei X explică 76,8% din varianţa lui Y. Pentru corectitudine, trebuie să se ţină seama de faptul că termenul „a explica” este utilizat în statistica geografică datorită încărcăturii sale emoţionale (Johnston, 1978); în statistică se spune că r²XY permite „determinarea” sau „calcularea” varianţei lui Y în funcţie de X. Coeficientul de determinare, fiind un pătrat, este întotdeauna pozitiv şi oscilează între 0 şi +1: cu cât valoarea obţinută pentru r²XY este mai apropiată de +1, cu atât ajustarea norului de puncte de către dreapta de regresie este mai bună. Din această cauză se poate considera că r²XY este un instrument de control al modelului de regresie ales. Trebuie să fie remarcat de asemenea faptul că rădăcina pătrată a coeficientului de determinare este coeficientul de corelaţie:

r2XY = r XY

În cazul în care se compară, pentru aceeaşi regresie, rXY şi r²XY, trebuie să se ţină seama de faptul că coeficientul de determinare r²XY descreşte mai repede faţă de +1 decât coeficientul de corelaţie rXY (vezi tabelul alăturat, după Porojan, 1993): 5.3.2.3. Reziduurile regresiei Conform explicaţiilor din paginile precedente, ajustarea prin intermediul dreptei de regresie este rareori perfectă. În cea mai mare parte a cazurilor, IrXYI<+1, ceea ce semnifică faptul că punctele nu sunt aliniate în lungul unei drepte şi că multe valori ale lui Y sunt subestimate sau supraestimate de către regresie. Ecarturile care separă aceste valori de dreapta descrisă de relaţia medie care leagă variabila Y de variabila X se numesc reziduurile regresiei. Reziduurile εi exprimă partea din fenomenul Y (de exemplu valoarea producţiei industriale) care nu este determinată (explicată) de variabila regresoare X (în cazul prezentat, de ponderea populaţiei urbane). Reziduurile εi sunt estimate de valorile ei, care sunt ecarturile între valorile observate Yi şi valorile Ŷ şi estimate de către modelul de regresie ales: ei=Yi-Ŷi sau ei = Yi - (aXi+b). Înterpretarea reziduurilor este relativ simplă: - reziduul este pozitiv dacă valoarea observată este superioară valorii prevăzute de regresia liniară: Yi-Ŷi>0 <=> Yi>Ŷi; - reziduul este negativ dacă valoarea observată este inferioară valorii prevăzute de regresia liniară: Yi-Ŷi<0 <=> Yi<Ŷi; - reziduul este nul (aproape de 0) dacă valoarea observată este conformă valorii prevăzute de regresia liniară: Yi-Ŷi=0 <=> Yi=Ŷi.

r r²

0.90 0.80 0.70 0.60 0.50

0.81 0.64 0.49 0.36 0.25

Page 81: Statistic A

82

Reziduurile care se îndepărtează mult de tendinţa generală descrisă de dreapta de regresie prezintă o mare importanţă pentru cercetarea geografică, deoarece cartografierea lor permite sesizarea structurilor spaţiale care funcţionează conform acţiunii unor factori locali, ceea ce conduce la revelarea disparităţilor teritoriale - unul dintre obiectivele fundamentale ale geografiei. În figura 5.20 este reprezentată relaţia dintre populaţia totală judeţeană şi numărul spectatorilor de cinema (inclusiv al videotecilor), în România anului 1986. Ecuaţia dreptei de regresie este Y = 9,31X - 160,92. Coeficientul de determinare este r²=0,763, ceea ce înseamnă că numărul total al populaţiei judeţene determină în proporţie de 76,3% numărul

celor care frecventează cinematografele, restul de 23,7% (varianţa reziduală) fiind explicat de alţi factori. Cartografierea reziduurilor de regresie (fig.5.21) permite pe de o parte sesizarea cazului special al Constanţei, care beneficiază de afluxul estival al turiştilor, iar pe de altă parte permite lansarea unor ipoteze de lucru pentru cercetătorul geograf: -a) Faptul că reziduurile reflectă subestimarea lui Y pentru Constanţa, Tulcea, Galaţi, Brăila şi Călăraşi poate fi pus în legătură cu traficul de casete video efectuat prin

porturile din zonă, lucru ce poate facilita aprovizionarea cu filme a videotecilor? -b) Subestimarea lui Y pentru judeţele din sud-vestul ţării (Arad, Timiş, Hunedoara) poate fi rezultatul traficului de frontieră între Banatul românesc şi cel sârbesc, o altă posibilitate de aprovizionare cu casete video? -c) Turismul şi urbanizarea pot explica reziduurile pozitive din sudul Transilvaniei (Alba, Sibiu, Braşov), sau din Vâlcea şi Argeş? -d) Care este ponderea factorilor culturali în crearea şi susăinerea agregatelor spaţiale sesizate pe hartă? -e) Care poate fi explicaţia pentru „inerţia” faţă de cinematograf manifestată în judeţele din sudul extrem şi în cele din nordul extrem al ţării? Răspunsul la aceste întrebări poate fi dat cu ajutorul altor regresii, sau prin intermediul unor regresii multiple, care vor fi prezentate în volumul al doilea al acestui curs. Cert este faptul că analiza cartografierii reziduurilor regresiei este o metodă foarte puternică de studiu a organizărilor spaţiale „ascunse”. Utilizarea aceste metode nu este însă fără pericole, deoarece, pentru ca rezultatele să fie reale, trebuie îndeplinite următoarele câteva condiţii (Beguin, 1979):

Figura 5.20. Regresia numărului de spectatori de cinema în funcţie de populaţia totală judeţeană.în România, 1994 (sursa datelor : INSSE)

Figura 5.21. Reziduurile regresiei numărului de spectatori de cinema în funcţie de populaţia totală a judeţelor

Page 82: Statistic A

83

1. Prima ipoteză făcută asupra reziduurilor este aceea că media lor aritmetică este nulă: E(εi)=0 (valorile estimate Ŷ sunt „medii” în raport cu Yi observate; aceasta înseamnă că se consideră că reziduurile sunt pozitive şi negative în jurul lui 0 şi că suma lor este 0 (Σεi=0). 2. A doua ipoteză este homoscedasticitatea reziduurilor, respectiv ipoteza că reziduurile εi au aceeaşi varianţă σ²εi pentru orice i=1,2,...n. condiţia este impusă de necesitatea simplificării estimării parametrilor de regresie. Este de la sine înţeles că varianţa condiţională a lui Yi pentru un X dat este şi ea constantă, pentru oricare i, de unde σ²XY = σ²εi. Condiţia de homoscedasticitate trebuie avută mereu în atenţie, deoarece multe dintre variabilele cu care operează geografia nu o satisfac, ceea ce falsifică grav rezultatele regresiilor şi interpretarea acestora. Homoscedasticitatea unei distribuţii este verificată cu ajutorul erorii standard (ES) a estimării lui Y. Eroarea standard a estimării lui Y este rădăcina pătrată a varianţei distribuţiei normale a reziduurilor:

σσ 2)-(Y

=ES => N

)2Y i

-Y i(N

1=i = 2)-(Y YY

^^

^∑

care, după o serie de transformări, devine

r2XY-1Y = ES σ în care:

- ES este eroarea standard reziduală a regresiei; - σY este abaterea standard (ecartul-tip) al lui Y; - 1-r²XY este varianţa reziduală. Pentru exemplul destinat să estimeze numărul de spectatori de cinema, ecartul tip al lui Y este 1772,496 iar 1-r²XY = 1-0,763, deci eroarea standard reziduală a regresiei este

862,596 = 0,763-11772,496 = ES * ES este prin urmare un rezumat al „variaţiilor” reziduurilor, care trebuie să fie utilizat pentru completarea modelului general de regresie: ESb+aX = Y ± Când ecuaţia de mai sus descrie o relaţie perfectă iar rXY=±1, ES este 0, deci nu există reziduuri; când nu există nici o relaţie între variabile şi rXY=0, ES este maximă. Eroarea standard a estimării lui Y se comportă faţă de curba normală la fel ca şi abaterea standard. În fig.5.22 este reluată dreapta de regresie prezentată anterior, completată (Y = 9,31X-160,92 ± 862,60), care este acum dublată de linii paralele, corespunzătoare reziduurilor standardizate. Se observă că reziduurile se grupează între benzi cu aproximaţie ca sub curba normală: -între +1ES şi -1ES se grupează 68% dintre reziduuri (sub curba normală, între +1σ şi -1σ se grupează 68,26% dintre valori); -între +2ES şi -2ES se grupează 95% dintre reziduuri (sub curba normală, între +2σ şi -2σ se grupează 95,46% dintre valori); -între +3ES şi -3ES se grupează 99% dintre reziduuri (sub curba normală, între +3σ şi -3σ se grupează 99,75% dintre valori).

Figura 5.22. Intervalele de încredere de 68% şi 95% pentru dreapta de regresie a numărului de spectatori de cinema în funcţie de populaţia judeţelor.

Page 83: Statistic A

84

Relaţia dintre gruparea reziduurilor de regresie în funcţie de ES şi procentajele de sub curba normală este cu atât mai exactă cu cât varianţa în cadrul benzilor definite de ES este mai omogenă. Aceasta este de fapt homoscedasticitatea. În figura 5.23 homoscedasticitatea lipseşte, fiind prezentă în schimb heteroscedasticitatea, ce ilustrează situaţia în care varianţa reziduurilor εi (şi automat varianţa valorilor Yi) se măreşte pe măsură ce X creşte. Deoarece Y este volumul de gaze distribuite în judeţele României din anul 1989 (România=100%), este evident faptul că acesta poate varia doar între un minim şi un maxim stabilite de X (X este populaţia urbană judeţeană; România=100%). Minimul este pragul minim vital de urbanizare judeţeană iar maximul nu poate depăşi -în cazul extrem- populaţia judeţului. Maximul este din ce în ce mai mare pe măsură ce X (indirect X=numărul de arzătoare casnice şi industriale) creşte, prin urmare, varianţa lui Yi sporeşte odată cu X: condiţie de homoscedasticitate nu este îndeplinită. 3. A treia condiţie este lipsa autocorelaţiei între reziduuri: în esenţă, această condiţie este concretizată prin ipoteza independenţei reziduurilor. Reziduurile sunt independente dacă covarianţa lor este nulă: E(εi,εj) = 0, i≠j. De aici rezultă şi faptul că Yi şi Yj sunt de asemenea necorelate. 4. A patra şi ultima condiţie este normalitatea distribuţiei reziduurilor εi. Această condiţie are un caracter obligatoriu atunci când se doreşte testarea parametrilor de regresie obţinuţi, prin fixarea unui interval de încredere. Dacă distribuţia reziduurilor este normală, este de la sine înţeles că şi valorile Yi au o distribuţie normală. Prin urmare, condiţia anterioară, respectiv necorelarea reziduurilor, se transformă în independenţa reziduurilor. Ipoteza independenţei reziduurilor este foarte importantă, mai ales în cazul regresiilor multiple, unde non-normalitatea lor înseamnă dependenţa lor, ceea ce înseamnă mai departe că reziduurile sunt perturbate de o variabilă importantă care trebuie indentificată pentru a figura în mod explicit printre variabilele regresoare. Deşi lucrul este cunoscut, este bine să se amintească faptul că dacă regresia este efectuată asupra unei populaţii, condiţia de normalitate poate fi ignorată . Dacă însă se lucrează cu un eşantion (de exemplu judeţele Moldovei, doar o parte din judeţele României), normalitatea reziduurilor εi (şi deci a valorilor Yi) devine o condiţie obligatorie. 5.3.2.4. Testarea modelului de regresie Până în acest punct al analizei de corelaţie-regresie s-a realizat doar ajustarea analitică a unui nor de puncte la o dreaptă, nedepăşindu-se stadiul descrierii unei distribuţii bivariate. Pasul următor este aplicarea unor procedee de statistică inferenţială, care să extrapoleze rezultatele obţinute prin analiza eşantionului asupra populaţiei din care face parte. Cu alte cuvinte, în continuare va fi prezentată testarea modelului statistic teoretic, prin care vor fi obţinute informaţii suplimentare ce pot sau nu să confirme încrederea acordată parametrilor estimaţi. S-a demonstrat că noţiunile de eroare şi de eroare standard introduse în paginile precedente sunt foarte legate de chestiunea generală a normalităţii distribuţiilor. Dacă se ţine seama de teoria erorilor, care postulează faptul că erorile eşantionului sunt distribuite normal, atunci se acceptă

Figura 5.23. Creşterea varianţei reziduurilor cu valorile variabilei X, datorită heteroscedasticităţii distribuţiei variabilei Y.

Page 84: Statistic A

85

ipoteza conform căreia coeficienţii de regresie ai mai multor eşantioane extrase din aceeaşi populaţie urmăresc de asemenea o distribuţie normală. Se demonstrează astfel importanţa condiţiei de normalitate prezentată mai sus în procesul construirii testelor pentru verificarea estimărilor obţinute. Testele se dovedesc esenţiale pentru interpretarea rezultatelor regresiei, deoarece ne putem întreba: la ce foloseşte interpretarea unui coeficient a (sau a unei valori Ŷ) dacă nu se ştie dacă acesta este în mod semnificativ diferit de 0 sau dacă intervalul său de încredere este foarte îngust sau foarte larg? (Beguin, 1978). Modelul statistic teoretic are forma următoare: βα +X = Y Dacă diferenţa dintre coeficientul calculat de regresie a şi coeficientul teoretic α este considerată a fi standardizată, pentru testarea lui a ca o bună estimare a lui α se poate utiliza distribuţia normală pentru eşantioanele mari şi distribuţia „t” pentru eşantioanele mici36. Ipoteza nulă H0, pentru toate testele efectuate în continuare, este lipsa oricărei corelaţii între X şi Y, respectiv rXY = 0, a=0 şi b=0. Dacă testele infirmă această ipoteză, cercetarea poate continua prin acceptarea ipotezei alternative H1, adică a existenţei unei relaţii între X şi Y, respectiv IrXYI>0, a≠0 şi b≠0. De regulă, pentru testarea semnificaţi ei regresiei aplică testul „F”. Pentru a fi demonstrat faptul că regresia lui Y în funcţie de X este semnificativă (deci că Y este dependent de X), trebuie ca variaţia lui Y explicată de X să fie semnificativ mai mare decât cea neexplicată (reziduală). Prin urmare dacă

)2Y-(Y

N

1=i > )2Y-Y(

N

1=i = 2

)-(Y>2

YY

^^^^ ∑∑σσ

atunci Y este dependent de X. Doar dacă această condiţie este respectată se poate concluziona că există un factor X care are o influenţă sistematică asupra lui Y mai mare decât influenţa accidentală, aleatoare, exercitată de variabila neobservabilă ε (Beguin, 1978). Verificarea modelului se efectuează prin testul „F” al lui Snedecor37, cunoscut sub numele de estimarea varianţei. Scopul este acela de a demonstra că atunci când coeficientul α este nul (α=0), raportul între varianţa explicată şi varianţa reziduală urmează o distribuţie „F”. Estimarea fiecărei varianţe este făcută în funcţie de gradele de libertate, care indică numărul de informaţii independente necesare calculării lor. Astfel, pentru varianţa totală, numărul de grade de libertate este (N-1) deoarece este nevoie de (N-1) ecarturi independente pentru a o calcula (întrucât se cunoaşte că Σyi=0). Pentru a calcula varianţa explicată, este nevoie de un singur grad de libertate (respectiv a parametrului α), deci N=1. Este evident că sunt necesare (N-2) grade de libertate pentru calcularea varianţei reziduale, deoarece se pierd două g.l. prin calcularea celor doi coeficienţi de regresie care leagă Y de X. Rezultă prin urmare că, în funcţie de gradele de libertate, varianţa explicată estimată este

1

)2Y-Y(N

1=i = s2Y

^

^

, iar varianţa reziduală estimată este 2-N

)2Y-(YN

1=i = s2)-(Y Y

^

^

. În aceste condiţii, statistica testului „F” devine

r-1

2)-(Nr = F

2XY

2XY

XY

36 Vezi subcapitolul "Teste parametrice". 37 Vezi subcapitolul "Teste parametrice".

Page 85: Statistic A

86

Din acest moment putem testa ipoteza nulă (H0: nu există nici o diferenţă între a şi α, deci nu există nici o relaţie între Y şi X, relaţia măsurată fiind datorată hazardului în alegerea eşantionului): - dacă FXY≥Fα, la 1 şi (N-2) g.l., ipoteza nulă H0 este respinsă, putându-se accepta ipoteza alternativă H1: între a şi α există diferenţe semnificative, deci există o relaţie între cele două variabile, relaţie care nu este supusă întâmplării. Pentru exemplul numeric referitor la variaţia numărului de spectatori la cinema (Y) în funcţie de populaţia totală a judeţului (X), se obţine: FXY = (0,763)×(40-2)/(1-0,763) = 28,994/0,237 = 122,3 - pentru un nivel de semnificaţie al testului α=0,05 şi (1;38) grade de libertate, Fα=4,17 (vezi Anexa V), deci H0 poate fi respinsă foarte uşor, fiind clar că a diferă foarte mult de α38; - pentru un n.s. α=0,01 şi (1;38) grade de libertate, Fα=7,56 (vezi Anexa IV), deci regresia rămâne încă foarte semnificativă; H0 poate fi respinsă fără dificultate. 5.3.2.5. Aplicaţiile regresiei liniare în geografie Cu ajutorul exemplului foarte cunoscut al relaţiei dintre temperatură şi altitudine, vom demonstra în continuare aplicaţiile posibile ale regresiei în geografie: sintetizarea, modelarea, previziunea şi descoperirea particularităţilor locale. a) Sintetizarea Să presupunem că, prin intermediul a 500 de staţii meteorologice, se măsoară temperatura medie anuală a aerului (T°=Y) în Moldova, la diferite altitudini (X=H), şi că se găsesc următoarele valori: * T° = 10°C la H = 0 metri; * T° = 4°C la H = 1000 metri; * T° = -2°C la H = 2000 metri. Ne putem întreba dacă este într-adevăr util să se înregistreze în fiecare zi temperaturile T° obţinute. Statistica oferă un răspuns imediat la această interogaţie. Analiza seriilor de valori demonstrează că există o puternică corelaţie negativă rXY = rT°H = -0,900 între altitudine şi temperatură. Calculul coeficienţilor de regresie a condus la următoarele rezultate: a=-0,006°C (temperatura Y=T° scade cu 0,006°C când altitudinea X=H creşte cu 1 metru) şi b=10°C (b este originea dreptei de regresie, respectiv valoarea temperaturii Y când altitudinea X este zero). Prin urmare, ecuaţia dreptei de regresie este Y=-0,006X+10 sau T°=-0,006×H+10°C. Coeficientul de determinare al regresiei fiind pătratul coeficientului de corelaţie, rT°H = 0,900 => r²T°H = 0,900×0,900 = 0,810, rezultă că ecuaţia permite sintetizarea (rezumarea) esenţialului (81%) din variaţia spaţială a temperaturii odată ce se cunoaşte altitudinea. * Este evident astfel că regresia permite sintetizarea unui volum foarte mare de informaţie cu ajutorul a doar doi parametri. Această sinteză este cu atât mai valabilă cu cât corelaţia este mai puternică. b) Modelarea Observaţiile meteorologice, combinate cu analizele statistice, şi repetate pe tot lungul anului, demonstrează faptul că coeficientul a nu se schimbă (-0,006 = constant), în vreme ce coeficientul b oscilează în funcţie de anotimp (valorile sale sunt ridicate vara şi coborâte iarna). Ce se poate deduce din aceste observaţii? 38 Trebuie să fie remarcat că simbolul α este folosit atât pentru a nota coeficientul teoretic al regresiei, cât şi pentru probabilitatea de a greşi când se respinge H0. Sensul reiese clar din context.

Page 86: Statistic A

87

Se cunoaşte faptul că coeficientul a indică mărimea variaţiei temperaturii în funcţie de variaţia altitudinii. Astfel, o variaţie a altitudinii de ±100 m corespunde unei oscilaţii a temperaturii de ±0,006×100 = ±0,6°C. Se obţine astfel gradientul termic, o constantă universal valabilă pe Terra. Coeficientul b în schimb, indică valoarea temperaturii atunci când altitudinea este de 0 m; coeficientul b este deci temperatura medie la nivelul mării. Se verifică astfel una dintre legile elementare ale climatologiei, mai exact spus, se verifică unul dintre modelele fundamentale ale climatologiei. * Apare astfel clar faptul că regresia liniară are capacitatea de a modela realitatea spaţiului geografic, făcând posibil experimentul ştiinţific. c) Previziunea Dacă buletinul meteo televizat anunţă o temperatură medie de 15°C pentru Moldova, o persoană dintr-o localitate fără staţie meteo, care cunoaşte altitudinea propriei localităşi, poate estima temperatura locală. Dacă temperatura medie la nivelul mării este de 15°C, ecuaţia dreptei de regresie va fi de tipul T°=-0,006×H+15°C. Presupunând că altitudinea absolută a localităţii respective este de 500 m şi că gradientul termic rămâne stabil, temperatura localităţii în discuţie este probabil de 12°C (dacă gradientul rămâne stabil, este suficient să se scadă câte 3°C pentru fiecare 500 m altitudine măsuraţi de la nivelul mării: -0,006×500=-3 => T°=-3+15 = 12°C). * Regresia permite extrapolarea rezultatelor obţinute pe un eşantion; cu alte cuvinte, regresia permite previziunea tuturor valorilor lui Y dacă se cunosc valorile lui X pentru întreaga populaţie. d) Descoperirea particularităţilor locale (sau punerea în evidenţă a unui efect secundar mascat de un efect principal) Amintind faptul că analiza cartografică a reziduurilor este un instrument important de studiu al structurilor spaţiale, ne putem întreba: ce informaţii sunt obţinute prin cartografierea reziduurilor ecuaţiei dreptei de regresie T°=-0,006×H+10°C, rămasă valabilă tot timpul anului? Răspunsul este simplu: reziduurile corespund varianţei reziduale 1-r², deci ele dau seama de 19% (adică de 1-0,810) din variaţia spaţială a temperaturii neexplicată de altitudine. Prin urmare, reziduurile pun în evidenţă microclimatele determinate de orientarea versanţilor, se vegetaţie, de accidentele topografice, de activitatea umană, etc. Astfel: => Reziduurile pozitive corespund microclimatelor calde (temperatura este mai mare decât ar fi lăsat altitudinea să se presupună); => Reziduurile negative corespund microclimatelor reci (temperatura este mai scăzută decât ar fi lăsat altitudinea să se presupună); => Reziduurile nule corespund temperaturilor conforme cu cele pe care altitudinea lăsa să se prevadă. * Reziduurile permit aşadar descoperirea factorilor secundari care influenţează variaţia spaţială a unui fenomen, odată eliminat efectul factorului principal; este făcut vizibil astfel specificul local al unui teritoriu oarecare. 5.4. Măsurarea relaţiei dintre două caracteristici calitative ordinale În paginile anterioare s-a demonstrat că metodele analitice de calcul ale corelaţiei sunt aplicate atunci când distribuţia variabilelor este normală şi când există informaţii asupra parametrilor funcţiilor care realizează legătura dintre variabilele respective. Se cunoaşte însă faptul că o serie întreagă de date geografice nu pot fi măsurate decât pe scară ordinală, fie din cauza naturii informaţiilor (preferinţa persoanelor pentru anumite oraşe, de exemplu), fie din cauza faptului că valorile cardinale sunt nesigure sau au o distribuţie mult

Page 87: Statistic A

88

prea neadaptată unei transformări într-o distribuţie apropiată de una normală. În aceste cazuri, chiar dacă se bănuieşte că între variabilele astfel măsurate există o relaţie, calcularea corelaţiei prin metodele prezentate nu este posibilă, deoarece distribuţia nu este normală iar informaţiile despre parametrii funcţiilor lipsesc. Singura posibilitate de măsurare a relaţiilor stabilite între asemenea variabile sunt metodele neparametrice de calcul al corelaţiei. Una dintre aceste metode este calcularea corelaţiei rangurilor, pornindu-se de la ipoteza că între rangurile celor două variabile există o relaţie de dependenţă, a cărei intensitate este măsurabilă. Dispunând de rangurile39 variabilelor, de la 1 la N unde N este numărul de observaţii caracterizate de variabilele considerate, măsurarea intensităţii corelaţiei se efectuează fie prin coeficientul de corelaţie Spearman, fie prin coeficientul de corelaţie Kendall. * Exemplu. Încercând să explice preferinţele migranţilor interni pentru unul sau altul dintre judeţele României, o echipă de specialişti în geografie socială a avut ideea să măsoare intensitatea impactului informaţiilor transmise prin mass-media asupra alegerii judeţului-ţintă de către migranţi. Pentru aceasta, s-au creat două ateliere de cercetare: - primul atelier a studiat arhivele presei scrise şi vorbite din ultimii 15 ani şi, în funcţie de frecvenţa apariţiei informaţiilor despre fiecare judeţ în articole şi emisiuni radio-tv, au realizat o ierarhie a judeţelor (coloana X în tabelul de mai jos); - al doilea atelier a efectuat un sondaj pe un eşantion reprezentativ din populaţia în vârstă de 25-30 de ani, stabilind o ierarhie a judeţelor în funcţie de frecvenţa apariţiei fiecărui judeţ în topul preferinţelor acestui eşantion de populaţie (coloana Y din tabelul de mai jos). 5.4.1. Coeficientul de corelaţie Spearman5.4.1. Coeficientul de corelaţie Spearman (ρ) În tabelul de mai jos s-au obţinut două şiruri de ranguri, unul pentru X (X1, X2 . . . Xi, Xj . . . XN) şi altul pentru Y (Y1, Y2 . . . Yi, Yj . . . YN). Coeficientul lui Spearman se calculează aidoma coeficientului de corelaţie liniară Bravais-Pearson, luându-se rangurile drept valori. Pentru aceasta, se ordonează cele două şiruri în funcţie de rangurile lui X, obţinându-se un total de 40 de perechi de valori: (X1,Y1), (X2,Y2) . . . (Xi,Yi), (Xj,Yj) . . . (XN,YN). În etapa următoare, se efectuează diferenţa dintre rangurile fiecărei perechi rezultate: (X1-Y1) . . . (Xi-Yi), (Xj-Yj) . . . (XN-YN), obţinându-se valorile trecute în coloana d. Deoarece suma valorilor coloanei d este 0, acestea se ridică la pătrat, rezultând valorile coloanei d², după care se aplică formula lui Spearman:

1)-1)(N+N(N

)2Y i-X i(N

1=i6

= ∑

ρ sau 1)-N(N

dN

1=i6

= ²

²∑ρ

Coeficientul de corelaţie a rangurilor propus de Spearman oscilează de asemenea între -1 şi +1, relaţia fiind cu atât mai puternică cu cât ρ este mai aproape de ±1 şi cu atât mai slabă cu cât este mai aproape de 0.

39 Rangul este locul ocupat de o observaţie într-o ierarhie ascendentă (1, 2, 3...i...N) sau descendentă (N...i...3, 2, 1).

Page 88: Statistic A

89

Înlocuind în formulă cu valorile tabelului, se obţine

0,899+ =

1)-40(40

10746 =

²

Valoarea coeficientului, ρ=0,899, indică faptul că între „publicitatea” făcută judeţelor de către sistemul mass-media şi decizia posibililor migranţi de a se îndrepta către un judeţ sau altul există o puternică relaţie de dependenţă, de semn pozitiv. Semnificaţi a statistică a coeficientului Spearman poate fi testată aidoma coeficientului Bravais-Pearson, utilizându-se testul Student, cu condiţia ca N≥5. În acest caz, pentru α (probabilitatea de eroare acceptată) şi numărul de grade de libertate date, valoarea lui tXY se citeşte din tabele speciale. Pentru a utiliza aceleaşi tabele ca şi pentru coeficientul de corelaţie liniară, este necesar ca N≥30. Deoarece în exemplul de mai sus n=40, se poate testa ipoteza nulă H0 conform căreia ρ=0 (între ranguri nu există nici o relaţie), aplicându-se testul următor, ce consistă în a calcula tXY distribuit ca tα/2 la (N-2) grade de libertate:

²

*II

ρ

ρ

-1

2-N = t XY

Ipoteza nulă este respinsă dacă tXY≥tα/2. În exemplul considerat, se obţine pentru α=0,05 şi N=(40-2) grade de libertate:

12,65 =

0,802-1

6,140,899 =

0,899-1

2-400,899 = t XY

*

²

*

Din tabelul cu valorile repartiţiei Student, pentru α=0,05 şi N=38 grade de libertate, tα/2 = 2,03. Deoarece tXY≥tα/2 (12,65≥2,03), ipoteza nulă este respinsă, coeficientul ρ obţinut fiind foarte semnificativ. 5.4.2. Coeficientul de corelaţie Kendall (τ) Al doilea coeficient de corelaţie a rangurilor este cel al lui Kendall, care este fundamentat pe numărul de „inversiuni” ale ordinii rangurilor celor două variabile, comparată cu o ierarhie standard (Porojan, 1993). De obicei, ordinea standard este ierarhia variabilei X, în funcţie de care se studiază inversiunile din ierarhia variabilei Y. Calcularea acestui coeficient (τ, se citeşte tau) nu pune de asemenea condiţia de normalitate a distribuţiei variabilelor, însă cere observarea tuturor cuplurilor de variabile (XiYi, XjYj) cu i≠j. Observarea acestor perechi este laborioasă, deoarece este nevoie de considerarea a [N(N-1)]/2 valori. Fiecare pereche conţine patru ranguri: Xi, Xj, Yi şi Yj. Coeficientul τ este în esenţă ecartul dintre proporţia perechilor concordante şi proporţia perechilor discordante. O pereche este numită concordantă dacă atunci când Xi>Xj, şi Yi>Yj; în caz contrar, perechea este numită discordantă (atunci când Xi>Xj, Yi<Yj sau atunci când Xi<Xj, Yi>Yj).

Variabila Judeţul

X Y d d²

Prahova Iaşi Dolj Cluj Constanţa Bacău Timiş Suceava Braşov Argeş Bihor Galaţi Mureş Neamţ Dâmboviţa Hunedoara Maramureş Olt Buzău Sibiu Arad Teleorman Vaslui Botoşani Vâlcea Alba Satu Mare C. Severin Brăila Vrancea Gorj Harghita Călăraşi Mehedinăi B-ţa Năsăud Giurgiu Ialomiţa Tulcea Sălaj Covasna

1 2 3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

2 4

11 10 1 7 3

15 5 8

17 6

13 14 18 9

28 26 16 12 22 30 20 23 21 24 37 25 19 29 32 33 34 36 35 39 31 27 38 40

-1 -2 -8 -6 4 -1 4 -7 4 2 -6 6 0 0 -3 7

-11 -8 3 8 -1 -8 3 1 4 2

-10 3

10 1 -1 -1 -1 -2 0 -3 6

11 1 0

14

6436161

1649164

3636009

49121649

641

6491

164

1009

1001111409

36121

10

Σ=suma 0 1074

Page 89: Statistic A

90

Pentru calcularea concordanţelor şi discordanţelor (deci a inversiunilor), se procedează astfel: se numără în coloana Y, de sus în jos, în ordine, câte valori mai mari decât numărul considerat se află până la sfârşitul coloanei iar valorile obţinute se trec în a treia coloană (vezi tabelul). Astfel, primul număr din coloana K a inversiunilor, respectiv 38, semnifică faptul că sub prima cifră din coloana Y (2) sunt 38 de valori mai mari decât 2. A doua cifră din coloana K a inversiunilor este 36, ceea ce înseamnă că sub valoarea 4 din coloana Y sunt 36 de valori mai mari decât 4, etc. În continuare se calculează proporţia P dintre perechile concordante şi cele discordante, după următoarea formulă:

1)-(402

40-6652=1)-(N

2

N-2K=P *

.550 = 780-1330 = În acest moment se poate aplica formula de calculare a coeficientului Kendall (τ):

0,705+ = 780

550 =

3920

550 =

1)-(N2

NP

= *

τ

Coeficientul τ variază tot între ±1, valoarea sa fiind în general mai redusă decât ce a lui ρ. Dacă toate perechile sunt concordante, τ =+1 iar dacă toate perechile sunt discordante, τ =-1. Nu există corelaţie între ranguri (τ =0) atunci când numărul perechilor concordante este egal cu cel al perechilor concordante. Semnificaţi a coeficientului τ se poate verifica cu ajutorul tabelelor speciale Kendall, însă, deoarece distribuţia sa tinde rapid spre cea normală (Beguin, 1978), dincolo de N>10 se poate testa ipoteza nulă τ=0 cu ajutorul următorului test:

9)-20)(9N+(4NXY = z XY

²τ

cu respingerea ipotezei nule H0 dacă zXY≥zα/2 la α=0,05. 5.5. Măsurarea relaţiei dintre o caracteristică cantitativă şi una calitativă nominală sau dintre două caracteristici calitative nominale Unele variabile geografice nu pot fi exprimate decât prin intermediul codurilor nominale, în general binare (zero şi unu). Astfel, în studierea echipării tehnico-edilitare a localităţilor unui teritoriu, se notează cu 1 prezenţa unui anumit echipament (de exemplu alimentarea cu apă) şi cu 0 absenţa sa. În cazul acestor variabile, nici una dintre metodele prezentate anterior de măsurare a corelaţiilor nu pot fi aplicate. Există însă anumite metode de măsurare a intensităţii relaţiilor stabilite între fenomene caracterizate de variabile nominale, printre care cele mai importante sunt cele de calculare a coeficientului empiric de corelaţie şi a coeficienţilor de asociere. 5.5.1. Raportul empiric de corelaţie (η)

Variabila Judeţul

X Y Inversiuni (K)

Prahova Iaşi Dolj Cluj Constanţa Bacău Timiş Suceava Braşov Argeş Bihor Galaţi Mureş Neamţ Dâmboviţa Hunedoara Maramureş Olt Buzău Sibiu Arad Teleorman Vaslui Botoşani Vâlcea Alba Satu Mare C.- Severin Brăila Vrancea Gorj Harghita Călăraşi Mehedinţi B-ţa Năsăud Giurgiu Ialomiţa Tulcea Sălaj Covasna

1 2 3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

2 4

11 10 1 7 3

15 5 8

17 6

13 14 18 9

28 26 16 12 22 30 20 23 21 24 37 25 19 29 32 33 34 36 35 39 31 27 38 40

38 36 29 29 35 29 31 23 30 29 22 28 24 23 22 25 12 13 20 20 16 10 15 14 14 13 3 11 11 9 7 6 5 4 3 1 2 2 1 0

Σ=suma 665

Page 90: Statistic A

91

Raportul empiric de corelaţie η (se citeşte eta) măsoară intensitatea maximă a relaţiei existente fie între două caracteristici cantitative, fie între o caracteristică cantitativ şi unul calitativ. În calcularea sa se porneşte de la un tabel de contingenţă, deoarece este strâns legat de distribuţiile marginale condiţionale. Spre deosebire de coeficientul de corelaţie Bravais-Pearson, coeficientul η nu necesită ca relaţia să fie liniară. Din această cauză, şi datorită faptului că nu oferă alte informaţii asupra naturii relaţiei, este necesar ca, în cazul caracteristicilor cantitative, să fie însoţit şi de analiza celor două curbe de regresie (Beguin, 1978). Prin urmare, în cazul caracteristicilor cantitative, trebuie calculaţi ambii coeficienţi: şi ηXY (al lui X în Y), şi ηYX (al lui Y în X). În cazul în care Y este o caracteristică calitativ nominal, se calculează doar ηXY. Deoarece are un comportament similar indicelui Bravais-Pearson, pătratul său (η²) are aceeaşi semnificaţie ca r²XY, măsurând partea de varianţă explicată din varianţa totală. Mai exact, η² este proporţia varianţei distribuţiei marginale exprimată prin varianţa mediilor distribuţiilor condiţionale40 (Calot, 1973). Expresiile celor doi coeficienţi de corelaţie empirică, exprimate prin pătratele acestora, sunt:

²

²

²)X-X i(ki.

n

1=i

)/ Y jX-X i(kij

p

1=j

n

1=i-1 = XY

∑∑

η

pentru corelaţia lui X în Y, şi

²

²

²

)Y-Y j(k .jp

1=j

)/Y-Y j(kijp

1=j

n

1=i-1 = YX

iX

∑∑η

pentru corelaţia lui Y în X. Raporturile, obţinute plecându-se de la un tabel de contingenţă, pot fi calculate numai cu condiţia ca raportul dintre numărul de clase (N) şi efectivul total al tabelului (k..) să fie mai mare sau egal cu 1/50:

50

1

k..

N≥

5.5.2. Măsurarea relaţiei dintre două caracteristici calitative nominale Măsurarea intensităţii relaţiei stabilite între două variabile calitative nominale nu poate fi efectuată prin calcularea raporturilor sau a coeficienţilor de corelaţie. Metodele utilizate în acest caz sunt tot metode neparametrice, dar care caută să măsoare nu intensitatea ci gradul de asociere (asociere spaţială în cazul geografiei) al celor două variabile. Exemplu. ştiindu-se că piersicul este un arbore pretenţios faţă de regimul temperaturii, se poate încerca să se demonstreze că paralela de 46° latitudine nordică este în cadrul României un prag bioclimatic pentru această plantă. În lipsa unor date teritoriale amănunţite se construiesc două variabile X şi Y, în care X semnifică producţia judeţeană de piersici (notată cu 0 pentru judeţele cu producţia sub 500 t/an şi cu 1 pentru judeţele care depăşesc această valoare), iar Y semnifică poziţia fiecărui judeţ în raport de paralela 46°lat.N (notată cu 0 pentru judeţele netraversate de paralelă şi aflate la nord de aceasta şi cu 1 pentru judeţele traversate de paralelă sau aflate la sud de aceasta).Tabelul elementar rezultat este redat alăturat. Pentru a se calcula gradul de asociere (al prezenţei aceloraşi valori ale celor două variabile în acelaşi judeţ) este necesară realizarea unui tabel de contingenţă (vezi tabelul alăturat), deoarece toţi coeficienţii de măsurare ai asocierii au la bază noţiunea de contingenţă (de asociere) şi legea urmată de χ².

40 Vezi subcapitolul "Tabelul de contingenţă şi studiul relaţiei dintre două caractere discrete".

Page 91: Statistic A

92

5.5.2.1. Coeficientul de contingenţă (φ) Coeficientul φ (se citeşte fi) este de fapt coeficientul de corelaţie liniară Bravais-Pearson aplicat variabilelor binare (ale căror valori sunt notate cu 0 şi 1). Calcularea sa este posibilă numai pornindu-se de la un tabel de contingenţă 2x2 (cu două linii şi cu două coloane). Formula de calcul este

)k .2k .1k2.k1.(

)k21k12-k22k11( = XY ***

**φ

sau N

D = 2

XYφ în care k ji

)kij-k ji(p

1=j

n

1=i = 2

XY = D′

′∑∑

²χ

iar N este efectivul total (sau N = k..). Din tabelul de contingenţă se obţine χ²XY=24,3, de unde φ²=24,3/40 =+0,607 => φ = √φ²=+0,779. Valoarea coeficientului, φ=+0,779 confirmă existenţa unui grad destul de mare de asociere între producţiile mari de piersici obţinute (>500t/an) şi poziţia la sud de paralela de 46°lat.N a judeţelor României. Coeficientul φ se dovedeşte semnificativ sau nu după testarea ipotezei nule H0 conform căreia φ=0. Atunci când

χ²XY ≥ χ²α, H0 este respinsă. În cazul

exemplului numeric de mai sus, coeficientul se dovedeşte semnificativ chiar şi la α=0,001, deorece χ²α citit este de 10,83 iar χ²XY este de 24,3: χ²XY≥ χ²α => H0 este respinsă. 5.5.2.2. Coeficientul de asociere Yule (θ) Coeficientul de asociere θ (se citeşte teta) este foarte apropriat studierii relaţiei dintre două variabile binare. În calcularea sa se porneşte de asemenea de la un tabel de contingenţă 2x2:

0,708+ =

310+1611

310-1611 =

k 21k12+k22k11

k 21k12-k 22k11 = XY**

**

**

**θ

Formula de mai sus este fundamentată pe ideea că produsul k11×k22 reliefează gradul de realizare al asocierii, pe când produsul k12×k21 evidenţiază lipsa asocierii. Astfel, între cei doi termeni de stabileşte o relaţie de asimetrie între gradul de realizare şi cel de nerealizare al asocierii. Coeficientul θ, propus de Yule, este aşadar expresia raportului de asimetrie a asocierii. Ca majoritatea raporturilor şi coeficienţilor, θ oscilează între -1 şi +1, semnul fiind dat de

diferenţa k11×k22 - k12×k21: - dacă k11×k22 > k12×k21, atunci θ > 0; - dacă k11×k22 < k12×k21, atunci θ < 0.

Variabila Judeţul

X (1= >500t/an)

Y (1=sud)

Prahova Iaşi Dolj Cluj Constanţa Bacău Timiş Suceava Braşov Argeş Bihor Galaţi Mureş Neamţ Dâmboviţa Hunedoara Maramureş Olt Buzău Sibiu Arad Teleorman Vaslui Botoşani Vâlcea Alba Satu Mare C. Severin Brăila Vrancea Gorj Harghita Călăraşi Mehedinăi B-ţa Năsăud Giurgiu Ialomiţa Tulcea Sălaj Covasna

0 1 0 0 1 0 0 0 1 0 1 1 0 1 0 1 1 1 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 0 1

1 1 1 0 0 0 0 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 0 0 1 0 0 1 1 0 0 1 0 1 1 1 0 1 1

Y: X:

Y = 0 Y = 1 TOTAL

X = 0 X = 1

11 3

10 16

21 19

TOTAL 14 26 40

Page 92: Statistic A

93

Ipoteza nulă H0, conform căreia θ = 0, se testează prin calcularea lui χ²: dacă χ²XY≥ χ²α, atunci H0 este respinsă. 5.5.2.3. Coeficientul de contingenţă (c) Spre deosebire de ceilalţi coeficienţi, c se poate aplica şi tabelelor de contingenţă mai mari de 2x2, însă fundamentarea sa statistică se sprijină de asemenea pe calcularea lui χ²² (Beguin, 1978):

0,615+ =

40+24,3

24,3=

N+ = c XY

²

²

χ

χ

Coeficientul de asociere c este întotdeauna pozitiv, oscilând între 0 şi +1, însă distribuţia sa statistică nu este determinată, din care cauză trebuie calculat raportul dintre valoarea sa obţinută prin formula de mai sus (c=+0.615) şi valoarea sa teoretică maximă (cmax), rezultată din

0,707+ =

2

1-2=

m

1-m = c XYmax

în care m este numărul cel mai mic, fie de coloane, fie de linii, al tabelului de contingenţă. De exemplu, dacă un tabel de contingenţă are 5 coloane şi 3 linii, m=3 (în cazul nostru m=2, deoarece numărul de coloane este egal cu numărul de linii, respectiv cu 2). Calculând raportul, se obţine

0,869+ = 0,707+

0,615+ =

2

1-240+24,3

24,3

=

m

1-m

N+ =

c XY

c XY ²

²

max

χ

χ

Asupra acestui coeficient, +0,869, care demonstrează o puternică asociere între poziţia sudică a judeţelor şi mărimea producţiei de piersici, se testează ipoteza nulă c/cmax = 0, care este respinsă dacă χ²XY≥ χ²α. 5.5.2.4. Coeficientul lui Cramer (rc) Coeficientul de asociere rc, a cărui distribuţie este deasemenea nedeterminată, se calculează ca un raport între χ² observat şi valoarea maximă pe care o poate avea χ² observat, care se află prin χ²max = N(m-1), în care m este cel mai mic număr de linii (de coloane) al tabelului de contingenţă. Formula sa de calcul devine astfel:

0,779+ =

1)-40(2

24,3 =

1)-N(m = rc

²χ

Se remarcă uşor faptul că în cazul tabelului de contingenţă 2x2, m-1 = 2-1 = 1, încât rc = φ, egal în cazul exemplului numeric cu +0.779. semnificaţia coeficientului este obţinută prin testarea ipotezei nule H0, cu rc: dacă χ²XY≥ χ²α, H0 este respinsă în favoarea ipotezei alternative H1, conform căreia rc > 0 ( deoarece coeficientul lui Cramer oscilează între 0 şi +1). 5.5.2.5. Coeficientul lui Ciuprov (C) Numărându-se printre cei mai comozi coeficienţi, deoarece oscilează între 0 şi +1, coeficientul C se bazează de asemenea pe calcularea lui χ²:

0.779+ =

1)-1)(2-(240

24.3 =

N = C XY

ν

χ ²

Page 93: Statistic A

94

unde v = (m1-1)(m2-1), cu m1 fiind numărul de linii şi cu m2 fiind numărul de coloane al tabelului de contingenţă. Se observă că pentru un tabel de contingenţă 2x2, v = (2-1)(2-1) = 1, de unde rezultă că C = rc = φ şi egal în cazul nostru cu +0,779. Testarea ipotezei nule H0, conform căreia C = 0, se face la v=(m1-1)(m2-1) grade de libertate pentru un tabel de contingenţă mai mare de 2x2. În cazul de faţă, al tabelului 2x2, v=1; ipoteza nulă H0 este respinsă dacă χ²XY≥ χ ²α. 5.6. Corelaţie şi cauzalitate Stabilirea faptului existenţei unei legături între două fenomene nu implică în mod necesar că între cele două fenomene există relaţii de cauzalitate. Există şi corelaţii aparente, fără fundament real. Britanicul G. U. Yule a stabilit că, între 1929 şi 1937, în Marea Britanie valoarea coeficientului de corelaţie dintre numărul de receptoare radio şi numărul deficienţilor mintal a fost de +0,988 (Porojan, 1993). Este evident că, dincolo de aspectul amuzant, nimic nu îndreptăţeşte existenţa unei corelaţii reale între cele două variabile. 5.6.1. Un pericol specific geografiei: eroarea ecologică În geografie se observă de multe ori că două variabile tind să se asocieze spaţial (creşterea sau scăderea valorilor uneia în unele unităţi teritoriale este însoţită de creşterea sau de scăderea celeilalte în aceleaşi unităţi spaţiale). Creşterea sau scăderea simultană a celor două variabile nu înseamnă nici că una are o influenţă directă asupra celeilalte, dar nici că această influenţă lipseşte. Covariaţia lor spaţială se poate datora foarte bine unei cauze externe, care le influenţează pe ambele în acelaşi timp. De exemplu, reducerea ratei şomajului poate conduce atât la sporirea economiilor bancare a populaţiei (X), cât şi la creşterea consumului de bunuri (Y), deşi, aparent, între X şi Y există o legătură cauzală directă. Se observă astfel că există mai multe posibilităţi de explicare a corelaţiilor. În geografie studiul corelaţiilor se face, de cele mai multe ori, prin intermediul analizei unei mulţimi de locuri. Atunci când variabilele utilizate în analiza acestor locuri sunt variabile sociale, care descriu locuitorii locurilor respective, trebuie să se aibă permanent în atenţie faptul că o corelaţie stabilită la nivelul locurilor nu implică în mod necesar o corelaţie la nivelul locuitorilor lor. * Exemplu: Criminalitatea şi străinii în Albeni. Un studiu sociologic (la nivelul indivizilor) demonstrează că rata criminalităţii în oraşul Albeni este mai ridicată în rândul autohtonilor (36%) decât în rândul străinilor (17%). Cu toate acestea, un studiu geografic (la nivelul cartierelor) demonstrează o corelaţie perfectă (rXY = +1) între proporţia străinilor în cartiere şi rata criminalităţii în cartierele respective. Nu este vorba despre nici un paradox: prezenţa corelaţiei la nivelul locurilor semnifică pur şi simplu faptul că acolo unde sunt mulţi străini sunt de asemenea şi mulţi criminali, dar aceasta nu dovedeşte că străinii sunt autorii actelor criminale. Acest tip de eroare este numit eroare ecologică, deoarece ea constă în a gândi că prezenţa a două fenomene într-un acelaşi loc (într-un ecosistem) implică o relaţie cauzală între cele două fenomene. Însă faptul că leii şi termitele trăiesc în savană nu implică deloc faptul că leii mănâncă termitele sau că termitele gonesc de zor leii prin savană pentru a-şi asigura cina...

Page 94: Statistic A

95

CAP.VI. SERII CRONOLOGICECAP.VI. SERII CRONOLOGICE 6.1. Definiţie şi termeni În capitolele anterioare distribuţiile statistice au fost considerate ca având o anumită stabilitate a structurii interne (de aici denumirea de de „statistică de structură” pentru ansamblul metodelor prezentate până acum); sau, în orice caz, nu ne-a interesat modul de manifestare în timp a acestor distribuţii, n-a fost urmărită evoluţia lor în timp. Considerarea explicită a timpului drept caracteristică în funcţie de care sunt repartizate valorile unei variabile constituie semnul distinctiv al seriilor cronologice. Seriile cronologice (s. de timp, s. dinamice) sunt acele distribuţii statistice de o

variabilă la care modalităţile (valorile) caracteristicii sunt ordonate în raport cu timpul.

Din această definiţie reiese că o serie cronologică presupune, de fapt, o distribuţie a populaţiei studiate după două caracteristici, dintre care una este întotdeauna timpul. Un exemplu la îndemână este cel al tabelelor meteorologice, în interiorul cărora valorile elementelor meteo sunt ordonate pe zile, decade, sau luni. Populaţia temperaturilor aerului, de exemplu, este repartizată astfel după două caracteristici: una dintre ele este timpul, iar cealaltă, ale cărei modalităţi constituie chiar datele de observaţii, precizează felul temperaturii (ex. temperatura la ora 7, temperatura medie zilnică, maxima diurnă etc.). În felul acesta timpul devine o veritabilă variabilă, în funcţie de care se poate analiza comportamentul celeilalte variabile. Acest fapt este confirmat şi de modelul matematic generalizat al unei serii cronologice: y = f(t), în care timpul joacă rolul de variabilă independentă. şirul de valori al seriei va avea forma generală:

y ..., ,y ..., ,y ,y tttt ni21 Trebuie subliniat, însă, că în cazul seriilor cronologice timpul constituie o variabilă exogenă (Chadule, 1974), care nu o influenţează în nici un fel pe cealaltă, ea având doar rolul precizat in definiţia de mai sus: acela de criteriu de ordonare a valorilor celeilalte variabile. De regulă, pentru variabila timp se adoptă valori ce corespund unor intervale temporale echidistante: ore, zile, luni, ani etc. Întrucât la intervalele mai mari de o lună echidistanţa nu este perfectă (există luni de 30, dar şi de 31 de zile; există ani bisecţi), se obişnuieşte, atunci când se consideră necesar, o corectare a valorilor variabilei41 pentru a asigura comparabilitatea. Coeficienţii de corecţie se obţin raportând numărul de zile dintr-o lună „medie” (365/12, sau 366/12) la numărul de zile al lunii respective. În felul acesta pentru o lună de 30 de zile coeficientul de corecţie este 1,013 (1,017 pentru un an bisect); pentru o lună de 31 de zile coeficientul este 0,981 (respectiv 0,983); pentru luna februarie coeficientul este 1,086 (respectiv 1,051).

41 Aici şi mai departe în text termenul „variabilă” se referă exclusiv la variabila y din modelul generalizat de mai sus, ale cărei valori constituie termenii seriei cronologice.

Page 95: Statistic A

96

După felul în care valorile variabilei se ataşează unităţilor de timp se disting două feluri de serii cronologice: • s. de momente - sunt acele s.c. la care valorile variabilei (de regulă una de stoc) sunt ataşate unor momente de timp, eventual echidistante. O caracteristică a acestor serii este imposibilitatea (sau lipsa de sens) a cumulării valorilor succesive. Exemple de variabile: populaţia unui oraş, parcul de automobile al unei ţări, populaţia ocupată în agricultură ş.a.; • s. de intervale sunt seriile la care valorile variabilei (de regulă una de flux) sunt ataşate unor intervale de timp egale. Exemple de variabile: producţia agricolă sau industrială, cantitatea anuală de precipitaţii, nr. de născuţi vii etc. O asemenea serie de timp mai este numită şi continuă, deoarece variabila poate căpăta un număr infinit de valori în interiorul intervalului temporal ales. Caracteristica acestui tip de s.c. o constituie posibilitatea cumulării valorilor succesive ale variabilei. Reprezentările grafice specifice pentru s.c. sunt cronogramele sau historiogramele. Acestea sunt nişte grafice simple de tipul curbelor elementare, în care pe abscisă se trec momentele/intervalele de timp, iar pe ordonată valorile variabilei; punctele ce corespund perechilor de valori (yt,t) se unesc printr-o linie, rezultând o curbă care descrie evoluţia în timp a fenomenului studiat. 6.2. Serii cronologice şi indici Mai ales în domeniul Statisticii economice, analiza primară a seriilor de timp se bazează pe un sistem de indici care caracterizează succint relaţiile cantitative dintre termenii seriei, pe o anumită perioadă sau pe întregul interval de timp acoperit de termenii seriei. Un indice este un mărime numerică rezultată din compararea valorilor unui

indicator statistic42 şi care oferă o măsură a schimbării nivelului unei variabile în timp (indice cronologic) sau în spaţiu (indice teritorial sau regional).

Prelucrarea termenilor unei serii sau subserii cronologice permite obţinerea a trei categorii de indici: absoluţi, relativi şi medii (Porojan, 1993). Indicii din primele două categorii mai sunt cunoscuţi sub denumirea de indici elementari, iar cei medii mai sunt numiţi indici sintetici (Chadule,1974). a)Indicii absoluţi - sunt acei indici ai căror valori se măsoară în aceleaşi unităţi ca şi termenii seriei. Dintre indicii absoluţi mai uzitaţi sunt trei: nivelul absolut, sporul absolut şi, pentru seriile de intervale, volumul sporului. • nivelul absolut al seriei reprezintă, de fapt, înseşi valorile absolute ale termenilor acesteia:

y ..., ,y ..., ,y ,y tttt ni21 • sporul absolut sau creşterea absolută este diferenţa dintre un termen oarecare al seriei şi primul termen, acesta din urmă find considerat bază de referinţă - motiv pentru care se mai numeşte şi spor absolut cu bază fixă:

y-y = tti/1 1i∆

Sporul absolut al întregii serii va fi diferenţa dintre ultimul şi primul termen:

y-y = ttn/1 1n∆

Sporul se poate calcula şi ca diferenţă între câte doi termeni consecutivi, caz în care se numeşte spor absolut cu baza în lanţ: 42 Indicator statistic = mărime statistică, cu ajutorul căreia se caracterizează un fenomen social-economic sub aspectul structurii şi modificărilor sale cantitative în timp sau în spaţiu (Trebici & colab.,1985). Exemple de i.s.: venitul naţional, valoarea producţiei industriale, consumul de calorii pe cap de locuitor etc.

Page 96: Statistic A

97

y-y = tt1-i/i 1-ii∆

• pentru seriile de intervale (deci în cazul variabilelor ale căror valori se pot cumula) se calculează volumul sporului:

∆∆∆∆ ∑ 1-i/i

n

1=i1-n/n3/22/1 = +...++

b)Indicii relativi - sunt indici care se obţin sub forma unor rapoarte, de obicei procentuale. • ritmul sau indicele de creştere se obţine ca un raport între un termen oarecare al seriei şi primul termen, considerat ca bază (indice de creştere cu bază fixă):

x100y

y = I

t

ti/1

1

i

(pentru întreaga serie indicele va fi x100

y

y = I

t

tn/1

1

n

). şi aici se poate calcula un indice de creştere cu baza în lanţ:

x100

y

y = I

t

t1-i/i

1-i

i

În cazul seriilor de intervale, între cele două feluri de indici există o relaţie care derivă din modul cum se calculează aceştia: indicele de creştere cu bază fixă este egal cu produsul indicilor de creştere cu bază în lanţ:

I = I 1-i/i

n

1=in/1 ∏

• ritmul sporului este dat de raportul dintre volumul sporului şi bază:

1)x100-yt1

ytn( = x100yt1

yt1-ytn = x100yt1

1-i/in

1=i = Rn/1

∆∑

şi exprimă câte unităţi (procente) de spor absolut revin pentru o unitate (procent) din bază. Lucrând cu perechi de termeni succesivi se pot obţine şi nişte ritmuri ale sporului cu baza în lanţ:

1)x100-

yt 1-i

yti( = x100yt 1-i

yt 1-i-yti = x100yt 1-i

1-i/i = R 1-i/i∆

c)Indicii medii (sintetici) - sunt de fapt nişte variante de medii aritmetice ale seriei cronologice. • nivelul mediu se calculează în mod diferit, după cum avem de-a face cu o serie de intervale sau cu o serie de momente, echidistante sau nu. - la seriile de intervale nivelul mediu este media aritmetică simplă a termenilor seriei:

n

yti

n

1=i = yt

- la seriile de momente echidistante nivelul mediu este media cronologică simplă:

n

ytn2

1+yt 1-n+...+yt2+yt12

1

= yt

Page 97: Statistic A

98

- la seriile de momente ce se succed la intervale de timp inegale nivelul mediu este media cronologică ponderată :

tn+...+t2+t1

ytn2tn+t 1-n+...+yt22

t2+t1+yt12t1

= yt,

unde t1, t2, ..., tn sunt intervalele de timp (inegale) dintre momentele de timp ale seriei. • sporul absolut mediu se calculează prin raportarea sporurilor absolute cu bază fixă, sau cu baza în lanţ, la numărul termenilor minus unul:

1-nn/1 = ∆∆

, respectiv 1-n

1-i/in

1=i = ∆∑

. De remarcat că suma sporurilor absolute medii cu baza în lanţ este egală cu sporul absolut mediu cu bază fixă:

∆∆∑ n/1 = 1-i/i

n

1=i • ritmul sau indicele mediu de creştere se determină, de regulă, ca medie geometrică a indicilor de creştere cu baza în lanţ; însă, dacă ţinem cont de relaţia dintre indicele de creştere cu baza fixă şi cei cu baza în lanţ, obţinem o formulă de calcul mai simplă:

1-n

yt1

ytn = 1-n I n/1 = 1-n I 1-i/in

1=i = I ∏

Trebuie subliniat că indicii unei serii cronologice, în particular indicii de creştere, se calculează, de regulă, atunci când seriile se referă la fenomene care prezintă ritmuri de creştere certe şi relativ constante. De aceea calcularea ritmului mediu de creştere presupune un examen prealabil al seriei, pentru a verifica tendinţa crescătoare. Odată calculat, indicele mediu de creştere constituie rata unei progresii geometrice cu acelaşi număr de termeni ca şi seria analizată şi pentru care, dacă se cunoaşte primul termen, se pot calcula şi ceilalţi termeni:

I1-nyt1 ..., ,I

1-iyt1 ..., ,Iyt1 ,yt1 *** Dacă ritmul de creştere este constant de-a lungul perioadei analizate, atunci termenii progresiei se apropie mult, ca valoare numerică, de cei ai seriei originare (primul termen fiind oricum identic). Cunoaşterea indicilor de creştere este foarte utilă în analizele comparative ale unor indicatori statistici, în perioade de timp diferite sau pentru ţări (grupe de ţări) diferite. Este şi motivul pentru care indicii (în particular indicele de creştere) sunt uzuali în anuarele statistice naţionale şi internaţionale. Ritmul mediu de creştere este util, deasemenea, în prognoza fenomenelor la care se referă seriile de timp, pe baza operaţiunii de extrapolare matematică. 6.3. Analiza seriilor cronologice Din punctul de vedere al statisticii inductive analiza seriilor cronologice prezintă unele dificultăţi. Acestea provin mai ales din faptul că valorile variabilei studiate, ordonate în funcţie de timp, nu sunt întotdeauna independente; altfel spus, într-o serie cronologică termenii nu se succed întotdeauna într-o manieră pur aleatoare, valoarea unui termen depinzând, mai mult sau mai puţin, de valoarea termenului (termenilor) anterior(i).

Page 98: Statistic A

99

Se spune că o serie cronologică este aleatoare atunci când probabilitatea ca

variabila Y să capete valoarea yt 1+i este independentă de valoarea anterioară yti (Chadule,1974).

O serie ne-aleatoare se numeşte serie organizată şi analiza sa statistică prezintă unele aspecte specifice. În geografie se lucrează curent cu serii climatologice, hidrologice, demografice, economice. Astfel de serii relevă, de regulă, o anumită organizare care se manifestă prin existenţa unei autocorelaţii temporale43 între termenii seriei. Într-adevăr, debitul mediu al unui râu într-o zi a anului nu poate fi independent de debitul mediu al zilei precedente; producţia de oţel a României în 1995 este dependentă de potenţialul economic, deci de producţia de oţel, din 1994 ş.a. 6.3.1. Verificarea (testarea) caracterului aleator Cel mai adesea simpla reprezentare grafică a seriei cronologice evidenţiază clar caracterul aleator sau, dimpotrivă, organizat al acesteia: în cazul unei serii aleatoare nu putem decela nici un fel de tendinţă de organizare în timp a valorilor, fie sub forma unortendinţe de creştere/descreştere, fie sub forma unor oscilaţii cu caracter periodic, fie ambele. Dacă examinarea graficului lasă loc unor incertitudini se poate apela la nişte procedee numerice sau grafice de verificare a caracterului aleator, procedee care intră în categoria testelor statistice. Verificarea caracterului aleator este o primă etapă, obligatorie, în analiza unei serii cronologice. Dacă nici unul din procedeele de verificare nu evidenţiază existenţa unei organizări a seriei, atunci se conchide că aceasta este pur aleatoare şi este inutil să continuăm analiza. Dacă, dimpotrivă, una sau mai multe relevă caracterul non-aleator, atunci analiza trebuie continuată pentru a obţine, în final, un „model” al seriei care să exprime cât mai adecvat modul şi gradul de organizare ale acesteia. Unul dintre procedeele numerice cele mai simple pentru verificarea caracterului aleator este testul von Neumann (Chadule,1974). Se calculează mai întâi mărimea

1-n

)2yti-yt 1+i(n

1=i = 2∑

δ

Dacă seria este aleatoare, atunci δ² constituie o bună estimare a dublului varianţei şirului (2σ²). Se calculează deci şi varianţa σ². Dacă

2 2

2≈

σ

δ

,

43 Autocorelaţia sau corelaţia serială a unei serii cronologice înseamnă corelaţie între termenii, vecini (

yti şi yt 1+i )

sau separaţi de un număr oarecare de intervale de timp (yti şi

yt k+i ), ai acesteia. Se pot calcula nişte coeficienţi de corelaţie serială, analogi cu cel de corelaţie liniară simplă, lucrând cu şirurile de termeni decalaţi cu k unităţi de timp (termeni). Formula de calcul este aceeaşi:

σσ 2y

2y

ttk

t k+iti

k+ii)y,yCOV(

= r•

Valoarea lui rk este cuprinsă între -1 şi +1. Graficul având pe abscisă valorile lui k ăi pe ordonată valorile lui rk poartă denumirea de corelogramă şi este util în detectarea eventualelor fluctuaţii periodice ale seriei cronologice (valoarea lui k ce corespunde unui rk apropiat de -1 sau +1 reprezintă tocmai perioada oscilaţiei).

Page 99: Statistic A

100

atunci seria poate fi considerată aleatoare. Dacă, în urma aplicării testului von Neumann a rezultat caracterul non-aleator al seriei, o eventuală tendinţă de creştere/scădere în timp a valorilor poate fi evidenţiată cu ajutorul testului rangurilor al lui Spearman. Acest test ia în considerare coeficientul de corelaţia a rangurilor (ρ) al lui Spearman (vezi § 5.4.1.). Calculat pentru un număr foarte mare de serii, ρ constituie o variabilă aleatoare care

urmează o distribuţie normală având media 0=x şi varianţa 1-n1=2σ

. Ipoteza nulă testată este aceea că nu există o tendinţă în cadrul seriei analizate. Aceasta ar însemna că ρ nu depăşeşte limitele unui anumit interval situat de o parte şi de alta a mediei

0=x , interval care ar constitui astfel regiunea de acceptare a ipotezei nule H0. mărimea acestui interval depinde, fireşte, de nivelul de semnificaţie α al testului: spre ex. pentru α=5%, ρ

trebuie să se afle în intervalul ( σ*_1,96+x ). Întrucât 0=x , coeficientul ρ nu mai trebuie standardizat şi poate fi comparat direct cu valoarea 1,96σ. Dacă

1,96

1-n

1 1,96 1,96 ≥⇔≥⇔≥

IIIIII

ρ

σ

ρσρ

, atunci i.n. H0 trebuie respinsă şi se poate conchide că în cadrul seriei există, cu o probabilitate de 95%, o tendinţă al cărei sens (crescător sau descrescător) este indicat de semnul lui ρ. Trebuie remarcat că testul rangurilor oferă concluzii corecte doar dacă tendinţa testată este liniară. În cazul uneitendinţe neliniare, în speţă parabolică, aplicarea testului conduce la acceptarea i.n., ceea ce constituie o eroare. 6.3.2. Descompunerea (filtrarea) seriilor cronologice Examinarea atentă a graficelor unui număr mare de serii de timp ce redau fenomene naturale sau social- economice ne va conduce, mai curând sau mai târziu, la ideea că în cadrul unei serii se pot deosebi mai multe feluri de fluctuaţii (mişcări, variaţii) ale valorilor (vezi. fig.6.1). • tendinţa generală sau, cu un termen englezesc încetăţenit şi în limba română, trendul seriei (T). Este acea variaţie lentă, constantă şi de lungă durată care indică direcţia generală de evoluţie în timp a fenomenului studiat prin intermediul seriei respective. Se mai numeşte şi tendinţă seculară sau trend secular, deoarece sensul mişcării se menţine o perioadă îndelungată (zeci, sute de ani); • variaţiile ciclice (C). Termenul „ciclice” desemnează aici acele fluctuaţii cvasi-periodice ale căror amplitudini şi perioade sunt mai mult sau mai puţin neregulate (motiv pentru care ele sunt incluse uneori în categoria variaţiilor întâmplătoare); • variaţiile periodice (S) sunt acele variaţii care se repetă, aproximativ în aceeaşi formă, la intervale de timp (perioade) egale. În funcţie de mărimea perioadei pot fi mişcări diurne (ex. oscilaţiile diurne ale temperaturii aerului), semidiurne (ex. oscilaţiile mareice), lunare (ex. variaţia consumului de alcool într-un cartier muncitoresc, în relaţie cu data fixă a chenzinei) sau, cel mai adesea, sezoniere;

Figura 6.1. Componentele unei serii cronologice şi modalităţile de combinare a acestora.

Page 100: Statistic A

101

• variaţiile aleatoare sau reziduale (R), care se datorează unor factori cu acţiune aleatoare (ex. calamităţi naturale, calamităţi politico-administrative etc.) şi care formează aşa-numitul „zgomot” al unei serii cronologice. Orice serie reală rezultă din combinarea, sau mai bine spus din compunerea acestor mişcări, ca o consecinţă firească a acţiunii simultane a factorilor generatori specifici. Se consideră că există două modele de combinare a celor patru componente, astfel încât să rezulte elementele seriei reale: a) modelul aditiv, care presupune că factorii generatori sunt independenţi unii de alţii, acţiunea lor însumându-se pentru a da valorile seriei: yt = T + C + S + R; b) modelul multiplicativ, care presupune că factorii generatori interacţionează, astfel încât între componenta T şi celelalte există o relaţie de proporţionalitate: yt = T ´ C ´ S ´ R. Descompunerea sau filtrarea unei serii cronologice constă în izolarea componentelor de mai sus pentru a le putea studia mai bine şi, eventual, pentru a le elimina. Izolarea unei componente se realizează prin metode de ajustare (engl. fitting) a seriei, adică de înlocuire a valorilor reale cu nişte valori calculate cu ajutorul unor modele grafice sau analitice. Ajustarea are ca rezultat netezirea (engl. smoothing) curbei corespunzătoare, care devine astfel mai regulată şi evidenţiază componenta care trebuie studiată şi, eventual, eliminată . Izolarea şi eliminarea componentelor unei serii de timp se face, de regulă, în ordinea descrescătoare a perioadei mişcărilor corespunzătoare, având în vedere că variaţiile cu perioade mai mici se „grefează” pe cele cu perioadă mai mare (vezi fig.6.1). Prin urmare descompunerea unei serii de timp presupune, în principiu, următoarele secvenţe: a) izolarea şi eliminarea trendului, operaţiuni în urma cărora modelul combinativ al seriei devine: yt-T=S+C+R (m. aditiv); yt/T=S´C´R (m. multiplicativ). Atunci când componenta sezonieră este net predominantă, iar cele ciclică şi reziduală sunt nesemnificative (C+R=0, sau C´R=1), se poate trece direct la izolarea şi eliminarea lui S, rezultând astfel aşa-numita „serie desezonalizată ”: yt-S=T (m. aditiv); yt/S=T (m. multiplicativ). b) eliminarea trendului şi a componentei sezoniere, rezultând seria desezonalizată şi fără tendinţă: yt-T-S=C+R (m. aditiv); yt/(T´S)=C´R (m. multiplicativ). c) eliminarea şi a componentei ciclice, rezultând seria în care se resimte doar influenţa factorilor aleatori: yt-T-S-C=R (m. aditiv); yt/(T´S´R)=R (m. multiplicativ). Această schemă de succesiune a etapelor de descompunere are un caracter general şi ea nu se aplică în toate cazurile. De exemplu, dacă termenii unei serii sunt nişte valori anuale, nu se poate vorbi de o componentă sezonieră; dacă seria acoperă o perioadă scurtă de timp, atunci componenta ciclică poate fi neglijată etc. 6.3.2.1. Analiza trendului Analiza trendului presupune găsirea unui model grafic sau analitic cu ajutorul căruia să se poată face o ajustare cât mai bună a seriei studiate. Există mai multe metode de stabilire a trendului unei serii, metode care pot fi grupate în trei categorii: metode grafice, metode mecanice şi metode analitice. 1° Metode grafice. Sunt metode care, aşa cum o spune denumirea lor, se aplică pe graficul seriei de timp. Două sunt metodele grafice mai utilizate:

Page 101: Statistic A

102

• metoda tendinţei vizuale (Trebici & colab.,1985) presupune trasarea „din ochi” a liniei de tendinţă care aproximează cel mai bine alura generală a curbei empirice. Această metodă, numită în literatura franceză courbe tracée à main levée, iar în cea anglo-saxonă free-hand curve nu poate fi, prin natura sa, riguros ştiinţifică, întrucât aici factori subiectivi ca experienţa, ochiul şi mâna sigure, intuiţia cercetătorului, sunt hotărâtori. Ajustarea pe această cale are un caracter orientativ şi oferă nişte prime informaţii privind tendinţa generală şi alte particularităţi ale seriei. • metoda liniei mediane (Grisolet & colab.,1962) înlătură subiectivismul metodei anterioare. Ea constă (vezi fig.6.2) în unirea maximelor succesive (M1, M2,...), respectiv a minimelor succesive (m1, m2,...) ale curbei empirice; pe verticalele ce trec prin punctele de maxim şi de minim, unind cele două linii, se plasează puncte situate la mijlocul distanţei dintre linia maximelor şi linia minimelor; linia care uneşte aceste puncte mediane este linia de tendinţă. Inconvenientul acestei metode este că acordă o importanţă excesivă valorilor maxime şi minime (care, prin natura lor, sunt dependente în mai mare măsură de factorii aleatori), linia de tendinţă putând căpăta un aspect destul de neregulat. 2° Metode mecanice. Sunt metode care presupun aplicarea succesivă, în mod mecanic şi pentru toţi termenii seriei, a unor formule de calcul prestabilite (Porojan, 1993). • metoda sporului absolut mediu al seriei are la bază calculul acestui indice (vezi § 6.2), cu ajutorul unei formule de forma:

1-n

yt1 - ytn = ∆

Prin adăugarea repetată a sporului mediu la primul termen se obţin valorile calculate (ajustate) ce corespund termnilor al doilea, al treilea ş.a.m.d. Este clar că dreapta de tendinţă (vezi fig.6.3) corespunde, aici, unei progresii aritmetice la care primul termen coincide cu primul termen al seriei studiate, iar raţia este tocmai sporul absolut mediu. Termenii succesivi ai progresiei vor fi:

∆∆∆ ** 1)-(n+yt1 ,...,2+yt1 ,+yt1 ,yt1 , iar ecuaţia curbei de tendinţă (în acest caz, o dreaptă) care ajustează curba empirică va avea forma:

1)-n0,1,2,...,=(t t + yt1 = yt *∆ Această relaţie poate fi utilizată, cu anumite precauţii, pentru prognoza seriei prin prelungirea (extrapolarea) dreptei înafara intervalului de timp acoperit de seria reală. Dezavantajul principal al acestei metode este acela că trendul calculat este determinat exclusiv de primul şi ultimul termen ai seriei observate, influenţa termenilor intermediari fiind absentă. De aceea ajustarea prin această metodă dă rezultate satisfăcătoare numai dacă ritmul de variaţie (creştere sau descreştere) al valorilor seriei este relativ constant. • metoda ritmului mediu lucrează cu primul termen al seriei şi ritmul mediu de creştere. În final rezultă o progresie geometrică de raţie I ai cărei termeni succesivi vor fi:

Figura 6.2. Determinareatendinţei prin metoda liniei mediane (evoluţia producţiei de porumb la ha în România, 1938-1982).

Page 102: Statistic A

103

I1-nyt1 ,...,I

2yt1 ,Iyt1 ,yt1 *** şi căreia îi corespunde o ecuaţie a curbei de tendinţă de forma:

1)-n 2,..., 1, 0,=(t Ityt1 = yt *

şi această relaţie (curbă) poate fi folosită pentru prognoza seriei de timp. • metoda mediilor glisante (mobile, alunecătoare) este o metodă larg utilizată pentru identidicareatendinţei generale a unei serii cronologice. Aplicarea sa presupune calcularea mediilor glisante, adică medii ale unui set prestabilit de termeni succesivi, set care este deplasat (glisat) de-a lungul şirului de bază astfel încât toţi termenii seriei să fie incluşi, pe rând, în calcul. Iată , spre exemplu, schema de calcul al mediilor glisante de câte 5 termeni, pentru o serie cu n termeni: Dacă seria are n termeni, iar setul de calcul include k termeni, atunci numărul total de medii

glisante este n-(k-1). De remarcat că este bine ca k să fie impar, pentru ca mediile glisante să poată fi ataşate momentelor de timp ce corespund termenilor din seria

de bază. După cum se observă din schema de mai sus, prin calculul mediilor glisante se pierde întotdeauna informaţia oferită de k-1 termeni ai seriei originare, egal distribuiţi pe cele două extremităţi ale acesteia. Deci cu cât k este mai mare, cu atât pierderea de informaţie este mai importantă. În compensaţie, însă, creşte gradul de „netezire” a curbei de ajustare (vezi fig.6.4), fapt ce constituie un avantaj atunci când se doreşte identificareatendinţei generale de variaţie. Metoda mediilor glisante are dezavantajul de a nu putea surprinde riguros trendul, mai ales dacă zgomotul seriei este puternic, curba ajustată conservând (chiar dacă într-o formă atenuată ) neregularităţile datorate acestuia. În compensaţie, însă, prin faptul că urmăreşte inflexiuniletendinţei reale, această metodă nu maschează o eventuală tendinţă non-liniară (cum face, de exemplu, metoda sporului mediu). În sfârşit, să remarcăm că metoda mediilor glisante, ca şi celelalte metode de ajustare prezentate până acum, nu permit obţinerea unor relaţii analitice de tipul ecuaţiilor matematice pentru exprimarea trendului (cu excepţia „ecuaţiilor” ce derivă din progresiile aritmetică şi geometrică, cum s-a

Figura 6.3. Determinarea liniei de tendinţă prin metoda sporului absolut mediu, respectiv a ritmului mediu al creşterii.

Figura 6.4. Creşterea gradului de ”netezire” a curbei odată cu lărgirea setului de valori pentru calculul mediilor glisante.

Page 103: Statistic A

104

văzut). Prin aceasta valoarea lor predictivă este mai scăzută comparativ cu următoarea grupă de metode, care se bazează pe una sau alta dintre numeroasele funcţii analitice puse la dispoziţie de analiza matematică. 3° Metode analitice. Sunt metodele prin aplicarea cărora se obţine o curbă ajustată căreia îi corespunde o relaţie funcţională (ecuaţie) de tipul y=f(t). Avantajul principal al metodelor analitice este că ele iau în considerare toţi termenii seriei analizate, valorificând astfel la maximum informaţia oferită de aceştia. În acelaşi timp, odată obţinută ecuaţia curbei de tendinţă, aceasta devine independentă de termenii seriei reale, putând fi folosită în condiţii optime pentru calcule de interpolare în vederea prognozei seriei studiate. Majoritatea procedeelor analitice de ajustare au la bază modelul regresiei liniare simple, aceasta doarece multe dintre ecuaţiile modelelor neliniare pot fi liniarizate prin diferite metode. Deasemenea, calculul parametrilor curbei de ajustare optimă se bazează, în majoritatea cazurilor, pe metoda celor mai mici pătrate (vezi § 5.3.2.2.). • ajustarea cu ajutorul dreptei de regresie liniară simplă. Relaţia analitică utilizată este funcţia de gradul I (ecuaţia dreptei în plan): y=ax+b. ţinând cont că la seriile de timp rolul variabilei independente îl joacă timpul, forma specifică a relaţiei devine yt = at + b (vezi fig.6.5) Calculele pentru obţinerea coeficienţilor a şi b pornind de la valorile observate ale celor două variabile au fost prezentate pe larg în § 5.3.2.2. O altă variantă de calcul, mai potrivită atunci când se lucrează cu calculatorul de buzunar şi seria nu este prea lungă, permite aflarea coeficienţilor a şi b prin rezolvarea sistem ului de ecuaţii normale44. După calcularea prealabilă a sumelor respective, rezolvarea sistemului se face prin metode algebrice cum ar fi, de exemplu, cu ajutorul determinanţilor (vezi regula lui Cramer din Algebra de clasa a XI-a):

)2t(-t2n

tytt-t2yt =

|

|

t2t

tn

|

|

|

|

t2ytt

tyt

|

|

= a∑∑

∑∑∑∑

∑∑

∑∑∑

∑∑

44 După cum se ştie, estimarea coeficienţilor a şi b prin metoda celor mai mici pătrate presupune minimizarea sumei pătratelor abaterilor dintre valorile observate şi proiecţiile acestora pe dreapta de regresie:

minim = )bx-a-y( = )y-y( ii

n

=1iii

n

=1i∑∑ ˆ

Valorile x şi y sunt cunoscute, suma de mai sus fiind o funcţie numai de a şi b; deci minimizarea se face anulând derivatele parţiale în raport cu a, respectiv în raport cu b, operaţiune în urma căreia se obţin ecuaţiile normale:

0)=-a-( bxyx ; 0=)bx-a-y( iii

n

=1iii

n

=1i∑∑

sau, după aplicarea proprietăţilor sumelor şi trecerea în membrul stâng a termenilor care îi conţin pe a şi b:

yt = tb + na ∑∑ şi ytt = t2b + ta ∑∑∑

Figura 6.5. Ajustarea variaţiei producţiei de porumb la hectar (chintale) în România cu ajutorul dreptei de tendinţă.

Page 104: Statistic A

105

)2t(-t2n

ytt-yttn =

|

|

t2t

tn

|

|

|

|

yttt

ytn

|

|

= b∑∑

∑∑∑

∑∑

∑∑

• ajustarea cu ajutorul parabolei de gradul II, a cărei expresie analitică este funcţia de gradul II: yt = a + bt + ct² Ajustarea cu ajutorul acestei curbe este potrivită pentru a aproxima mişcarea acelor fenomene care în evoluţia lor temporală ating un maxim (minim), după care sensul de variaţie se inversează. De exemplu producţia unui câmp petrolifer, care creşte după intrarea în exploatare, prin adăugarea de noi sonde de extracţie, până la un maxim, după care epuizarea zăcământului duce la scăderea din ce în ce mai rapidă a producţiei. Aceasta nu înseamnă, fireşte, că porţiuni ale parabolei nu pot ajusta foarte bine variaţii monotone (crescătoare sa descrescătoare) ale fenomenelor reale (vezi fig.6.6). Coeficienţii a şi b se determină tot prin metoda celor mai mici pătrate, ecuaţiile normale fiind în acest caz:

yt = t2c + tb + na ∑∑∑

ytt = t3c + t2b + ta ∑∑∑∑

ytt2 = t4c + t3b + t2a ∑∑∑∑ Rezolvarea sistemului pentru aflarea necunoscutelor a,b şi c se face tot prin metode algebrice, după calcularea prealabilă a coeficienţilor acestora (Σt, Σt², Σt³, Σt4; Σyt; Σt yt, Σt²yt). • ajustarea cu ajutorul curbei exponenţiale. Relaţia analitică corespunzătoar este funcţia exponenţială: yt = aebt, care poate fi liniarizată prin logaritmare: ln(yt) = ln(a) + bt În forma liniarizată variabilele cu care se lucrează sunt t şi ln(yt) şi ele vor intra în calcule pentru aflarea coeficienţilor ln(a) şi b ai ecuaţiei de regresie, prin metodele cunoscute. Curba de regresie va apare ca o linie dreaptă pe un grafic la care ordonata (axa lui yt) este în scară logaritmică, iar abscisa (axa lui t) este în scară aritmetică. Curba de ajustare exponenţială va apare ca atare pe graficul seriei cronologice originare (vezi fig.6.7); pentru trasarea ei este nevoie să se antilogaritmeze ln(a) pentru aflarea coeficientului a din ecuaţia funcţiei exponenţiale. • ajustarea cu ajutorul funcţiei putere:

Figura 6.6. Ajustarea producţiilor de porumb la hectar cu ajutorul parabolei de gradul II.

Figura 6.7. Ajustarea variaţiei producţiei de porumb la hectar cu ajutorul curbei exponenţiale.

Page 105: Statistic A

106

yt = atb, care prin logaritmare devine: log(yt) = log(a) + blog(t) Variabilele de lucru pentru aflarea lui log(a) şi b prin metoda celor mai mici pătrate sunt log(yt) şi log(t). Curba de ajustare va apare sub formă de linie dreaptă pe un grafic în scară dublu logaritmică; pentru reprezentarea ei pe graficul seriei originare trebuie antilogaritmată valoarea lui log(a) (vezi fig.6.8). • ajustarea cu ajutorul curbei logistice (vezi fig.6.9), a cărei expresie analitică este de forma:

10 bt+a+1

k = yt

, sau e bt+a+1

k = yt

în care k este asimptota curbei (calculată pe baza datelor de observaţii), 10 este (aici) baza logaritmului zecimal, iar e este baza logaritmului natural. Merită semnalat faptul că forma curbei logistice este foarte asemănătoare cu cea curbei normale integrale (cumulative). Curba logistică şi-a găsit o largă aplicabilitate în demografie şi ecologie, unde se ştie de multă vreme că evoluţia numerică a unei populaţii, indiferent de specie, se desfăşoară după o curbă logistică. În legătură cu noţiunile de „creştere economică zero”, „populaţie staţionară” ş.a., curba logistică a pătruns în ultimele decenii şi în economie. Indiferent de domeniul de aplicabilitate, ideea de bază este că lumea terestră este o lume finită ca spaţiu şi ca resurse; de aceea dezvoltarea unei populaţii (în speţă, a populaţiei umane) şi a activităţilor acesteia, chiar dacă păstrează o vreme un careacter exponenţial, va tinde mai curând sau mai târziu spre o stare de stabilitate, plafonându-se în apropierea unei asimptote superioare a cărei existenţă se datorează tocmai sus-amintitului caracter finit al spaţiului şi resurselor. Ajustarea cu ajutorul curbei logistice se poate face aplicand aşa-numita „metodă a punctelor alese”: se aleg trei momente de timp echidistante x0 (la începutul perioadei), x1 (la mijlocul ei) şi x2 (la sfârşit), valorile corespunzătoare ale seriei finnd notate respectiv y0, y1 şi y2; numărul de unităţi de timp n care intervine în calculul coeficienţilor ecuaţiei este cel dintre momentele x0 şi x1, sau x1 şi x2; cei trei coeficienţi se obţin astfel:

y21 - y2y0

)y2+y0(y21 - y2y1y02

= k

; )

y0

y0 - k( = a log

; ]

)y0-(ky1

)y1-(ky0[n

1 = b log

Atunci când se procedează la ajustarea unei serii cronologice prin metode analitice, principala problemă o constituie alegerea tipului de curbă care ajustează cel mai bine curba empirică. Unele sugestii în acest sens sunt oferite de metodele grafice de ajustare, ca şi de metoda mediilor glisante. Hotărâtoare, însă, rămâne experienţa şi intuiţia cercetătorului, bazate

Figura 6.8. Ajustarea variaţiei producţiei de porumb la hectar cu ajutorul funcţiei putere.

Figura 6.9. Aspectul general al unei curbe logistice.

Page 106: Statistic A

107

pe o bună cunoaştere a domeniului în care se încadrează fenomenul studiat prin intermediul seriei de timp. În unele cazuri se constată că există două curbe care par să ajusteze la fel de bine seria studiată. În acesată situaţie se va alege curba care dă cele mai mici pătrate ale abaterilor dintre valorile observate şi cele calculate cu ajutorul relaţiilor analitice corespunzătoare. Dacă cele două curbe fac parte din grupul funcţiilor liniarizabile, un criteriu de alegere îl poate constitui şi coeficientul de corelaţie liniară simplă dintre cele două variabile transformate din ecuaţia liniarizată . 6.3.2.2. Analiza variaţiilor sezoniere Variaţiile sau fluctuaţiile sezoniere sunt acele variaţii care au un caracter periodic, ele repetându-se cu o regularitate mai mare sau mai mică în interiorul seriei cronologice. Se numesc „sezoniere” pentru că, într-adevăr, majoritatea fenomenelor şi proceselor care prezintă o dinamică temporală sunt influenţate de succesiunea sezoanelor dintr-un an. Prin extindere, însă, acest determinativ este utilizat şi pentru mişcări a căror perioadă este mai mică decât un an (zile, săptămâni, luni, trimestre). Analiza variaţiilor sezoniere prezintă un cert interes practic, dacă avem în vedere că numeroase activităţi economice prezintă un ritm şi nişte particularităţi de desfăşurare care se leagă clar de succesiunea sezoanelor - de ex. activităţile agricole, transporturile, industria energiei electrice etc. Separarea componentei sezoniere a unei serii cronologice urmăreşte un dublu scop: - pe de o parte, identificarea parametrilor fluctuaţiilor sezoniere (amplitudine, perioadă, frecvenţă), precum şi găsirea unor indici adimensionali care să exprime variaţia sezonieră indiferent de ordinul de mărime al valorilor seriei şi de numărul de perioade (ani) incluse în aceasta, facilitează comparaţiile între serii diferite, acest lucru având consecinăe de ordin ştiinţific şi practic evidente; - pe de altă parte, prin eliminarea componentei sezoniere, eventual şi a trendului, fenomenul redat de seria cronologică poate fi studiat ca fenomen de masă (aleator), cu metodele statisticii inductive. Analiza variaţiilor sezoniere comportă, de regulă, trei etape: punerea în evidenţă a oscilaţiilor de acest tip, calculul indicilor sezonieri şi desezonalizarea seriei (eliminarea componentei sezoniere). 1° Punerea în evidenţă a variaţiilor sezoniere. De regulă graficul unei serii de timp evidenţiază cu suficientă claritate existenţa unei componente sezoniere. Dacă sunt dubii, existenţa unei asemenea componente poate fi testată. Pentru a ilustra modul de lucru în analiza variaţiilor sezoniere vom lua un exemplu din sociologie (vezi tabelul de mai jos). Tabel nr.6.1. Numărul lunar de căsătorii în mediul rural, în România, în intervalul 1957-1966 (10 ani). Luna Anul

I II III IV V VI VII VIII IX X XI XII Total Media

1957 13583 21167 8750 5335 7458 6705 5504 6025 10627 17124 18842 10442 131562 10963

1958 16266 21867 7538 6908 9205 6612 5908 6367 10162 17590 17519 9126 135068 11256

1959 13071 17395 12791 5361 6492 7238 5138 5456 8775 15020 14976 8932 119845 9987

1960 13569 21212 7561 6013 7821 6085 5340 5522 7723 13373 14117 9096 117432 9786

1961 11358 15528 7470 6824 7372 5169 4617 4876 7685 12444 13479 7803 104625 8719

1962 9589 14163 10386 6672 6714 5953 5130 5115 7280 12154 13716 7625 104497 8708

1963 9707 13533 6902 6595 7226 5137 4464 5116 6814 11403 12685 6771 96353 8029

1964 8810 13294 10401 5865 5355 5029 5689 5296 6474 11455 10613 6313 93594 7799

1965 8461 13111 7037 4954 5464 4827 4625 4947 6401 11527 11043 6844 89241 7437

1966 8760 11155 5421 5564 6114 4387 4872 4996 6540 11596 10197 8286 87888 7324

Total 113174 162425 84257 60091 69221 56142 50287 53716 78681 133686 137187 81238 1080105

Media 11317 16243 8426 6009 6922 5714 5129 5372 7848 13369 13719 8124 9016

Sursa: C.Moineagu, I.Negură, V.Urseanu, Statistica, Ed.Şt.E., 1976, p.302.

Page 107: Statistic A

108

Graficul acestei serii (vezi fig.6.10) evidenţiază cu suficientă claritate existenţa unei componente sezoniere, explicabilă prin tradiţiile nupţiale în mediul rural (nunţile se fac de regulă toamna, după strângerea recoltei, sau după sărbătorile de iarnă). Verificarea impresiei vizuale se poate face prin calcularea şi reprezentarea grafică a mediilor lunare multianuale, sau prin aplicarea testului empiric al lui Šyškin (Şîşkin). • media lunară multianuală a fiecărei luni se calculează ca medie aritmetică a valorilor aferente lunii respective din toţi anii seriei (vezi ultimele două linii din tabelul de mai sus). Prin operaţiunea de mediere se înlătură, în bună parte, influenţa factorilor întâmplători, astfel încât mediile manifestă o mai mare stabilitate în timp. Pentru exemplul nostru reprezentarea grafică a acestor medii (vezi fig.6.11) confirmă existenţa unei componente sezoniere bine conturate. • testul Šyškin constă în calcularea, pentru fiecare termen (lună) din serie, raportul între valoarea lunii respective şi media aritmetică a celor două luni care o încadrează:

2

yt 1+i+yt 1-i

yti = s

După aceea, pentru fiecare lună a anului se calculează o medie multianuală a rapoartelor aferente lunii respective; dacă această medie diferă semnificativ de 1, atunci luna respectivă contribuie semnificativ la apariţia unei componente sezoniere în seria de bază. Pentru exemplul nostru, mediile lunare multianuale ale rapoartelor sunt redate în ultima linie a tabelului 6.2. Se observă că toate valorile rapoartelor s sunt semnificativ diferite de 1 (poate cu excepţia lunilor iunie şi iulie), ceea ce înseamnă că avem de-a face cu o componentă sezonieră bine conturată . 2° Calculul indicilor (coeficienţilor) sezonieri. Indicii sezonieri sunt nişte mărimi care exprimă contribuţia fiecărei unităţi de timp (luni) din perioada de bază (an) la apariţia unei componente sezoniere în cadrul seriei. De regulă sunt exprimaţi sub formă de proporţii (absolute sau procentuale).

Figura 6.10. Variaţia numărului lunar de căsătorii în mediul rural în România, 1957-1966.

Figura 6.11. Variaţia anuală a numărului lunar mediu multianual de căsătorii în mediul rural.

Page 108: Statistic A

109

• diferenţa algebrică dintre media lunară generală (adică media aritmetică a tuturor termenilor seriei) şi media multianuală a fiecărei luni. Pentru exemplul nostru mediile lunare multianuale şi media generală sunt trecute în ultima linie a tabelului 6.1. Diferenţele algebrice, exprimate în cifre absolute şi în procente din media generală, apar în tabelul 6.3. Diferenţele exprimate în cifre absolute nu pot servi la efectuare de comparaţii între serii diferite, în schimb pot fi folosite la desezonalizarea seriei analizate (vezi punctul (3°) al acestui paragraf). • indici sezonieri obţinuţi prin metoda rapoartelor la tendinţă. Această metodă implică mai întîi calcularea trendului liniar al seriei, după care se calculează rapoartele dintre valorile yt ale seriei şi valorile ytˆ calculate cu ajutorul ecuaţiei de regresie. Mediile multianuale ale acestor rapoarte, pentru fiecare lună în parte, constituie indicii sezonieri ai lunilor respective. De remarcat că în locul mediei aritmetice poate fi reţinută ca indice sezonier mediana şirului de rapoarte aferent lunii de calcul. În exemplul nostru ecuaţia trendului liniar, ai cărei coeficienţi a şi b sunt calculaţi după metodele cunoscute, este: yt = 11344,14 - 38,484t. După cum se observă, coeficientul de regresie a este negativ, ceea ce înseamnă că există o tendinţă de scădere în timp a numărului lunar de căsătorii şi anume în ritmul de 38,484 căsătorii/lună. Ecuaţia de mai sus o folosim pentru a calcula numărul „teoretic” de căsătorii pentru

fiecare din cele 120 de luni ale seriei.

Rezultatele calculelor pentru obţinerea indicilor sezonieri prin această metodă sunt trecute în tabelul 6.4. • indici sezonieri obţinuţi prin metoda lanţurilor de rapoarte. Este metoda cea mai sigură pentru

estimarea coeficienţilor

sezonieri, însă este destul de laborioasă. Se lucrează, de fapt, cu indicii

Tabel nr.6.2. Rapoartele yi/[(yi-1+yi+1)/2] pentru aplicarea testului Šyškin. LunaAnul

I II III IV V VI VII VIII IX X XI XII

1957 0.89 0.66 0.66 1.24 1.03 0.86 0.75 0.92 1.16 1.37 0.59

1958 1.01 1.84 0.52 0.82 1.36 0.87 0.91 0.79 0.85 1.27 1.31 0.60

1959 0.98 1.34 1.12 0.55 1.03 1.24 0.81 0.78 0.86 1.26 1.25 0.62

1960 0.90 2.01 0.55 0.78 1.29 0.92 0.92 0.84 0.82 1.22 1.26 0.71

1961 0.92 1.65 0.67 0.92 1.23 0.86 0.92 0.79 0.89 1.18 1.33 0.68

1962 0.87 1.42 0.99 0.78 1.06 1.00 0.93 0.82 0.84 1.16 1.39 0.65

1963 0.92 1.63 0.68 0.93 1.23 0.88 0.87 0.91 0.82 1.17 1.39 0.63

1964 0.88 1.38 1.08 0.74 0.98 0.91 1.10 0.87 0.77 1.34 1.19 0.66

1965 0.87 1.69 0.78 0.79 1.12 0.96 0.94 0.90 0.78 1.32 1.20 0.69

1966 0.97 1.57 0.65 0.96 1.23 0.80 1.04 0.88 0.79 1.39 1.030

Media 0.92 1.54 0.77 0.80 1.18 0.95 0.93 0.83 0.83 1.25 1.27 0.65

Tabel nr.6.3. Diferenţele algebrice dintre media generală şi mediile lunare multianuale ale numărului lunar de căsătorii. LunaDiferenţa

I II III IV V VI VII VIII IX X XI XII

absolută -2301 -7227 +590 +3007 +2094 +3302 +3887 +3644 +1168 -4353 -4073 +892

relativă -25.52 -80.16 +6.54 +33.35 +23.23 +36.62 +43.11 +40.42 +12.95 -48.28 -45.18 +9.89

Tabel nr.6.4. Rapoartele dintre valorile observate ale seriei (v.tab.6.1) şi cele calculate cu ajutorul ecuaţiei dreptei de tendinţă. Luna Anul

I II III IV V VI VII VIII IX X XI XII

1957 1.20 1.88 0.78 0.48 0.67 0.60 0.50 0.55 0.97 1.56 1.73 0.96

1958 1.50 2.02 0.70 0.64 0.86 0.62 0.56 0.60 0.96 1.68 1.68 0.88

1959 1.26 1.68 1.24 0.52 0.63 0.71 0.51 0.54 0.87 1.50 1.50 0.90

1960 1.37 2.15 0.77 0.61 0.80 0.63 0.55 0.57 0.80 1.40 1.48 0.96

1961 1.20 1.65 0.80 0.73 0.79 0.56 0.50 0.53 0.84 1.37 1.49 0.86

1962 1.07 1.58 1.16 0.75 0.76 0.68 0.59 0.59 0.84 1.41 1.59 0.89

1963 1.14 1.59 0.82 0.78 0.86 0.62 0.54 0.62 0.83 1.39 1.56 0.83

1964 1.09 1.65 1.30 0.74 0.68 0.64 0.73 0.68 0.83 1.48 1.38 0.83

1965 1.11 1.73 0.93 0.66 0.73 0.65 0.63 0.67 0.88 1.59 1.53 0.95

1966 1.23 1.57 0.77 0.79 0.87 0.63 0.70 0.73 0.96 1.70 1.51 1.23

Media 1.22 1.75 0.93 0.67 0.77 0.63 0.58 0.61 0.88 1.51 1.55 0.93

Page 109: Statistic A

110

(ritmurile) de creştere ale seriei cronologice. Se calculează mai întîi ritmurile de creştere cu baza în lanţ, pentru fiecare din termenii seriei:

yt 1-i

yti = I 1-i/i

obţinându-se astfel n-1 indici. Pentru fiecare din lunile anului se calculează media multianuală sau mediana şirului de indici aferent (vezi tabelul 6.5.). După

aceea pentru fiacare lună, utilizând media (sau mediana) se calculează ritmul de creştere cu bază fixă, baza fiind în acest caz luna ianuarie. Aici se utilizează relaţia dintre indicele de creştere cu bază fixă şi cei cu baza în lanţ (vezi § 6.2.), conform căreia, la seriile de intervale, indicele de creştere cu bază fixă a unui termen este egal cu produsul indicilor de creştere cu baza în lanţ ai tuturor termenilor anteriori (inclusiv al celui în cauză). Vom avea, deci, şirul de indici cu bază fixă: Ifebr./ian. = 1,44 (în mod logic, ar trebui ca Iian./ian.=1); Imart./ian. = Ifebr./ian.´Imart./febr. = 1,44´0,54 = 0,78; Iapr./ian. = Ifebr./ian.´Imart./febr.´Iapr./mart. = 1,44´0,54´0,76 = 0,78´0,76 = 0,59; După cum se observă, pentru a nu rescrie de fiecare dată şirul indicilor cu baza în lanţ ai lunilor precedente, putem prelua indicele cu bază fixă al lunii precedente, pe care îl înmulţim cu indicele cu baza în lanţ al lunii curente (calculat ca medie sau mediană - vezi mai sus). Deci: Imai/ian. = Iapr./ian.´Imai/apr. = 0,59´1,15 = 0,68; Iiun./ian. = Imai/ian.´Iiun./mai = 0,68´0,84 = 0,57; Iiul./ian. = Iiun./ian.´Iiul./iun. = 0,57´0,91 = 0,52; Iaug./ian. = Iiul./ian.´Iaug./iul. = 0,52´1,05 = 0,55; Isept./ian. = Iaug./ian.´Isept./aug. = 0,55´1,45 = 0,80; Ioct./ian. = Isept./ian.´Ioct./sept. = 0,80´1,71 = 1,34; Inov./ian. = Ioct./ian.´Inov./oct. = 1,34´1,03 = 1,38; Idec./ian. = Inov./ian.´Idec./nov. = 1,38´0,60 = 0,83. Aşa cum s-a menţionat mai sus, în mod logic ar trebui ca Iian./ian. Să fie egal cu 1. Dacă, însă, îl calculăm după aceeaşi regulă ca şi ceeilalţi indici, atunci obţinem: Iian./ian. = Idec./ian.´Iian./dec. = 0,83´1,35 = 1,12. Diferenţa de la 1 la 1,12 se datorează influenţei trendului şi a componentei aleatoare („zgomotului”). Pentru scopurile analizei se reţine pentru Iian./ian/ valoarea 1, dar se corectează în mod corespunzător ceilalţi 11 indici, obţinându-se astfel aşa-numiţii indici intermediari. În exemplul nostru, indicii se micăorează în aceeaşi proporţie ca şi indicele pentru ianuarie (deci cu 12% din valoarea lor) şi obţinem şirul indicilor intermediari: 1 1,27 0,67 0,52 0,60 0,50 0,46 0,48 0,70 1,18 1,21 0,73 Aceşti indici se numesc „intermediari” deoarece trebuie verificată condiţia ca media lor aritmetică să fie egală cu 1; dacă nu este aşa, atunci fiecare din cei 12 coeficienţi intermediari se împarte la media lor aritmetică şi se obţin astfel indicii definitivi.

Tabel nr.6.5. Indicii de creştere cu baza în lanţ ai seriei din tab.nr.6.1. Luna Anul

I II III IV V VI VII VIII IX X XI XII

1957 0.00 1.56 0.41 0.61 1.40 0.90 0.82 1.09 1.76 1.61 1.10 0.55

1958 1.56 1.34 0.34 0.92 1.33 0.72 0.89 1.08 1.60 1.73 1.00 0.52

1959 1.43 1.33 0.74 0.42 1.21 1.11 0.71 1.06 1.61 1.71 1.00 0.60

1960 1.52 1.56 0.36 0.80 1.30 0.78 0.88 1.03 1.40 1.73 1.06 0.64

1961 1.25 1.37 0.48 0.91 1.08 0.70 0.89 1.06 1.58 1.62 1.08 0.58

1962 1.23 1.48 0.73 0.64 1.01 0.89 0.86 1.00 1.42 1.67 1.13 0.56

1963 1.27 1.39 0.51 0.96 1.10 0.71 0.87 1.15 1.33 1.67 1.11 0.53

1964 1.30 1.51 0.78 0.56 0.91 0.94 1.13 0.93 1.22 1.77 0.93 0.59

1965 1.34 1.55 0.54 0.70 1.10 0.88 0.96 1.07 1.29 1.80 0.96 0.62

1966 1.28 1.27 0.49 1.03 1.10 0.72 1.11 1.03 1.31 1.77 0.88 0.81

Media 1.35 1.44 0.54 0.76 1.15 0.84 0.91 1.05 1.45 1.71 1.03 0.60

Page 110: Statistic A

111

În exemplul nostru media celor 12 coeficienţi intermediari este 0,76. Împărţim, deci, fiecare indice la 0,76 şi obţinem cei 12 indici definitivi: LunaAnul

I II III IV V VI VII VIII IX X XI XII

i.sezonier 1,31 1,67 0,88 0,68 0,79 0,66 0,60 0,63 0,92 1,55 1,59 0,96

Dacă vom compara aceşti indici cu cei obţinuţi prin metoda rapoartelor la tendinţă (tab. 6.4.) vom constata că rezultatele celor două metode sunt destul de apropiate. Se observă, totuşi, că, excepţie făcând lunile februarie şi martie, indicii obţinuţi prin metoda rapoartelor la tendinţă sunt ceva mai mici decât cei obţinuţi prin metoda lanţurilor de rapoarte. Acest lucru se datorează faptului că trendul seriei originare nu este liniar, ci este uşor exponenţial negativ (vezi fig.6.10). 3° Desezonalizarea seriilor cronologice. Odată calculaţi indicii sezonieri pentru fiecare unitate de timp din perioada de bază a mişcării sezoniere (în cazul nostru, pentru fiecare lună din an), eliminarea componentei sezoniere este relativ simplă. În funcţie de tipul indicelui sezonier calculat, desezonalizarea se realizează astfel: • dacă indicele este exprimat în valori absolute, cum sunt diferenţele algebrice absolute dintre media generală şi mediile lunare multianuale, atunci desezonalizarea se face însumând algebric fiecare termen al seriei originare cu diferenţa corespunzătoare lunii din care face parte termenul respectiv. Spre exemplu, numărul de căsătorii din luna decembrie 1958 este 9126; media multianuală a lunii decembrie este de 8124 căsătorii; media generală a seriei este de 9016 căsătorii (vezi tab. 6.1.); diferenţa dintre media generală şi media multianuală a lunii decembrie: 9016-8124 = +892 (vezi tab. 6.3.). Valoarea desezonalizată a lunii decembrie 1958 va fi: 9126+(+892) = 10018 căsătorii. • dacă indicele este obţinut ca un raport, deci este exprimat sub formă de proporţie, atunci desezonalizarea se face prin împărţirea fiecărui termen al seriei originare la indicele sezonier al lunii aferente. De exemplu, numărul de căsătorii din luna ianuarie 1957 a fost 13583 (vezi tab. 6.1.); indicele sezonier al lunii ianuarie, calculat prin metoda lanţurilor de rapoarte, este 1,31 (vezi tabelul indicilor sezonieri). Valoarea desezonalizată a lunii ianuarie 1957 va fi: 13583/1,31 = 10368 căsătorii. * * * Analiza unei serii cronologice constituie, statistic vorbind, o întreprindere destul de dificilă. şi aceasta nu numai ca volum de muncă pretins de aplicarea metodelor specifice de analiză, ci şi legat de intuiţia şi experienţa pretinse cercetătorului, de interpretarea rezultatelor analizei, de fiabilitatea prognozelor care, în mod normal, finalizează o asemenea analiză. De aceea enumerăm, în final, câteva aspecte de ordin practic ce trebuie avute în vedere atunci când se procedează la studiul unei serii cronologice (Chadule, 1974): • seria studiată trebuie să fie suficent de lungă. O serie cu mai puţin de 30 de termeni nu se pretează, practic, la o analiză concluzivă pentru fenomenul studiat;

Page 111: Statistic A

112

• analiza unei serii de timp presupune parcurgerea obligatorie a unor etape de lucru ce se succed într-o anumită ordine (vezi organigrama din fig.6.12), aceasta pentru a evita nişte erori grosiere în interpretarea rezultatelor; • verificarea caracterului aleator este foarte importantă: trebuie avut în vedere faptul că testele uzuale nu sunt prea puternice, astfel încât nu strică nişte precauţii suplimentare la luarea deciziei; • extrapolarea în viitor atendinţelor observate este o problemă extrem de delicată , care necesită informaţii suplimentare din domenii

care, aparent, nu au nici o legătură cu fenomenul studiat. Trebuie ţinut minte că o prognoză este cu atât mai precisă, cu cât intervalul de prognoză este mai scurt; în plus, modelul adoptat pentru tendinţa generală a seriei trebuie verificat prin aşa-numita „retroprognoză”, adică extrapolarea tendinţei observate pentru un interval de timp situat înaintea celui acoperit de seria studiată (numai că în acest caz valorile calculate pot fi comparate cu cele observate în intervalul respectiv).

Fig.nr.6.12. Organigrama pentru analiza unei serii cronologice.

Page 112: Statistic A

113

BIBLIOGRAFIE ABLER, R., ADAMS, J. S., GOULD, P. (1971) - Spatial Organization. The Geographer's View

of the World, Prentice Hall, London. BEGUIN, H. (1979) - Méthodes d'analyse géographique quantitative, Librairies Techniques

(LITEC), Paris. CALOT, G. (1973) - Cours de Statistique descriptive, Dunod, Paris. CHADULE (group) (1974) - Iniation aux méthodes statistiques en géographie, Masson, Paris. CHAPOT, M., DAUPHINÉ, A. şi alţii (1977) - L'Analyse spatiale. Forme et validité des

démarches nouvelles en géographie, Cahier de l'IDRESS, Paris, février. GREGORY, S. (1968) - Statistical Methods and the Geographer, second edition, Longman,

London. GRISOLET, H., GUILMET, B., ARLÊRY, R. (1973) - Climatologie. Méthodes et pratiques,

Gauthier-Villars, Paris. JOHNSTON, R.J. (1978) - Multivariate Statistical Analysis in Geography. A Primer on the

General Liniar Model, Longman. POROJAN, D. (1993) - Statistica şi teoria sondajului, Casa de Editură şi Presă „Şansa” SRL,

Bucureşti. RACINE, J.B., REYMOND, H. (1973) - L'Analyse quantitative en géographie, Presses

Universitaires de France, Paris. SANDERS, L. (1989) - L'Analyse statistique des données en géographie, Alidade - G.I.P.

RECLUS, Montpellier. SPIEGEL, M. R. (1972) - Théorie et applications de la statistique, Série SCHAUM, McGraw

Hill, Paris. TIDSWELL, W. V., BARKER, S. M. (1971) - Quantitative Methods. An Approach to Socio-

Economic Geography, University Tutorial Press LTD, London. TREBICI, V. (coord.) (1985) - Mică enciclopedie de Statistică, Ed. ştiinţifică şi

Enciclopedică, Bucureşti.

Page 113: Statistic A

114

Anexa I VALORILE FUNCŢIEI DE REPARTIŢIE A DISTRIBUŢIEI NORMALE NORMATE

u ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09 0,0 5000 5040 5080 5120 5160 5199 5239 5279 5319 5359 0,1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5735

0,2 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141

0,3 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517

0,4 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879

0,5 6915 6950 6985 7019 7054 7088 7123 7157 7190 7224

0,6 7257 7291 7324 7357 7380 7422 7454 7486 7517 7549

0,7 7580 7611 7642 7673 7704 7734 7764 7794 7823 7852

0,8 7881 7910 7939 7967 7995 8023 8051 8078 8106 8133

0,9 8159 8186 8212 8238 8264 8289 8315 8340 8365 8389

1,0 8413 8438 8461 8485 8508 8531 8554 8577 8599 8621

1,1 8643 8665 8686 8708 8729 8749 8770 8790 8810 8830

1,2 8849 8869 8888 8907 8925 8944 8962 8980 8997 9015

1,3 9032 9049 9066 9082 9099 9115 9131 9147 9162 9177

1,4 9192 9207 9222 9236 9251 9265 9279 9292 9306 9319

1,5 9332 9345 9357 9370 9382 9394 9406 9418 9429 9441

1,6 9452 9463 9474 9484 9495 9505 9515 9525 9535 9545

1,7 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633

1,8 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706

1,9 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767

2,0 9772 9778 9783 9788 9793 9798 9803 9808 9812 9817

2,1 9821 9826 9830 9834 9838 9842 9846 9850 9854 9857

2,2 9861 9864 9868 9871 9875 9878 9881 9884 9887 9890

2,3 9893 9896 9898 9901 9904 9906 9909 9911 9913 9916

2,4 9918 9920 9922 9925 9927 9929 9931 9932 9934 9936

2,5 9938 9940 9941 9943 9945 9946 9948 9949 9951 9952

2,6 9953 9955 9956 9957 9959 9960 9961 9962 9963 9964

2,7 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974 2,8 9974 9975 9976 9977 9977 9978 9979 9979 9980 9981

2,9 9981 9982 9982 9983 9984 9984 9985 9985 9986 9986

3,0 9987 9987 9987 9988 9988 9989 9989 9989 9990 9990

3,1 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993

3,2 9993 9993 9994 9994 9994 9994 9994 9995 9995 9995 Din tabel se poate afla probabilitatea (înmulţită cu 10.000) unei valori mai mici, sau cel mult egale cu u (deci o probabilitate cumulată ascendent). Utilizarea tabelului presupune standardizarea prealabilă a valorii x: (x-)/σ. Exemple de utilizare: • pentru u = +0,52, probabilitatea f(u) = 0,6950. • pentru u = -0,52, probabilitatea f(u) = 1 - 0,6950 = 0,3050.

• pentru f(u) = 0,9750, u = 1,96, deci x = 1,96σ + X .

• pentru f(u) = 0,3527 (nu apare în tabel), 1 - f(u) = 0,6473, iar u ≈ -0,38; deci x = -0,58σ + X

Page 114: Statistic A

115

Anexa II SUPRAFEŢE SUB CURBA NORMALĂ

z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09 0,0 0000 0040 0080 0120 0159 0199 0239 0279 0319 0359 0,1 0398 0438 0178 0517 0557 0596 0636 0675 0714 0753 0,2 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141 0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517 0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1879 0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224 0,6 2257 2291 2324 2357 2389 2422 2454 2486 2518 2549 0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852 0,8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133 0,9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3389 1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621 1,1 3643 3665 3686 3718 3729 3749 3770 3790 3810 3830 1,2 3849 3869 3888 3907 3925 3944 3962 6980 3997 4015 1,3 4032 4049 4066 4083 4099 4115 4131 4147 4162 4177 1,4 4192 4207 4222 4236 4251 4265 4279 4292 4306 4319 1,5 4332 4345 4357 4370 4382 4394 4406 4418 4430 4441 1,6 4452 4463 4474 4485 4495 4505 4515 4525 4535 4545 1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633 1,8 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706 1,9 4613 4719 4726 4732 4738 4744 4750 4758 4762 4767 2,0 4773 4778 4783 4788 4793 4798 4803 4808 4812 4817 2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857 2,2 4861 4865 4808 4871 4875 4878 4881 4884 4887 4890 2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916 2,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936 2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952 2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964 2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974 2,8 4974 4975 4976 4977 4977 4978 4979 4980 4980 4981 2,9 4981 4982 4983 4984 4984 4984 4985 4985 4986 4986 3,0 4986 4987 4987 4988 4988 4988 4989 4989 4989 4990 3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993

În tabel apar suprafeţele (probabilităţile) sub curba normală, înmulţite cu 10.000, care corespund distanţelor, exprimate în număr de devIaşii standard (zσ), dintre medie şi o valoare dată x (este necesară, deci, standardizarea prealabilă a acesteia din urmă). Exemple de utilizare: • pentru z = 1,45, suprafaţa cuprinsă între medie şi x este 0,4265 = 42,65%, x fiind situat în dreapta (deci este mai mare) faţă de medie. • pentru z = -1,45, suprafaţa este aceeaşi, dar x este situat în stânga (deci este mai mic) faţă de medie. • pentru un interval care se extinde de o parte şi de alta a mediei, până la o distanţă zσ, suprafaţa corespunzătoare este dublul valorii citite în tabel.

Page 115: Statistic A

116

Anexa III VALORILE CRITICE ALE DISTRIBUŢIEI „t” PENTRU DIFERITE NIVELE DE SEMNIFICAŢI E

g.l. ¯

Nivelul de semnificaţie pentru testul unilateral

0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,0005 Nivelul de semnificaţie pentru testul bilateral 0,30 0,20 0,10 0,05 0,02 0,01 0,005 0,001 2 1,061 1,886 2,920 4,303 6,965 9,925 14,089 31,598 3 0,978 1,638 2,353 3,182 4,541 5,481 7,453 12,941 4 0,941 1,533 2,132 2,776 3,747 4,604 5,598 8,610 5 0,920 1,476 2,015 2,571 3,365 4,032 4,773 6,859 6 0,906 1,440 1,943 2,447 3,143 3,707 4,317 5,959 7 0,896 1,415 1,895 2,365 2,998 3,499 4,029 5,405 8 0,889 1,397 1,860 2,306 2,896 3,355 3,832 5,041 9 0,883 1,383 1,833 2,262 2,821 3,250 3,690 4,781 10 0,879 1,372 1,812 2,228 2,764 3,169 3,581 4,587 11 0,876 1,363 1,796 2,201 2,718 3,106 3,497 4,437 12 0,873 1,356 1,782 2,179 2,681 3,055 3,428 4,318 13 0,870 1,350 1,771 2,160 2,650 3,012 3,372 4,221 14 0,868 1,345 1,761 2,145 2,624 2,977 3,326 4,140 15 0,866 1,341 1,753 2,131 2,602 2,947 3,286 4,073 16 0,865 1,337 1,746 2,120 2,583 2,921 3,252 4,015 17 0,863 1,333 1,740 2,110 2,567 2,898 3,222 3,965 18 0,862 1,330 1,734 2,101 2,552 2,878 3,197 3,922 19 0,861 1,328 1,729 2,093 2,539 2,861 3,174 3,883 20 0,860 1,325 1,725 2,086 2,528 2,845 3,153 3,850 21 0,859 1,323 1,721 2,080 2,518 2,831 3,135 3,819 22 0,858 1,321 1,717 2,074 2,508 2,819 3,119 3,792 23 0,858 1,319 1,714 2,069 2,500 2,807 3,104 3,767 24 0,857 1,318 1,711 2,064 2,492 2,797 3,090 3,745 25 0,856 1,316 1,708 2,060 2,485 2,787 3,078 3,725 26 0,856 1,315 1,706 2,056 2,479 2,779 3,067 3,707 27 0,855 1,314 1,703 2,052 2,473 2,771 3,056 3,690 28 0,855 1,313 1,701 2,048 2,467 2,763 3,047 3,674 29 0,854 1,311 1,699 2,045 2,462 2,756 3,038 3,659 30 0,854 1,310 1,697 2,042 2,457 2,750 3,030 3,646 40 0,851 1,303 1,684 2,021 2,423 2,704 2,971 3,551 60 0,848 1,296 1,671 2,000 2,390 2,660 2,915 3,460 120 0,845 1,289 1,658 1,980 2,358 2,617 2,860 3,373 ¥ 0,841 1,281 1,645 1,960 2,326 2,576 2,807 3,290

Page 116: Statistic A

117

Anexa IV VALORILE CRITICE ALE DISTRIBUŢIEI „F” (FISHER-SNEDECOR) pentru nivelul de semnificaţie α = 0,01. v1

v2 1 2 3 4 5 6 7 8 12 24 ¥

1 4052 4999 5403 5625 5764 5859 5930 5981 6106 6234 63666 2 98,49 99,00 99,17 99,25 99,30 99,33 99,34 99,36 99,42 99,46 99,50 3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,05 26,60 26,14 4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,37 13,93 13,48 5 16,26 13,27 12,06 11,39 10,97 10,67 10,45 10,27 9,89 9,47 9,04 6 13,74 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,72 7,31 6,90 7 12,25 9,55 8,45 7,85 7,46 7,19 7,00 6,84 6,47 6,07 5,67 8 11,26 8,65 7,59 7,01 6,63 6,37 6,19 6,03 5,67 5,28 4,88 9 10,56 8,02 6,99 6,42 6,06 5,80 5,62 5,47 5,11 4,73 4,33 10 10,04 7,56 6,55 5,99 5,64 5,39 5,21 5,06 4,71 4,33 3,93 11 9,65 7,20 6,22 5,67 5,32 5,07 4,88 4,74 4,40 4,02 3,62 12 9,33 6,93 5,95 5,41 5,06 4,82 4,65 4,50 4,16 3,78 3,38 13 9,07 6,70 5,74 5,20 4,86 4,62 4,44 4,30 3,96 3,59 3,18 14 8,86 6,51 5,56 5,03 4,69 4,46 4,28 4,14 3,80 3,43 3,02 15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,67 3,29 2,89 16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,55 3,18 2,77 17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,45 3,08 2,67 18 8,28 6,01 5,09 4,58 4,25 4,01 3,85 3,71 3,37 3,00 2,59 19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,30 2,92 2,51 20 8,10 5,85 4,94 4,43 4,10 3,87 3,71 3,56 3,23 2,86 2,44 21 8,02 5,78 4,87 4,37 4,04 3,81 3,65 3,51 3,17 2,80 2,38 22 7,94 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,12 2,75 2,33 23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,07 2,70 2,28 24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,03 2,66 2,23 25 7,77 5,57 4,68 4,18 3,86 3,63 3,46 3,32 2,99 2,62 2,19 26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 2,96 2,58 2,15 27 7,68 5,49 4,60 4,11 3,79 3,56 3,39 3,26 2,93 2,55 2,12 28 7,64 5,45 4,57 4,07 3,76 3,53 3,36 3,23 2,90 2,52 2,09 29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 2,87 2,49 2,06 30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 2,84 2,47 2,03 40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,66 2,29 1,84 50 7,17 5,06 4,20 3,72 3,41 3,18 3,02 2,88 2,56 2,18 1,71 100 6,90 4,82 3,98 3,51 3,20 2,99 2,82 2,69 2,36 1,98 1,46 ¥ 6,64 4,60 3,78 3,32 3,02 2,80 2,66 2,51 2,18 1,79 1,00

v1 - numărul gradelor de libertate pentru cea mai mică dintre cele două varianţe estimate; v2 - numărul gradelor de libertate pentru cea mai mare dintre cele două varianţe estimate.

Page 117: Statistic A

118

Anexa V VALORILE CRITICE ALE DISTRIBUŢIEI „F” (FISHER-SNEDECOR) pentru nivelul de semnificaţie α = 0,05. v1

v2 1 2 3 4 5 6 7 8 12 24 ∞

1 161,4 199,5 215,7 224,6 230,2 234,0 238,9 239,0 243,9 249,0 254,3 2 18,51 19,00 19,16 19,25 19,30 19,33 19,36 19,37 19,41 19,45 19,50 3 10,13 9,55 9,28 9,12 9,01 8,94 8,88 8,84 8,74 8,64 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,91 5,77 5,63 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,68 4,53 4,36 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,00 3,84 3,67 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,57 3,41 3,23 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,28 3,12 2,93 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,07 2,90 2,71 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,91 2,74 2,54 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,79 2,61 2,40 12 4,75 3,88 3,49 3,26 3,11 3,00 2,92 2,85 2,69 2,50 2,30 13 4,67 3,80 3,41 3,18 3,02 2,92 2,84 2,77 2,60 2,42 2,21 14 4,60 3,74 3,34 3,11 2,96 2,85 2,77 2,70 2,53 2,35 2,13 15 4,54 3,68 3,29 3,06 2,90 2,79 2,70 2,64 2,48 2,29 2,07 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,42 2,24 2,01 17 4,45 3,59 3,20 2,96 2,81 2,70 2,62 2,55 2,38 2,19 1,96 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,34 2,15 1,92 19 4,38 3,52 3,13 2,90 2,74 2,63 2,55 2,48 2,31 2,11 1,88 20 4,35 3,49 3,10 2,87 2,71 2,60 2,52 2,45 2,28 2,08 1,84 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,25 2,05 1,81 22 4,30 3,44 3,05 2,82 2,66 2,55 2,47 2,40 2,23 2,03 1,88 23 4,28 3,42 3,03 2,80 2,64 2,53 2,45 2,38 2,20 2,00 1,76 24 4,26 3,40 3,01 2,78 2,62 2,51 2,43 2,36 2,18 1,98 1,73 25 4,24 3,38 2,99 2,76 2,60 2,49 2,41 2,34 2,16 1,96 1,71 26 4,22 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,15 1,95 1,69 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,30 2,13 1,93 1,67 28 4,20 3,34 2,95 2,71 2,56 2,44 2,36 2,29 2,12 1,91 1,65 29 4,18 3,33 2,93 2,70 2,54 2,43 2,35 2,28 2,10 1,90 1,64 30 4,17 3,32 2,92 2,69 2,53 2,42 2,34 2,27 2,09 1,89 1,62 40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,00 1,79 1,51 50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 1,95 1,74 1,46 60 4,00 3,15 2,76 2,52 2,37 2,25 2,17 2,10 1,92 1,70 1,39 100 3,94 3,09 2,70 2,46 2,30 2,19 2,10 2,03 1,85 1,63 1,30 120 3,92 3,07 2,68 2,44 2,29 2,17 2,08 2,01 1,83 1,60 1,25 ¥ 3,84 2,99 2,60 2,37 2,21 2,09 2,01 1,94 1,75 1,52 1,00

v1 - numărul gradelor de libertate pentru cea mai mică dintre cele două varianţe estimate; v2 - numărul gradelor de libertate pentru cea mai mare dintre cele două varianţe estimate.

Page 118: Statistic A

119

Anexa VI VALORILE CRITICE ALE DISTRIBUŢIEI χ²

v

Nivelul de semnificaţie α

0,50 0,30 0,10 0,05 0,025 0,01 0,001 2 1,39 2,41 4,61 5,99 7,3 9,2 13,8 3 2,37 3,67 6,25 7,81 9,3 11,3 16,3 4 3,36 4,88 7,78 9,49 11,1 13,3 18,5 5 4,35 6,06 9,24 11,10 12,8 15,1 20,5 6 5,35 7,23 10,60 12,60 14,4 16,8 22,5 7 6,35 8,38 12,00 14,10 16,0 18,5 24,3 8 7,34 9,52 13,40 15,50 17,5 20,1 26,1 9 8,34 10,70 14,70 16,90 19,0 21,7 27,9 10 9,34 11,80 16,00 18,30 20,5 23,2 29,6 11 10,30 12,90 17,30 19,70 21,9 24,7 31,3 12 11,30 14,00 18,50 21,00 23,3 26,2 32,9 13 12,30 15,10 19,80 22,40 24,7 27,7 34,5 14 13,30 16,20 21,10 23,70 26,1 29,1 36,1 15 14,30 17,30 22,30 25,00 27,5 30,6 37,7 16 15,30 18,40 23,50 26,30 28,8 32,0 39,3 17 16,30 19,50 24,80 27,60 30,2 33,4 40,8 18 17,30 20,60 26,00 28,90 31,5 34,8 42,3 19 18,30 21,70 27,20 30,10 32,9 36,2 43,8 20 19,30 22,80 28,40 31,40 34,2 37,6 45,3 21 20,30 23,90 29,60 32,70 35,5 38,9 46,8 22 21,30 24,90 30,80 33,90 36,8 40,3 48,3 23 22,30 26,00 32,00 35,20 38,1 41,6 49,7 24 23,30 27,10 33,20 36,40 39,4 43,0 51,2 25 24,30 28,20 34,40 37,70 40,6 44,3 52,6 26 25,30 29,20 35,60 38,90 41,9 45,6 54,1 27 26,30 30,30 36,70 40,10 43,2 47,0 55,5 28 27,30 31,40 37,90 41,30 44,5 48,3 56,9 29 28,30 32,50 39,10 42,60 45,7 49,6 58,3 30 29,30 33,50 40,30 43,80 47,0 50,9 59,7 40 39,30 44,20 51,80 55,85 59,3 63,7 73,4 50 49,30 54,70 63,20 67,50 71,4 76,2 86,7 60 59,30 65,20 74,40 79,10 83,3 88,4 99,6 70 69,30 75,10 85,50 90,50 95,0 100,4 112,3 80 79,30 86,10 96,60 101,90 106,6 112,3 124,8 90 89,30 96,50 107,60 113,10 118,1 124,1 137,2 100 99,30 106,90 118,50 124,30 129,6 135,8 149,4

v - numărul gradelor de libertate pentru statistica χ².

Page 119: Statistic A

120

Anexa VII TABELUL DIFERENŢELOR MAXIME δmax PENTRU TESTUL KOLMOGOROV-SMIRNOV

n

Nivelul de semnificaţie α n

Nivelul de semnificaţie α

0,10 0,05 0,01 0,10 0,0,5 0,01 1 0,950 0,975 0,995 13 0,325 0,361 0,433 2 0,776 0,842 0,929 14 0,314 0,349 0,418 3 0,642 0,708 0,828 15 0,304 0,338 0,404 4 0,564 0,624 0,733 16 0,295 0,328 0,392 5 0,510 0,565 0,669 17 0,286 0,318 0,381 6 0,470 0,521 0,618 18 0,278 0,309 0,371 7 0,438 0,486 0,577 19 0,272 0,301 0,363 8 0,411 0,457 0,543 20 0,264 0,294 0,356 9 0,388 0,432 0,514 25 0,24 0,27 0,32 10 0,368 0,410 0,490 30 0,22 0,24 0,29 11 0,352 0,391 0,468 35 0,21 0,23 0,27 12 0,338 0,375 0,450 >351 1,22/Φ 1,36/Φ 1,63/Φ

n - volumul eşantionului (cazul testului de concordanţă ) sau al eşantioanelor (cazul testului de comparare a două distribuţii empirice, eşantioanele având acelaşi volum n1=n2=n). 1 la testele de comparare, pentru volume n ale eşantioanelor mai mari de 35, se poate lucra şi cu eşantioane de volume inegale; în acest caz se ia în considerare volumul total al celor două eşantioane, diferenţa maximă teoretică fiind calculată cu ajutorul relaţiilor de mai jos (pentru testul bilateral):

• n.s. α = 0,05 --> δmax = 1,36 n2n1

n2+n1*

• n.s. α = 0,01 --> δmax = 1,63 n2n1

n2+n1*

• n.s. α = 0,001 --> δmax = 1,95 n2n1

n2+n1*

Page 120: Statistic A

121

Anexa VIIIa VALORILE-LIMITĂ ALE LUI r pentru diferite nivele de semnificaţie

g.l.

Nivelul de semnificaţie α

g.l.

Nivelul de semnificaţie α

0,10 0,05 0,01 0,10 0,05 0,01 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

0,9877 0,9000 0,8054 0,7293 0,6694 0,6215 0,5822 0,5494 0,5214 0,4973 0,4762 0,4575 0,4409 0,4245 0,4124

0,9969 0,9500 0,8783 0,8114 0,7545 0,7067 0,6664 0,6319 0,6021 0,5760 0,5529 0,5324 0,5139 0,4973 0,4821

0,9995 0,9800 0,9343 0,8822 0,8329 0,7887 0,7498 0,7155 0,6851 0,6581 0,6339 0,6120 0,5923 0,5742 0,5577

16 17 18 19 20 25 30 35 40 45 50 60 70 80 100

0,4000 0,3887 0,3783 0,3687 0,3598 0,3233 0,2960 0,2746 0,2573 0,2428 0,2306 0,2108 0,1954 0,1829 0,1638

0,4683 0,4555 0,4438 0,4329 0,4227 0,3809 0,3494 0,3246 0,3044 0,2875 0,2732 0,2500 0,2319 0,2172 0,1946

0,5425 0,5285 0,5155 0,5034 0,4921 0,4451 0,4093 0,3810 0,3578 0,3384 0,3218 0,2948 0,2737 0,2565 0,2301

Tabelul cuprinde valorile minime, statistic semnificative, ale coeficientului de corelaţie liniară simplă r; dacă r calculat este mai mare decât r din tabel, atunci se poate afirma (cu un risc de eroare egal cu α) că între cele două variabile există o corelaţie liniară semnificativă. În tabel se intră cu numărul gradelor de libertate, care în acest caz va fi: g.l. = n - 2 (n - numărul de perechi de valori). Anexa VIIIb VALORILE-LIMITĂ ALE COEFICIENTULUI ρ AL LUI SPEARMAN

α n

0,05 0,01 α n

0,05 0,01

4 5 6 7 8 9 10 12 14 16 18 20 22

1,00 0,90 0,83 0,71 0,64 0,60 0,56 0,51 0,46 0,42 0,40 0,38 0,36

- 1,00 0,94 0,89 0,83 0,78 0,75 0,71 0,64 0,60 0,56 0,53 0,51

24 26 28 30 35 40 45 50 55 60 70 80 100

0,34 0,33 0,32 0,31 0,28 0,26 0,25 0,24 0,22 0,21 0,20 0,19 0,17

0,49 0,47 0,45 0,43 0,40 0,37 0,35 0,33 0,32 0,30 0,28 0,26 0,23

n - numărul de perechi de valori. În tabel se intră direct cu numărul de perechi de valori, iar semnificaţia statistică a coeficientului ρ calculat se face la fel ca la Anexa VIIIa.

Page 121: Statistic A

122

Anexa IX TABEL CU NUMERE ALEATOARE (FRAGMENT)

Rândul

Coloana

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5

87 35 25 52 87 17 05 04 81 16

67 44 29 67 83 31 40 35 09 21

51 49 35 99 25 59 72 95 91 71

18 98 48 88 87 48 48 56 29 76

97 84 40 68 25 80 77 57 54 01

75 22 63 68 24 08 63 19 53 17

53 29 82 39 81 45 80 16 30 67

10 52 38 47 21 32 48 52 62 95

26 87 91 39 90 08 06 47 56 58

54 92 11 00 44 31 64 98 10 91

6 7 8 9 10

54 85 44 78 97 20 98 77 78 12

78 88 19 18 98 97 57 51 77 30

57 91 35 40 37 33 40 41 83 30

11 69 27 66 93 75 76 21 59 28

10 22 89 72 18 88 18 54 73 33

71 87 21 17 35 85 60 61 47 07

24 92 71 69 46 05 79 13 60 07

52 64 95 17 07 20 94 57 45 38

42 82 97 17 08 17 50 73 82 10

78 95 62 60 66 24 89 68 73 19

11 12 13 14 15

41 19 70 64 06 56 29 46 42 14

70 62 30 55 09 89 18 28 55 51

43 46 67 46 68 87 08 88 72 95

06 13 95 79 79 19 48 56 29 25

22 38 63 66 35 94 49 44 15 18

31 18 82 56 66 18 67 82 25 68

61 60 67 10 17 91 72 67 48 92

07 14 76 77 72 81 28 83 87 16

49 16 03 22 72 77 10 26 78 43

28 16 42 18 92 39 58 13 17 47

16 17 18 19 20

33 75 09 80 98 31 51 70 27 83

87 15 99 61 57 50 52 55 61 07

15 23 98 08 85 80 83 12 49 05

13 79 34 11 53 39 95 02 46 20

62 73 88 79 05 92 79 11 35 78

76 69 08 32 54 42 49 79 31 34

09 77 46 78 29 01 87 95 12 50

82 65 35 58 35 23 98 48 68 11

72 47 44 16 09 81 88 68 42 14

59 56 12 23 96 64 64 77 29 77

21 22 23 21 25

78 84 22 12 69 41 54 99 99 91

69 15 89 66 59 54 46 54 82 79

64 42 49 09 82 72 51 38 92 62

92 39 99 10 44 66 59 07 44 24

36 08 62 53 64 03 64 21 01 34

56 39 19 31 76 59 81 17 45 16

35 02 81 83 12 12 88 47 33 56

92 78 50 43 41 56 23 05 17 78

46 63 37 42 34 90 63 43 42 86

82 98 10 00 26 06 08 67 70 94

26 27 28 29 30

54 96 88 37 49 40 21 18 06 31

58 70 31 01 84 90 87 99 99 51

68 38 58 97 19 91 98 48 27 13

48 37 65 10 75 41 38 12 43 21

08 25 96 97 55 63 64 18 07 55

51 28 32 75 98 25 78 50 90 35

42 09 65 73 01 69 43 97 29 84

45 96 06 01 29 57 04 07 08 70

78 84 60 19 72 77 85 18 66 03

34 59 68 10 75 95 98 87 18 96

31 32 33 34 35

58 56 83 00 51 45 90 55 68 65

75 14 61 74 05 35 27 93 05 79

19 32 76 68 16 73 33 06 82 57

35 15 58 67 80 43 76 42 78 22

47 05 31 58 44 64 16 08 37 41

38 54 77 93 19 14 16 81 82 44

92 08 92 44 52 22 86 15 07 43

08 72 94 16 81 62 09 79 98 89

79 66 01 29 79 68 30 86 78 23

65 20 32 19 13 37 74 77 96 04

36 37 38 39 40

51 84 85 23 31 95 91 55 46 80

34 98 92 01 14 27 02 31 10 25

03 38 84 05 80 20 42 31 92 61

87 12 83 64 36 96 54 72 83 83

79 88 12 95 81 84 45 32 58 58

57 88 51 44 88 55 43 76 71 46

46 81 60 64 50 47 89 95 29 95

62 56 68 86 22 39 74 04 72 38

94 91 53 05 70 56 79 33 89 05

06 59 26 16 66 41 46 91 26 05

41 42 43 44 45

07 78 48 69 70 69 98 63 76 50

66 31 61 99 68 47 62 58 34 97

63 37 15 93 02 10 95 62 87 14

30 38 98 43 60 99 61 53 65 07

95 57 38 84 02 84 28 49 59 45

84 99 46 49 41 36 20 20 02 56

85 32 84 89 81 65 21 49 89 50

91 28 44 51 44 08 45 35 85 03

06 85 75 42 49 93 01 57 42 65

67 13 45 17 49 62 45 64 07 35

46 47 48 49 50

23 47 18 38 93 93 65 23 77 19

83 35 27 88 51 63 13 22 27 34

73 08 50 09 96 33 01 10 65 55

83 52 58 11 82 81 20 01 62 52

47 19 96 83 58 02 11 15 47 73

79 85 05 86 19 36 36 43 09 34

26 07 49 61 55 80 49 49 58 38

53 80 35 03 74 84 19 24 28 28

00 33 46 63 14 63 77 70 18 15

18 07 88 48 79 22 95 08 82 65

Page 122: Statistic A

123


Recommended