i Mk Statistica Spataru 2012-2013

UNIVERSITATEA “EFTIMIE MURGU” REŞIŢA

DEPARTAMENTUL DE INVĂŢĂMÂNT LA DISTANŢĂ

STATISTICĂ

prof. univ.dr. LIVIU SPĂTARU

2014

CUPRINS

Unitate de

învăţare

Titlul Pagina

1. INTRODUCERE ÎN STATISTICĂ 7

1.1 Obiectivele unităţii de învăţare Nr.1 71.2 Apariţia şi dezvoltarea. Obiect. Metodă. 71.3 Teste de evalure 1 a unităţii de învăţare Nr.1 101.4 Rezumat 101.5 Bibliografia unităţii de învăţare 10

2.DEFINIREA PRINCIPALELOR CONCEPTE FOLOSITE ÎN STATISTICĂ. LIMBAJUL STATISTIC 11

2.1 Obiectivele unităţii de învăţare Nr.2 112.2 Concepte de bază utilizate în statistică 112.3 Teste de evalure 1 a unităţii de învăţare Nr.2 132.4 Rezumat 132.5 Bibliografia unităţii de învăţare 13

3. OBSERVAREA STATISTICĂ 153.1. Obiectivele unităţii de învăţare Nr.3 153.2. Locul şi rolul observării statistice. Metode de observare. Eroarea

statistică15

3.3. Teste de evalure 1 a unităţii de învăţare Nr.3 223.4. Rezumat 223.5. Bibliografi unitatii de invatare Nr. 4 23

4. PRELUCRAREA DATELOR STATISTICE 244.1. Obiectivele unităţii de învăţare Nr.4 254.2. Planul prelucrării. Tehnici de prelucrare. Centralizare. Metoda

grupării.25

4.3. Teste de evalure 1 a unităţii de învăţare Nr.4 294.4. Rezumat 304.5. Bibliografia unităţii de învăţare 30

TEMA DE CONTROL NR. 1 (TC1)

GRUPAREA DATELOR STATISTICE

30

5. CLASIFICAREA ŞI GRUPAREA STATISTICĂ – PRINCIPALELE TEHNICI DE ORGANIZARE A DATELOR ÎN VEDEREA PRELUCRĂRII

31

5.1. Obiectivele unităţii de învăţare Nr.5 315.2. Generalităţi. Clasificare. Modalităţi de obţinere a grupării 315.3. Teste de evalure 1 a unităţii de învăţare Nr.5 365.4. Rezumat 36

2

5.5. Bibliografia unităţii de învăţare 366. INDICATORI STATISTICI 37

6.1. Obiectivele unităţii de învăţare Nr.6 376.2. Mărimile relative 376.3. Teste de evalure 1 a unităţii de învăţare Nr.6 416.4. Rezumat 416.5. Bibliografia unităţii de învăţare 41

7. MĂRIMILE MEDII. MEDIA CA INDICATOR STATISTIC ESENŢIAL

43

7.1. Obiectivele unităţii de învăţare Nr.7 437.2. Mărimile medii 437.3. Teste de evalure 1 a unităţii de învăţare Nr.7 457.4. Rezumat 477.5. Bibliografia unităţii de învăţare 48

8. SERII DE REPARTIŢIE DE FRECVENŢE 498.1. Obiectivele unităţii de învăţare Nr.8 498.2. Indicatori ai tendinţei centrale 498.3. Teste de evalure 1 a unităţii de învăţare Nr.8 528.4. Rezumat 548.5. Bibliografia unităţii de învăţare 55

9. VARIAŢIA ÎN COLECTIVITĂŢILE ÎMPĂRŢITE PE GRUPE ŞI MĂSURAREA EI

57

9.1. Obiectivele unităţii de învăţare Nr.9 579.2. Indicatori ai variaţiei 579.3. Teste de evalure 1 a unităţii de învăţare Nr.9 629.4. Rezumat 669.5. Bibliografia unităţii de învăţare 66

10. METODE DE EŞANTIONARE PENTRU EFECTUAREA SONDAJELOR STATISTICE

67

10.1. Obiectivele unităţii de învăţare Nr.10 6710.2. Generalităţi. Noţiuni. Modalităţi de alcătuire a eşantioanelor 6710.3. Teste de evalure 1 a unităţii de învăţare Nr.10 7110.4. Rezumat 7110.5. Bibliografia unităţii de învăţare 72

11. ESTIMAREA MEDIEI ŞI DISPERSIEI ŞI MĂSURAREA PRECIZIEI LOR ÎN SONDAJUL STATISTIC

73

11.1. Obiectivele unităţii de învăţare Nr.11 7311.2. Sondajul. Probabilităţi şi intervalle de încredere 7311.3. Teste de evalure 1 a unităţii de învăţare Nr.11 7911.4. Rezumat 8111.5. Bibliografia unităţii de învăţare 82

TEMA DE CONTROL NR.2 (TC 2)EŞANTIONAREA SIMPLĂ ALEATOARE NEREPETATĂ.ESTIMAREA MEDIEI ŞI DISPERSIEI ÎN BAZA ACESTORA

82

12. LEGĂTURILE DINTRE VARIABILELE ECONOMICE 8312.1. Obiectivele unităţii de învăţare Nr.12 83

3

12.2. Concept. Tipuri de legături. Metode de caracterizare a legăturilor 8312.3. Teste de evalure 1 a unităţii de învăţare Nr.12 8612.4. Rezumat 8612.5. Bibliografia unităţii de învăţare 86

TEMA DE CONTROL NR. 3 (TC 3)EXPLICAŢI NATURA PRINCIPALELOR LEGĂTURI ÎNTRE VARIABILELE ECONOMICE ŞI ESENŢA ACSTORA

86

13. METODE COMPLEXE DE ANALIZĂ A LEGĂTURILOR. METODA REGRESIEI.

87

13.1. Obiectivele unităţii de învăţare Nr.13 8713.2. Metoda regresiei 8713.3. Teste de evalure 1 a unităţii de învăţare Nr.13 9113.4. Rezumat 9213.5. Bibliografia unităţii de învăţare 92

14. MĂSURAREA INTENSITĂŢII LEGĂTURILOR DINTRE VARIABILELE ECONOMICE

93

14.1. Obiectivele unităţii de învăţare Nr.14 9314.2. Indicatorii statistici ai corelaţiei 9314.3. Teste de evalure 1 a unităţii de învăţare Nr.14 10014.4. Rezumat 10114.5. Bibliografia unităţii de învăţare 102

Obiectivele cursuluiDupa finalizarea cursului, cursantii vor fi capabili sa:

utilizaze corect limbajul impus de disciplina Statistică; delimiteze corect obiectul de studiu, domeniul de cercetare, obiectivele si

metodologia implicata de disciplina Statistică; aplice tipurile de analiza specifice pe diverse situatii ; valorifice informatiile transmise prin acest material pentru dezvoltarea

competentelor proprii

Competenţe conferite Competente cognitive :

- cunoaşterea metodelor statistice ; Competente practic-aplicative :

- rezolvarea unor aplicaţii aferente cursului ; Competente de comunicare si relationare : - însuşirea limbajului specific.

Cerinte preliminareEste necesara actualizarea tuturor cunostintelor la disciplina Statistică acumulate pe parcursul studiilor anterioare.

4

Resurse si mijloace de lucruParcurgerea unitatilor de invatare necesita (sau nu) existenta unor mijloace sau instrumente speciale (laborator, software etc.). Metoda este cea a studiului individul, combinata cu metodele folosite in timpul activitatilor tutoriale (activitati desfasurate in grupe, invatarea prin cooperare, metode care vor putea fi utilizate si in propria activitate didactica, ulterioara absolvirii studiilor de licenta).

Structura cursuluiCursul este structurat pe 14 unitati de invatare, pentru fiecare fiind indicat timpul alocat studiului individual.Sunt propuse 2-3 Teme de control, plasate dupa anumite unitati de invatare, a caror rezolvare se realizeaza strict conform indicatiilor profesorului (ca manual scris/ca manual tehnoredactat) date de catre studenti tutorelui sau incarcat de catre studenti pe platforma e-learning, pana la o data prestabilita, predandu-se conform termenelor propuse in cadrul unitatilor respective (calendarului disciplinei). Rezultatele obtinute la temele de control vor fi transmise la maxim doua saptamani dupa predarea fiecaru material. Rezolvarea acestor teme este obligatorie (nepredarea atragand nefinalizrea notei ce reprezinta 30% din nota finala la aceasta disciplina).

Durata medie de studiu individualSe estimeaza 2 ore ( ca fiind necesare pentru parcurgerea unei unitati de invatare, pentru cele 14 unitati de invatare vor fi alocate 28 ore de studiu individual (SI).Recomandare : benzile goale (din stanga in special) pot fi folosite pentru adnotari facute in timpul studiului, in vederea dezbaterii in cadrul tutorialelor a eventualelor nelamuriri.

5

EvaluareaComponenta notei finale :

Ponderea evaluarii finale 70% (forma - scris) ; testul va contine pe langa subiectele propriu-zise un subiect eliminatoriu a carui cerinta va consta din (ceva specific disciplinei);

Ponderea evaluarii pe parcurs (temele de control 30%)

6

Unitatea de invatare nr.1.

INTRODUCERE ÎN STATISTICĂCuprins

1.1 Obiectivele unitatii de invatare Nr.1 71.2 Apariţia şi dezvoltarea. Obiect. Metodă. 71.3 Teste de evalure 1 a unitatii de invatare Nr.1 101.4 Rezumat 101.5 Bibliografie 1011.1. Principalele obiective ale Unităţii de învăţare nr. 1

- prezentarea istoriei ştiinţei statisticii, ca una dintre cele mai vechi şi importante ştiinţe;

- prezentarea şi însuşirea de către studenţi a definirii statisticii ca ştiinţă;- prezentarea, înţelegerea şi definirea metodologiei statistice.

Durata medie de parcurgere a unitatii de invatare este de 2 ore.

1.2 Conţinut

Capitolul 1

INTRODUCERE ÎN STATISTICĂ

1. APARIŢIA ŞI DEZVOLTAREA STATISTICII

Statistica este o ştiinţă, având un obiect propriu de studiu şi o metodologie bine dezvoltată, în multe privinţe dedicată, dar având şi puncte comune cu ale altor ştiinţe. Ea studiază aspectele cantitativ - numerice ale fenomenelor şi proceselor naturale , tehnologice şi mai ales sociale ,cu un accent deosebit pe partea economică, statistica economică având un rol bine determinat în cadrul statisticilor sociale.

Cunoaşterea şi transformarea istorică a societăţii omeneşti a constituit şi constituie obiectul primordial de preocupare al tuturor ştiinţelor.

De-a lungul evoluţiei istorice a ştiinţelor asistăm la un proces de diferenţiere a acestora, pe de o parte prin cristalizarea unor noi ramuri în cadrul ştiinţelor clasice cu metodologie în permanentă evoluţie, pe de altă parte la apariţia şi dezvoltarea unor ştiinţe noi, acest proces de diferenţiere fiind continuu şi practic infinit ,dacă procesul

7

evoluţiei umane are această caracteristică. Alături de medicină şi matematică ,statistica este una dintre cele mai vechi

ştiinţe ,cercetătorii neputând aprecia decât la scara unor aproximări grosolane care ar putea fi epoca istorică căreia omenirea îi datorează apariţia statisticii ca ştiinţă distinctă.

În cadrul evoluţiei ei ,statistica şi-a cristalizat treptat un rol aparte ,studiind fenomenele într-o viziune sistematică la nivelul micro, mezzo şi macrosistemic.

Rădăcinile istorice ale statisticii moderne sunt următoarele: a) statistica practică;b) statistica descriptivă; c) aritmetica politică; d) calculul probabilităţilor. Aritmetica politică şi calculul probabilităţilor alcătuiesc baza conceptuală a

statisticii aducând contribuţii decisive în analiza şi modul de interpretare statistică a fenomenelor naturale şi socio-economice.

a) Statistica practică: se pierd practic în timp primele izvoare ale statisticii, existând diverse forme de statistică cu o vechime de peste 4 milenii. Scopurile statisticii practice erau în primul rând fiscale dar şi cele demografice şi administrative. Astfel ,în Egiptul antic se practica inventarierea aurului şi a pământului din doi în doi ani inventariere prezentă în principal între anii 2650-2190 pe cursul Nilului inferior.

În China antică în mileniul 4 şi 3 î. Hr. se făcea recensământul populaţiei. Acelaşi recensământ al populaţiei s-a practicat şi la romani în timpul Republicii ,în jurul anului 550 î.e.n. Practic recensământul populaţiei şi al diferitelor forme ale avuţiei constituiau primele forme de statistică organizată.

b) Statistica descriptivă este cea mai veche rădăcină teoretică a statisticii. Ea a apărut în universităţi şi s-a ocupat în principal de descrierea situaţiei geografice, demografice, economice şi politice ale unui stat.

Reprezentanţii de seamă ai şcolii statisticii descriptive sunt: Francisco Sansovino (1521-1586), Giovanni Bottero (1540-1617), Herman Conring (1606-1681), acesta scriind primul curs de statistică, Gottfried Achenwall (1719-1772), considerat părintele statisticii, deoarece a dat numele acestei ştiinţe pornind de la cuvântul „status" (care în latina înseamnă "stare".)

Statistica descriptivă a determinat apariţia statisticilor naţionale în cadrul oficializat. Prima ţară în care apare statistica naţională este Suedia (1796); urmeazţ Norvegia (1797) , apoi Franţa (1800).

c) Aritmetica politică îi are ca principal reprezentant pe matematicianul şi statisticianul William Petty (1623-1687) , care în 1690 publică o carte intitulată chiar “Aritmetica politică”. Deşi coexistente în timp, aritmetica politică diferă total de statistica descriptivă ,tinzând spre exactitate şi cunoaştere socială, obiectivul ei principal constituindu-l cunoaşterea regularităţilor în evoluţia fenomenelor şi proceselor naturale şi socio-economice.

Întemeietorul şcolii aritmeticii politice este considerat John Ground (1620-1674) ,care a căutat regularităţi în mortalitatea şi natalitatea din Londra ,în jurul anului 1600.

Între 1796-1874 în Franţa trăieşte Louis Quetelet, considerat de mulţi cercetători fondatorul statisticii moderne pentru că e primul care materializează utilizarea metodelor cantitativ numerice şi analiza statistică. Caracteristic pentru statistica

8

Statistica modernă.

Rădăcinile istorice ale statisticii moderne.Baza conceptuală a statisticii.

Statistica inductivă.

din mijlocul secolului al 18-lea şi începutul secolului al 19-lea este folosirea metodei matematice şi a calcului probabilităţilor în aşa numita statistică inductivă, ai cărei promotori sunt: Fischer, Youle, Pearson, Cebâşev, Markov. Aceasta este etapa care cristalizează statistica în forma ei ştiinţifică şi în care creşte foarte mult aria de cuprindere şi aplicabilitate a acesteia.

2. OBIECTUL SI METODA STATISTICII

Principala proprietate a fenomenelor de masă este variabilitatea în timp şi spaţiu, precum şi posibilitatea apariţiei într-o multitudine de forme organizatorice.

Legea apariţiei se bazează în cazul acestor fenomene pe aşa-numita lege a numerelor mari, care presupune că pentru descoperirea legăturii dintre cauză şi efect trebuie studiată o mulţime relativ mare de evenimente distincte ale aceluiaşi fenomen sau proces, fie el natural, fie social sau economic.

Particularităţile statisticii sunt următoarele: a) statistica studiază fenomenele de masă din punctul de vedre al

variabilităţii lor în timp şi spaţiu şi sub raport organizatoric;b) caracterizează latura cantitativ-numerică a fenomenelor şi nu

ierarhizează atributele calitative ale acestora.

Prin definiţie, obiectul de studiu al statisticii este constituit din aspectele cantitative ale determinărilor calitative ale fenomenelor de masă, fenomene care sunt expuse acţiunii legilor statistice, care se manifestă în condiţii concrete, variabile în timp, spaţiu şi în raport cu formele de organizare socio-economică.

Principalele ramuri de statisticii sunt :

statistica economică; statistica teoretică; statistica matematică; statistica indicilor sociali; statistica serviciilor; statistica mediului înconjurător; statistici teritoriale.

Prin metodologie statistică se înţelege totalitatea operaţiilor, tehnicilor şi procedeelor de calcul şi interpretare statistică. Pe baza acestei metodologii statistica devine un instrument eficient şi indispensabil tuturor ştiinţelor empirice. La limită , toate legile şi legităţile ştiinţelor empirice sunt legi statistice ,pentru că se bazează pe un număr suficient de mare de observaţii independente ale realităţii pentru a fi descoperite.

Statistica se perfecţionează continuu, într-un proces complet dialectic. Într-o

concepţie modernă ea trebuie privită ca o ştiinţă de graniţă care asigură cercetării ştiinţifice un caracter interdisciplinar, într-un proces de cvasireciprocitate cu multe

9

Definiţia obiectului de studiu al statisticii.

alte ştiinţe.

1.3. Test de autoevaluare 1.1Test de autoevaluare 1.1 Care credeţi că sunt momentele esenţiale în evoluţia Statisticii. Încercaţi să le marcaţi în timp.

1.4. RezumatUnitatea de invatare Nr.1. prezinta principalele momente ale istoriei îndelungate a

acestei importante ştiinţe, fiind prezentate succint rădăcinile istorice ale statisticii moderne. Partea a doua a cursului, esenţială pentru tot ce va urma , defineşte obiectul şi metoda de studiu ale Statisticii. În partea a treia sunt descrise conceptele de bază utilizate în Statistică : colectivitatea, unitatea statistică, variabila, indicatorul statistic.

1.5. Bibliografia Unitatii de invatare Nr.1Agresti, Allan (1990) – Categorical Data Analysis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs.

10

Unitatea de invatare nr.2

DEFINIREA PRINCIPALELOR CONCEPTE FOLOSITE ÎN STATISTICĂ. LIMBAJUL STATISTIC. Cuprins2.1 Obiectivele unitatii de invatare Nr.2 112.2 Concepte de bază utilizate în statistică 112.3 Teste de evalure 1 a unitatii de invatare Nr.2 132.4 Rezumat 132.5 Bibliografia unitatii de invatare 13

2.1. Principalele obiective ale unitatii de invatare nr.2 - perceperea limbajului statistic ca un cumul de categorii şi concepte cu care

se operează după reguli ştiinţifice ;- prezentarea, înţelegerea şi însuşirea conceptelor de bază utilizate în

Statistică .

Durata medie de parcurgere a primei unitati de invatare este de 2 ore

2.2. Conţinut

11

Capitolul 2

DEFINIREA PRINCIPALELOR CONCEPTE FOLOSITE ÎN STATISTICĂ. LIMBAJUL STATISTIC.

1. CONCEPTE DE BAZĂ FOLOSITE ÎN STATISTICĂ

Principalele concepte folosite în statistică sunt următoarele:1. colectivitatea statistică;2. unitatea statistică;3. variabila (caracteristica) statistică;4. indicatorul statistic.

1. Colectivitatea statistică, numită şi populaţie statistică, reprezintă masa totală

sau globală a evenimentelor distincte din cadrul unui fenomen sau proces

natural sau socio-economic ,supus cercetării statistice.

Colectivitatea este de doua feluri : - colectivitate totală;- colectivitate parţială.

Colectivitatea totală reprezintă situaţia în care toate apariţiile fenomenelor şi proceselor cu aceeaşi caracteristică studiată sunt supuse cercetării .

Colectivitatea parţială reprezintă situaţia în care doar o parte din manifestările individuale vor intra sub incidenţa cercetării statistice.

Ambele colectivităţi pot fi statice sau dinamice ,în funcţie de variabilitatea lor în timp.

2. Prin unitate statistică se înţelege entitatea componentă a unei colectivităţi, purtătoare a unei însuşiri care o face interesantă studiului statistic.

Unitatea statistică poate fi:- simplă (unitatea student in colectivitatea grupă);-complexă (unitatea grupă în universitate).

3. Variabila statistică, numită şi caracteristică statistică, reprezintă atributul sau însuşirea pe care o are unitatea statistică şi care este supusă cercetării statistice, fiind de mai multe tipuri:

- variabile de timp (an, lună, zi, etc.);- variabile de spaţiu (unităţile administrativ-teritoriale);- variabile atributive.

Variabilele atributive sunt de 2 tipuri - alternative; - nealternative.

Variabilele alternative sunt cele care au doar două posibilităţi de reprezentare (da-nu, 0-1, alb-negru), ele grupându-se la rândul lor în variabile :

- numerice;- nenumerice (alfanumerice).

Variabilele nealternative acoperă întreaga gamă de trăsături şi caracteristici calitative ale fenomenelor care pot fi studiate cantitativ.

12

Principalele concepte folosite în statistică.

2.3 Testul de evaluare 1Test de autoevaluare 2.1

Explicaţi conţinutul celor patru concepte de bază şi sesizaţi şi exprimaţi într-un cuvânt esenţa fiecăruia.

2.4. Rezumat Unitatea de invatare Nr.2. prezintă în prima parte a capitolului cercetarea statistică şi sunt fixate locul şi rolul observării ca etapă de început a cercetării. În continuare se prezintă, fără detalii inutile, structura şi funcţionarea sistemului informaţional statistic în cadrul sistemului informaţional economic general. Sunt apoi trecute în revistă principalele metode de observare statistică , precum şi etapele proiectării unei observări; întru-cât în etapa observării se strecoară cele mai multe erori, este definită eroarea în statistică şi este prezentată cazuistica erorilor statistice.

Partea a doua a capitolului este rezervată prelucrării statistice. După definirea prelucrării sunt prezentate etapele unei prelucrări, apoi sunt detaliate principalele tehnici de prelucrare utilizate în practica statistică.


13

Unitatea de invatare nr.3

14

OBSERVAREA STATISTICĂCuprins3.1 Obiectivele unitatii de invatare Nr.3 153.2 Concepte de bază utilizate în statistică 153.3 Teste de evalure 1 a unitatii de invatare Nr.3 223.4 Rezumat 223.5 Bibliografia unitatii de invatare 23

3.1. Principalele obiective ale unitatii de invatare nr.3- definirea observării şi înţelegerea importanţei ei în procesul prelucrării şi

analizei statistice ;- prezentarea, înţelegerea şi însuşirea organizării observării statistice în mod

ştiinţific ;- înţelegerea legăturii logice dintre observarea statistică şi prelucrarea datelor

statistice


3.2 Conţinut

Capitolul 3OBSERVAREA STATISTICĂ

1. Locul şi rolul observării în cadrulcercetării statistice

Economia de piaţă înseamnă o realitate economică în care dominante printre

variabile sunt riscul şi incertitudinea . Procesele economice care îngemănează şi

concură la ceea ce în mod generic numim piaţă sunt extrem de complexe, permiţând

vehicularea unui volum imens de informaţii , în cadrul unor subprocese de reglare , a

căror bună funcţionare depinde de cunoaşterea veridică a realităţii.

Nevoia de informaţii în special în domeniul economic este în continuă

15

creştere de unde derivă nevoia organizării şi structurării acestor informaţii.Se apreciază în general că volumul de cunoştinţe al omenirii se dublează la

fiecare 4-5 ani, procesul în economie având un ritm mult mai alert, cunoştinţele economice dublându-se la fiecare interval de 2 ani aproximativ. În consecinţă economia poate fii văzută ca o sumă de fluxuri permanente de informaţie care pleacă de la furnizori, sunt prelucrate de unităţi şi instituţii mai mult sau mai puţin specializate, ajungând apoi la beneficiarii acestor informaţii care le analizează, le interpretează şi emană decizii. Datele şi informaţiile necesare cunoaşterii procesului de dezvoltare a economiei şi a societăţii în general se elaborează în cadrul sistemului informaţional statistic. Acest sistem informaţional cuprinde 2 elemente de bază:

1. Subsistemul informărilor statistice periodice (cunoscut odinioară ca subsistem al dărilor de seamă statistice);

2. Subsistemul cercetărilor statistice special organizate. Prin definiţie cercetarea statistică înseamnă totalitatea acţiunilor depuse în cadrul unor organizaţii şi organisme specializate create în acest scop, desfăşurate prin operaţii corelate, temeinic organizate şi riguros programate.

În literatura de specialitate, cercetarea statistică mai este întâlnită şi sub numele de investigaţie statistică sau demers statistic.

Într-o altă formulare cercetarea statistică reprezintă totalitatea operaţiunilor de culegere şi observare, sistematizare şi prelucrare, stocare şi regăsire, analiză şi interpretare a informaţiilor necesare pentru cunoaşterea şi conducerea proceselor social economice. Începutul oricărei cercetări statistice este constituit de faza culegerii, adunării efective a datelor necesare. Aceste date se regăsesc în principal în evidenţele financiar-contabile ale instituţiilor patrimoniale de stat sau private ale instituţiilor publice (de stat şi particulare).

Pe lângă aceste surse de date, fiecare gospodărie a populaţiei poate fii privită ca o mică întreprindere, ca un mic agent economic, furnizor de date şi informaţii statistice. Prin observarea statistică se înţelege după o metodologie unitară pentru toate unităţile populaţiei cercetate a valorilor şi variantelor caracteristicilor incluse în programul cercetării.

Observarea statistică se desfăşoară prin metode specifice diferite ca formă şi conţinut, şi anume :

a) înregistrarea directă a descrierilor prin date a fenomenelor socio-economice;

b) înregistrarea indirectă pe bază de chestionare în general completate benevol;

c) înregistrarea directă pe bază de documente.Prin identificarea şi separarea etapei observării statistice, cercetarea statistică în ansamblul ei se conturează ca un demers ştiinţific separabil în 3 etape succesive şi anume:

A) observarea sau înregistrarea datelor;B) prelucrarea şi obţinerea indicatorilor statistici şi a celor derivaţi;C) analiza şi interpretarea rezultatelor cercetării.

Aceste etape se desfăşoară separat în timp şi loc şi se condiţionează din punct de vedere al volumului şi locului.

Principiul care urmăreşte toate etapele este principiul autenticităţii datelor necesar

16

Sistemul informaţional static.

Definiţia cercetării statistice.

a fi respectat încă din faza de observare.

În multe ţări civilizate, transmiterea cu bună ştiinţă sau din neglijenţă a unor date statistice eronate către foruri îndreptăţite prin lege a le prelua, se pedepseşte aspru prin normativele legale în vigoare.

2. Structura şi funcţionarea sistemului informaţional statistic

Culegerea şi prelucrarea datelor constituie acte permanente de conducere sau în slujba conducerii. Din această caracteristică importantă a lor derivă necesitatea procurării şi preparării informaţiilor pe baze organizatorice sănătoase. Această cerinţă este satisfăcută prin intermediul sistemului informatic statistic, conceput şi organizat ca subsistem al sistemului de conducere al organizaţiilor şi organismelor economico-sociale.

Sistemul informaţional al oricărei unităţi are o structură extrem de complexă, în care se integrează mai multe subsisteme.

Unul dintre aceste subsisteme, cu rol primordial în procesul conducerii este Subsistemul Informaţiilor Economice (SIE). Acesta include la rândul său componenta financiar-contabilă, compartimentul de programare a producţiei şi urmărire a ei, compartimentul de personal, componenta comercială şi de marketing.

Un alt subsistem este Subsistemul Informaţional Statistic care are următoarele caracteristici :

a) utilizează metode şi procedee de observare şi prelucrare a datelor de masă precum şi de modelare şi analiză statistică a acestora;

b) se desfăşoară în principal pentru urmărirea proceselor economice , fapt din care derivă importanţa statisticii economice în cadrul ramurilor statisticii ;

c) participă la efectuarea cercetărilor statistice special organizate.Suportul material al Sistemului Informaţional Statistic este astăzi reprezentat de tehnica de calcul care introduce o serie de facilităţi, atât în sensul creşterii vitezei de calcul şi transmitere a informaţiei, cât şi în sensul unei creşteri substanţiale a posibilităţilor de înmagazinare şi stocare a datelor.

Avantajele suportului material informatizat sunt cu mult potenţate de oferirea unor programe inteligente, specializate atât în calcul statistic cât şi în analiza şi interpretarea datelor statistice.

Din punct de vedere instituţional, activitatea statistică naţională în România este acoperită prin existenţa unui organism central , Agenţia Naţională de Statistică (ANS). La nivel judeţean există aşa numitele Direcţii Judeţene pentru Statistică (DJS), organisme centralizate în teritoriu, cu rol primordial în culegerea datelor statistice necesare subsistemului informărilor periodice, dar şi în organizarea unor cercetări speciale pe cont propriu sau participarea la cercetările organizate de instituţia centrală.

17

Caracteristicile Subsistemului Informaţional Statistic.

Datele şi informaţiile statistice sunt organizate în baze de date şi bănci de date.

Datele de intrare în aceste bănci şi baze de date constituie indicatori primari. Indicatorii primari agregaţi , în general prin operaţiuni de însumare, precum şi indicatorii derivaţi , se obţin din indicatori elementari prin interogarea bazei de date respective.

3. Metode de observare statistică

Observarea statistică îmbracă forme variate, potrivit naturii fenomenelor studiate, scopului urmărit, modului de organizare a activităţii economico-sociale şi posibilităţilor practice de cuprindere şi înregistrare. Ele sunt următoarele:

a) recensământul: cea mai veche metodă de observare statistică. El a început să se aplice cu referire la populaţie, extinzându-se treptat şi în domeniul economic. Recensământul reprezintă practic o fotografiere a unui fenomen la un moment dat, numit moment critic. Este o observare totală care se desfăşoară cu o anumită periodicitate, care este în România de 10 ani la populaţie şi de 5 ani în domeniul economic. Recensământul se desfăşoară după o metodologie proprie, relativ vastă care trebuie să asigure comparabilitatea datelor şi să corespundă standardelor interne şi internaţionale în domeniu. Asigurarea recensământului se face printr-o lege specială care stabileşte programul, metodologia şi fondurile. Pentru reuşita recensământului foarte importantă este alegerea momentului critic, alegere care trebuie făcută astfel încât în acel moment populaţia statistică să aibă maximul de stabilitate. În general, momentul critic diferă în timp de perioada de înregistrare.

b) sistemul informărilor statistice periodice (sistemul rapoartelor statistice): asigură în principal datele necesare mersului economiei în sectorul public. Informările se fac pe documente oficiale, înscrise pe formulare tipizate , cu forma şi conţinutul stabilite prin lege. Indicatorii cuprinşi în aceste formulare sunt definiţi în termen şi conţinut prin nomenclatoare speciale de indicatori. Această observare este totală , pe bază de documente, iar în cadrul ei , falsul se pedepseşte.

c) sondajul statistic: este utilizat din diferite motive. Observarea totală trebuie înlocuită cu o observare parţială efectuată pe o subcolectivitate numită eşantion. Aceasta trebuie să îndeplinească o aşa numită condiţie de reprezentativitate, care cere ca în cadrul eşantionului să se întâlnească aceleaşi proprietăţi, structuri, trăsături esenţiale şi valori tipice ca şi în cadrul populaţiei totale. În cadrul metodei sunt des întâlnite aşa numitele erori de sondaj sau de reprezentativitate , induse de modalităţile de formare a eşantionului . Sondajul este o metodă selectivă, utilizată în studiul bugetelor de familie, înregistrarea preţurilor de pe piaţa liberă, controlul statistic al calităţii mărfurilor , etc.

d) ancheta statistică: este metoda prin care sunt culese informaţiile de la populaţie, prin utilizarea unor chestionare trimise direct sau prin poştă. Răspunsul la aceste chestionare este benevol, iar metoda se utilizează

18

pentru obţinerea unor informaţii orientative cu caracter preliminar.e) observarea părţii principale sau a masivului principal de date:

reprezintă o metodă de observare special organizată , parţială , aplicată pentru obţinerea operativă a informaţiilor despre o populaţie structurată pe grupe, cu o importanţă diferită. În cadrul metodei se înregistrează datele numai pentru grupele cu cea mai mare pondere.

f) monografia: metodă prin care se studiază în mod aprofundat o unitate economică, socială, teritorială, în cadrul căreia au apărut elemente noi în modul de organizare al producţiei şi al muncii, în derularea activităţii. Monografia are un caracter mult mai larg, cuprinzând şi elemente de prelucrare şi analiză.

Metodele de observare prezentate pot fi utilizate fie împreună , fie separat, în funcţie de volumul informaţiei necesare.

4. Proiectarea unei observări statistice

Observarea presupune efectuarea unor cheltuieli consistente , motiv pentru care se pune serios problema desfăşurării ei eficiente.

Punctul de plecare în proiectarea unei observări este stabilirea obiectivelor acesteia, care derivă din scopul cercetării:

a) delimitarea populaţiei studiate: etapă importantă deoarece costurile sunt proporţionale cu valoarea acestora.

b) definirea unităţii de observare, ca unitate simplă sau complexă ;c) stabilirea programului observării, sub forma însuşirii

caracteristicilor pentru care vor fi înregistrate date.Formularele pe care se face înscrierea sunt de două tipuri:

de tip fişă ; de tip listă.

Fişa este un formular individual care se completează pentru o singură unitate, atunci când programul de observare este mai bogat.

Lista este un formular colectiv în care se înregistrează răspunsurile pentru mai multe unităţi concentrate parţial.

Înregistrările din fişe şi din liste dispun de norme metodologice şi tehnici de completare individuale.

d) timpul observării : se stabileşte prin diferenţierea timpului la care se referă datele , numit şi moment critic, de perioada în care se desfăşoară observarea propriu-zisă.

e) delimitarea spaţială a locului observării ;f) stabilirea măsurilor organizatorice care se impun pentru buna

desfăşurare a observaţiei.

5. Eroarea în statistică

19

Ca în toate domeniile, eroarea este prezentă şi în statistică. Din acest motiv controlul calităţii datelor statistice trebuie realizat pe parcursul cercetării statistice.

Notând cu x0 o valoare reală şi cu x o valoare statistică determinată, valoarea

e = x – x0

se numeşte eroare absolută.

Valoarea:

e = x / x0

se numeşte eroare relativă.

Eroarea relativă poate fi exprimată şi în procente.

În statistică se operează cu noţiunea de eroare absolută limită; modulul erorii absolute trebuie să nu depăşească eroarea absolută limită:

IeI <=

6. Generalităţi privind prelucrarea datelorstatistice

Prelucrarea statistică este etapa cercetării în care se trece de la datele individuale, obţinute în etapa observării la indicatorii care caracterizează colectivitatea în întregul ei sub formă de indicatori totalizatori, absoluţi sau indicatori derivaţi.

De regulă aceşti indicatori sunt calculaţi ca valori sintetice obţinute prin aplicarea unor abstractizări şi comparări succesive prin care se elimină ceea ce este întâmplător şi neesenţial în apariţia şi dezvoltarea fenomenelor studiate.

Prin prelucrare se obţine sistemul de indicatori statistici ca parte integrantă a sistemului informaţional naţional necesar pentru fundamentarea deciziilor la toate nivelurile de conducere. Conţinutul prelucrării unei observaţii se rezumă la următoarele elemente:

a) centralizarea materialului observăriib) gruparea unităţilor colectivităţii după anumite criterii şi reguli c) obţinerea sistemului de indicatori care caracterizează fiecare grup şi

20

Eroarea absolută.Eroarea relativă.

întreaga colectivitate.d) prezentarea rezultatelor prelucrării sub formă de serii, tabele şi

grafice. e)

7. Planul prelucrării statistice

Planul sau programul prelucrării întregului material al unei observări statistice cuprinde următoarele: programul propriu-zis al prelucrării; metodele şi procedeele de calcul statistic care vor fi aplicate pentru calculul sistemului de indicatori; formele de prezentare ale rezultatelor prelucrării; aspectele organizatorice ale acesteia.

a) programul prelucrării: constă în enumerarea caracteristicilor primare şi derivate care se folosesc pentru calcularea indicilor totalizatori şi derivaţi.

b) metodele şi procedeele de calcul: se aleg pentru fiecare prelucrare în parte în funcţie de scopul cercetării, de natura specifică a fenomenelor şi de specificul şi de volumul informaţiilor disponibile. Scopul principal al aplicării metodelor de prelucrare statistică îl constituie redarea

într-o imagine cât mai sintetică şi cât mai obiectivă a fenomenelor studiate corespunzând într-un sens mai larg noţiunii de modelare statistică.c) formele de prezentare ale rezultatelor statistice sunt: seriile, tabelele

statistice şi graficele.

Seriile statistice-sunt liste paralele, în prima listă fiind înregistrată valoarea caracteristicii, iar în celelalte ori alte valori caracteristice derivate ori numărul de operaţii corespunzătoare fiecărei valori în parte, numit generic frecvenţă.

Tabelele statistice-cuprind mai multe caracteristici ale aceleiaşi unităţi, fiecărei

caracteristici putându-I fi ataşată eventual şi o informaţie referitoare la numărul de operaţii.

Graficele statistice-sunt de diverse tipuri, cele mai frecvente făcând legătura între

valorile caracteristicii şi frecvenţa de apariţie.

Există grafice reprezentate prin bare verticale care au în general frecvenţa pe ordonată şi caracteristica pe abscisă. Altele au bare orizontale iar frecvenţă este pe abscisă. Reprezentarea grafică a dependenţei dintre caracteristică şi frecvenţă se numeşte histogramă. Dacă unim mijloacele segmentelor din barele orizontale sau verticale se obţine poligonul frecvenţelor.

Atunci când una din variante este timpul, graficul se numeşte historiogramă sau cronogramă. Cronograma este utilizată în general pentru prezentarea seriilor cronologice.

d) problemele organizatorice ale prelucrării: se referă la locul şi timpul, unde şi când se face prelucrarea, la transmiterea rezultatelor şi la resursele angrenate.

21

- Serii statistice- Tabele statistice- Grafice statistice

e)

8. Tehnici de prelucrare

Prelucrarea statistică uzează de tehnici specializate, motiv pentru care se desfăşoară în instituţii specializate. Dezvoltarea rapidă a tehnicii de calcul a pus la dispoziţia statisticii un instrumentar adecvat, atât în ceea ce priveşte resursele tehnicii şi tehnologice (fizice) cât şi programele şi rutinele specializate în calculul şi analiza statistică. Prelucrarea statistică poate fi manuală (tot mai rară) sau automatizată. Procedural, la baza prelucrării stă prelucrarea manuală bazată pe 2 procedee. Procedeul fişelor şi cel al tabelării. Procedeul fişelor-presupune întocmirea unei fişe pentru fiecare unitate de observare în care sunt trecute de obicei codificat toate caracteristicile din programul observări. În cadrul acestui procedeu se pot face grupări simple sau combinate. Procedeul se aplică atunci când numărul unităţilor observate este mai mic. El prezintă avantajul oricărui număr de variante şi dezavantajul imposibilităţii eliminării erorilor. Procedeul tabelării manuale-se foloseşte când volumul colectivităţii observate este mare şi nu există posibilitatea de prelucrare automatizată. Prin acest procedeu se obţin grupări simple. În fapt se produce un tabel, în capul coloanelor vin trecute caracteristicile iar pe rânduri vin trecute succesiv unităţile de observare şi informaţiile despre caracteristici. Procedeul prezintă avantajul depistării facile a erorilor şi dezavantajul necesităţii refacerii tabelării în condiţiile în care se schimbă structura grupelor sau apar / dispar anumite caracteristici de grupare.


Imaginaţi-vă o observare statistică şi întocmiţi planul ei.

3.4. RezumatUnitatea de invatare Nr.2. prezinta în prima parte a acestui capitol este definită cercetarea statistică şi sunt fixate locul şi rolul observării ca etapă de început a cercetării. În continuare se prezintă, fără detalii inutile, structura şi funcţionarea sistemului informaţional statistic în cadrul sistemului informaţional economic general. Sunt apoi trecute în revistă principalele metode de observare statistică , precum şi etapele proiectării unei observări; întru-cât în etapa observării se strecoară cele mai multe erori, este definită eroarea în statistică şi este prezentată cazuistica erorilor statistice.

Partea a doua a capitolului este rezervată prelucrării statistice. După definirea prelucrării sunt prezentate etapele unei prelucrări, apoi sunt detaliate principalele tehnici de prelucrare utilizate în practica statistică.

22

Procedeul fişelor şi al tabelării.


23

Unitatea de invatare nr. 4

PRELUCRAREA DATELOR STATISTICE

24

Cuprins4.1 Obiectivele unitatii de invatare Nr.4 254.2 Planul prelucrării. Tehnici de prelucrare. Centralizare. Metoda grupării 253.3 Teste de evalure 1 a unitatii de invatare Nr.4 293.4. Rezumat 303.5. Bibliografia 30

4.1. Principalele obiective ale unitatii de invatare nr.4- prezentarea prelucrării datelor ca etapă esenţială a cercetării statistice ;- conştientizarea de către studenţi a faptului că prelucrarea datelor nu se poate

face decât în urma unei serioase şi pertinente observări şi numai prin metode ştiinţifice ;

- prezentarea şi însuşirea principalelor metode şi tehnici de prelucrare a datelor.


4.2 Conţinut

25

Capitolul 4PRELUCRAREA DATELOR STATISTICE

Prelucrarea statistică este etapa cercetării în care se trece de la datele individuale, obţinute în etapa observării la indicatorii care caracterizează colectivitatea în întregul ei sub formă de indicatori totalizatori, absoluţi sau indicatori derivaţi.

De regulă aceşti indicatori sunt calculaţi ca valori sintetice obţinute prin aplicarea unor abstractizări şi comparări succesive prin care se elimină ceea ce este întâmplător şi neesenţial în apariţia şi dezvoltarea fenomenelor studiate.

Prin prelucrare se obţine sistemul de indicatori statistici ca parte integrantă a sistemului informaţional naţional necesar pentru fundamentarea deciziilor la toate nivelurile de conducere. Conţinutul prelucrării unei observaţii se rezumă la următoarele elemente:

f) centralizarea materialului observăriig) gruparea unităţilor colectivităţii după anumite criterii şi reguli h) obţinerea sistemului de indicatori care caracterizează fiecare grup şi întreaga

colectivitate.i) prezentarea rezultatelor prelucrării sub formă de serii, tabele şi grafice.

1. Planul prelucrării statistice

Planul sau programul prelucrării întregului material al unei observări statistice cuprinde următoarele: programul propriu-zis al prelucrării; metodele şi procedeele de calcul statistic care vor fi aplicate pentru calculul sistemului de indicatori; formele de prezentare ale rezultatelor prelucrării; aspectele organizatorice ale acesteia.

f) programul prelucrării: constă în enumerarea caracteristicilor primare şi derivate care se folosesc pentru calcularea indicilor totalizatori şi derivaţi.

g) metodele şi procedeele de calcul: se aleg pentru fiecare prelucrare în parte în funcţie de scopul cercetării, de natura specifică a fenomenelor şi de specificul şi de volumul informaţiilor disponibile. Scopul principal al aplicării metodelor de prelucrare statistică îl constituie redarea

într-o imagine cât mai sintetică şi cât mai obiectivă a fenomenelor studiate corespunzând într-un sens mai larg noţiunii de modelare statistică.h) formele de prezentare ale rezultatelor statistice sunt: seriile, tabelele statistice

şi graficele.

Seriile statistice-sunt liste paralele, în prima listă fiind înregistrată valoarea caracteristicii, iar în celelalte ori alte valori caracteristice derivate ori numărul de operaţii corespunzătoare fiecărei valori în parte, numit generic frecvenţă.

Tabelele statistice-cuprind mai multe caracteristici ale aceleiaşi unităţi, fiecărei caracteristici putându-I fi ataşată eventual şi o informaţie referitoare la numărul de operaţii.

Graficele statistice-sunt de diverse tipuri, cele mai frecvente făcând legătura între valorile caracteristicii şi frecvenţa de apariţie. 26

- Serii statistice- Tabele statistice- Grafice statistice


Prezentaţi trei până la cinci condiţii prin îndeplinirea cărora se poate aprecia că o prelucrare a datelor este pertinentă.

4.4. Rezumat Unitatea de învăţare Nr. 4 prezintă etapa prelucrării statistice, ca etapă necesară, dar nu şi suficientă pentru ca demersul statistic să fie reuşit. Sunt aduse în context principalele metode de prelucrare a datelor .

4.5 Bibliografia Unitatii de invatare Nr. 4Agresti, Allan (1990) – Categorical Data Analzsis, New Zork, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs.

TEMA DE CONTROL NR. 1 (TC)

GRUPAREA DATELOR STATISTICE

27


CLASIFICAREA ŞI GRUPAREA STATISTICĂ – PRINCIPALELE TEHNICI DE ORGANIZARE A DATELOR ÎN VEDEREA PRELUCRARIICuprins5.1 Obiectivele unitatii de invatare Nr. 5 315.2. Generalităţi. Clasificare. Modalităţi de obţinere a grupării 315.3 Teste de evalure 1 a unitatii de invatare Nr.5 365.4 Rezumat 365.5 Bibliografie 36

5.1. Obiective- conştientizarea de către studenţi a faptului că premiza unei prelucrări rapide

şi eficiente este o organizare prealabilă de foarte bună calitate ;- prezentarea şi însuşirea clasificării şi grupării datelor ca principale

modalităţi de organizare ştiinţifică.


5.2 Conţinut

28

Capitolul 5

CLASIFICAREA ŞI GRUPAREA STATISTICĂ - PRINCIPALELE TEHNICI

DE ORGANIZARE DATELOR ÎN VEDEREA PRELUCRARII

1. GENERALITĂŢI

Clasificarea şi gruparea sunt instrumente de bază al prelucrării şi analizei datelor privind economia şi societatea. Prin intermediul lor se asigură sistematizarea pe grupe sau clase omogene din punct de vedere statistic a colectivităţilor statistice , oricât ar fi ele de numeroase.

Prin omogenitate se înţelege asemănarea cât mai mare, respectiv variaţia cât mai mică a elementelor în cadrul grupelor sau claselor.

Prin definiţie, gruparea şi clasificarea statistică reprezintă procedee de sistematizare a colectivităţilor statistice în părţi statistice omogene , în funcţie de variaţia unei caracteristici sau a mai multora.

Clasificarea şi gruparea statistică îndeplinesc următoarele funcţii:a) sistematizarea datelor individuale prin restrângerea numărului de valori ale

caracteristicii de grupare;b) structurarea colectivităţii în părţi omogene;c) prezentarea şi descrierea structurii colectivităţii;d) relevarea tipurilor socio-economice , acolo unde există;e) caracterizarea legăturii dintre caracteristicile statistice.

Atât gruparea cât şi clasificarea se declanşează prin analiza teoretică a populaţiei studiate. În urma acestei analize se stabileşte sistemul de caracteristici care interesează în speţa respectivă, apoi se trece la efectuarea iterativă, prin tatonări, a grupării propriu-zise.

Dacă numărul posibilităţilor de grupare e mic, gruparea se face pe variante. Dacă numărul acestora este mai mare se stabilesc intervale de grupare numite şi grupe de variante.

Gruparea se încheie cu încadrarea unităţilor în grupe şi cu centralizarea valorilor tuturor caracteristicilor cu care este descrisă populaţia în ansamblul ei.

2. CLASIFICAREA STATISTICĂ

În viaţa de zi cu zii oamenii fac tot felul de comparări şi interpretări , care nu sunt altceva decât clasificări naive. Acest lucru se produce în principal datorită faptului că gândirea umană în cea mai mare parte a ei nu este o gândire matematică, algoritmică, ci e o înşiruire de conjuncţii şi disjuncţii, afirmaţii şi negaţii. nonalgoritmice; se spune că gândirea este inferenţială.

29

Definiţia grupării şi clasificării statisticii.

Funcţiile clasificării şi grupării statistice.

Aceste clasificări naive au fost înlocuite în procesul cristalizării statisticii ca ştiinţă prin clasificări obiective, naturale bazate pe date despre structura internă a lucrurilor. Pe lângă acestea, sub aspect operaţional mai sunt admise şi clasificări subiective, artificiale.

Prin definiţie, clasificarea statistică este operaţia de sistematizare a unui ansamblu de elemente, pe baza atributelor comune, în clase, distincte urmată eventual de clasificarea acestor clase în subclase, procesul putând continua până la o limită determinată de necesitatea ca fiecare clasă să ocupe un loc precis şi stabil, iar elementele încadrate în ea să fie cât mai omogene.

Clasificarea trebuie să îndeplinească câteva cerinţe formale şi anume:

a) completitudinea, care impune ca fiecare element să aparţină unei clase;b) unicitatea , care impune ca fiecare element să aparţină unei singue clase;c) omogenitatea, care cere ca elementele asemănătoare să aparţină aceleiaşi

clase iar elementele diferite să aparţină claselor diferite. În practica statistică sunt utilizate sisteme standardizate de clasificare, care constituie componente de bază ale sistemului informaţional economic şi instrumente indispensabile ale prelucrării statistice. Ansamblul acestor standarde alcătuiesc sistemul unitar de clasificări şi nomenclatoare social-economice, care funcţionează la nivelul macro-economic.

3. MODALITĂŢI PRACTICE

DE OBŢINERE A GRUPĂRII STATISTICE

Intervin în prelucrarea datelor de masă culese într-o observare special organizată. În asemenea cazuri, de obicei, nu există grupări cu caracter permanent şi fiecare grupare se elaborează ca un element de sine stătător.

Practic gruparea statistică presupune împărţirea colectivităţii în funcţie de o caracteristică numerică , împărţire necesară în cazul unui număr mare sau foarte mare de valori distincte ale caracteristicii de grupare întâlnite la nivelul respectivei colectivităţi. În prealabil colectivitatea trebuie supusă unei serioase analize teoretice care trebuie să răspundă cel puţin la următoarele întrebări:

Ce fel de grupe există în colectivitate?

În câte grupe se face împărţirea colectivităţii?

După care caracteristică să se facă gruparea?

Un procedeu des utilizat de grupare este gruparea mecanică, în care se aplică în mod mecanic intervale de grupare egale. În stabilirea acestor intervale se porneşte de la amplitudinea variaţiei a, cărei valoare dă “lărgimea de bandă” care trebuie împărţită în grupe. Această lărgime sau diapazon se împarte în intervale egale cu

30

Definiţia clasificării statistice.

respectarea următoarelor condiţii:

a. limitele de interval trebuie să se exprime pe cât posibil în valori rotunde;

b. trebuie să se obţină suficient de multe intervale de grupare pentru a se obţine informaţii suficient de analitice;

c. intervalele trebuie să permită la nevoie regruparea datelor prin contopirea a două sau mai multe intervale, fără a fi nevoie de reluarea operaţiei de grupare sau de spargerea în două a unor intervale;

d. în fiecare interval trebuie să se regăsească, pe cât posibil, un număr suficient de mare de valori individuale, care să permită interpretarea statistică

În urma grupării se obţine seria de repartiţie a frecvenţelor pe intervale de valori, serie care se numeşte de variaţie dacă repartiţia este făcută după o caracteristică numerică.

Intervale de grupare Nr. Unităţi

Fi

X1 inf – x1 supX2 inf – x2 supXi inf – xi supXn inf – xn sup

F1

F2

Fi

Fn

Total

În prima coloană sunt trecute intervalele de grupare între o limită inferioară şi una superioară, iar în coloana a doua sunt trecute frecvenţele, de cele mai multe ori în formă absolută.

Indicarea corectă a limitelor de interval se poate face în două moduri:

a) limita superioară a intervalului se repetă ca limita inferioară a intervalului următor, caz în care trebuie precizat cu claritate care dintre cele 2 limite incluse în interval;

b) limita superioară se diferenţiază de limita inferioară a intervalului următor cu o unitate sau cu o fracţie de unitate, în funcţie de mărimea caracteristicii de grupare.

Lungimea intervalului de grupare, notată cu hi, se stabileşte astfel:

- în primul caz:

- în al doilea caz:

În statistica economico-socială este posibil ca limita inferioară a primului interval, notată cu x1inf, sau limita superioară a ultimului interval (xn sup) să fie

31

omise. Se spune că respectivele intervale sunt deschise, fiind necesară închiderea lor pe baza ipotezei egalităţii intervalelor vecine.

În calculele ulterioare, intervalul de grupare este reprezentat prin centrul sau mijlocul intervalului, stabilit astfel:

Caz I: prin media aritmetică simplă a limitelor de interval;Caz II: prin adunarea la limita inferioară a jumătăţii intervalului respectiv.Reprezentarea grafică a seriilor de repartiţie se face prin histogramă sau

poligonul frecvenţelor, situaţie în care pe axa absciselor se reprezintă caracteristica, iar pe axa ordonatelor se va reprezenta frecvenţa acesteia.

Reprezentarea grafică a seriilor e foarte importantă şi sugestivă, fiind deseori utilizată în vederea creşterii expresivităţii şi puterii de înţelegere a fenomenelor social-economic. În multe situaţii, gruparea pe intervale egale este neconcludentă.

În procesul de elaborare a grupării apar intervale neegale de grupare. Acestea nu rezultă prin aplicarea unor reguli mecanice şi se fundamentează pe argumentele analizei calitative de conţinut a materialului statistic.

Dacă scopul grupării este evidenţierea tipurilor calitative, vor fi utilizate intervale neegale. În acest caz, gruparea se numeşte tipologică. În statistica socio-economică apar adesea şi grupări după o caracteristică teritorială. Aceste grupări sunt în general grupări mecanice. Tot prin acest procedeu se fac şi grupările după o caracteristică temporală.

Prin definiţie gruparea realizată simultan după două sau mai multe caracteristici se numeşte grupare combinată.

Această metodă de grupare este cea mai evoluată şi se poate efectua după un graf arborescent, în care grupele obţinute în urma împărţirii după o primă caracteristică se împart la rândul lor în subgrupe după o a doua caracteristică, ş.a. Această grupare este avantajoasă deoarece se poate introduce relativ uşor în completare o coloană pentru valorile agregate ale caracteristicii, în vederea caracterizării grupelor şi a subgrupelor şi a deducerii indicatorilor derivaţi.

De menţionat că adâncimea grupării după mai multe caracteristici prezintă un pericol deoarece îngreunează mult posibilitatea perceperii şi cuprinderii informaţiilor în tabel.

Modelul grupării combinate se reprezintă astfel:

PRIMA CARACTERITICĂ DE GRUPARE xi

A DOUA CARACTERISTICĂ DE GRUPARE yj

FRECVENŢELE CORESP.COMBINAŢIEI DE

VALORI xi – yj

X1 Y11

Y12

.

y1j

.y1m

F11

F12

.f1j

.f1m

32

Definiţia grupării combinate.

Total grupa 1

X1 Y21

Y22

.y2j

.y2m

F21

F22

.f2j

.f2m

TOTAL GRUPA 2

……….. ………. ……Xi Yi1

Yi2

.yij.yim

Fi1

Fi2

.fij

.fim

TOTAL GRUPA i

Xk Yk1

Yk2

.ykj

.ykm

Fk1

Fk2

.fkj

.fkm

TOTAL GRUPA k

TOTAL GENERAL

5.3 Testul de evaluare 1Test de autoevaluare 5.1 Prezentaţi, în opinia dumneavoastră, etapele prin care ar trebui să treceţi pentru a afce o grupare combinată după două variabile.

5.4 RezumatUnitatea de invatare Nr.4. prezinta în prima parte a cursului sunt prezentate

clasificarea şi gruparea statistică, tehnici de bază în prelucrarea datelor statistice, a căror utilizare contribuie decisiv la sistematizarea datelor şi, pe această cale, la simplificarea tuturor procedurilor ulterioare. Întregul demers se bazează pe conceptul de omogenitate, a cărui corectă înţelegere poate contribui la desluşirea importanţei

33

ambelor proceduri. Partea a doua şi a treia a cursului prezintă laturile practice ale clasificării şi grupării, modelele grupării simple şi combinate, stabilirea lungimii intervalului de grupare, etc.

5.5 Bibliografia Unitatii de invatare Nr.4Agresti, Allan (1990) – Categorical Data Analysis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs.


INDICATORII STATISTICICuprins6.1 Obiectivele unitatii de invatare Nr.6 376.2 Mărimile relative 376.3 Teste de evalure 1 a unitatii de invatare Nr.6 416.4 Rezumat 416.5 Bibliografie 41

6.1. Principalele obiective ale unitatii de invatare nr. 6- prezentarea, înţelegerea şi însuşirea noţiunii de indicator şi a importanţei

ei în limbajul şi demersul statistic ;- obişnuirea studenţilor de a distinge între conţinutul şi importanţa

diferitelor categorii de indicatori.


6.2 Conţinut

Capitolul 6

INDICATORII STATISTICI

1. Necesitatea folosirii indicatorilor statistici

34

Obiectul de studiu la statisticii îl constituie fenomenele şi procesele de masă, a căror proprietate principală este variabilitatea formelor individuale de manifestare în timp, spaţiu şi sub raport organizatoric.

Pornind de la această variabilitate rezultă că pentru caracterizarea unei colectivităţi nu se poate folosi o singură expresie numerică , cu aceeaşi dimensiune ca şi colectivitatea, fiind necesare mai multe expresii de acest tip. De aici rezultă nevoia statisticii de a elabora metodologii şi tehnici de obţinere a acestor determinări cantitativ-numerice, denumite generic indicatori statistici

.Prin definiţie indicatorul statistic este expresia numerică a unor fenomene,

procese, activităţi sau categorii economice şi sociale, definite in timp , spaţiu şi structură organizatorică şi care se regăsesc cu o anumită periodicitate în statisticile oficiale, naţionale si internaţionale.

Funcţiile indicatorilor statistici sunt următoarele:a) funcţia de măsurare;b) funcţia de comparare;c) funcţia de analiză şi sinteză;d) funcţia de estimare;e) Funcţia de verificare a ipotezelor şi de testare a

parametrilor utilizaţi.

2. Indicatorii statistici primari şi derivaţi

După etapa în care apar în procesul de cercetare statistică indicatorii statistici sunt de două categorii:

- indicatori primari;- indicatori derivaţi.

a) Indicatorii primari se obţin in cadrul prelucrării primare a datelor statistice, ca urmare a proceselor de centralizare a datelor unei observări statistice. Aceşti indicatori au conţinut concret şi formă concretă de exprimare. In practică se pot întâlni mai multe cazuri:

a.1) Indicatorii primari obţinuţi din agregarea unor valori individuale, cu acelaşi conţinut calculat la treptele inferioare din punct de vedere ierarhic (spre exemplu, costurile totale, calculate ca suma costurilor pe secţii).

a.2) Indicatorii primari obţinuţi prin observare, atunci când se face un studiu monografic al unei unităţi statistice (exemplu: într-o întreprindere, indicatorii valorici ai producţiei sunt şi indicatori absoluţi primari, şi indicatori înregistraţi direct la nivelul unităţii

b) Indicatorii derivaţi se obţin in faza de prelucrare statistică a mărimilor absolute, prin aplicarea variatelor metode şi procedee de calcul statistic: comparaţiile, generalizările, abstractizările. Aceşti indicatori au menirea de a pune în lumină şi de a face posibilă analiza aspectelor calitative ale fenomenelor si proceselor cercetate. Indicatorii derivaţi se obţin în urma aplicării unui model de calcul statistic de comparare sau estimare.Compararea a 2 sau mai mulţi indicatori se poate face fie sub formă de diferenţă, fie sub formă de raport.

Comparaţia pe bază de diferenţă este restrictivă, în sensul că trebuie să îndeplinească condiţii de comparabilitate atât din punct de vedere al conţinutului, cât şi al unităţii de

35

Definiţia indicatorului statistic.

măsură. Spre exemplu, in cazul sporului producţiei vândute QV, diferenţa

(unde: i = contorul produselor; =

producţia vândută la momentul t; = producţia vândută la momentul de

referinţă):Se observă că indicatorii compară 2 valori şi nu producţia fizică cu cea valorică, iar

rezultatul comparaţiei este tot o valoare, exprimată în unităţi monetare.Comparaţia pe bază de raport se poate face atât pentru indicatorii cu acelaşi conţinut,

cât şi pentru indicatorii cu conţinut diferit, dar independenţi din punct de vedere economico-social. Exemplu: raportarea producţiei la numărul salariaţilor este posibilă şi va rezulta un indicator numit productivitate a muncii. Apar astfel in statistica mărimile relative şi indicii.

Indicatorii derivaţi au un caracter abstract, chiar daca uneori cum este cazul mediilor, sunt exprimaţi in unităţi specifice de măsură.

3. Mărimile relative ca indicatori derivaţi

Mărimile relative se exprimă în general sub formă de rapoarte.

Mărimea relativă sau indicatorul relativ este rezultatul comparării sub formă de raport a 2 indicatori statistici şi se exprimă printr-un singur număr, arătând, în general, proporţia indicatorului raportat faţă de indicatorul bază de raportare.

Mărimile relative sunt folosite în toate domeniile în care se utilizează metodele şi tehnicile de calcul şi analiză statistică.

Forma de exprimare a mărimilor relative se stabileşte în report cu gradul de variaţie a fenomenelor, scopul urmărit, precum şi particularităţile specifice ale fenomenelor cercetate.

Rezultatul raportării poate fi un număr întreg, sau o fracţie. Deseori, pentru a mări expresivitatea rezultatului, acesta se înmulţeşte cu 100, 1000, 10000 sau 100000, obţinându-se astfel: procentele, promilele, prodecimilele şi procentimile.

Forma cea mai simplă de exprimare este sub formă de unităţi sau coeficienţi. In aceasta situaţie, rezultatul raportului arată câte unităţi din indicatorul raportat revin la o singura unitate a indicatorului baza de raportare.

Forma cea mai obişnuită şi sugestivă, utilizată pentru exprimarea mărimilor relative este aceea a procentelor, care arată câte unităţi din indicatorul raportat revin la 100 de unităţi ale indicatorului bază de raportare. Aceasta este forma de exprimare a majorităţii mărimilor relative.

Promilele se utilizează atunci când indicatorul comparat este mult prea mic faţă de indicatorul bază de raportare. Exemplu: indicatorul eficienţei utilizării fondurilor fixe se calculează ca producţie obţinută la 1000 lei fonduri fixe.

Prodecimilele şi procentimilele se utilizează în principal în demografie şi statistica medicală.

36

Mărimea relativă indicatorul relativ

Mărimile relative se împart in: a) mărimi relative de structură; b) mărimi relative de coordonare; c) mărimi relative ale dinamicii; d) mărimi relative ale programării (planificării); e) mărimi relative de intensitate

a) Mărimile relative de structură sunt acele mărimi în care calculul este impus de necesitatea cunoaşterii aprofundate a compoziţiei colectivităţilor care au fost separate în grupe şi subgrupe, după variaţia uneia sau a mai multor caracteristici.

Acestea pot fi: - ponderi, numite şi greutăţi specifice; - frecvenţe relative.Ponderile sunt regăsite în seriile statistice atributive, în seriile teritoriale sau pentru

variabilele statistice, construite pe baza unor componente. Ele se calculează procentual astfel:

În această exprimare, la numitor se găseşte întregul, xi este partea i din întreg, iar yi este ponderea procentuală a părţi în întreg.

Mărimile relative de structură au proprietatea că suma lor, calculată faţă de aceeaşi bază, este egală cu 1, in cazul exprimării sub forma de coeficienţi, sau cu 100, in cazul exprimării procentuale.

b) Mărimile relative de coordonare caracterizează raportul numeric în care se găsesc 2 indicatori de acelaşi fel, aparţinând unor grupe ale aceleiaşi colectivităţi statistice sau unor colectivităţi statistice de acelaşi fel, dar situate in spaţii diferite. Exemplu: raportul dintre populaţia din mediul urban şi populaţia din mediul rural este o mărime relativă de coordonare. Mărimile relative de coordonare admit proprietatea reversibilităţii:

c) Mărimile relative ale dinamicii se utilizează pentru caracterizarea fenomenelor in timp şi se obţin ca raport intre nivelul fenomenului intr-o anumită perioadă şi nivelul

aceluiaşi fenomen sau proces în perioada anterioară.

Cea mai des întâlnită esre situaţia prezentată în următorul cap de tabel:Perioadade bază

x0

Perioada curentăx programat x realizat

x0 Xpr X1Mărimile reale ale dinamicii pot fii mărimi ale sarcinii de plan (Isp) şi mărimi ale

dinamicii de realizare a planului (Ir):

d) Mărimile relative de intensitate sunt considerate caracteristici derivate şi se obţin prin raportarea a 2 indicatori absoluţi, de natură diferită, care se află intr-o relaţie de

37

Definiţia mărimii relative de

intensitate

interdependenţă din punct de vedere al logicii social-economice.

Spre exemplu: productivitatea muncii:

In aceasta relaţie N este şi frecvenţa pe baza căreia se face calculul nivelului mediu al productivităţii muncii, la nivelul ramurii, constituita din agenţi economici cu acelaşi obiect de activitate principală.

In cazul mărimilor relative de intensitate, intre factorii raportaţi trebuie să existe

obligatoriu o relaţie de interdependenţă:

De aici rezultă că deci se va putea obţine o relaţie de descompunere pe factori de influenţă pentru mărimea rezultativă yi considerată ca factor dependent. Astfel indicele mărimii yi se va descompune într-o componentă yi pe seama lui xi şi yi pe seama lui zi.

De asemenea variaţia absolută totală va fi suma algebrică a variaţiei cauzate de modificarea primului factor ,xi, notată cu şi a variaţiei datorată modificării celui de-al doilea factor .


Prezentaţi care sunt principalele mărimi relative, conţinutul lor şi modul de calcul.

6.4 Rezumat

Unitatea de invatare Nr.6 - debutează prin definirea importantei categorii statistice

care este indicatorul şi cu prezentarea ulterioară a funcţiilor acestuia. În partea a doua

sunt detaliate categoriile indicatorilor.

6.5 Bibliografia Unitatii de invatare Nr. 6Agresti, Allan (1990) – Categorical Data Analysis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs.

38

39


MĂRIMILE MEDII. MEDIA CA INDICATOR STATISTIC ESENŢIALCuprins7.1. Obiectivele unităţii de învăţare Nr.7 43

7.2. Mărimile medii 437.3. Teste de evalure 1 a unităţii de învăţare Nr.7 457.4. Rezumat 477.5. Bibliografie 48

7.1 Principalele obiective ale unitatii de invatare nr. 7- prezentarea, înţelegerea şi însuşirea noţiunii de mărime medie, a mediei

ca indicator statistic esenţial ;- însuşirea metodelor de calcul a acestora.


7.2 Conţinut

40

Capitolul 7

MĂRIMILE MEDII. MEDIA CA INDICATOR STATISTIC ESENŢIAL

1. Mărimile medii

Un loc important în categoria indicatorilor derivaţi şi în categoria indicatorilor sintetici îl ocupă mărimile medii, utilizate pe scara larga, atât in activitatea de planificare şi conducere, cât si în cercetările statistice diverse.

Mărimile medii constituie instrumente principale de cunoaştere a fenomenelor de masă şi au un grad mare de aplicabilităţi în activitatea practică. Ele redau ceea ce este tipic, comun şi general în evoluţia fenomenelor şi proceselor social-economice. Pentru a asigura un conţinut cât mai real, cât mai semnificativ, pentru mediile calculate, este nevoie ca valorile individuale din care se obţin să fie cât mai apropiate între ele.

Totodată, trebuie să se ţină seama de gradul de omogenitate al colectivităţii supuse cercetării. In cazul în care aceasta colectivitate este eterogenă, se vor calcula mai întâi medii parţiale, iar media pe ansamblu va apărea ca o sinteza a mediilor parţiale.

Prin definiţie, media valorilor individuale ale unei variabile sau caracteristici statistice este expresia sintetizării intr-un singur nivel reprezentativ a tot ceea ce este esenţial, tipic şi obiectiv in apariţia, manifestarea si dezvoltarea variabilei.

De reţinut că media măsoară influenta cauzelor esenţiale, făcând abstracţie de cele întâmplătoare.

În statistică, media poate fi interpretată drept nivelul la care ar fi ajuns caracteristica înregistrată dacă in toate cazurile, toţi factorii esenţiali şi neesenţiali ar fi acţionat constant, deci s-ar fi obţinut o valoare identică. De aceea media mai este numită şi "speranţa matematică" către care tind toate valorile unei serii.

Cele mai des utilizate medii sunt: a) media aritmetică; b) media armonică; c) media pătratică; d) media geometrică; e) media cronologică.Toate mediile pot fi calculate ca medii simple şi medii ponderate.Tabelul următor redă formulele de calcul ale principalelor medii:

a) Media aritmetică :

a1) Media aritmetică simplă

b) Media armonică

b1) Media armonică simplă

41

Definiţia mărimii medii

a2) Media aritmetică ponderată b2) Media armonică ponderată

c) Media pătratică

c1) media pătratică simplă

c2) media pătratică ponderată

d) Media geometrică

d1) Media geometrică simplă

d2) Media geometrică ponderată

Între medii există o relaţie de ordine: Dacă toate valorile caracteristicii pentru care se calculează media sunt

egale, cele 4 medii sunt egale.


Calculul mediilor în statistică

Media este valoarea care conţine tot ceea ce este esenţial şi stabil într-o mulţime de valori individuale care caracterizează un fenomen sau un proces statistic.

Media mai este numită speranţa matematică a datelor şi reprezintă valoarea cu care s-ar putea înlocui toţi termenii unei serii de distribuţie dacă aceşti termeni nu ar fii supuşi unor factori complecşi de influenţă, care diferenţiază valorile individuale ale seriilor după diferite atribute.

Cele mai utilizate medii în statistică sunt: media aritmetică, media armonică, media

42

pătratică, media geometrică. Toate pot fii calculate ca medii simple sau medii ponderate.Mediile simple se calculează în cazul seriilor simple, în care fiecare valoare

particulară apare o singură dată sau de un număr limitat de ori, în aşa fel încât să poată fi introdusă separat în calcul.

Mediile ponderate se calculează în cazul seriilor de repartiţie de frecvenţe, în care valorile individuale sunt grupate pe intervale, fiecărui interval findu-i asociată o valoare care indică numărul unităţilor statistice care apar şi aparţin intervalului respectiv, aceste valori numindu-se frecvenţe absolute.

Media aritmetică se calculează după următoarele modele:

a) media aritmetică simplă

b) media aritmetică ponderată se calculează după formula

În acest model:- fi reprezintă frecvenţa absolută a intervalului i, cu alte cuvinte numărul de elemente ale colectivităţii studiate care aparţin intervalului i; - n este numărul intervalelor de grupare în care a fost împărţită colectivitatea statistică.

Calculul mediei aritmetice simple nu comportă nici un fel de dificultăţi; în vederea calculării mediei ponderate se dau următoarele date ale unei colectivităţi statistice ,împărţită pe vârste, solicitându-se media de vârstă a întregii colectivităţi.

Nr.crt

Grupa de

vârstă

x i

Frecvenţa absolută

xi f I xi – a(a=25)

(xi-a)fi

1 20-30 25 44 1100 0 0 11 275 0,04 1,762 30-40 35 104 3640 10 1040 26 910 0,028 2,9123 40-50 45 168 7560 20 3360 42 1890 0,022 3,6964 50-60 55 160 8800 30 4800 40 2200 0,018 2,885 60-70 65 64 4160 40 2560 16 1040 0,015 0,966 70-80 75 32 2400 50 1600 8 600 0,013 0,416

Total 572 27660 13360 143 6915 12,624

OBS: media aritmetică ponderată se plasează de obicei în vecinătatea intervalului/intervalelor care au frecvenţele absolute cele mai mari. Media aritmetică ponderată are următoarele proprietăţi de bază:a) dacă adunăm sau scădem o anumită valoare la toţi termenii seriei (o constantă notată cu a)

atunci media obţinută cu noii termeni va fii mai mare sau mai mică cu acea constantă:

43

Media aritmetică se calculează astfel

b) dacă înmulţim sau împărţim frecvenţele absolute ale unei serii de repartiţie cu aceeaşi constantă k, media recalculată a seriei pe baza noilor frecvenţe rămâne nemodificată.

Cele două proprietăţi ale mediei aritmetice ponderate sunt utilizate pentru aplicarea unei a formule de calcul prescurtat mediei,scăzând eventual o anumită valoare sau termenul cel mai mic al seriei din toţi termenii seriei şi adăugându-l la media finală obţinută şi simplificând de obicei frecvenţele absolute cu cel mai mare divizor comun al acestora.

Media armonică.

Se aplică în general în seriile de distribuţie care au repartiţie hiperbolică a termenilor.

a) media armonică simplă:

b) media armonică ponderată:

Observaţie: media armonică este mai mică sau cel mult egală cu media aritmetică a aceleiaşi serii de repartiţie.

44

f I

xi

f I

xi

Xi

xi

7. 4 RezumatUnitatea de invatare Nr.7. prezinta media ca indicatorul statistic cel mai important care sintetizează ceea ce este esenţial în colectivităţile statistice. Sunt apoi prezentate în formă simplă şi ponderată principalele medii utilizate în metodologia statistică, insistându-se asupra mediei aritmetice şi a mediei standard.

7.5 Bibliografia Unitatii de invatare Nr. 7Agresti, Allan (1990) – Categorical Data Analysis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs

45


SERII DE REPARTIŢIE DE FRECVENŢECuprins8.1. Obiectivele unităţii de învăţare Nr.8 498.2. Indicatori ai tendinţei centrale 498.3. Teste de evalure 1 a unităţii de învăţare Nr.6 528.4. Rezumat 548.5. Bibliografie 55

8.1. Principalele obiective ale unitatii de invatare nr. 8- conştientizarea decătre studenţi a faptului că seriile sunt principala formă

de organizare a datelor ;- prezentarea şi înţelegerea proprietăţilor seriilor care definesc esenţa

acestora ;- prezentarea, înţelegerea şi însuşirea conceptului de omogenitate şi a

posibilităţilor de măsurare a acestuia.


8.2 Conţinut :

Capitolul 8

SERII DE REPARTIŢIE DE FRECVENŢE

46

.

1.Probleme generale ale seriilor de repartiţie de frecvenţe

Sistematizarea datelor observării sub formă de serii de repartiţie de frecvenţă se face pentru fiecare variabilă atributivă, fie cantitativă, fie calitativă.

Principalele proprietăţi ale seriilor de repartiţie sunt: - omogenitatea; - variabilitatea; – independenţa; - tendinţa de concentrare a frecventelor ataşate valorilor înregistrate.Omogenitatea reprezintă faptul că seriile au acelaşi conţinut, fiind rezultatul combinării

aceloraşi factori determinanţi.Variabilitatea derivă din faptul că fenomenele de tip statistic sunt determinate nu numai de

acţiunile unor factori esenţiali, ci şi de combinarea acestora cu o serie de factori neesenţiali.Independenţa variantelor seriei de distribuţie se bazează pe faptul că variantele au fost

înregistrate pentru unităţi de observare existente, independente una faţă de alta, chiar dacă aparţin aceleiaşi colectivităţi statistice.

Tendinţa de concentrare a frecvenţelor ataşate valorilor înregistrate ale unei serii statistice este rezultatul combinării tuturor unităţilor observate; în cazul în care factorii de influenţă au o intensitate relativ constantă in cadrul fiecărei unităţi înregistrate, seria va prezenta o tendinţă de

repartiţie uniformă a frecvenţelor, indicând un proces de diversificare relativ constantă a variantelor înregistrării.

Indicatorii seriilor statistice se grupează în:- indicatori de frecvenţă; - indicatori ai tendinţei centrale; -indicatori ai mediilor de structură; -

indicatori de variaţie; - indicatori ai formei de repartiţie.

2. Indicatori de frecvenţă

O serie de frecvenţe arată astfel:

Intervale de grupare

Frecventele absolute

Frecventele relative

Frecventele absolute cumulate

Frecventele relative

cumulateGrupa 1Grupa 2

Grupa IGrupa n

47

Indicatorii seriilor

statistice se grupează în 5 indicatori

TOTAL

Pentru a analiza structura seriei este necesar să se calculeze frecvenţele relative după formula:

O altă modalitate de a caracteriza structura unei serii constă în calcularea frecvenţelor cumulate. Cumularea poate fi făcută fie pentru frecventele absolute cât şi pentru frecvenţele relative.

Cumularea frecvenţelor, respectiv a greutăţilor specifice ajută pentru a evidenţia care este numărul de unităţi sau ponderea lor până la valoarea absolută sau relativă totalizatoare.

2. Indicatori ai tendinţei centrale

Principalul indicator a tendinţei centrale este media aritmetică. Pe lângă ea, pentru caracterizarea unei serii de repartiţie este necesar să se calculeze valoarea mediană şi valoarea modală.

Media simplă:

Media ponderată:

În primul caz, n repryintă numărul termenilor seriei ; în cazul al doilea n repreyintă numarul intervalelor de grupare.

Pentru cazul în care seriile sunt împărţite pe intervale de variaţie, valorile x luate în calcul sunt date de centrele de intervale, calculate ca medii aritmetice simple intre limitele de interval. Media se exprimă în aceleaşi unităţi de măsură ca şi valoarea variabilei statistice din care s-a calculat. In analiza seriilor se pot utiliza şi celelalte tipuri de medii: media armonică, pătratică, geometrică.

Mediana este valoarea seriei care o împarte pe aceasta în 2 părţi egale. Pentru seriile simple, dacă numărul termenilor seriei e impar, atunci mediana este dată de termenul de mijloc al seriei.

Dacă numărul termenilor seriei este par, mediana se va calcula ca medie aritmetică simplă a celor 2 termeni din mijloc ai seriei.

Practic mediana se va plasa în intervalul care include acea valoare în frecvenţe cumulate

48

Definiţia medianei

(frecvenţa cumulată a intervalului anterior este mai mică iar frecvenţa cumulată a intervalului respectiv e mai mare sau egală cu valoarea dată de locul medianei).

Locul medianei:

Valoarea medianei: h – lungimea intervalului medianei;f me –index, frecvenţa intervalului medianei;

- suma frecvenţelor anterioare intervalului medianei.Modul reprezintă valoarea seriei cu probabilitatea cea mai mare de apariţieModulul se va plasa în intervalul cu frecvenţa cea mai mare din cadrul seriei.Formula de calcul:

h repreyintă amplitudinea intervalului modal;x0 repreyintă limita inferioară a intervalului modal

8.3 Testul de evaluare 1Testul de evaluare 8.1.

GRUPE DE UNITĂŢI COMERCIALE DUPĂ

VALOAREA VÂNZĂRILOR

REALIZATE (mii lei)

Nr. Unităţi(f i)

Vânzări total(mil lei)

Sub 31 18 50031-33 24 750

33-35 25 100035-37 13 45037-39 8 30039-41 7 280

Peste 41 5 220TOTAL 100 3500

Xh = 33,89Xg = 34,04

49

X = 34,20Xp = 34,47 Pe baza algoritmului de calcul al medianei pot fii calculate şi cuartilele,

decilele şi centilele.Centilele sunt acele valori care împart seria în 4 părţi egale. Există 3 cuartile, a doua fiind evident egală cu mediana.Locul primei cuartile va fii:

- decilele vor împărţi seria în 10 părţi egale<- centilele vor împărţi seria în 100 părţi egale.

Există 9 decile, a cincea fiind egală cu mediana şi 99 de centile, a 50-a fiind egală cu mediana.

Indicatorii variaţiei

Pe lângă indicatorii tendinţei centrale, o importanţă deosebită pentru caracterizarea seriilor o au indicatorii variaţiei.

Aceştia se împart în 2 categorii: indicatori simplii ai variaţiei şi indicatori sintetici.

Indicatorii simplii sunt: amplitudinea A = x max – x min (diferenţa dintre valoarea maximă şi valoarea minimă a seriei), şi abaterile individuale liniare ale valorilor seriei de la medial lor.

Indicatorii sintetici sunt:- abaterea medie liniară – calculată ca media aritmetică simplă sau ponderată

între valorile absolute ale abaterilor liniare ale valorilor seriei de la media acesteia.

Pentru o serie simplă: ; pentru o serie de distribuţie cu frecvenţe

absolute: ..

- dispersia – al doilea indicator sintetic al variaţiei, foarte important deoarece calculează şi estimează gradul de împrăştiere a valorilor seriei faţă de media lor.Pentru o serie simplă, dispersia se calculează astfel:

Scrieţi dispersia pentru o serie de repartiţie cu frecvenţe absolute!

- abaterea medie pătratică, numită şi abatere standard, notată cu se calculează scoţând rădăcina pătrată din media aritmetică simplă sau ponderată a pătratelor

50

abaterea medie

pătratică se calculează astfel

abaterilor liniare ale valorilor seriei de la media lor. Cu alte cuvinte, abaterea medie pătratică este radicalul dispersiei:

; --- coeficientul de

variaţie, al patrulea indicator al variaţiei seriei, a fost introdus din necesitatea de a introduce nişte limite între indicatorii variaţiei ,pentru a putea aprecia omogenitatea seriei.

Coeficientul de variaţie se calculează în 2 moduri:

Coeficientul de variaţie ia valori între 0 şi 100%Dacă acest coeficient este sub 10% seria este foarte omogenăDacă este sub 35% se apreciază că seria e omogenă.

Exemplu:X

30 4,2 75,6 317,532 2,2 52,8 116,1634 0,2 5 136 1,8 23,4 42,1238 3,8 30,4 115,5240 5,8 40,6 235,4842 7,8 39 304,2

= 266,8 = 1132

Prin ambele metode coeficientul de variaţie este sub 10% deci, seria poate fii apreciată ca o serie foarte omogenă.

8.4 Rezumat

51

Unitatea de invatare Nr.8. face prezentarea principalelor proprietăţi ale seriilor de repartiţie: omogenitatea, variabilitatea, independenţa variantelor, tendinţa de repartiţie, făcând ulterior şi o grupare a indicatorilor. sunt prezentaţi apoi indicatorii de frecvenţe, precum şi indicatorii tendinţei centrale. O deosebită importanţă în studiul seriilor o au indicatorii variaţiei, grupaţi in indicatori simpli şi indicatori sintetici. O atenţie deosebită le este acordată acestora din urmă, insistându-se asupra abaterii medii liniare, abaterii medii pătratice, dispersiei şi coeficientului de variaţie. În final , în vederea înţelegerii profunde a variaţiei în cadrul seriilor este prezentată regula adunării dispersiilor.

8.5.Bibliografia Unitatii de invatare Nr. 8Agresti, Allan (1990) – Categorical Data Analysis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs

52

53


VARIAŢIA ŞI COLECTIVITĂŢILE ÎMPĂRŢITE PE GRUPE ŞI MĂSURAREA EICuprins9.1. Obiectivele unităţii de învăţare Nr.9 579.2. Indicatori ai variaţiei 579.3. Teste de evalure 1 a unităţii de învăţare Nr.9 629.4. Rezumat 669.5. Bibliografie 66

9.1. Principalele obiective ale unitatii de invatare nr. 9- înţelegerea şi însuşirea de către studenţi a legăturii totale dintre serie şi

colectivitate împărţită pe grupe ;- prezentarea, înţelegerea şi însuşirea împrăştierii (variaţiei) în cadrul

acestei colectivităţi ;- prezentarea, înţelegerea şi însuşirea modalităţilor de calcul a

indicatorilor care măsoară împrăştierea.


9.2 Conţinut :

54

Capitolul 9

VARIAŢIA ŞI COLECTIVITĂŢILE ÎMPĂRŢITE PE GRUPE ŞI MĂSURAREA EI

1. Indicatori ai variaţiei

Media nu este o valoare reprezentativă decât pentru cazul în care ea este calculată din mărimi omogene, cu un grad de variaţie cât mai redus. Pentru a verifica gradul de omogenitate al caracteristicilor pentru care se determină media, este necesar să se calculeze indicatori de variaţie, de asimetrie şi de exces

Aceşti indicatori permit separarea modului de acţiune a factorilor esenţiali de acţiunea factorilor întâmplători, ajungând la identificarea felului în care acţionează factorii esenţiali de la o grupă la alta.

Indicatorii variaţiei sunt de 2 tipuri: simpli şi sintetici.

1.1. Indicatori simpli ai variaţieiSunt utilizaţi pentru a caracteriza gradul de împrăştiere a unităţilor purtătoare a

caracteristicii studiate. Se pot exprima în mărimi absolute, dar şi mărimi relative sau procente.

Indicatorii simplii sunt:a) Amplitudinea absolută a variaţiei (A) se calculează ca diferenţă intre nivelul

maxim şi nivelul minim al caracteristicii. Se exprimă în aceiaşi unitate de măsură ca şi variabila.b) Amplitudinea relativă a variaţiei (A%) se calculează după formula:

Se exprimă in procente.c) Abaterile individuale absolute (d) se calculează ca diferenţa intre fiecare variantă

înregistrată şi media aritmetică a variantelor Se exprima în aceiaşi unitate de măsură. d) Abaterile individuale relative (d%) se calculează astfel:

In analiza variaţiei, interesează în mod special abaterile maxime intr-un sens sau altul.

Abaterea maximă negativă dmax(-)

Abaterea maximă negativă relativă::

Abaterea maximă pozitivă dmax(+) :

Abaterea maxima negativă relativă :

1.2 Indicatori sintetici ai variaţieiSe utilizează pentru a sintetiza într-o singură expresie numerică întreaga variaţie a

unei caracteristici, scop în care statistica recurge tot la valoarea medie, calculată din abaterile individuale ale variantelor de la media lor.

55

Utilizarea indicatorilor

simpli ai variaţiei

Se utilizează 4 indicatori sintetici: 1. Abaterea medie lineară; 2. Abaterea medie pătratică; 3. Dispersia; 4. Coeficientul de variaţie.

1. Abaterea medie lineară de notează cu şi se calculează ca o medie aritmetică simplă sau ponderată din abaterile termenilor seriei de la media lor în valoare absolută.

1.1. Pentru o serie simplă :

1.2.Pentru o serie cu frecvenţe absolute:

1.3.Pentruo serie de frecvenţe relative exprimate în procente:

2. Abaterea medie pătratică, numită şi abatere medie tip sau abaterea standard; se notează cu (sigma) şi se calculează ca o medie pătratică din abaterile tuturor variantelor seriei de la media lor aritmetică.

2.1. Pentru o serie simplă

2.2. Pentru o serie de frecvenţe absolute: 2.3. Pentru o serie de frecvenţe relative exprimate în procente:

De menţionat că abaterea medie pătratică va fi întotdeauna mai mare decât abaterea medie lineară.

Prin ridicarea la pătrat a abaterilor liniare, abaterea medie pătratică scoate în evidenţă tocmai valorile cele mai mari ale acestora. Din acest motiv, abaterea medie pătratică va fi totdeauna mai mare decât abaterea medie liniară.

3. Dispersia este un indicator sintetic al variaţiei extrem de important deoarece cumulează gradul de împrăştiere al valorilor seriei faţă de media lor. Ea este legată de abaterea medie pătratică fiind practic pătratul acesteia, în consecinţă, calculul abaterii medii pătratice presupune în primul rând calculul dispersiei.

56

Definiţia dispersiei

3.1. Pentru seriile simple, formula de calcul este:

3.2. Pentru seriile de repartiţie cu frecvenţe absolute: 3.3. Pentru seriile de repartiţie de frecvenţe relative exprimate in procente:

4. Coeficientul de variaţie se notează cu V şi se calculează ca raport intre abaterea

medie pătratică şi nivelul mediu al seriei. De obicei se exprimă procentual: Poate lua valori pozitive sau negative, începând cu 0.

Se apreciază că o serie este omogenă dacă valoarea acestui coeficient în valoare absolută nu depăşeşte 30%. În caz contrar se apreciază că media nu mai este reprezentativă, deci seria este eterogenă, singura modalitate de creştere a omogenităţii fiind refacerea împărţirii pe grupe. Dacă nu avem la dispoziţie decât abaterea medie liniară, coeficientul de

variaţie poate fi calculat şi pe baza ei: Coeficientul astfel calculat va fii mai mic decât cel calculat pe baza abaterii medii

pătratice.

2. Indicatorii variaţiei intr-o colectivitate împărţită pe grupe. Regula adunării dispersiilor

Cu cât fenomenele sunt mai complexe, cu atât gradul de variaţie al caracteristicilor care le definesc prezintă o amplitudine mai mare a variaţiei.

Din acest motiv, unităţile la care s-a făcut observaţia trebuie împărţite în grupe, în funcţie de variaţia factorilor determinanţi. In cazul în care s-a aplicat în prealabil metoda grupării, se pot calcula atât medii pe fiecare grupă în parte, cât şi o medie a colectivităţii totale, luând în calcul toate valorile individuale ale seriei.

In mod corespunzător se vor calcula indicatorii de variaţie pentru fiecare grupă în parte şi indicatorii variaţiei pentru întreaga colectivitate.

Indicatorii de variaţie pentru întreaga colectivitate se pot calcula în 2 moduri:a) făcând abstracţie de faptul că ea este compusă din mai multe grupe;b) luând în calcul variaţia din interiorul grupelor şi cea între grupe.Intre indicatorii de variaţie, calculaţi la nivelul fiecărei grupe şi indicatorii întregii

colectivităţi există anumite relaţii bazate pe aşa-numita regulă a adunării dispersiilor.

57

Valoarea caracteristici de grupare

(xi)

Numărul unităţilor pe variantele caracteristicii Total unităţi pe

grupe

Medii de

grupă

Dispersiide

grupăy1 y2 yi ym

Dacă se studiază variaţia caracteristicii y in funcţie de variaţia factorilor de grupare

x, atunci se pot calcula medii şi dispersii condiţionate pentru fiecare grupă, prin care se va pune în evidenţă interdependenţa dintre cele 2 caracteristici.Dacă x este factorul de grupare, frecvenţele pe fiecare grupă se obţin prin însumarea

frecvenţelor din interiorul grupelor adică: . Pentru o astfel de situaţie, se obţine o

medie generală , care sintetizează atât variaţia tuturor valorilor individuale ale colectivităţii totale, cât şi valorile mediilor de grupă, numite şi medii condiţionate de factorul de grupare yi. Pentru caracteristica y se pot calcula 3 feluri de indicatori, care să caracterizeze:

a) variaţia valorii yi in jurul mediei lor de grupă b) variaţia valorilor mediilor de grupă in jurul mediei colectivităţii totalec) variaţia valorilor individuale yi in jurul mediei colectivităţii totale La nivelul fiecărei unităţi observate, variaţia totală , se poate descompune in

variaţia faţă de media de grupă şi variaţia mediilor de grupare faţă de media colectivităţii totale.

Variaţia valorilor individuale din fiecare grupă în jurul mediilor va măsura gradul de influenţă a factorilor variabili, prezenţi in interiorul grupei.

Pe de altă parte, variaţia mediilor de grupă faţă de media colectivităţii totale este interpretată ca rezultat al factorului de grupare, deoarece în acest caz factorii variabili din interiorul grupei s-au păstrat la un nivel constant.

Dispersia totală calculată pe baza abaterilor valorilor individuale faţă de media

colectivităţii totale este următoarea: .

Cu cât această valoare este mai mare, cu atât colectivitatea e mai eterogenă

58

Dispersiile se

calculează

Dispersia de grupă sau parţială se calculează pe baza abaterilor tuturor variantelor dintr-o grupă faţă de media lor, ponderate cu frecventele de grupă:

. Vor exista k astfel de dispersii de grupă, deci se poate calcula o medie

a acestor dispersii notată cu Această dispersie permite măsurarea influentei factorilor variabili prezenţi în

interiorul fiecărei grupă,( se mai numeşte şi dispersia din interiorul grupei) şi cu cât este mai mare, cu atât grupa este mai eterogenă.

Dispersia dintre grupe se calculează pe baza abaterilor mediilor de grupă de la media colectivităţii totale măsurând gradul de influentă a factorilor de grupare asupra

variabilei studiate.

Între cele 3 dispersii funcţionează regula adunării dispersiilor:

Dispersia totală = cu media dispersiilor din interiorul grupelor + dispersia dintre grupe.

9.3 Testul de evaluare 1Testul de autoevaluare 9.1

Considerăm 400 de salariaţi care formează un eşantion de 10% selectat întâmplător şi nerepetat din numărul total al salariaţilor unei firme. Se cunosc următoarele date referitoare la vechimea în muncă şi timpul nelucrat:

GRUPE TIPICE

SUBGRUPE DUPĂ TIMPUL NELUCRAT (minute)

TOTAL

59

DUPĂ VECHIME

(ANI)sub 45 45-55 peste 55

Sub 10 - 25% 75% 100%10-20 15% 50% 35% 100%Peste 20 90% 10% - 100%

Ştiind că eşantionul este structurat astfel: grupa sub 10 ani are o pondere de 25%, grupa între 10 şi 20 ani are o pondere de 40%, grupa peste 20 ani are o pondere de 35%, se cere:

1. Timpul mediu nelucrat pe grupe de vechime şi timpul mediu nelucrat al eşantionului, precizându-se dacă sunt valori reprezentative

2. Felurile dispersiilor şi verificarea regulii de adunare a dispersiilor.3 Să se verifice semnificaţia factorului principal de grupare (vechimea) pentru

variaţia timpului nelucrat, prin calcularea coeficientului de determinaţie şi criteriul F de analiză dispersională.

Pentru a verifica dacă mediile sunt reprezentative, verificăm dacă grupările sunt omogene, verificare care se produce prin calculul coeficientului de variaţie şi verificarea încadrării lui sub 35%.

GRUPE SUBGRUPE

TOTAL35-45 45-55 55-65

0-10 0 25 75 10010-20 24 80 56 16020-30 126 14 0 140Total 150 119 131 400

Pentru fiecare subgrupă trebuie să calculăm:

Subgrupa IYi Frecvenţe40 050 2560 75

60

Subgrupa IIYi Frecvenţe40 2450 8060 56

Subgrupa IIIYi Frecvenţe40 12650 1460 0

Colectivitatea generală

Yi frecvenţe40 15050 11960 131

Indicatori

Grupa

Vi

0-10 57,5 18,75 4,33 7,5

10-20 52 46 6,78 13,04

20-30 41 9 3 7,31

Colectiv.

Totală

49,52 70,02 8,36 16,88

Având în vedere că, atât pentru toate grupele, cât şi pentru colectivitatea generală,

coeficientul de variaţie este de sub 30%, toate omogenă grupă d.p.d.v. al timpului nefolosit

este ultima cu mediile calculate sunt reprezentative, grupele fiind omogene. Cea mai

omogenă grupă va fi aceea cu coeficientul de variaţie cel mai mic.

61

Regula adunării dispersiilor:

Dispersia colectivităţi totale este egală cu suma dintre media dispersiilor de grupă şi

dispersia dintre grupe.

.

Media dispersiilor de grupă se calculează ca o medie ponderată, ponderând

dispersiile fiecărei grupe cu frecvenţele de apariţie.

f

18,75 10046,0 1609 140

Dispersia dintre grupe se va calcula pe baza abaterilor mediilor fiecărei grupe de la

media generală.

Regula adunării dispersiilor se verifică, eventualele infime diferenţe provenind din

calculul cu un număr insuficient de zecimale….!

În final, un sfat : aprecierea omogenităţii unei serii este vitală pentru orice economist

care doreşte să-şi argumenteze cunoştinţele !

62

9.4 RezumatUnitatea de invatare Nr.8. prezinta seriile ca metoda cea mai des utilizată pentru sistematizarea datelor, ele fiind direct legate de gruparea statistică. In această unitate se prezintă conceptul de împrăştiere sau de variaţie şi modalităţile de calcul şi interpretare a indicatorilor simpli şi sintetici ai acesteia.

9.5 Bibliografia Unitatii de invatare Nr.9

Agresti, Allan (1990) – Categorical Data Analysis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs

63


METODE DE EŞANTIONARE PENTRU EFECTUAREA SONDAJELOR STATISTICECuprins10.1. Obiectivele unităţii de învăţare Nr.10 6710.2. Generalităţi. Metode de alcătuire a eşantioanelor 6710.3. Teste de evalure 1 a unităţii de învăţare Nr.9 7110.4. Rezumat 7110.5. Bibliografia 72

10.1. Principalele obiective ale unitatii de invatare nr. 10- prezentarea metodei sondajului şi înţelegerea faptului că este una dintre

cele mai utilizate metode statistice în economie şi societate ;- înţelegerea principiilor eşantionării şi a conceptului de

reprezentativitate ;- prezentarea şi înţelegerea principalelor metode de eşantionare.


10.2. Conţinut

Capitolul 10

METODE DE EŞANTIONARE PENTRU EFECTUAREA SONDAJELOR STATISTICE

1. Generalităţi

64

Necesarul de informaţie în continuă creştere, coroborat cu faptul că sursele economice (în principal cele financiare) sunt de regulă limitate, determină creşterea gradului de utilizare a metodei sondajului statistic ca formă a observării parţiale.

Sondajul statistic este uneori singura formă de obţinere a informaţiei şi este cu atât mai avantajoasă cu cât presupune un consum redus de resurse, oferind posibilitatea de a obţine informaţii referitoare la întreaga colectivitate, prin observarea şi cercetarea unei părţi a acesteia.

Partea cercetată este numită subpopulaţie sau eşantion, fiind întâlnită în literatura de specialitate sub numele de sondaj sau selecţie.

In practica cel mai des se foloseşte sintagma "colectivitate de selecţie" pentru eşantion. Toate ipotezele, afirmaţiile, clasele stabilite pe baza unui sondaj nu pot fi considerate de tip

determinist, ele având caracterul unor ipoteze, afirmaţii de tip statistic, efectuate in condiţiile unei anumite probabilităţi, deci cu un anumit nivel de încredere.

2. Noţiuni si importanţă

Culegerea datelor se face prin observaţii totale şi parţiale. Dacă observaţia parţială se face în scopul înlocuirii unei observări totale, atunci statistica foloseşte metoda selectivă, care presupune obţinerea unor eşantioane reprezentative, extrase după criterii strict elaborate, şi care se supun observării în conformitate cu o serie de reguli prestabilite.

Reprezentativitatea este proprietatea conform căreia, intr-un număr mai mic de unităţi, care formează împreună un eşantion, se regăsesc aceleaşi trasaturi esenţiale ca si în întreaga populaţie supusa cercetării statistice.

Se consideră suficient de reprezentativ, sondajul care conduce la erori de cel mult 5 % între colectivitatea de selecţie şi colectivitatea generală.

La aplicarea metodei sondajului statistic, se utilizează o serie de noţiuni-perechi ale colectivităţii de selecţie şi colectivităţii generale după cum urmează:

Colectivitatea Volum Caracteristica nealternativă Caracteristica alternativăMedie Dispersie Medie Dispersie

Colectivitatea de selecţie

N

Colectivitatea generală

N

De reţinut că, în orice condiţii volumul colectivităţii totale este o constantă, deci parametrii

colectivităţii totale (media, dispersia) pot lua fiecare cate o singură valoare distinctă. In acelaşi timp, dintr-o populaţie totală de N unităţi pot fi extrase mai multe eşantioane de acelaşi volum sau de volum diferit. Rezultă de aici că media şi dispersia colectivităţii de sondaj se transformă în variabile aleatoare, cu valori şi frecvenţe diferite de apariţie.Dintr-un volum de N unităţi pot fii extrase eşantioane. Numărul total al eşantioanelor este .

De aici rezultă că media şi dispersia colectivităţii de sondaj se transformă în variabile aleatoare cu valori diferite şi cu frecvenţe diferite.

Pentru fiecare indicator calculat la nivel de colectivitate generală sau eşantion, există diferenţe in plus

65

Definiţie erori de

sondaj

sau in minus. Aceste diferenţe se numesc erori de selecţie şi sunt: de sondaj sau de reprezentativitate.Erorile de sondaj sunt erori de care îşi au sursa in încălcarea principiului fundamental al sondajului

şi anume caracterul aleator al prelucrărilor. Ele se concretizează in deplasări ale valorilor parametrilor stabiliţi pentru colectivitatea de selecţie, comparativ cu parametrii existenţi pentru populaţia originară.

Datorită proprietăţilor mediei, la calculul erorii de sondaj se ia in discuţie ca principal măsurător al erorii, diferenţa dintre media de selecţie şi media generală.

Eroarea de reprezentativitate reprezintă diferenţa dintre media generală a populaţiei şi media eşantionului, aceasta din urmă fiind calculată pe baza sondajului.

Această eroare este expresia in unităţi concrete de măsură, considerându-se că media a colectivităţii de selecţie este reprezentativa pentru media generală (m) a colectivităţii generale, dacă este reflectată relaţia:

sau

Diferenţa se numeşte eroare de eşantionare sau eroare de reprezentativitate si este de 2 tipuri:b1) eroare de reprezentativitate sistematică, provenind de la nerespectarea principiilor fundamentale

ale efectuării sondajului: “alegerea la întâmplare a unităţilor eşantionului”.b2) eroare de reprezentativitate întâmplătoare, care nu poate fi evitată şi care ţine de natura

eşantionării ca cercetare parţială.Practica demonstrează că indiferent de precauţiile luate, nu este posibilă reproducerea până la

identitate a structurii populaţiei totale şi de aici rezultă că eroarea de reprezentativitate poate fi calculată dacă media generală este cunoscută dintr-o cercetare anterioara, comparându-se media eşantionului înregistrat, calculată în cursul cercetării, cu această medie generală recunoscută.

In acest caz se spune ca a fost calculata eroarea efeectivă de sondaj şi dacă ea se încadrează in marja de 5% este verificat şi gradul de reprezentativitate.

Nu în toate cazurile există o medie precalculată a colectivităţii generale. Din acest motiv se utilizează mai multe sondaje de probă, verificându-se stabilitatea mediei şi a dispersiei acestor sondaje prin metode cunoscute de la seriile de distribuţie.

Avantajul selecţiei statistice constă în faptul că permite calcularea mărimii erorii şi stabilirea prealabilă a mărimii acesteia, cu condiţia ca la formarea eşantionului să se folosească o schema probabilistică sau un procedeu derivat dintr-o schemă probabilistă.

In acest caz, se pot interpreta si calcula erorile de selecţie, cu ajutorul proprietăţilor diferitelor funcţii de probabilitate.

3. Procedee şi modalităţi de alcătuire a eşantioanelor

Metoda sondajului oferă tehnici variate de prelucrare, diferenţiate şi adaptate diferitelor tipuri de populaţie, astfel încât să se asigure caracterul aleator al selecţiei unităţilor şi reprezentativitatea eşantionului.

După modul de prelucrare sau extragere, există următoarele tipuri de sondaje:a) sondaj simplu aleator

- repetat- nerepetat

b) sondaj tipic (stratificat):c) sondaj de seried) sondaj in mai multe treptee) sondaj secvenţial utilizat la controlul calităţiif) sondaj subiectiv (organizat sau dirijat)g) sondaj sistematic sau mecanic

In practică, în marea majoritate a cazurilor, eşantioanele se extrag din populaţii finite. Aceste

66

eroarea de eşantionare este de

2 tipuri

eşantioane se tratează prin analogie cu extragerea sondajelor din populaţii infinite.In funcţie de revenirea sau nerevenirea fiecărei unităţi in baza de extragere, sondajele sunt repetate,

daca unitatea extrasă revine în baza in vederea unei noi extrageri, şi nerepetate în caz contrar.

Sondajul repetat este sondajul în care fiecare unitate extrasă din populaţia generală este introdusă din nou în aceasta, în vederea unei noi extrageri. În acest caz, variabilele sunt independente între ele şi fiecare unitate poate fi extrasă de mai multe ori.

În sondajul simplu repetat varianta de sondaj da naştere unei repartiţii teoretice după modelul Bernoulli.

Dintr-o colectivitate care conţine N unităţi se pot extrage mai multe eşantioane de volum n, care pot să fie diferite ca structură una de cealaltă ,deci succesiunea probelor de sondaj este infinită. Numărul de variante de eşantionare este totuşi finit şi este egal cu: .

Prin sondaj nerepetat se înţelege un sondaj analog cu modelul bilei extrase din urna, fără ca ea să mai fie pusă înapoi.

In acest caz, variantele sunt dependente intre ele, şi fiecare unitate poate apărea o singură dată în şirul succesiv al probelor. Este practic un sondaj efectuat dintr-o populaţie finită , cu fracţia de sondaj depinzând de volumul eşantionului.

Atât în cazul bilei revenite, cât şi in cel al bilei nerevenite se obţin mai multe eşantioane de acelaşi volum. Efectuând toate eşantioanele posibile cu acelaşi volum, mediile de selecţie pot fi considerate ca valori diferite ale unei variabile statistice aleatoare, care pot estima media generală cu o abatere mai mare sau mai mică. Rezultă de aici că există sondaje mai eficiente sau mai puţin eficiente.

Prin definiţie, un sondaj A de volum n, in baza căruia se estimează media m a unei populaţii pentru variabila x prin estimaţia este mai eficace decât sondajul B, de acelaşi volum n, în baza căruia se estimează aceeaşi medie m a caracteristici x, dacă există relaţiile:

Acest lucru se explică pe baza inegalităţii lui Cebîşev, care exprimă cu o probabilitate mai mare decât

următoarele:

- in cazul sondajului A media teoretică m se găseşte cuprinsă în intervalul ;

- in cazul sondajului B ..

Concluzie: Cu aceeaşi probabilitate, se găseşte pentru media teoretică un interval mai mic de acoperire în cazul

sondajului A decât în cazul sondajului B, motiv pentru care spunem că sondajul A este mai eficient şi îl preferăm sondajului B.

Întreaga metodologie de calcul si interpretare statistica a rezultatelor unei cercetări selective, se bazează pe sondajul simplu, aleator, care corespunde cel mai bine schemei Bernoulli şi are ca model teoretic repartiţiile binomială şi hipergeometrică.

Alcătuirea eşantioanelor poate fi făcută prin mai multe procedee:

67

defiţie sondajul

repetat

Procedee pentru

alcătuirea eşantioanelor

definiţie sondajul

nerepetat

a) procedeul bilei revenite şi nerevenite procedeu în care elementele populaţiei generale se notează de la 1 la N, şi fiecare nr. se notează pe un cartonaş. Toate cartonaşele se introduc într-o anumită urnă (urna lui Bernoulli) şi se amestecă bine. Extragerile se fac la întâmplare.

Elementul extras se consideră component al eşantionului. Dacă elementele nu se mai introduc in urna lui Bernoulli, sondajul aleator este nerepetat. In caz contrar, sondajul este repetat.

La sondajul repetat, după fiecare reintroducere, cartonaşele din urna lui Bernoulli sunt din nou amestecate.

b) procedeul tabelului numerelor aleatoare reprezintă o variantă de selecţie probabilistă, care porneşte de la conceptul de nr. aleator şi care are sens prin asociere cu anumite experimente şi anumite consemnări, privind frecvenţa de apariţie a unui fenomen sau a unei anumite caracteristici intr-un proces.

Utilizarea tabelelor cu numere aleatoare constă în preluarea din cadrul populaţiei a unităţilor ale căror numere de ordine prestabilite printr-o numărătoare prealabilă au fost citite după o anumită ordine din tabel. Citirea se face de sus în jos şi de la stânga la dreapta.

Există algoritmi care generează numere aleatoare. Pentru ca selecţia să fie riguros întâmplătoare, punctul de pornire in acest tabel se alege tot întâmplător.

Daca nu există corespondenţi intre numărul citit din tabel şi numărul elementului, se trece mai departe la alt număr aleator.

c) procedeul mecanic de formare a eşantionului solicită ca elementele colectivităţii generale supuse cercetării sa fie prelevate după un interval determinat, denumit frecvent " pas de numărare", care se aplică bazei de sondaj.

Spre exemplu, dacă volumul eşantionului ar fi de 1/10 din cel al colectivităţii generale, preluarea elementelor în eşantion se face din 10 în 10, pornindu-se dintr-un punct al colectivităţii ales întâmplător.

10.3 Testul de evaluare 1

Test de autoevaluare 10.1

Care sunt principalele metode de eşantionare şi care credeţi că este metoda cel mai des folosită în practică.

10.4 RezumatUnitatea de invatare Nr.9. prezinta unul dintre capitolele esenţiale ale

statisticii, menit să uşureze consistent munca cercetătorului, este sondajul. În cadrul lui, o bună cunoaştere şi înţelegere presupune stăpânirea riguroasă a noţiunilor teoretice, alături de înţelegerea conceptelor de reprezentativitate şi estimaţie. În vederea efectuării în bune condiţii a unui sondaj este importantă alegerea procedurii corecte de alcătuire a eşantionului şi dimensionarea corectă a acestuia. În vederea calculului şi estimării căt mai aproape de adevăr a mediei şi dispersiei colectivităţii

68

generale este pus la dispoziţie aparatul statistico-matematic adecvat.

10.5 Bibliografia Unităţii de invatare Nr. 10


69


ESTIMAREA MEDIEI ŞI PRECIZAREA EI ÎN SONDAJUL STATISTICCuprins11.1. Obiectivele unităţii de învăţare Nr.11 7311.2. Sondajul. Proabilităţi şi intervalle de încredere 7311.3. Teste de evalure 1 a unităţii de învăţare Nr.10 7911.4. Rezumat 8111.5. Bibliografie 82

11.1. Principalele obiective ale unitatii de invatare nr. 11- înţelegerea noţiunilor de estimare şi precizie a estimărilor ;- prezentarea modalităţilor de calcul şi însuşirea lor ;- înţelegerea şi însuţirea diferenţelor existente între estimările din cadrul

diferitelor tipuri de sondaje.


11.2. ConţinutCapitolul 11

ESTIMAREA MEDIEI ŞI DISPERSIEI ŞI MĂSURAREA PRECIZIEI LOR ÎN

SONDAJUL STATISTIC

70

1. Estimarea mediei şi dispersiei populaţiei generale folosind sondajul statistic

1.1. Sondajul aleator simplu repetat Analiza formulelor de estimare pentru medie şi dispersie duce la concluzia că

sondajul aleator simplu repetat este cel mai apropiat ca estimare pentru medie şi dispersie, fiind de asemenea cel mai acoperitor din punctul de vedere al bazei teoretice şi pentru celelalte procedee. În acest caz media de selecţie este o variabilă care urmează o anumită lege de probabilitate. Se demonstrează că funcţia de probabilitate depinde de volumul eşantionului. Acest principiu stă la baza calculului erorii probabile de reprezentativitate.

Prin estimaţie se înţelege operaţia de extindere, in limitele specificate de incertitudinea exprimată în termeni probabilistici, a rezultatelor obţinute în sondaj asupra întregii populaţii.

Estimaţiile reprezintă evaluări aproximative ale adevăratelor valori ale parametrilor estimaţi, deoarece sunt afectate de erori.

Eroarea estimaţiei afectează precizia ei. Rezultă de aici că estimarea parametrului general se face printr-un interval de estimare numit şi interval de încredere.

Acest interval va avea 2 limite: limita inferioară , limita superioară .Pentru parametrul real este îndeplinită următoarea relaţie de probabilitate:

In acest caz ,1- este nivelul de încredere, iar se mai numeşte prag de semnificaţie.

Jumătatea intervalului de încredere se numeşte eroare limită admisă şi se

notează cu:

Folosind independenta valorilor variabilelor din eşantion, notate cu x1,x2....xn, se arată că media de sondaj va fii :

Dispersia mediei de sondaj:

Abaterea medie pătratica a mediei de sondaj:

1.2. Sondajul aleator simplu nerepetat

În caracterizarea şi calculul parametrilor acestui tip de sondaj se consideră că X

71

Definiţia estimaţiei

este o caracteristică de tip cantitativ. Problema principală a sondajului este estimarea mediei m a colectivităţii generale pe baza mediei x a colectivităţii de selecţie, precum şi a unor parametrii rezultaţi în urma aplicării metodei selecţiei statistice.

Este evident că numai din punct de vedere pur teoretic sau absolut întâmplător este posibil ca m să fie egal cu x. În general, media colectivităţii de selecţie sau a eşantionului se apropie mai mult sau mai puţin de media colectivităţii generale, deci va aparţine unei varietăţi a acesteia. Cu cât această varietate este mai restrânsă, cu atât estimarea este mai constantă iar selecţia mai reuşită.

Dacă N este volumul colectivităţii generale atunci probabilitatea producerii fenomenului xi = 1/N, iar X2 = x2 în condiţiile în care deja X1 = x1 = 1/N

Cu alte cuvinte, dacă în momentul iniţial probabilitatea extragerii unui anumit element din cadrul eşantionului este egală cu 1/volumul colectivităţii, după ce această extragere s-a produs probabilitatea extragerii unui alt element creşte deoarece volumul colectivităţii s-a diminuat cu o unitate şi numitorul fiind mai mic, expresia e mai mare. Acest lucru e valabil pentru sondajul aleator simplu nerepetat.

Media de selecţie va fii o variabilă aleatoare a cărei dispersie este dată de relaţia:

unde: este dispersia colectivităţii generaleDe asemenea abaterea medie pătratică a mediei de selecţie

Dacă raportul dintre colectivitatea de selecţie şi cea generală (n/N) < 0,2,

adesea în calcule factorul nu se mai ia în consideraţie.

De aici rezultă un paradox care arată că erorile sondajelor care cuprind o parte neînsemnată din colectivitatea generală depind numai de numărul absolut al variaţiilor colectivităţii de selecţie şi de mărimea abaterii medii pătratice a colectivităţii generale.

De altfel, precizia estimaţiei mediei m a colectivităţii generale prin media x a colectivităţii de selecţie depinde foarte puţin de volumul N al colectivităţii generale; această precizie depinde mult mai mult de valoarea absolută a volumului n a eşantionului.

Când volumul eşantionului (n) creşte, precizia creşte de aproximativ ori, după cum în aproximativ acelaşi raport se micşorează abaterea mediei pătratică a mediei de selecţie. Această dependenţă a abaterii medie pătraticea mediei de selecţie de volumul colectivităţii de selecţie dă posibilitatea utilizării în practică a unor sondaje nu foarte mari ca volum, deoarece creşterea cu puţin a volumului colectivităţii de selecţie nu influenţează cu aproape nimic precizia.

Concluzie: dacă volumul N al colectivităţii generale este foarte mare, şi

volumul n al colectivităţii de selecţie este foarte mic, atunci expresia:

De aici rezultă că în astfel de situaţii în care n este foarte mic, rezultatele sondajului repetat şi a celui nerepetat diferă foarte puţin.

72

De reţinut şi faptul că în totdeauna , motiv pentru care eroarea

sondajului nerepetat va fii totdeauna mai mică decât eroarea sondajului repetat sau cu revenire.

Acest lucru se explică prin faptul că revenirea aceloraşi unităţi în sondaj înrăutăţeşte reprezentativitatea, apariţia repetată în urna lui Bernoulii a aceleiaşi unităţi ducând la o pierdere substanţială de informaţii.

Adăugând acestor avantaje şi faptul că extracţia nerepetată se realizează mai uşor din punct de vedere organizatoric rezultă evantaiul complet al argumentelor care determină ca în practică sondajul nerepetat să fie mai utilizat decât cel repetat.

În ultima instanţă se remarcă faptul că precizia sondajului, eroarea medie a acestei precizii depinde nu de proporţia de sondaj n/N, ci de volumul n al sondajului,

fiind o constantă.

1.3. Estimarea dispersieiÎntreaga procedură utilizată pentru estimarea mediei m presupunea că dispersia

a colectivităţii generale era aprioric cunoscută.Dacă nu este cunoscută această dispersie, în locul ei se utilizează estimatorul

numit dispersia de sondaj: reprezintă abaterile

individuale ale valorilor colectivităţii de sondaj xi faţă de media lor .Pentru un sondaj repetat, dispersia este un estimator deplasat al dispersiei

a colectivităţii generale.Aplicând regulile de calcul ale dispersiei şi introducând m al colectivităţii

generale de obţine:

ceea ce arată că S2 este un estimator deplasat,

utilizarea lui comportând anumite riscuri referitoare la eroarea de reprezentativitate.Un estimator nedeplasat, mai exact se obţine în cazul sondajelor de volum

redus cu formula:

Dacă volumul colectivităţii de selecţie este mic, sub o zecime, sau chiar mai mic, atunci acest estimator pentru dispersia colectivităţii generale este mult mai realist, mai aproape de valoarea reală a acesteia. Concluzie: În cazul sondajului nerepetat, dispersia medie de sondaj poate fii

estimată din următoarele mărimi: , iar abaterea media pătratică

este:

2. Precizia estimaţiei, probabilitatea de încredere, intervalul de încredere.

2.1 Estimarea mediei

Siguranţa estimării mediei m prin intermediul mediei de selecţie este probabilitatea cu care este îndeplinită inegalitatea: . În general această 73

În general eroarea de reprezentativitate a

extragerii fără revenire este mai mică decât cea a extracţiei cu revenire.


un nou sistem de normare a muncii într-o întreprindere cu 550 muncitori de aceeaşi meserie s-a efectuat un sondaj cu volumul n=75 muncitori , înregistrându-se pentru fiecare numărul pieselor realizate.Se cere să se stabilească limitele de încredere pentru nivelul mediu al îndemânării muncitorilor. Determinarea intervalului de încredere şi a volumului colectivităţii de sondaj în

selecţia statistică

Sunt 2 dintre cele mai importante şi frecvent întâlnite probleme din sfera selecţiei aplicate, rezolvarea lor presupunând vehicularea unui număr mare de informaţii care acoperă practic cea mai mare parte a problematicii specifice selecţiei statistice.

Intervalul de încredere este intervalul în care se cuprinde cu o anumită probabilitate, media colectivităţii generale, dar dacă acest interval este calculat numai pe baza datelor obţinute din eşantionul selectat.

În vederea determinării acestui interval sunt necesare însă şi o serie de date ale colectivităţii generale, cunoscute eventual dintr-o observaţie anterioară.

Intervalul de încredere este de forma:Aici, m – este media colectivităţii generale, - este media colectivităţii eşantionului de selecţie , abaterea medie pătratică,

argumentul funcţiei de distribuţie Gauss-Laplace pentru o probabilitate dată.- de obicei avem: = 1% sau 1,5% 1 - = p (probabilitatea cu care apreciem că ceea ce facem e adevărat)

1 - = p = ( ) Funcţia Gauss-Laplace este tabelată, şi între probabilitatea p care este valoarea funcţiei, şi argumentul , există o corespondenţă biunivocă. Cunoscând una, o scoatem pe cealaltă.

În vederea determinării intervalului de încredere trebuie cunoscute dintr-o selecţie anterioară următoarele date: - volumul colectivităţii generale N;- eventual dispersia acestei colectivităţi;

Determinarea acestui interval depinde de tipul colectivităţii de selecţie utilizat , deoarece abaterea pătratică se ajustează diferit de la o metodă la alta.

Exemplu: Pentru a stabiliRezolvare: determinarea intervalului de încredere presupune parcurgerea următoarelor etape:

1. Determinarea metodei de eşantionare utilizată – sondajul aleatoriu nerepetat2. Determinarea volumului colectivităţii generale, N=550

74

3. Determinarea mediei colectivităţii de selecţie

4. Determinarea dispersiei colectivităţii de selecţie

5. Determinarea abaterii mediei pătratice a mediei de sondaj; în acest scop se utilizează formula de calcul specifică selecţiei

6. Determinarea argumentului al funcţiei Gauss-Laplace.Presupunând că probabilitatea pentru care se face calculul este de 99%, din tabele scoatem P=99% = ( ) = 2,58.7.Calcularea intervalului de încredere: m [15,418; 19,479]

Determinarea volumului colectivităţii de selecţie

Importanţa problemei derivă din faptul că un volum de selecţie mai mare nu influenţează în proporţie semnificativă exactitatea rezultatelor, dar influenţează în mod direct cheltuielile ocazionate de cercetarea statistică.

Este practic principala problemă care trebuie rezolvată atunci când s-a luat decizia de a efectua o selecţie statistică.

În vederea determinării volumului n al eşantionului este necesară cunoaşterea unor date din eventuale cercetări anterioare care să se refere la colectivitatea generală şi anume: volumul colectivităţii generale, abaterea medie pătratică a caracteristicii studiate, nivelul de încredere sau probabilitatea de decizie, eroarea probabilă în vederea calculării erorii limite maximă admisă.

Exemplu: În vederea determinării timpului mediu de funcţionare a unor lămpi cu incandescenţă se efectuează o cercetare prin sondaj, cunoscându-se următoarele date:- Volumul colectivităţii generale este 7500 lămpi;- Abaterea medie pătratică a duratei de funcţionare este de 150 ore;- Probabilitatea de decizie este de 99%.;- Eroarea probabilă pentru un timp mediu de funcţionare de 1000 de ore este de ±

5%.Determinarea volumului n al eşantionului se face în următoarele etape:1. stabilirea tipului de sondaj – aleatoriu nerepetat – pentru că reintroducerea

lămpilor în volumul colectivităţii generale diminuează rezultatul. 2. volumul lotului complet N=7500 lămpi3. abaterea medie pătratică a timpului de funcţionare 4. probabilitatea ( )=99% =2,585. calculăm eroarea limită admisă ca 5% 5 x 100/100=50 ore6. se aplică formula de calcul pentru volumul eşantionului pentru selecţia

75

Cercetare prin sondaj

nerepetată: este suficientă

extragerea şi testarea a 60 lămpi pentru ca datele să fie valabile pentru întregul volum de 7500 lămpi. Altfel spus, cu o probabilitate de 99%, timpul mediu de ardere al lotului de 7500 lămpi este identic sau foarte apropiat de timpul mediu de ardere a eşantionului de 60 de becuri.

În vederea creşterii exigenţelor calitative, societatea comercială producătoare îşi propune o mai mare exactitate a calculelor schimbând probabilitatea de decizie la 99,9%. Să se determine noul volum al eşantionului în baza noii probabilităţi.

= 3,40

În general eşantionarea se face nerepetată, repetată (cel mai frecvent), stratificată.

11.4 RezumatUnitatea de invatare Nr.11 prezinta metodele de estimare ale mediei şi dispersiei în sondajul aleator simplu repetat şi nerepetat, precum şi de evluare a preciziei acestor estimări.


Agresti, Allan (1990) – Categorical Data Analzsis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs

76


EŞANTIONAREA SIMPLĂ ALEATOARE NEREPETATĂ.ESTIMAREA MEDIEI ŞI DISPERSIEI ÎN BAZA ACESTORA


LEGĂTURILE DINTRE VARIABILELE ECONOMICECuprins12.1. Obiectivele unităţii de învăţare Nr.12 8312.2. Concepte. Tipuri de legături 8312.3. Teste de evalure 1 a unităţii de învăţare Nr.12 8612.4. Rezumat 8612.5. Bibliografie 86

77

12.1. Principalele obiective ale unitatii de invatare nr.12- înţelegerea faptului că între factorii economici există legături cauzale de diferite

tipuri;- prezentarea, înţelegerea şi însuşirea tipului de legături;- înţelegerea de către studenţi şi însuşirea celei mai simple metodologii de

evidenţiere a legăturilor dintre factori.


12.2 Conţinut Capitolul 12 LEGĂTURILE DINTRE VARIABILELE ECONOMICE

1. Conceptul de legătură statistică. Tipuri de legături.

Variabilele economice reprezintă rezultatul unei multitudini de factori, unii principali, alţii secundari, sau într-o altă accepţiune, unii esenţiali, alţii neesenţiali.

Una dintre preocupările majore ale statisticii este evidenţierea şi măsurarea influenţei acestor factori asupra variabilelor, demers care comportă o serie de dificultăţi legate în primul rând de complexitatea relaţiilor, precum şi de faptul că relaţiile de cauzalitate nu sunt deterministe şi se manifestă în general tot sub formă de tendinţă. În plus, se manifestă, cu predilecţie între factorii calitativi, o serie întreagă de interdependenţe care nu pot fii măsurate cu exactitate, ducând la acceptarea măsurilor inexacte ca măsuri variabile pentru legăturile dintre variabile.

Legăturile de tip statistic sunt diferite de cele tehnice, a căror manifestare este în general matematică, algoritmică şi parametrică.

De asemenea, există diferenţe majore între legăturile de tip statistic şi cele de tip funcţional. În cazul legăturilor funcţionale există o relaţie de tipul :

yi=f(xi) ,care stabileşte o corespondenţă între argumentul xi şi valoarea yi a funcţiei, corespondenţă care poate fi formalizată. Această formă de legătură nu e proprie fenomenelor social-economice, legăturile dintre acestea fiind legături statistice sau stohastice. În cadrul acestui gen de legături:

x – este o caracteristică factorială (factor); y – este caracteristica rezultativă,

astfel încât x îl influenţează pe y, (x y), sau cu alte cuvinte variaţia caracteristicii rezultative depinde într-o anumită măsură de variaţia caracteristicii factoriale .

Legăturile statistice pot fii clasificate după mai multe criterii:a) după numărul caracteristicilor factoriale: legături simple x y şi multiple: x1, x2, ….xn

y;b) după felul de exprimare a variabilelor: legături între variabile numerice şi legături înte

variabile exprimate prin cuvinte;c) după direcţia legăturilor:

78

legături directe – la care creşterea, respectiv descreşterea caracteristicii factoriale determină creşterea, respectiv descreşterea caracteristicii rezultative;

legături inverse – creşterea/descreşterea caracteristicii factoriale determină descreşterea/creşterea caracteristicii rezultative;

d) după expresia analitică : legături liniare – exprimate printr-o funcţie de gradul I şi legături

neliniare – exprimate printr-o funcţie hiperbolică, ş.a;e) după timpul în care se produce legătura: legături concomitente sau sincrone – în care variaţia caracteristicii rezultative se produce

concomitent cu cea a caracteristicii funcţionale; legături asincrone sau cu decalaj – în care variaţia caracteristicii rezultative se produce la un

anumit interval de timp faţă de variaţia factorului .

2. Metode elementare de caracterizarea a legăturilor dintre variabile

Există 4 metode elementare care arată cu un anumit grad de certitudine că între unele variabile există legături de tip statistic şi anume:

A. metoda seriilor paralele sau interdependente;B. metoda grupărilor;C. metoda tabelului de corelaţie;D. metoda grafică.

A. Metoda seriilor paralele

Presupune scrierea în paralel a seriilor care reprezintă caracteristica presupus factorială şi caracteristica presupus rezultativă.

În funcţie de evoluţia valorilor celor 2 serii, se poate deduce cu un anumit grad de certitudine dacă între cele 2 variante există o legătură şi ce fel de legătură ar putea exista.

B. Metoda grupărilor

Deja studiată, este o metodă calitativă surprinzând esenţa fenomenelor. În gruparea statistică se poate vedea caracterul legăturilor, direcţia lor, deoarece grupele sunt

ordonate automat şi se poate estima chiar intensitatea legăturii.

C. Tabelul de corelaţie

Este un tabel cu dublă intrare, sinonim cu o formă specială a grupării combinate în care separarea pe grupe a unităţilor se face după variaţia ambelor caracteristici (factorială şi rezultativă).

Valoarea caracteristicilor factoriale se trece în capul coloanelor în ordine descrescătoare, iar valoarea caracteristicilor rezultative se trece în capul liniilor în aceeaşi ordine.

La intersecţia dintre linii şi coloane se trec frecvenţele absolute de apariţie.În funcţie de modul în care se grupează aceste frecvenţe, se poate trage o concluzie

referitoare la direcţia legăturii şi forma ei.

x xn xn-1 ……………… x2 , x1

ymym-1.

fmn fm,n-1 0 fm-1,n-1

79

D1

D2

.

.

.y2y1

0 f22 f11

Astfel dacă frecvenţele se grupează în jurul primei diagonale D1, legătura este inversă; iar dacă se grupează în jurul diagonalei D2, legătura este directă.

D. Graficul de corelaţie (numit şi corelogramă sau graficul norilor de puncte).Este un grafic obişnuit format dintr-un sistem de axe rectangulare, caracteristica factorială

fiind trecută pe axa absciselor şi rezultativă pe axa ordonatelor.Fiecare corespondenţă între x şi y se numeşte unitate şi se reprezintă printr-un punct.

Dacă punctele se distribuie aproximativ în jurul primei diagonale, atunci legătura este directă, iar dacă se distribuie în jurul celei de-a doua, legătura estre inversă.

Distribuirea aproximativ uniformă în tot cadranul arată fie absenţa legăturii, fie neconsistenţa datelor.

Corelograma este cea mai apropiată de adevăr dintre toate metodele elementare de caracterizare a legăturilor dintre variabile.

12.3 Test de evaluareTest de autoevaluare 12.1

Explicaţi care este opinia dumneavoastră asupra fiecărei tip de legătură prezentat în unitatea de învăţare.

12.4 Rezumat

Unitatea de invatare Nr.11. prezinta existenţa legăturilor dintre variabilele economice, dar mai ales măsurarea intensităţii acestor legături rămân două dintre principalele obiective ale statisticii practice. Din acest motiv, înţelegerea conceptului de legătură statistică, prezentat pe larg în debutul acestui capitol, precum şi a diversităţii legăturilor statistice posibile , sunt esenţiale pentru întregul demers viitor. După o scurtă trecere în revistă a metodelor elementare, mai mult intuitive, de caracterizare a legăturilor dintre variabile, este prezentată metoda regresiei, pe

80

x

y

* * * * * * *

exemplul concret al regresiei de tip liniar, dar cu scurte introspecţii şi în alte tipuri de regresie. În final, sunt reliefaţi indicatorii statistici ai corelaţiei (raportul şi coeficientul de corelaţie), insistându-se şi pe metodele neparametrice şi parametrice de verificare a semnificaţiei ecuaţiei de regresie, coeficienţilor de corelaţie şi intensităţii legăturilor dintre variabile în general.




EXPLICAŢI NATURA PRINCIPALELOR LEGĂTURI INTRE VARIABILELE ECONOMICE ŞI ESENŢA ACESTORA


METODE COMPLEXE DE ANALIZĂ A LEGĂTURILOR. METODA REGRESIEICuprins13.1. Obiectivele unităţii de învăţare Nr.13 8713.2. Metoda regresiei 8713.3. Teste de evalure 1 a unităţii de învăţare Nr.13 9113.4. Rezumat 9213.5. Bibliografie 92

12.1. Principalele obiective ale unitatii de invatare nr.13

81

- conştientizarea de către studenţi a faptului că legăturile dintre variabilele economice poate fi abordată nu numai intuitiv sau prin metode simple, ci şi prin metode complexe, statistico-matematice ;

- prezentarea, înţelegerea şi însuşirea principalelor metode utilizate pentru a analiza ştiinţific legăturile economice.


13.2 Conţinut Capitolul 13

METODE COMPLEXE DE ANALIZĂ A LEGĂTURILOR. METODA REGRESIEI

1. Metoda regresiei

Este o metodă statistică de cercetare a legăturilor dintre variabile cu ajutorul unor funcţii numite funcţii de regresie.Este de fapt o generalizare a analizei dispersionale.

Fie y variabila dependentă şi x1, x2,... xi,... xn variabile independente.Metoda regresiei consideră că y este o funcţie de variabile independente y=f(x1, x2, ..

xi ,.. ,xn)În funcţie de forma şi gradul funcţiei, precum şi de numărul variabilelor, ecuaţia de regresie poate să definească o curbă, o suprafaţă, sau chiar un poliedru.

Modelul de dependenţă statistică în cazul metodei regresiei înlocuieşte modelul teoretic cunoscut: y=f(x1,x2,xi,xn)+ în care - reprezintă o eroare aleatoare sau mai exact o variabilă reziduală cu dispersia constantă şi cu media nulă.

În funcţie de numărul factorilor x1, x2,..., xn care influenţează caracteristica rezultativă, există:

- regresie unifactorială sau simplă; - regresie multifactorială sau multiplă.

a) modele de regresie unifactoriale

Metodele unifactoriale descriu legătura dintre două variabile x şi y, ceilalţi factori considerându-se cu acţiune constantă. Ecuaţia teoretică a acestei regresii este:

y=f(x)+.Modelele de regresie unifactorială sunt:

a1) modelul liniar:

82

În acest model: y=+x; , - coeficienţii unei funcţii de gr I, tg=Acest model teoretic se estimează printr-o ecuaţie medie de tendinţă: y=a+bx+, apare sub

forma .În acest caz, a şi b sunt coeficienţi care se calculează cu ajutorul metodei anulării

determinanţilor sau cu ajutorul metodei anulării derivatelor de ordinul I, formulele care rezultă în urma calcului fiind relativ simple. Acest model este specific tipului de legătură dintre 2 caracteristici care se modifică în progresie aritmetică.

Cunoscând coeficienţii a şi b ai ecuaţiei de regresie se poate determina oricând valoarea lui y în funcţie de valoarea variabilei independente x: .

Coeficientul a reprezintă ordonata la origine, semnificând valoarea lui y când x =0. Poate lua atât valori pozitive cât şi negative.

Coeficientul b se mai numeşte şi coeficient de regresie şi arată măsura în care se modifică valoarea caracteristicii dependente y în cazul în care caracteristica independentă se modifică cu o unitate.

După semnul coeficientului de regresie există 2 tipuri de legătură şi anume:- corelaţie directă – când coeficientul de regresie are valoare pozitivă( b>0);- corelaţie inversă – când coeficientul b are valoare negativă (b<0)..Dacă b=,0, x şi y sunt variabile independente. Se mai spune din matematică despre

coeficientul de regresie că indică panta liniei drepte rezultată prin ecuaţia de regresie.Cu ajutorul coeficienţilor a şi b se calculează valoarea ecuaţiei de regresie, mulţimea acestor

valori numindu-se şi mulţimea valorilor teoretice ale caracteristicii y în funcţie de x, iar operaţia de înlocuire a termenilor reali y cu valorile ecuaţiei de regresie se numeşte ajustare.

Când legăturile dintre fenomenele şi procesele economice şi sociale se fac prin intermediul unui număr mare de date, intervin frecvenţele absolute, ceea ce impune, în vederea calculării parametrilor economici de regresie, folosirea tabelului de corelaţie, tabel din care se scot şi se introduc în sistemul de ecuaţii frecvenţele după valorile x ( fx), frecvenţele după valorile y ( fy) şi frecvenţele corespunzătoare perechilor x şi y (fxy).Acest caz ,considerat general, duce la următorul sistem de ecuaţii

În baza acestui model general urmează să se calculeze coeficienţii a şi b.De notat că pentru determinarea unei ecuaţii de regresie care să permită ajustarea pertinentă,

se recomandă utilizarea a cel puţin 15 observări,pentru care să se folosească datele în vederea calculării parametrilor a şi b.

a2) modelul exponenţial

Se bazează pe ecuaţia , corespunzătoare modelului teoretic .

83

y +x

x

Modelul exponenţial se transformă într-un model cvasiliniar prin operaţia de logaritmare :

Notând cu y’=lgy, a’=lga şi b’=lgb y’=a’+b’x de unde s-a ajuns la modelul liniar (aceasta fiind ecuaţia unei drepte)

Sistemul de ecuaţii normale după care se calculează a’ şi b’ este acelaşi din modelul liniar, iar după determinarea parametrilor a’ şi b’ se ajunge la parametrii iniţiali a şi b prin operaţia de antilogaritmare.

Există o serie de curbe care nu se pot transforma nici cu largi aproximaţii într-o dreaptă , aşa cum s-a procedat în cazul modelului exponenţial. Apar astfel parabole şi hiperbole care se modelează diferit.

a3) modelul teoretic al parabolei de gradul II.

y=+x+x2 ; Y=a+bx+cx2

Parametrii a, b, şi c se calculează folosind tot metoda celor mai mici pătrate, anulând

derivatele de ordin 1 şi 2, minimizând în esenţă funcţia: .

Sistemul obţinut este următorul:

; a , b şi c se scot rezolvând

sistemul.

a4) în cazul în care legăturile dintre fenomenele economice sunt de forma unei hiperbole (dacă dependenţa dintre cele două variabile este inversă), ecuaţia de regresie se exprimă după formula:

, corespunzător funcţiei de estimaţie teoretică:

Sistemul de ecuaţii normale în cazul hiperbolei este: ; a şi b se obţin

prin rezolvarea sistemului.

a5) modelul logaritmic, dat de expresia y=+log x care se estimează după modelul teoretic

Y=a+blogx+ reţinându-se următoarele cazuri:

- când a şi b sunt ambele pozitive, curba este crescătoare;- când a>0 şi b<0, curba este descrescătoare.

Folosind metoda celor mai mici pătrate şi rezolvând sistemul de ecuaţii normale:

vor rezulta coeficienţii a şi b. În toate sistemele de ecuaţii prezentate, n este numărul observărilor pe care se bazează cercetarea statistică, iar sumele sunt sumele corespunzătoare datelor din aceste observări, cu menţiunea că e bine ca acest număr să fie minim 15.

84

b) regresia multifactorială

Conţine modele în care legăturile dintre variabile sunt foarte complexe, caracterizându-se prin influenţarea variabilei rezultative de către un număr mare de variabile independente, în acest caz obţinându-se ecuaţii de regresie multiplă:

y=f(x1,x2,xi,xn)+ unde x1,...,xn – sunt caracteristicile factoriale, iar - variabila rezidualăÎn cazul regresiilor multiple se utilizează deseori modelul liniar, a cărui expresie se dă cu relaţia:

În acest model a0 este coeficientul care exprimă influenţa factorilor

neincluşi în model iar ai, i=1,n se numesc coeficienţi de regresie multiplă şi arată influenţa

caracteristicii factoriale asupra caracteristicii rezultative.

Şi în acest caz parametrii a0, a1, ap, se calculează pe baza metodei celor mai mici pătrate. Sistemul la care se ajunge după minimizarea funcţiei va fii un sistem cu p+1 ecuaţii şi p+1 necunoscute de forma:

Legătura multifactorială liniară se poate reprezenta grafic sub forma unui plan. Fiecare din aceste

ecuaţii dă o dreaptă. Intersecţia acestor drepte va furniza o suprafaţă, soluţia fiind pe marginea

acestuia.

Se utilizează în practică şi un model multifactorial exponenţial de forma: ,

care, prin logaritmare se transformă într-un model liniar care se rezolvă conform procedeului anterior.

13.5 Test de autoevaluare 1Test de autoevaluare 13.1

Din bugetul de familie se cunosc următoarele date pentru 15 familii:

Nr. crt.

Venitri lunare ce revin în medie pe

persoană(x)– mii lei -

Cheltuieli lunare pe

persoană (y)- mii lei -

Xi2 Xiyi

1 72 322 99 383 85 404 118 555 192 626 109 417 134 54

85

8 125 599 115 6010 161 6311 175 6512 182 7013 190 7114 136 5515 148 56

TOT. 2041 822 297855 117504

Să se caracterizeze şi să se măsoare legătura dintre venituri şi cheltuieli folosind metoda regresiei;

13.4 Rezumat Unitatea de învăţare nr.12 prezintă metoda regresiei liniare şi succint regresia multiliniară. In cadrul regresiei liniare sunt prezentate metoda şi metodologia de calcul a coeficienţilor de regresie.



86


MĂSURAREA INTENSITĂŢILOR LEGĂTURILOR DINTRE VARIABILELE ECONOMICECuprins14.1. Obiectivele unităţii de învăţare Nr.14 9314.2. Indicatorii statistici ai corelaţiei 9314.3. Teste de evalure 1 a unităţii de învăţare Nr.14 10014.4. Rezumat 10114.5. Bibliografie 102

14.1. Principalele obiective ale unitatii de invatare nr.14- înţelegerea de către studenţi a necesităţii măsurării intensităţii legăturilor dintre factorii economici;- prezentarea şi însuşirea modelelor de calcul a raportului şi coeficientului de corelaţie;- prezentarea şi însuşirea modalităţilor de estimare a semnificaţiei indicatorilor calculaţi.


14.2 Conţinut

87

Capitolul 14

MĂSURAREA INTENSITĂŢILOR LEGĂTURILOR DIINTRE

VARIABILELE ECONOMICE

1. Indicatori statistici ai corelaţiei

Pentru calculul indicatorilor statistici ai corelaţiei se folosesc metodele parametrice, pentru a măsura intensitatea legăturilor de tip statistic dintre 2 sau mai multe variabile care urmează o lege de repartiţie de tip normal sau asimptotic normal. Cea mai utilizată metodă este metoda corelaţiei. Pentru explicarea acestei metode se porneşte de la legătura dintre două variabile corelate (x şi y) , reprezentate în graficul de corelaţie în jurul mediilor lor .

Se obţine astfel diagrama de corelaţie alcătuită din 4 sectoare (cadrane), în fiecare din aceste cadrane, abaterile valorilor individuale faţă de media lor

având semnificaţii

diferite după cum urmează:-în cadranul I, dxi şi dyi sunt pozitive;-în cadranul II dxi pozitivă, dyi negativă;-în cadranul III; (-,-):

-în cadranul IV (-,+). Măsurarea intensităţii legăturii se face cu ajutorul următorilor indicatori: covarianţa, coeficientul de corelaţie, raportul de corelaţie.a)covarianţa se notează: cov sau cov(x,y),; se

obţine ca o medie aritmetică a produselor abaterilor variabilelor faţă de media lor:

Semnul indicatorului arată direcţia

legăturii, respectiv + pentru legătura directă şi – pentru cea inversă. Covarianţa poate

fii nulă, caz în care cele două variabile sunt independente.

În cazul unei legături funcţionale liniare valoarea absolută maximă a covarianţei variabilelor x şi y este: în general însă valoarea absolută a covarianţei nu are limită superioară. b) coeficienţii de corelaţie liniară simplă

Se notează cu rxy sau r şi măsoară intensitatea de tip liniar dintre două variabile x şi y, calculându-se ca o medie aritmetică a produsului abaterilor normale normate a celor două variabile.

Abaterile normale normate ale variabilelor x şi y notate cu zx şi zy sunt date de relaţiile:

88

Y IV I (-,+) (+,+) III II (-,-) (+,-)

x

x

Diagrama de corelaţie

este alcătuită din 4 sectoare

În consecinţă modelul de calcul al coeficienţilor de corelaţie este următorul:

unde sunt abaterile medii pătratice ale variabilelor x şi y.

Faţă de covarianţă, relaţia dintre coeficient şi aceasta este:

Altfel spus, covarianţa abaterilor normate, zx şi zy se transformă în coeficientul de corelaţie liniară simplă. În vederea calculării facile a coeficientului de corelaţie, în practică se utilizează următoarea relaţie:

Când intervin seriile de distribuţie cu frecvenţe absolute această relaţie devine:

Coeficientul de corelaţie liniară simplă se mai poate calcula şi cu relaţia:

unde: b – este coeficient de regresie liniară simplă. Coeficientul de corelaţie liniară simplă satisface inegalităţile: -1 ≤ rxy ≤ 1 cu

următoarea tipologie valorică: - dacă rxy se apropie de –1, între variabile există o corelaţie liniară, simplă, inversă

şi puternică; - dacă rxy se apropie de 1, variabilele sunt direct şi puternic corelate; - dacă valoarea coeficientului este 1, în valoare absolută, între variabile există o

dependenţă funcţională. În practică, pe o scală de la [0,1], luând coeficientul în valoarea absolută, de

utilizează următoarele subintervale:0 ≤ rxy ≤ 0,2 – situaţie în care nu există o legătură între variabile;o,2 < rxy < 0,5 – între variabile există o legătură slabă;0,5 < rxy < 0,75 – legătura dintre variabile e de intensitate medie;0,75 < rxy < 0,95 – legătură puternică între cele două variabile;0,95 < rxy < 1 – legătura dintre variabile este deterministă, funcţională.

NOTĂ: în literatura de specialitate poate fii notat şi ryx rxy= ryx

Indiferent de notaţie, x se consideră caracteristica factorială, iar y caracteristica rezultativă.

89

c) raportul de corelaţie notat cu (eta), mai e numit şi coeficient de corelaţie Pearson. Acest coeficient măsoară intensitatea legăturilor liniare şi curbilinii dintre două variabile statistice.

În literatura de specialitate se notează cu R.

Calculul acestui indicator se bazează pe descompunerea dispersiei totale a variabilei dependente notate cu , în dispersia valorilor empirice faţă de valorile

teoretice notată cu şi dispersia valorilor teoretice faţă de medie

- din această relaţie rezultă valoarea calculată a coeficienţilor, care se poate nota astfel:

. În acest caz dispersiile au următoarele semnificaţii:

- - este dispersia totală şi măsoară acţiunea factorilor, luaţi în totalitatea lor, care au influenţat variabila rezultativă.

- - măsoară variaţia valorilor y sub influenţa celorlalţi factori, a căror acţiune este considerată constantă. Se mai numeşte şi dispersie reziduală.

- măsoară numai influenţa variabilei independente (factoriale, x) asupra variabilei rezultative y.

Raportul de corelaţie poate lua valori între 0 şi 1. Cu cât valoarea acestui raport este mai apropiată de 1 corelaţia este mai puternică, iar cu cât raportul este mai aproape de 0, corelaţia este mai slabă (se pierde).

d) raportul de corelaţie multiplă.Măsoară intensitatea legăturii dintre o caracteristică rezultativă y şi 2 sau mai

multe caracteristici factoriale notate cu x1, x2, .... xi ,....i = 1,p.

Se notează cu este

valoarea ajustată a caracteristicii teoretice după funcţia de ajustare găsită anterior.Dacă se foloseşte ecuaţia de regresie multiplă şi variaţia factorială, se obţine

următoarea relaţie:

; acest raport de corelaţie

multiplă are totdeauna valori pozitive şi este mai mare decât oricare coeficient de corelaţie simplă:

Pătratul coeficientului de corelaţie multiplă este cunoscut sub numele de coeficient de determinaţie multiplă; se notează cu R2 şi exprimă ponderea cu care influenţează caracteristica factorială asupra caracteristicii rezultative.

Ponderea pe care o au ceilalţi factori asupra caracteristicii rezultative se

90

obţine ca diferenţă între unitate (1) şi R2, obţinându-se în felul acesta coeficientul de nedeterminaţie multiplă , notat cu N2=1-R2

Pe lângă coeficienţii de corelaţie simplă şi multiplă, care caracterizează intensitatea corelaţiei liniare între 2 sau mai multe caracteristici se pot calcula şi coeficienţii de corelaţie parţială. Aceşti coeficienţi caracterizează intensitatea legăturilor dintre 2 caracteristici în condiţiile în care variabila rezultativă este influenţată de mai mulţi factori, dar influenţa celorlalţi factori este considerată constantă.

Coeficienţii de corelaţie parţială se calculează pe baza coeficienţilor de corelaţie liniară simplă. Astfel coeficienţii de corelaţie parţială dintre caracteristicile y şi x1, y = f(x1,x2) în condiţiile eliminării influenţei lui x2 se notează cu:

. Reciproc, coeficienţii de corelaţie între y şi x2 în

condiţiile eliminării influenţei lui x1 se calculează:

2. Verificarea semnificaţiei ecuaţiei de regresie şi a coeficienţilor de corelaţie.

În calculul şi analiza statistică e necesar să se verifice dacă ecuaţia de regresie şi coeficientul de corelaţie obţinuţi sunt real semnificativi sau, dimpotrivă, valorillor se datorează erorilor întâmplătoare de selecţie.

Pentru a verifica ipoteza conform căreia parametrul a din cadrul ecuaţiei de

regresie liniară, diferă semnificativ de 0, se utilizează criteriul în care

şi semnifică abaterea medie pătratică a valorilor înregistrate ale

caracteristicii y faţă de lina de regresie Y, n fiind numărul perechilor x,y înregistrate.Valoarea t astfel calculată se compară cu valoarea tabelară tqf

(corespunzătoare nivelului de semnificaţie q şi numărului f de grade de liberate (f = (n-2)).

Dacă valoarea calculată este < decât valoarea tabelară, se consideră ipoteza a=0 justă, în caz contrar t.calc. > t tabelat, se consideră că diferă semnificativ de 0 deci ecuaţia de regresie e bine aleasă.Intervalul de încredere pentru parametrul teoretic a se defineşte cu relaţia:

; cu alte cuvinte parametrul teoretic trebuie să se cuprindă în

intervalul , în caz contrar ecuaţia de regresie fiind

invalidată.

Acelaşi criteriu t se aplică şi pentru verificarea ipotezei că b – coeficient de

91

regresie liniară simplă – diferă semnificativ de 0: .

Intervalul de încredere pentru coeficientul de regresie teoretic este

În funcţie de valorile caracteristicii y se calculează limitele de încredere pentru linia de regresie teoretică Y astfel:

Verificarea semnificaţiei coeficientului de regresie se poate face şi cu ajutorul analizei dispersionale. În acest scop suma pătratelor abaterilor valorilor caracteristicii y faţă de medie se notează care se descompune în sume de pătrate de abateri. .

Cu ajutorul acestor sume de pătrate se calculează următoarele dispersii corectate:

- dispersie care are n-1 grade de libertate;

,cu f grade de libertate;

cu n-f-1 grade de libertate.

În aceste relaţii n, este numărul valorilor observate ale caracteristicii y iar f este numărul coeficienţilor ecuaţiei de regresie liniară.

Pentru verificarea semnificaţiei coeficienţilor corelaţiei simple şi parţiale se foloseşte tot testul t:

în care n reprezintă volumul eşantionului.

Valoarea calculată cu această relaţie se compară cu valoarea tabelară corespunzătoare nivelului de semnificaţie q şi numărului de grade de liberate f1=p şi f2=n-p-1 t tabelat = tqf1,f2

Dacă t calculat > ca t tabelat, se consideră că variabilele xi; i= 1,p au o influenţă semnificativă asupra caracteristicii rezultative y, iar în caz contrar influenţa lor e nulă.

(q= nivelul de semnificaţie = 1 – p).

92

1. 200 Y1=16,58+0,58 . 2002. 215 Y2=16,58+0,58 . 2153. 230 Y3=16,58+0,58 . 230

Raportul de corelaţie se utilizează indiferent de forma dependenţei dintre cele 2 variabile în timp ce coeficientul de corelaţie se calculează doar pentru corelaţia liniară simplă.

Fiind vorba de o corelaţie liniară, se poate calcula coeficientul de corelaţie liniară simplă reprezentând media aritmetică simplă a abaterilor normale normate ale, variabilelor de la media lor.

Pentru a evita calcularea unor indicatori intermediari,

abateri medii pătratice şi cele două medii ale variabilelor, în practică se utilizează:

n = 15

O altă modalitate de calcul a coeficientului de corelaţie dacă sunt cunoscute

abaterile medii pătratice şi coeficientul de corelaţie liniară simplă.

rxy = 0,89În cazul corelaţiei liniară simplă, raportul de corelaţie este egal cu coeficientul

de corelaţie, fiind cuprins între 0,75 şi 0,95. Coeficientul de corelaţie arată o legătură puternică de tip liniar şi direct între venituri şi cheltuieli. De altfel reprezentativitatea acestui coeficient poate fii demonstrată aplicând testul “t” bazat pe funcţia de distribuţie Student.

Această funcţie este tabelată pentru un anumit nivel de semnificaţie şi un număr egal cu n-2 grade de libertate. În funcţie de şi n-2 se găseşte argumentul t al

funcţiei Student din tabel. Această valoare se compară cu un .

Dacă t calculat este mai mare decât t tabelat, valoarea coeficientului de corelaţie este reprezentativă pentru analiza legăturii dintre cele 2 variante.

t calculat = 7,037t tabelat = 0,05 ( 13 grade de libertate).Rezultă că valoarea coeficientului de corelaţie este reprezentativă.

14.3 Test de autoevaluare 1

93

Test de autoevaluare 14.1

Din bugetul de familie se cunosc următoarele date pentru 15 familii:Nr. crt.

Venitri lunare ce revin în medie pe

persoană(x)– mii lei -

Cheltuieli lunare pe

persoană (y)- mii lei -

Xi2 xiyi

1 72 322 99 383 85 404 118 555 192 626 109 417 134 548 125 599 115 6010 161 6311 175 6512 182 7013 190 7114 136 5515 148 56

TOT. 2041 822 297855 117504

Să se caracterizeze şi să se măsoare legătura dintre venituri şi cheltuieli folosind metoda coeficientului de corelaţie.

Graficul de corelaţie- se utilizează pentru a estima existenţa şi forma legăturii dintre o variabilă

factorială cauzală x şi o variabilă dependentă sau rezultativă y.- cheltuielile depind de venituri;

Se poate observa amplasarea punctelor în formă de elipsă. Apare ipoteza dependenţei liniare.Yxi = a + bxi, b – coef. de regresie liniară simplă. Pentru a descoperi legea după care x îl determină pe y trebuie determinaţi a şi b. Aceşti coeficienţi se determină prin metoda celor mai mici pătrate şi vor fi soluţiile sistemului de 2 ecuaţii cu 2 necunoscute: vom calcula xi2şi yixi:

94

a = 16,58, b = 0,28folosim metoda lui Cramer: Y = 16,58 + 0,28bxiEx. Să se estimeze cheltuielile totale efectuate de 3 familii care au următoarele venituri:

Nr.crt.

Venituri

14.4 RezumatUnitatea de invatare Nr.13. prezintă principalele posibilitati de calcul a intensităţii legăturilor dintre raportul şi coeficientul de corelaţie precum şi modalitatea de estimare a semnificaţiei logico-economice a indicatorilor calculaţi din prisma probabilistică.


Agresti, Allan (1990) – Categorical Data Analzsis, New York, John Wiley&Sons;Jakobz, W.G. (1991) – Data Theory and Dimensional Analysis, Sage University Paper Series on Quantitative Applications in the Social Science, Newbutz Park, CA, Sage;Rotariu, Traian (1994) – Curs de metode si tehnici de cercetare sociologica, Cluj-Napoca, Universitatea Babes-Bolyai.Spătaru, Liviu – Note de curs

95

96

Date post:	03-Dec-2015
Category:	Documents
Upload:	cristinel-cocirla
View:	234 times
Download:	0 times

i Mk Statistica Spataru 2012-2013

Documents