+ All Categories
Home > Documents > Statistica Descriptiva

Statistica Descriptiva

Date post: 20-May-2017
Category:
Upload: ionita-cristina
View: 318 times
Download: 13 times
Share this document with a friend
105
1 SUPORT DE CURS ANUL II Semestrul 1 Cluj – Napoca 2012 UNIVERSITATEA BABEŞ-BOLYAI, CLUJ-NAPOCA Centrul de Formare Continuă şi Învăţământ la Distanţă Facultatea de Ştiinţe Economice şi Gestiunea Afacerilor Specializarea: Trunchi Comun Disciplina: Statistică Descriptivă
Transcript
Page 1: Statistica Descriptiva

1

SUPORT DE CURS

ANUL II

Semestrul 1

Cluj – Napoca 2012

UNIVERSITATEA BABEŞ-BOLYAI, CLUJ-NAPOCA Centrul de Formare Continuă şi Învăţământ la Distanţă Facultatea de Ştiinţe Economice şi Gestiunea Afacerilor Specializarea: Trunchi Comun Disciplina: Statistică Descriptivă

Page 2: Statistica Descriptiva

2

I. Informaţii generale 1.1. Date de identificare a cursului

Date de contact ale titularilor de curs:

1. Nume: Conf. univ.dr. Anuţa Buiga Birou: Birou 346 sediul Fac. de Ştiinţe Economice şi Gestiunea Afacerilor, str. Teodor Mihali 58-60 Telefon: 0264-418654 E-mail: [email protected] 2. Nume: Conf.univ.dr. Dragoş Cristian Birou: Birou 231 sediul Fac. de Ştiinţe Economice şi Gestiunea Afacerilor, str. Teodor Mihali 58-60 Telefon: 0264-418654 E-mail: [email protected] 3. Nume: Conf.univ.dr. Dorina Lazăr Birou: Birou 527 sediul Fac. de Ştiinţe Economice şi Gestiunea Afacerilor, str. Teodor Mihali 58-60 Telefon: 0264-418654 E-mail: [email protected] 4. Nume: Conf.univ.dr. Cristian Litan Birou: Birou 231 sediul Fac. de Ştiinţe Economice şi Gestiunea Afacerilor, str. Teodor Mihali 58-60 Telefon: 0264-418654 E-mail: [email protected] 5. Nume: Lect.univ.dr. Codruta Mare Birou: Birou 346 sediul Fac. de Ştiinţe Economice şi Gestiunea Afacerilor, str. Teodor Mihali 58-60 Telefon: 0264-418654 E-mail: [email protected]

Page 3: Statistica Descriptiva

3

MODULUL 1

Concepte de bază. Obiectul statisticii.

Observarea, sistematizarea şi prezentarea seriilor statistice. Obiective

definirea unei populaţii statistice, a variabilelor statistice obţinerea de informaţii cu privire la fenomenul supus cercetarii organizarea datelor şi prezentarea acestora sub formă de serii statistice evidenţierea structurii populaţiei în raport cu variabilele observate evidenţierea evoluţiei unui fenomen în timp sau spaţiu reprezentarea grafică a datelor

Concepte de bază

populaţie statistică, unitate statistică, volum, eşantion, variabilă statistică, observare statistică, indicator statistic, serie statistică

observare statistică, serii statistice unidimensionale şi bidimensionale reprezentarea grafică a datelor relativ la o variabilă cantitativă, la o variabilă calitativă

şi la două variabile

Rezultate aşteptate Cunoaşterea şi stăpânirea noţiunilor statistice de bază, cunoaşterea tehnicilor de culegere, grupare şi prezentare a datelor. Utilizarea indicatorilor statistici cu scopul evidenţierii variaţiei unei mărimi sau a structurii populaţiei supuse studiului. Sinteza 1. Concepte de bază 1.1. Populaţia statistică

Populaţia statistică reprezintă mulţimea elementelor simple sau complexe, de aceeaşi natură, care au una sau mai multe însuşiri esenţiale comune, proprii elementelor cât şi populaţiei privită ca un tot unitar. [Florea I.,1998]

O populaţie este finită dacă include un număr determinat de elemente, dar ea poate fi considerată drept reprezentativă pentru o populaţie teoretică infinită. Ca urmare apare necesitatea de a delimita o populaţie în: conţinut, spaţiu şi timp. Se mai denumeşte şi populaţia univers.

Exemple de populaţii statistice: mulţimea persoanelor dintr-o anumită ţară (localitate, zonă etc.) în anul t, mulţimea gospodăriilor din România, la momentul t, mulţimea consumatorilor unui produs, mulţimea societăţilor producătoare sau concurente ale unui produs, mulţimea societăţilor distribuitoare, angajaţii unei societăţi, etc.

Se notează cu majusculele de la începutul alfabetului: A, B, C etc. Unitatea statistică constituie elementul component, al populaţiei statistice, asupra

căruia se va efectua nemijlocit observarea.

Page 4: Statistica Descriptiva

4

Unitatea statistică este purtătorul originar de informaţie sau subiectul logic al informaţiei statistice. Datorită varietăţii aspectelor sub care se poate prezenta în fapt, unitatea statistică comportă o definiţie precisă, care să excludă prin posibilitate de interpretare diferită de către observatori şi astfel orice eroare ce poate prejudicia valoarea investigaţiei.

În exemplele citate mai sus, unităţile statistice sunt: persoana, gospodăria, consumatorul, societatea producătoare sau concurentă, societatea distribuitoare, angajatul etc.

Se notează cu minusculele corespunzătoare majusculei ce simbolizează populaţia statistică, respectiv ai, bi etc..

Volumul populaţiei reprezintă numărul unităţilor statistice care alcătuiesc populaţia statistică, Acesta poate fi finit sau infinit, în funcţie de tipul populaţiei care poate fi la fel finită sau infinită.

Se notează cu N, iar pentru o populaţie A, avem: A : {a1, a2, ..., aN} Eşantion reprezintă o submulţime a unei populaţii statistice, constituită după criterii

bine stabilite. În raport cu procedeul de formare a eşantionului avem eşantioane aleatoare şi eşantioane dirijate.

Eşantionul aleator este format din unităţile statistice care rezultă printr-un procedeu aleator: procedeul tragerii la sorţi, tabelul cu numere întâmplătoare, procedeul extragerilor sistematice.

Eşantionul dirijat este constituit pe baza unor informaţii auxiliare existente la nivelul populaţiei studiate sau lăsând liber pe anchetator să aleagă unităţile respectând doar realizarea structurii eşantionului în funcţie de criteriile stabilite.

Se notează cu n. Majoritatea studiilor au ca suport datele provenite de la nivel de eşantion, de aici

importanţa constituirii acestuia şi implicit, apelarea la inferenţa statistică, pentru a estima parametrii la nivelul populaţiei univers.

1.2. Variabila statistică

Variabila statistică reprezintă o însuşire sau o trăsătură comună tuturor unităţilor unei populaţii. Nivelul înregistrat de o variabilă statistică la o unitate oarecare al populaţiei se numeşte realizare sau starea variabile. [Florea I., 1998].

În general se notează cu majusculele de la sfârşitul alfabetului, X, Y, Z etc. Dacă se notează cu X o variabilă statistică oarecare, atunci cu x1, x2, ..., xN se vor nota stările variabilei respective.

Variabilele statistice se clasifică în raport cu natura, modul de exprimare şi modul de variaţie.

a) După natura lor variabilele statistice pot fi atributive, de timp şi de spaţiu. Variabila atributivă exprimă un atribut sau însuşire esenţială (alta, decât timpul

sau spaţiul) unităţilor populaţiei; Variabila de timp ne arată timpul în care au luat fiinţă unităţile populaţiei sau

perioada de timp în care au existat (exista); Variabila de spaţiu ne arată spaţiul în care există sau au luat naştere unităţile

populaţiei. b) După modul de exprimare a stărilor deosebim: Variabilă cantitativă este variabila ale cărei stări se exprimă prin valori

numerice. Se mai numeşte şi variabilă metrică.

Page 5: Statistica Descriptiva

5

Variabilă calitativă este variabila ale cărei stări se exprimă prin cuvinte sau coduri. Se mai numeşte variabilă nominală (stările se exprimă prin cuvinte) sau variabilă ordinală (stările se exprimă prin coduri).

c) După modul de variaţie variabila cantitativă poate fi: Variabilă discretă este acea variabilă care, în intervalul său de definiţie

înregistrează cel mult valori raţionale, variaţia are loc în salturi. Variabilă continuă este acea variabilă care poate lua orice valoare reală din

intervalul său de variaţie. Exemple de variabile statistice relativ la populaţia formată din mulţimea

consumatorilor unui produs: - vârsta: variabilă atributivă, cantitativă, continuă X = { x1 = [15-20) [20-30) ... } - frecvenţa de cumpărare: variabilă atributivă calitativă Y = { y1 - foarte rar; y2 – rar, ... } - număr de sortimente cumpărate relativ la produsul analizat: variabilă atributivă,

cantitativă, discretă: Z = { z1 = 1; z2 = 2, ... } - localizarea magazinelor de unde cumpără: variabilă de spaţiu, calitativă S = { s1 – cartierul M sau s2 – strada P1, ... } - data ultimei cumpărări a produsului analizat: variabilă de timp, cantitativă T = { t1 = 27.01.2002; t2 = 24.02.2002, ... } Variabila aleatoare Variabila aleatoare este variabila care poate lua orice valoare din valorile unei mulţimi

finite sau infinite, cu o anumită probabilitate, rezultată dintr-o funcţie asociată variabilei, numită lege de probabilitate.

Ca şi variabila statistică, variabila aleatoare în raport cu valorile sale poate fi discretă sau continuă.

În timp ce o variabilă aleatoare înregistrează valori la întâmplare, variabila statistică constituie o însuşire certă a unităţilor statistice din populaţie. Valorile unei variabile aleatoare sunt probabile şi în strânsă legătură cu un anumit experiment. Stările unei variabile statistice nu sunt probabile, ele cuantifică o trăsătură proprie fiecărei unităţi din populaţie.

1.3. Observarea statistică

Observarea statistică constă în identificarea unităţilor populaţiei şi înregistrarea stărilor variabilelor în raport cu care este studiată. Ansamblul stărilor variabilelor rezultate prin observare se numesc statistici.

După gradul de cuprindere a populaţiei statistice, observarea statistică este de două feluri: totală şi parţială.

Observarea totală este acel tip de observare statistică în care are loc înregistrarea tuturor unităţilor care fac parte din populaţie statistică supusă studiului. Recensământul populaţiei României este un exemplu de observare totală.

Observarea parţială presupune observarea şi înregistrarea unui anumit număr de unităţi din populaţie, alese după criterii bine definite.

În cercetarea statistică a unei populaţii punctul de pornire îl poate constitui fie statistice exhaustive rezultate prin observarea populaţiei univers , fie statisticile rezultate din observarea parţială a unui eşantion  A, în ambele cazuri scopul final fiind acelaşi, respectiv obţinerea de informaţii la nivelul populaţiei univers A.

Page 6: Statistica Descriptiva

6

1.4. Seria statistică Seria statistică este o construcţie care redă fie distribuţia unei populaţii în raport cu una

sau mai multe variabile, fie variaţia unei mărimi în timp, în spaţiu sau de la o categorie la alta. Seriile statistice se clasifică în raport cu mai multe criterii, astfel: 1. În raport cu numărul variabilelor Serii statistice unidimensionale, au la bază o singură variabilă; Serii statistice multidimensionale, care au la bază două sau mai multe variabile. 2. După natura variabilelor deosebim: Serii atributive, care au la bază variabile atributive; Serii cronologice (de timp sau istorice), care au la bază variabile de timp; Serii de spaţiu sau teritoriale, care au la bază o variabilă de spaţiu. 3. După modul de exprimare a stărilor variabilei deosebim: Serii calitative, care au la bază variabile calitative; Serii cantitative, care au la bază variabile cantitative şi care după modul de variaţie

a variabilei pot fi: discrete (când variabila este discretă) şi continue (când variabila este continuă).

4. În raport cu natura indicatorului din care este alcătuită seria, avem: Serii de frecvenţă sau serii de distribuţie (repartiţie); Serii de variaţie. Seria statistică redând distribuţia populaţiei în raport cu una sau mai multe variabile

constituie o descompunere a acesteia într-un număr R de clase. O astfel de serie este formată în exclusivitate din frecvenţe (absolute cumulate sau necumulate, relative cumulate sau necumulate) şi de aceea se numesc serie de frecvenţă, de distribuţie sau de repartiţie. Prescurtat se mai foloseşte şi denumirea de repartiţie statistică sau distribuţie statistică.

Seria statistică ce redă variaţia unei mărimi în timp, în spaţiu sau de la o categorie la alta se numeşte serie de variaţie.

1.4.1. Seria statistică de repartiţie

Conform definiţiei de mai sus, prin această serie se distribuie unităţile unei populaţii statistice în raport cu una sau mai multe variabile.

Fie o serie statistică unidimensională având la bază variabila X, respectiv:

Ri

Ri

NNNNxxxx

X............

:21

21 (1.1)

Ni este frecvenţa absolută a clasei i, Ri ,1 şi reprezintă numărul de unităţi ale populaţiei din clasa pentru care variabila X a înregistrat valoarea Xi N1 + N2 + ... + NR = N.

Clasa (grupa) de unităţi în raport cu o variabilă reuneşte acele unităţi din cadrul

populaţiei care înregistrează aceeaşi stare a variabilei sau stările variabilei aparţinând unui anumit interval de variaţie .

Ca urmare, în raport cu o variabilă statistică populaţia poate fi structurată într-un anumit număr de clase.

De asemenea, relativ la seria statistică unidimensională având la bază variabila X, poate fi formată cu frecvenţe relative, frecvenţe cumulate absolute sau relative.

Fie seria X formată cu frecvenţe relative:

Page 7: Statistica Descriptiva

7

Ri

Ri

ffffxxxx

X............

:21

21 (1.2.)

- fi - ne arată ponderea unităţilor din populaţie care au înregistrat pentru variabila X

starea xi:

RiNN

f ii ,1

Pornind de la seria (1.1) se poate deduce seria formată cu frecvenţe absolute

cumulate, respectiv:

)N(x...)N(x...)N(x)N(x

x...x...xxX:

Ri

Ri

21

21 (1.3)

unde: N(xi) reprezintă numărul de unităţi din populaţia studiată pentru care variabila înregistrează valori ce nu depăşesc valoarea xi.

Pornind de la seria (1.1) sau (1.2) se poate deduce seria formată cu frecvenţe relative cumulate, respectiv:

)(...)(...)()(

......:

21

21

RNiNNN

Ri

xFxFxFxFxxxx

X (1.4)

unde: FN(xi) - exprimă ponderea unităţii populaţiei studiate pentru care variabila a înregistrat valori ce nu depăşesc valoarea xi.

FN(xi) = f1 + f2 + ... + fi

Sau R1,i )100(. )(

)( NxN

xF iiN

Seria statistică de repartiţie bidimensională este o construcţie ce redă distribuţia unei

populaţii în raport cu două variabile. Astfel, fie populaţia statistică A studiată în raport cu variabilele X şi Y, rezultatele

observării se pot grupa într-un tabel de forma următoare:

X Y

x1 x2 ... xj ... xJ Total

y1 N11 N12 ... N1j ... N1J N1. y2 N21 N22 ... N2j ... N2J N2. . .

- - - - - - - (1.5)

yi Ni1 Ni2 ... Nij ... NiJ Ni. . .

- - - - - - -

yI NI1 NI2 ... NIj ... NIJ NI.

Total

N.1

N.2

...

N.j

...

N.J

N

unde: - Nij - reprezintă numărul de unităţi pentru care, variabila X înregistrează starea xj şi variabila

Y înregistrează starea yi ; - Ni. - numărul de unităţi pentru care Y = yi, indiferent de nivelul înregistrat de variabila X;

Page 8: Statistica Descriptiva

8

- N.j - numărul de unităţi pentru care X = xj, indiferent de nivelul înregistrat de variabila Y; - N - numărul total de unităţi analizate.

Din seria bidimensională se pot extrage serii unidimensionale de forma următoare:

Jj

Jj

NNNNxxxx

X..2.1.

21

......

......:

...2.1

21

......

......:

Ii

Ii

NNNNyyyy

Y

denumite şi serii de repartiţie marginale, în raport cu X şi Y

J1,j ............

:/21

21

Ijijjj

Iij NNNN

yyyyxXY

denumită serie de repartiţie unidimensională în raport cu Y condiţionată de X = xj, numărul acestora fiind egal cu numărul de stări a variabilei X.

I1,i ............

:/2.1

21

iJijii

Jji NNNN

xxxxyYX

denumită serie de repartiţie unidimensională în raport cu X condiţionată de Y = yi, numărul acestora fiind egal cu numărul de stări a variabilei Y.

De asemenea se poate elabora sau deduce seria de repartiţie bidimensională formată cu frecvenţe relative, unde:

JN

Nf

NN

fNN

f jj

ii

ijij ,1j I1,i .

..

.

1.4.2. Seria statistică de variaţie

Conform definiţiei seria de variaţie redă variaţia unei mărimi, în timp, în spaţiu sau de la o categorie la alta. Ca urmare, în continuare vom vorbi de serii cronologice (au la bază o variabilă de timp), serii de spaţiu (au la bază o variabilă de spaţiu) şi serii categoriale (au la bază variabile atributive). Cele mai des întâlnite sunt seriile cronologice şi seriile de spaţiu.

Seriile de variaţie au la bază mărimi absolute şi relative. După unii autori din cadrul mărimilor absolute fac parte indicatorul de nivel şi diferenţa absolută a unei mărimi, iar din cadrul mărimilor relative fac parte: indicatorul relativ de intensitate, indicele statistic şi diferenţa relativă a unei mărimi.

Indicatorul de nivel (Y) este o mărime ce reflectă nivelul unui fenomen analizat. De exemplu: producţia diferitelor produse, veniturile populaţiei, suprafaţa cultivată cu principalele culturi, transportul, exportul, importul etc.

Diferenţa absolută a unei mărimi ( Y ) exprimă diferenţa dintre nivelul cercetat şi nivelul bază de comparaţie al mărimii analizate. Se exprimă în aceeaşi unitate de măsură în care este cuantificat fenomenul analizat şi ne arată cu cât s-a modificat acesta de la un nivel la altul.

Page 9: Statistica Descriptiva

9

Indicele statistic al unei mărimi ( YI ) exprimă raportul dintre nivelul cercetat şi nivelul bază de comparaţie al mărimii analizate. Ne arată de câte ori se modifică acea mărime, de la un nivel la altul.

Diferenţa relativă a unei mărimi ( YR ) exprimă raportul dintre diferenţa absolută a mărimii respective şi nivelul bază de comparaţie al acesteia. Ne arată cu cât la sută se modifică mărimea de la un nivel la altul.

Indicatorul relativ de intensitate (d) se defineşte ca raport între doi indicatori de nivel de natură diferită şi arată gradul de răspândire a fenomenului cuantificat de indicatorul de la numărător în raport cu fenomenul cuantificat de indicatorul de la numitor. De exemplu: producţia diferitelor culturi / ha, densitatea populaţiei, producţia principalelor produse / locuitor, rata şomajului etc.

Greutatea specifică (g) reflectă structura fenomenului analizat în raport cu stările variabile X, de la baza seriei.

Seriile cronologice

Seria cronologică reflectă evoluţia în timp a unei mărimi. Valorile variabilei ca funcţie de timp pot fi fixate la un anumit moment de timp sau să

se refere la un interval de timp. Seria cronologică de momente este o serie de observaţii ordonate în timp, exprimând

stocuri [Trebici V., 1985]. De exemplu, volumul populaţiei, număr de universităţi, bănci, instituţii, fonduri fixe, numărul salariaţilor, întreprinderile mici şi mijlocii din diferite domenii de activitate, unităţile de cazare turistică etc. Într-o astfel de serie însumarea mărimii analizate nu are sens din punct de vedere al conţinutului, aceasta fiind permisă din considerente de calcul, ajustări etc.

Seria cronologică de intervale este o serie de observaţii ordonate în timp exprimând fluxuri. De exemplu: născuţii vii, divorţurile, decesele, producţia diferitelor culturi sau produse, venituri, cheltuieli, producţia industrială, agricolă, exportul, importul etc.Într-o astfel de serie are sens însumarea mărimii analizate.

Fie o serie cronologică de momente sau de intervale ce reflectă evoluţia în timp a nivelului unei mărimi Y,

Tt yyyyyTt

Y............210

:210

(1.6)

Pornind de la această serie se pot deduce seriile formate cu diferenţe absolute, indici şi diferenţe relative. În funcţie de modul de raportare a stărilor variabilei timp t, mărimile de mai sus se pot calcula cu bază fixă (t / t0) (baza de comparaţie rămâne aceeaşi) sau cu bază în lanţ (t / t-1) (baza de comparaţie se schimbă, fiind considerată cea precedentă nivelului comparat).

Fie seriile cronologice formate cu:

- diferenţe absolute cu bază fixă:

0/0/0/20/1/

......0

......210:0

Ty

tyyy

tty

Tt (1.7)

)0()(0/ ytyt

y

- diferenţe absolute cu bază în lanţ

Page 10: Statistica Descriptiva

10

1/1/1/20/11/

......

......210: TT

ytt

yyy

tty

Tt (1.8)

)1()(1/ tytytt

y Între cele două tipuri de diferenţe absolute cu baza fixă şi cu bază în lanţ, există relaţii

de legătură ce ne permit exprimarea unora în funcţie de celelalte. În acest context, însumând diferenţele absolute cu baza în lanţ se obţin diferenţele absolute cu baza fixă.

1/2/31/20/10/ ... ttyyyy

ty

Scăzând diferenţele succesive cu bază fixă se obţin diferenţele cu bază în lanţ. 1/0/10/ )1()()0()1()0()( tt

yty

ty tytyytyyty

Diferenţa absolută ne arată cu cât se modifică mărimea analizată de la un moment la

altul. Se exprimă în aceeaşi unitate de măsură în care este cuantificat fenomenul studiat. Dacă fenomenul analizat se exprimă valoric, atunci diferenţa absolută nu reflectă prea

bine modificările ce intervin, impunându-se utilizarea mărimilor relative respective, indicele statistic şi diferenţa relativă.

Fie seriile cronologice formate cu: - indici statistici cu bază fixă

0/0/0/20/1

/

......1

......210:0

Ty

tyyy

tty IIII

TtI (1.9)

)100()0()(0/ x

ytyI t

y

- indici statistici cu bază în lanţ

1/1/1/20/1

1/

......

......210: TT

ytt

yyy

tty IIII

TtI (1.10)

)100()1(

)(1/ xty

tyI tty

Între cele două tipuri de indici există următoarele relaţii de legătură: Făcând produsul indicilor cu bază în lanţ până la o anumită stare a variabilei t, se

obţine indicele cu bază fixă al clasei respective.

0/1/1/20/1

)0()(

)1()(. ... .

)1()2(.

)0()1(. ... .. t

ytt

yyy Iy

tyty

tyyy

yyIII

Împărţind doi indici succesivi cu bază fixă se obţine un indice cu bază în lanţ:

1/0/10/

)1()(

)0()1(:

)0()(:

tt

yty

ty I

tyty

yty

ytyII

Page 11: Statistica Descriptiva

11

Indicele statistic ne arată de câte ori se modifică fenomenul analizat. Este mărimea cel mai des folosită în caracterizarea evoluţiei fenomenelor din economie.

Având ca bază de referinţă o serie cronologică de forma (1.7) se pot elabora serii formate cu:

- diferenţe relative cu bază fixă

0/0/0/20/1

/

......0

......210:0

Ty

tyyy

tty RRRR

TtR (1.11)

11)0()(

)0()0()(

)0(0/

0/0/

t

y

tyt

y Iy

tyy

ytyy

R

- diferenţe relative cu bază în lanţ

1/1/1/20/1

1/

......

......210: TT

ytt

yyy

tty RRRR

TtR (1.12)

100100. sau 1)1(

1/1/1/

1/

tt

ytt

y

ttytt

y IIty

R

Această mărime la fel ca şi indicele statistice, se foloseşte frecvent în caracterizarea

fenomenelor din economie. Dacă seria cronologică analizată este de intervale, se poate deduce seria formată cu

greutatea specifică:

Tty ggggg

Ttg

......

......210:

210

(1.13)

T

tty

tytg

1)(

)()(

Seria statistică de spaţiu (teritorială)

Seria statistică de spaţiu este o construcţie statistică ce reflectă variaţia în spaţiu a unei

mărimi. Seria de spaţiu prezintă o importanţă din ce în ce mai mare, datorită dezvoltării

sistemului informaţional, a necesităţii comparaţiilor internaţionale şi a comparaţiilor între regiunile unei ţări.

În cadrul Anuarului Statistic al României există capitole distincte de „Statistică teritorială” şi „Statistică internaţională”. În capitolul de „Statistică teritorială” sunt cuprinse informaţii privind: populaţia, forţa de muncă, condiţii de muncă, veniturile populaţiei, cheltuielile şi consumul populaţiei, locuinţe, asistenţă socială, sănătate, învăţământ, cultură, sport, conturi naţionale, rezultate şi performanţe ale întreprinderilor, agricultură, silvicultură,

Page 12: Statistica Descriptiva

12

industrie, transporturi, poştă, telecomunicaţii, turism, finanţe, justiţie şi starea infracţională, pe cele 7 regiuni şi Bucureşti.

La baza seriei de spaţiu se găsesc atât mărimi absolute (indicator de nivel, diferenţa absolută), cât şi mărimi relative (indicator relativ de intensitate, indicele statistic, diferenţa relativă).

Fie seria statistică Z, de forma următoare:

)(...)(...)3()2()1(

......: 210

RZiZZZZsssss

Z Ri (1.14)

unde: si – este o stare a variabilei ce exprimă spaţiul, Ri ,1 ; Z(i) – exprimă o mărime (indicator de nivel sau relativ de intensitate). Plecând de la seria de forma (1.15) se pot deduce seriile formate cu: - diferenţe absolute cu bază fixă:

000201

0////

210/

......0

......: ss

Zss

Zss

Zss

Z

RissZ Ri

sssss (1.15)

)0()(0/ ZiZssZi

- indicii statistici cu bază fixă

000201

0////

210/

......0

......: ss

Zss

Zss

Zss

Z

RissZ Ri IIII

sssssI (1.16)

)100.()0()(

0/

ZiZI ss

Zi

- diferenţe relative cu bază fixă

000201

0////

210/

......0

......: ss

Zss

Zss

Zss

Z

RissZ Ri RRRR

sssssR (1.17)

100)0(

00

0 //

/

ssZ

ssZss

Zi

ii I

ZI

2. Observarea, sistematizarea şi prezentarea seriilor statistice

2.1. Observarea statistică

Observarea statistică constituie prima etapă în cadrul studierii fenomenelor sociale, economice sau de altă natură, etapă în care se culeg datele statistice despre fenomenul supus cercetării. Cercetarea fenomenelor respective presupune cunoaşterea populaţiei statistice în vederea surprinderii acţiunii legilor care acţionează la nivelul acesteia. De calitatea acestei etape, într-un proces de cercetare statistică, depinde şi calitatea rezultatelor obţinute în celelalte faze.

Observarea statistică presupune identificarea, urmărirea şi înregistrarea, după reguli unitare şi precise, a nivelului atins de variabilele statistice studiate la unităţile din care este formată populaţia luat în studiu[Florea I., 1998].

Pentru asigurarea unor date, rezultate din observare, valide şi pertinente se impun câteva precizări. În primul rând, observarea statistică presupune urmărirea şi înregistrarea unui număr mare de unităţi statistice, ceea ce implică un volum mare de muncă. În al doilea rând, pentru ca cercetarea populaţiei să-şi atingă scopul, trebuie precizate care sunt variabilele

Page 13: Statistica Descriptiva

13

în raport cu care este studiată populaţia. Variabilele statistice ce urmează să fie urmărite şi înregistrate la nivelul fiecărei unităţi din populaţie, trebuie să fie esenţiale şi să prezinte interes din punct de vedere al studiului întreprins. În al treilea rând, trebuie stabilite criterii exacte pentru delimitarea corectă a unităţilor statistice care alcătuiesc populaţia. Şi nu în ultimul rând, dacă observarea şi înregistrarea datelor este făcut de mai multe persoane este necesar ca acestea să se alinieze unei metodologii unitare pentru a asigura corectitudinea necesară datelor rezultate.

Observarea statistică, ca primă etapă într-un studiu de cercetare presupune: specificarea unităţilor statistice care trebuie să fie urmărite şi înregistrate, alegerea variabilelor statistice care caracterizează cel mai bine populaţia şi care răspund obiectivului urmărit, înregistrarea stărilor variabilelor statistice considerate.

Atingerea scopului cercetării statistice presupune rezolvarea următoarelor probleme care să asigure o pregătire ştiinţifică a observării statistice:

- delimitarea populaţiei supuse observării; - definirea unităţilor statistice de observat; - timpul şi locul unde va avea loc observarea; - programul observării; - alegerea purtătorilor de informaţie; - pregătirea persoanelor ce urmează să facă observarea. Fiecăreia din aceste probleme trebuie să i se acorde importanţa cuvenită, fiindcă

fiecare dintre ele conduce la o pregătire cât mai completă a observării, de rezultatele căreia depinde corectitudinea celorlalte etape a cercetării statistice.

Delimitarea populaţiei supuse observării faţă de alte populaţii statistice cu care aceasta se află în legătură se realizează prin evidenţierea însuşirilor şi trăsăturilor comune ce caracterizează populaţia supusă studiului.

Definirea unităţilor statistice de observat presupune claritate şi precizie pentru a nu da loc confuziilor. În momentul observării trebuie cunoscut exact care sunt unităţile statistice ce trebuie înregistrate în raport cu variabilele de studiat.

Stabilirea timpului şi a locului unde va avea loc observarea are importanţă din punct de vedere a comparabilităţii datelor rezultate din observare. Noţiunea de timp a observării are în statistică două accepţiuni:

- momentul sau perioada la care se referă datele înregistrate (timpul de referinţă); - durata observării. Locul observării reprezintă punctul din spaţiu în care se derulează procesul supus

cercetării (incinta unei întreprinderi, a unui magazin, o localitate în cazul în care populaţia o reprezintă familiile etc.).

În cadrul programului observării statistice trebuie stabilite variabilele statistice care urmează să fie studiate în populaţia de cercetat. Alegerea şi definirea variabilelor statistice trebuie să fie în consens cu natura populaţiei şi obiectivul cercetării statistice întreprinse. Variabilele statistice care fac parte din programul cercetării trebuie să surprindă aspectele esenţiale, să expliciteze fenomenul sau procesul studiat, să permită prelucrarea şi generalizarea acestora la nivelul întregii populaţii.

Alegerea purtătorilor de informaţie se face în funcţie de volumul datelor ce urmează a fi înregistrate. Purtătorii de informaţie reprezintă suporţii materiali pe care se înregistrează datele din observarea unităţilor statistice.

Observarea statistică se poate desfăşura în diverse forme în raport cu: natura proceselor social-economice de studiat, obiectivul cercetării, formele de organizare cât şi posibilităţile practice de urmărire şi înregistrare a unităţilor statistice din populaţie.

După cum se ştie, în raport cu gradul de cuprindere a populaţiei considerate avem: observarea totală şi observarea parţială. Observarea totală permite înregistrarea, în raport cu

Page 14: Statistica Descriptiva

14

variabilele statistice a tuturor unităţilor statistice din populaţie, implicând un volum mare de muncă, antrenează, de obicei, un număr de persoane şi durează mult timp. Ca urmare se crează condiţii pentru apariţia de erori de observare, ceea ce va conduce la micşorarea eficienţei observării. Forma cea mai frecventă de observare totală o constituie recensământul populaţieiObservarea totală se practică şi în domeniul controlului tehnice de calitate, în cazul produselor de înaltă tehnicitate , aşa cum ar fi: televizoare, maşini de spălat, frigidere, automobile etc. Este necesară o observare totală în acest caz, deoarece constatarea defecţiunilor de către cumpărători ar implica cheltuieli mult mai mari cu remedierea acestora în comparaţie cu organizarea unei observări totale a loturilor de produse ce urmează a fi scoase pe piaţă.

În cazul altor produse, unde cheltuielile legate de remedierea defectelor sunt nesemnificative, este suficientă realizarea unor observări parţiale prin care să se asigure că rebuturile nu depăşesc un anumit procent admis. O astfel de observare, care include doar o parte din unităţile populaţiei supuse studiului corespunde observării parţiale. Observarea parţială constituie o alternativă la observarea totală în cazul populaţiilor infinite sau chiar dacă sunt finite prin observare are loc distrugerea acestora. Având la bază procedeul observării parţiale se pot evalua rezervele de ţiţei, cărbune sau alte minerale, se poate evalua masa de material lemnos din fondul silvic a unei zone sau la nivelul întregii ţări. În general, observarea parţială se recomandă în toate cazurile în care se consideră mai avantajoasă decât observarea totală.

Eşantionul, ca rezultat al observării parţiale, presupune respectarea cu stricteţe a principiului reprezentativităţii, în conformitate cu care fiecare unitate statistică din populaţie generală să aibă aceeaşi şansă de a face parte din eşantion. Asigurarea respectării principiului reprezentativităţii în formarea eşantionului de observat permite acestora o structură foarte apropiată cu cea a populaţiilor din care sunt formate. Aceasta ne asigură, cu o anumită probabilitate dinainte fixată, că rezultatele obţinute la nivelul eşantionului pot fi extinse la nivelul întregii populaţii. În raport cu legea de probabilitate urmată de variabilele urmărite în populaţia generală sunt două tipuri de eşantioane: eşantioane de volum mare şi eşantioane de volum redus.

Observarea statistică în raport cu procedeul folosit este de două feluri: - observarea directă; - observarea indirectă. Observarea directă presupune o observare nemijlocită a unităţilor din populaţie, care

sunt prevăzute pentru cercetare. Acest mod de observare se realizează printr-un contact direct cu unităţile statistice, fie prin măsurare, fie prin interogare, dacă unităţile sunt persoane. Acest procedeu permite observatorului perceperea nemijlocită a fenomenelor luate în studiu în vederea măsurării nivelelor înregistrate de variabilele considerate.

Observarea indirectă presupune un intermediar între unităţile care urmează să fie supuse observării şi observator. Intermediarul poate fi un document special conceput în vederea observării şi atunci observarea este pe bază de document sau intermediarul poate fi o altă persoană decât observatorul, caz în care avem observare prin interogare.

Suportul pentru culegerea datelor îl reprezintă chestionarul.

2.2. Sistematizarea şi prezentarea datelor statistice

Sistematizarea constituie o etapă în cadrul prelucrării datelor statistice în vederea prezentării acestora sub formă de serie statistică (tabele statistice).

Datele obţinute ca urmare a procesului de observare statistică, în forma lor brută, permit o caracterizare amănunţită a fiecărei unităţi din populaţia considerată. Deoarece, datele

Page 15: Statistica Descriptiva

15

rezultate din observare se prezintă sub formă dezorganizată nu permit o caracterizare a populaţiei în ansamblu.

În vederea atingerii scopului cercetării statistice întreprinse şi anume acela de a da o caracterizare de ansamblu a populaţiei considerate este necesar ca datele rezultate din observare să fie supuse unor operaţii de sistematizare şi prezentare în vederea deducerii a ceea ce este esenţial, tipic şi general în legătură cu populaţia.

Deoarece în prelucrarea statistică primul pas îl constituie prezentarea datelor observate sub forma de serie (tabel), pentru construirea seriilor statistice se aleg variabilele care trebuie să fie în strânsă dependenţă cu scopul cercetării şi cu natura fenomenului cercetat.

Odată precizate variabilele de la baza seriei, se ştie care va fi conţinutul primului şir de date şi ca urmare este elucidat criteriul în raport cu care informaţiile rezultate din observare vor fi ordonate, necunoscându-se însă cum se face propriu-zis ordonarea şi cum se completează primul şir al seriei.

Operaţia de stabilire a claselor presupune împărţirea unităţilor unei populaţii în clase distincte în raport cu una sau mai multe variabile şi aranjarea claselor rezultate într-o anumită ordine. În urma unei asemenea operaţii, fiecare unitate trebuie să se găsească în una şi numai una din clasele rezultate. Această operaţie nu trebuie să conducă la pierderi de unităţi, regăsindu-se însă într-o altă ordine decât cea după care s-a realizat observarea.

Omogenitatea constituie o proprietate de bază pe care trebuie să o aibă clasele. Se spune că o clasă este omogenă dacă, pentru unităţile care fac parte din ea, variabila de grupare înregistrează variaţii nesemnificative.

În cele ce urmează se va prezenta operaţia de stabilire a claselor în cazul unei serii unidimensionale.

Dacă la baza seriei avem o variabilă calitativă, atunci clasele se stabilesc în raport cu stările acesteia. Pentru fiecare stare a variabilei se va construi o clasă. Ca urmare, în acest caz, într-o clasă vor intra toate unităţile care au înregistrat aceeaşi stare în timpul observării în raport cu variabila considerată.

În cazul unei serii care are la bază o variabilă cantitativă discretă (numărul stărilor nu este prea mare), clasele se stabilesc în mod asemănător ca şi la variabilele calitative, respectiv:

R

R

NNNxxx

X......

:21

21

În condiţiile în care cercetarea populaţiei presupune elaborarea unei serii care are la

bază o variabilă cantitativă continuă sau o variabilă cantitativă discretă, dar care în populaţia considerată înregistrează un număr prea mare de stări, clasele nu se mai pot stabili cu ajutorul stărilor variabilei. Pentru asemenea cazuri, gruparea unităţilor populaţiei în clase se face cu ajutorul intervalelor de grupare (variaţie), fiecare interval cuprinzând un număr oarecare de valori ale variabilei. Ca urmare, pentru o serie continuă, clasele se definesc cu ajutorul intervalelor de grupare.

Două probleme se pun în cazul elaborării unei serii care are la bază o variabilă cantitativă continuă:

determinarea lungimii intervalelor de variaţie; stabilirea formei de scriere a intervalelor de variaţie. Determinarea lungimii intervalelor de variaţie conduce la două situaţii: serii construire cu intervale de lungime egală; serii construite cu intervale de lungime diferite. Stabilirea numărului de intervale de variaţie trebuie să asigure satisfacerea

următoarelor condiţii:

Page 16: Statistica Descriptiva

16

- informaţia care se pierde în urma operaţiei de grupare să nu fie prea mare, iar populaţia să nu fie prea fărâmiţată în raport cu variabilele de grupare;

- media aritmetică a fiecărei grupe (în raport cu valorile înregistrate) să fie cât mai aproape de centrul intervalului de variaţie respectiv;

- să nu existe grupe vide; - reprezentarea grafică a seriei rezultate să permită conturarea unei regularităţi a

fenomenului de studiat din cadrul populaţiei. Trebuie remarcat că acest lucru nu este posibil nici în cazul unui număr mic de intervale deoarece se pierd prea multe date, nici în cazul unui număr prea mare de intervale, populaţia fărâmiţându-se prea tare.

Statisticianul american H.A. Struges a stabilit pentru cazul în care populaţia în raport cu variabila X este normală, următoarea expresie:

N

xxlx lg 322,31minmax

(2.1)

(1+3,322 LgN, având semnificaţia de „număr de intervale”), pentru celelalte cazuri rezultatul fiind orientativ, servind la determinarea cu aproximaţie a lungimii intervalelor de variaţie în cazul în care acestea vor fi de lungime egală. În expresia de calcul a lungimii intervalelor intervine valoarea maximă şi cea minimă a variabilei, cât şi volumul populaţiei. În urma stabilirii lungimii intervalelor. Se elaborează seria de intervale de lungime egală după cum urmează:

Rk

xxxxx

NNNlRxlRxklxlkxlxx

X1

minminminminminmin ) (;)1(...)(;)1(...)(;:

dacă se presupune că au rezultat R intervale, unde Nk, Rk ,1 reprezintă volumele claselor în care s-a structurat populaţia.

Numeroase sunt cazurile practice în care studiul unei populaţii în raport cu o variabilă sau mai multe presupune împărţirea domeniilor de variaţie ale acestora în intervale de lungime neegală. În asemenea cazuri nu există o relaţie de calcul în acest sens. Stabilirea intervalelor de variaţie se face în directă legătură cu variaţia variabilelor şi distribuirea unităţilor în raport cu acestea.

Dacă la baza seriei în cauză stau două sau mai multe variabile calitative sau cantitative atunci clasele se stabilesc în raport cu fiecare din variabilele considerate prin stările acestora (vezi seria 1.5), avem serii bidimensionale sau multidimensionale.

Nu este recomandat ca numărul variabilelor în raport cu care se studiază populaţia să fie prea mare, deoarece aceasta duce la o divizare exagerată a populaţiei pierzându-se din vedere aspectele principale.

După ce clasele au fost definite, are loc repartizarea unităţilor populaţiei în clasele respective, folosind în acest scop un algoritm adecvat.

Pentru elaborarea şi prezentarea seriilor statistice se apelează la pachete de programe statistice cum ar fi: S.P.S.S. (Statistical Package for the Social Sciences), STATISTICA, S.A.S. (Statistical Analysis System), STATGRAPHICS, etc. 2.3. Reprezentări grafice

Reprezentarea grafică a unei serii ne dă o imagine geometrică (în plan sau spaţiu) cu privire la forma statică sau evoluţia dinamică a fenomenului cuantificat de seria respectivă.

Page 17: Statistica Descriptiva

17

Graficul asociat unei serii constituie o imagine spaţială a fenomenului de cercetat, permiţând evidenţierea rapidă a structurii, dinamicii şi tendinţei de dezvoltare a acestuia. Reprezentările grafice sunt folosite atât în scopul cunoaşterii populaţiei în cauză, cât şi pentru popularizarea unor rezultate din diverse domenii de activitate.

Elaborarea completă şi corectă în acelaşi timp a unui grafic presupune elucidarea următoarelor elemente: titlul graficului, scara de reprezentare, reţeaua graficului, semnele convenţionale şi notele.

Titlul graficului trebuie să fie scurt, clar şi semnificativ pentru conţinutul fenomenului reliefat prin seria considerată.

Scara de reprezentare reuneşte mulţimea tuturor punctelor cotate. În cazul în care variabila înregistrează valori mici, gradarea scării începe în principiu de la zero, dacă variabila înregistrează valori mari se consideră o altă origine stabilită cu aproximaţie. Pentru a nu încărca prea mult desenul, se recomandă reprezentarea pe scară doar a valorilor dispuse la un anumit interval convenabil ales. Distanţele dintre două puncte cotate consecutive se numeşte intervalul graficului. Când intervalele sunt egale atunci avem scări uniforme, în caz contrar avem scări neuniforme.

Reţeaua graficului permite identificarea cu uşurinţă în plan sau în spaţiu a punctelor corespunzătoare valorilor înregistrate de variabilele în cauză. Sistemul axelor rectangulare (în plan sau spaţiu) constituie cele mai uzuale reţele în reprezentarea grafică a seriilor statistice.

Semnele convenţionale se pot materializa într-o reprezentare grafică prin inscripţii, fie printr-o legendă. Inscripţia trebuie să fie scurtă şi semnificativă şi plasată cât mai bine în raport cu elementul din grafic pe care îl explicitează. Legenda se foloseşte pentru a explicita folosirea semnelor, culorilor sau diverselor haşuri folosite în graficul în cauză. Legenda se plasează înafara graficului, în colţul din stânga sau dreapta jos.

În cazul graficelor complexe, pentru o înţelegere mai bună, sunt necesare unele explicaţii, care se dau sub formă de note. Notele generale privesc în ansamblu graficul şi se plasează chiar sub titlul graficului. Notele speciale privesc porţiuni din grafic şi sunt legate de acestea prin diverse semne de trimitere. Notele se plasează în partea de jos a diagramei, în colţul din stânga sub reţea.

În continuare se vor prezenta principalele tehnici de construire a graficelor utilizate în reprezentarea seriilor statistice ce descriu fenomenele social-economice.

Histograma Graficul specific seriilor care au la bază o variabilă continuă (de intervale) este

histograma. Aceasta se construieşte într-un sistem de axe rectangulare după cum urmează: pe abscisă se trec intervalele de variaţie, iar pe ordonată se trasează scara frecvenţelor. Scara frecvenţelor se construieşte în conformitate cu respectarea principiului proporţionalităţii între frecvenţe şi segmentele delimitate pe scara ordonatelor. Pentru fiecare interval de variaţie a seriei (xi-1 – xi) se construieşte un dreptunghi a cărui bază este chiar lungimea intervalului, iar cealaltă latură se determină din condiţia proporţionalităţii ariei dreptunghiului cu mărimea indicatorului în clasa respectivă.

Latura necunoscută a dreptunghiului, notată cu Li se determină din următoarea relaţie: Li . li = k . Ni (2.2)

unde: li = latura cunoscută a dreptunghiului corespunzător intervalului (xi-1 - xi); Li = latura necunoscută a dreptunghiului corespunzător intervalului (xi-1 - xi);

Page 18: Statistica Descriptiva

18

Ni = frecvenţa absolută a clasei „i”; k = un coeficient de proporţionalitate care se alege în raport cu scara de reprezentare.

Din relaţia (2.2) se deduce Li:

R1,i ,lNkL

i

ii

unde: li = xi - xi-1, adică diferenţa dintre limita superioară şi cea inferioară a intervalului de variaţie.

Mulţimea tuturor dreptunghiurilor astfel determinate, formează histograma ataşată seriei.

Poligonul frecvenţelor

Este o reprezentare grafică a seriilor statistice având la bază o variabilă atributivă cantitativă continuă şi formată cu frecvenţe absolute sau relative, simple sau cumulate.

Trasarea acesteia presupune realizarea în prealabil a histogramei. Poligonul frecvenţelor se obţine unind prin segmente de dreaptă mijloacele laturilor superioare ale dreptunghiurilor, din care este alcătuită histograma.

Poligonul frecvenţelor este un grafic important pentru aproximarea formei distribuţiei populaţiei studiate, cât şi pentru compararea a două distribuţii pe aceeaşi diagramă.

Exemplu Din Anuarul Statistic al României din anul 2000, am extras o serie de repartiţie reprezentând populaţia României sub 40 de ani pe grupe de vârstă .

Grupa de vârstă (ani)

Populaţia

0 – 4 1147065 5 – 9 1330733

10 – 14 1737153 15 – 19 1701881 20 – 24 1978835 25 – 29 1792822 30 – 34 1698268 35 – 39 1335039

Page 19: Statistica Descriptiva

19

Distributia populatiei Romaniei sub 40 ani pe grupe de varsta

0 – 4 5 – 9 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 35 – 39

grupa de varsta (ani)

popu

latia

Figura 2.1 Histograma si poligonul frecventelor

Diagramele de structură

Punerea în evidenţă sub formă grafică a structurii unei populaţii statistice este posibilă apelând la diagramele de structură. În acest sens se prezintă: dreptunghiul, pătratul, cercul şi semicercul de structură. Aceste tipuri de grafice permit reprezentarea grafică a seriilor unidimensionale construite cu mărimi de structură( frecvenţe relative, greutate specifică).

Cel mai des folosit este cercul de structură denumit şi diagrama sectorială (piechart).

Cercul de structură Se construieşte un cerc de rază oarecare a cărei suprafaţă se consideră că reprezintă

volumul întregii populaţii în cauză (exprimat în frecvenţe absolute sau relative). Fiecare clasă în care este divizată populaţia supusă studiului este reprezentată printr-un

sector de cerc de arie direct proporţională cu volumul clasei. Trasarea sectorului de cerc presupune determinarea măsurii în grade a unghiurilor la centru a fiecărui sector. Unghiul la centru de 360o corespunde volumului întregii populaţii. Unghiurile sectoarelor de cerc care reprezintă clase din populaţie trebuie să fie proporţionale cu volumul acestora (exprimat în frecvenţe absolute sau relative). Unui procent îi corespunde 3,6o cu procentul corespunzător clasei respective.

100360(%).

o

ii f (2.3)

Exemplu Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând distribuţia voturilor electoratului pentru Senat (după redistribuire) la alegerile din 3 noiembrie 1996:

Formaţiunea Politică

CDR

PDSR

USD

UDMR

PRM

PUNR

Voturi Obţinute (%)

37,0

28,7

16,1

7,7

5,6

4,9

Page 20: Statistica Descriptiva

20

Rezultatele alegerilor parlamentare pentru Senat din 3 nov 1996

37%

28,70%

16,10%

7,70%

5,60%4,90%

CDRPDSRUSDUDMRPRMPUNR

Figura 2.2 Cercul de structura

Diagramele prin benzi (barchart)

Acest tip de grafic utilizează benzile (barele), pentru a reprezenta distribuţia unei populaţii în raport cu o variabilă cantitativă discretă sau calitativă. Benzile au aceeaşi lăţime (bază), iar lungimea (înălţimea) lor este direct proporţională cu frecvenţa clasei reprezentate. Numărul benzilor este egal cu numărul claselor în care este împărţită populaţia studiată. De asemenea se pot lua în considerare o variabilă sau două.

În reprezentări se utilizează benzi simple sau benzi grupate. Poziţia benzilor poate fi orizontală sau verticală. Exemplu

Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând

nivelul PNB/loc în $ calculat pe baza puterii de cumpărare în România şi alte ţări est-europene, în 1998

Ţara Bulgaria Cehia Polonia România Slovacia Ungaria PNB/loc ($) 4683 12197 7543 6153 9624 9832

Page 21: Statistica Descriptiva

21

PNB/loc ($) in 1998

4683

12197

7543

6153

9624 9832

0

2000

4000

6000

8000

10000

12000

14000

Bulgaria Cehia Polonia România Slovacia Ungaria

Figura 2.3 Diagramă prin benzi simple

Cronograma (historiograma)

O categorie foarte importantă de serii o constituie seriile cronologice, a căror

reprezentare grafică se realizează prin cronograme. Trasarea unei cronograme se realizează într-un sistem de axe rectangulare.

Se consideră seria cronologică de forma (1.7):

Tt yyyyyTt

Y............210

:210

unde: Tt ,0 , reprezintă momentele (sau perioadele) de timp care se reprezintă pe axa absciselor, iar mărimile yt se reprezintă pe axa ordonatelor. Fiecărei perechi de valori (t, yt),

Tt ,0 îi corespunde un punct în planul axelor rectangulare. Unind prin segmente de dreaptă punctele consecutive, astfel determinate, se obţine ceea ce se numeşte cronogramă.

În acelaşi sistem de axe pot fi reprezentate una sau mai multe serii cronologice, care pot fi exprimate în aceeaşi unitate de măsură sau în unităţi de măsură diferite. Cronogramele asociate unor serii cronologice ne permit compararea fenomenelor surprinse de asemenea serii şi sesizarea perioadelor critice în evoluţia acestora. Exemplu.

Din Anuarul Statistic al României din anul 2000 am extras seria care urmează, redând numărul total ta autoturisme înscrise în circulaţie la sfârşitul anului în România în perioada 1994-1999.

Page 22: Statistica Descriptiva

22

Anul 1994 1995 1996 1997 1998 1999

Autoturisme înmatriculate

2020017 2197477 2391869 2605465 2822254 2980014

Evolutia numarului de autoturisme inscrise in circulatie in perioada 1994-1999

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

1993 1994 1995 1996 1997 1998 1999 2000

anul

num

ar a

utot

uris

me

in c

ircul

atie

Figura 2.4 Cronograma

Norul statistic

Norul statistic constituie o modalitate de reprezentare grafică a seriilor atributive de

repartiţie bidimensionale. Se consideră o serie bidimensională de repartiţie în raport cu variabilele discrete X şi

Y. În sistemul de axe rectangulare xOy se marchează toate punctele de coordonate (xj, yi ); J1,j ;I1,i pentru care frecvenţele Nij 0. Mărimea acestor frecvenţe se poate marca pe

grafic în două moduri: - dacă frecvenţele sunt mici, atunci pentru fiecare punct de pe grafic

(xj, yi ); J1,j ;I1,i pentru care Nij 0, se marchează atâtea puncte de câte ori se repetă perechea respectivă.

- dacă însă frecvenţele sunt prea mari, pentru marcarea lor pe grafic se pot utiliza diagrame areale prin cercuri ale căror arii trebuie să fie proporţionale cu rădăcina pătrată a frecvenţelor pe care le reprezintă.

În cazul în care cele două variabile X şi Y sunt continue, întrucât la intersecţia a două intervale se formează o rubrică (căsuţă), frecvenţele diferite de zero se reprezintă în interiorul acestei rubrici, fie prin puncte, fie prin diagrame areale cu respectarea unuia din cele două moduri de elaborare mai sus amintite. Exemplu

Un produs a fost lansat simultan pe 13 pieţe. Pe aceste pieţe, produsul a fost propus la

preţuri diferite (P), veniturile consumatorilor (V) fiind şi ele diferite. Pentru fiecare piată s-a înregistrat un anumit nivel al cererii (C), rezultatele fiind sintetizate în tabelul următor:

Page 23: Statistica Descriptiva

23

Nr. Crt.

1 2 3 4 5 6 7 8 9 10 11 12 13

Cerere (C)

15,4 3,2 4,9 10,5 8,0 5,1 7,6 11,3 14,0 6,4 13,2 8,8 12,1

Preţ (P)

1,4 5,1 2,5 1,7 1,8 3,4 2,1 1,6 3,6 3,5 1,9 1,8 1,9

0

2

4

6

8

10

12

14

16

18

0 1 2 3 4 5 6pret

cere

re

Figura 2.5 Norul de puncte în raport cu Pret şi Cerere

Cartograma şi cartodiagrama

Aceste tipuri de grafice se folosesc frecvent pentru reprezentarea grafică a seriilor statistice de spaţiu.

Realizarea unei cartograme sau a unei cartodiagrame presupune conturarea spaţiului (sub formă de hartă) în interiorul căruia se manifestă fenomenul care este cuantificat de seria de reprezentat. În interiorul hărţii astfel realizată, prin diverse culori sau nuanţe ale aceleiaşi culori, prin haşuri sau prin diferite diagrame, este evidenţiată intensitatea dezvoltării fenomenului cercetat precum şi mărimea indicatorilor seriei.

Cartodiagrama constituie o modalitate de reprezentare grafică a seriilor de spaţiu, realizându-se ca o îmbinare între cartogramă şi diferite alte tipuri de diagrame, ca de exemplu diagrame prin benzi, cerc, pătrat, dreptunghi etc. De exemplu, pentru a reprezenta o serie de spaţiu ce exprimă volumul investiţiilor străine pe judeţe, la noi în ţară, se procedează astfel: în primul rând se desenează harta României, delimitându-se judeţele; în cadrul fiecărui judeţ se desenează o figură geometrică oarecare convenabil aleasă, a cărei arie sau mărime să fie direct proporţională cu volumul investiţiilor străine din judeţul respectiv.

Probleme propuse

P1. Daţi 5 exemple de populaţii statistice a căror cercetare ar prezenta interes şi pentru fiecare populaţie selectată precizaţi:

- denumirea populaţiei, a unităţii statistice şi volumul acesteia; - scopul cercetării statistice; - variabilele statistice în raport cu care s-ar face observarea statistică a populaţiei.

P2. Să se extragă din Anuarul Statistic sau alte surse informaţionale o serie statistică bidimensională ce redă distribuţia unei populaţii în raport cu două variabile atributive, relativ la care se cere:

Page 24: Statistica Descriptiva

24

1. denumirea populaţiei ce a fost supusă observării şi volumul acesteia; 2. unitatea statistică; 3. caracterizarea variabilelor statistice în raport cu care a fost studiată populaţia; 4. caracterizarea seriei statistice în raport cu toate criteriile cunoscute; 5. elaborarea seriei bidimensionale formată cu frecvenţe relative, interpretare; 6. extragerea repartiţiilor unidimensionale marginale şi a celor condiţionate; 7. pornind de la o repartiţie marginală deduceţi celelalte serii statistice posibile,

interpretare. P3. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie statistică de repartiţie,

având la bază o variabilă de spaţiu, relativ la care se cere: 1. denumirea populaţiei statistice şi volumului ei; 2. unitatea statistică; 3. caracterizarea seriei după toate criteriile cunoscute; 4. deducerea seriei formată cu frecvenţe relative; 5. interpretare.

P4. Din Anuarul Statistic sau alte surse informaţionale extrageţi două serii cronologice având la bază indicatorul de nivel, una de momente, alta de intervale şi deduceţi seriile formate cu diferenţe absolute, indici statistici, diferenţe relative, cu bază fixă şi cu bază în lanţ (interpretări).

P5. Daţi 5 exemple de serii cronologice având la bază indicatorul relativ de intensitate. P6. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie de spaţiu formată cu

indicator de nivel sau indicator relativ de intensitate şi deduceţi seriile formate cu diferenţe absolute, indici şi diferenţe relative, calculate cu bază fixă. Interpretare.

P7. Extrageţi 5 exemple de serii de spaţiu ce conţin informaţii importante pentru domeniul economic.

P8. Luand ca exemplu o populaţie statistică studiată în raport cu un anumit număr de variabile (stabilite în raport cu obiectivul studiului), se cere:

1. elaborarea tuturor seriilor statistice de repartiţie unidimensionale 2. elaborarea a trei serii statistice de repartiţie bidimensionale ( una are la baza două

variabile calitative, una are la bază o variabila calitativă şi o variabilă cantitativă, una are la bază două variabile cantitative)

3. reprezentarea grafică a: histogramei, poligonului frecvenţei, cercului de structură, diagramei prin benzi sau coloane, norul statistic, cronograma şi cartograma.

Bibliografie:

1. Buiga, A., Dragoş C., Lazăr D., Mare, C., Statistică descriptiva, Ed. Mediamira, Cluj-Napoca, 2011;

2. Buiga, A., Metodologie de sondaj şi analiza datelor în studiile de piaţă, Ed. Presa Universitară Clujeană, Cluj-Napoca, 2001;

3. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Editura Continental, 1 998. 4. Andrei Tudorel, Stancu Stelian, Statistică- teorie şi aplicaţii, Editura All, Bucureşti,

1995 5. Jaba Elisabeta, Statistică, Editura Economică, Bucureşti, 2002. 6. Kenkel, J.L. (1994), Introductory Statistics for Management and Economics, PWS Publishing Company, Boston, U.S.A. (disponibila la biblioteca facultatii).

Page 25: Statistica Descriptiva

25

MODULUL 2

PARAMETRII REPARTIŢIILOR EMPIRICE UNIDIMENSIONALE

Obiective cunoaşterea şi înţelegerea modului de calcul precum şi a semnificaţiei parametrilor

statistici. ilustrarea trăsăturilor esenţiale care caracterizează fenomenele social - economice cunoaşterea şi măsurarea variaţiei unei mărimi în raport cu nivelul mediu al acesteia

Concepte de bază valoare medie, mediană, modală parametrii de structură variaţie, abatere medie, dispersie parametrii concentrării asimetrie şi boltire

Rezultate aşteptate

Cunoaşterea modului de calcul şi a semnificaţiei parametrilor tendinţei centrale, a gradului de reprezentativitate a mediei, respectiv a medianei, analiza structurii unei populaţii şi formularea unei concluzii privind forma distribuţiei unei populaţii.

Sinteza 2.1. Parametrii tendinţei centrale

Parametrii din această grupă au menirea de a evidenţia poziţia în jurul căreia se grupează ansamblul valorilor unei variabile de la baza unei serii. Această poziţie exprimată printr-un număr se numeşte poziţie centrală. Ea poate fi evidenţiată prin:

- valoarea medie X ; - valoarea mediană XM e ; - valoarea modală XM o .

A. Valoarea medie

Valoarea medie reprezintă principalul parametru care caracterizează tendinţa centrală a unei repartiţii statistice.

Page 26: Statistica Descriptiva

26

În vederea definirii parametrului valoarea medie se consideră o populaţie statistică studiată în raport cu variabila cantitativă X şi o funcţie G(x1,x2,…,xR) unde xi, Ri ,1 , reprezintă stările variabilei X. Funcţia G exprimă o anumită însuşire esenţială, un atribut al populaţiei în raport cu variabila X. Această funcţie se numeşte funcţie determinantă.

Prin definiţie, valoarea medie X a variabilei X este parametrul care lasă invariantă funcţia determinantă, adică:

XXXGxxxG R ,...,,,...,, 21 . (2.0)

Această egalitate se întâlneşte sub denumirea de relaţia lui BOIARSKI-KISINI. În

funcţie de forma analitică a funcţiei G, din relaţia (2.0) se deduce expresia analitică (indicatorul) de calcul a valorii medii X .

Determinarea, pe această cale, a valorii medii X , este destul de anevoioasă. Utilizarea acesteia presupune stabilirea conţinutului (semnificaţiei) şi a formei analitice a funcţiei determinante G, pentru fiecare caz în parte. Dar, valoarea medie X poate fi definită ca un raport a două mărimi din care se deduce aceeaşi expresie pentru X ca şi din (2.0).

Există, aşadar, două modalităţi echivalente de definire a valorii medii, criteriul relaţiei determinante a lui Boiarski-Kisini şi criteriul raportului, ultima fiind mai accesibilă. Criteriul raportului presupune raportarea volumului fenomenului cercetat la volumul populaţiei. Acesta presupune cuantificarea volumului fenomenului în funcţie de natura lui. Pentru a exemplifica cele prezentate mai sus, se consideră populaţia familiilor dintr-o localitate, cercetată în raport cu numărul de copii. Datele rezultate din observare se prezintă ca o serie de repartiţie de forma:

Rii

i

Nx

X,1.

:

În acest caz, funcţia determinantă are următoarea formă:

R

iiiR NxxxxG

121 ,...,,

semnificând numărul total de copii din localitatea respectivă. Pentru a găsi numărul mediu de copii pe familie se particularizează relaţia (2.0) după cum urmează

i

R

i

R

iii NXNx

11

de unde rezultă:

R

ii

R

iii

N

NxX

1

1

La acelaşi rezultat se putea ajunge pornind de la faptul că numărul mediu de copii pe familie se poate exprima ca un raport între numărul total de copii şi numărul de familii din localitatea respectivă, adică:

familiideNrcopiidetotalNrX

.

. (2.1)

Page 27: Statistica Descriptiva

27

În acest exemplu, fenomenul fiind de natură demografică, volumul acestuia se

cuantifică prin numărul total de copii la nivelul populaţiei statistice considerate. Aceasta este în directă concordanţă cu natura şi semnificaţia variabilei în raport cu care se face cercetarea statistică.

Cunoaşterea “naturii” parametrului valoare medie, conduce la o definiţie mai completă şi plină de semnificaţie.

Pentru a înţelege semnificaţia valorii medii X , trebuie subliniat faptul că, în general, variaţia unui fenomen, de orice natură, şi în particular variaţia unei variabile X în raport cu care este cercetată o populaţie, este determinată de acţiunea simultană a două categorii de factori: factori esenţiali şi factori neesenţiali.

În categoria factorilor esenţiali intră acei factori care acţionează asupra tuturor unităţilor populaţiei în mod continuu şi în acelaşi sens, determinând, în principal, nivelul de dezvoltare a variabilei pentru fiecare unitate componentă din populaţie.

Factorii esenţiali se conjugă în acţiunea lor cu factorii neesenţiali, care, în general, au un caracter aleator, sunt numeroşi şi neuniform răspândiţi printre unităţile populaţiei.

Fiecare din factorii consideraţi neesenţiali acţionează numai asupra unui anumit număr de unităţi din populaţie. Ca urmare, aceştia pot contribiu fie la creşterea nivelului variabilei (pentru unele unităţi din populaţie), fie la scăderea nivelului variabilei (pentru alte unităţi din populaţie).

La rândul lor factorii esenţiali nu acţionează cu aceeaşi intensitate asupra tuturor unităţilor din cadrul populaţie considerate, determinând, în acest fel, variaţia neuniformă a variabilei respective în cadrul populaţiei.

În consens cu cele subliniate mai sus, se poate afirma că parametrul valoarea medie a unei serii statistice care are la bază variabila X, constituie acel nivel pe care l-ar putea înregistra variabila în cadrul populaţiei cercetate în condiţiile în care factorii neesenţiali nu s-ar fi manifestat, iar factorii esenţiali ar fi acţionat asupra unităţilor din populaţie cu aceeaşi intensitate.

Parametrul valoarea medie, calculat pentru o serie statistică, pune în evidenţă ceea ce este comun, general şi esenţial sub aspectul nivelului de dezvoltare al variabilei, în raport cu care este studiată o populaţie.

În raport cu natura variabilei ce stă la baza seriei, cât şi a formei de prezentare a indicatorilor cu care aceasta este construită, există mai multe posibilităţi de calcul a valorii medii.

Funcţia determinată G, sub forma sa cea mai generală, are următoarea expresie analitică:

K

i

R

i

KiR fxxxG x

1

121 ,...,,

(2.2)

Pentru diverse valori ale lui k, în strictă concordanţă cu conţinutul şi semnificaţia

funcţiei G, se întâlnesc mai multe tipuri de medii: - media armonică (k = -1); - media aritmetică (k = 1); - media pătratică (k = 2); - media cubică (k = 3); - media de ordinul k în general. În caz concret, valoarea medie reală X este aceea care se obţine prin indicatorul

(mediu) rezultat fie prin aplicarea criteriului relaţiei determinante, fie criteriului raportului.

Page 28: Statistica Descriptiva

28

Modalităţi de calcul a valorii medii

1. Media aritmetică

Acesta este indicatorul cel mai utilizat în calculul parametrului valoarea medie a unei serii statistice, aşa cum rezultă din practica statistică.

Se consideră acum două serii statistice de repartiţie, una formată din frecvenţe absolute, iar cealaltă din frecvenţe relative:

Rii

i

Nx

X,1.

:

(2.3)

Rii

i

fx

X,1.

:

(2.4)

Media aritmetică pt cele două serii se calculează astfel:

ii

j

ii fxX;N

NxX

Dacă seria este de intevale, construită cu frecvenţe absolute avem:

j

i'iN

N.xX

Fie o serie de repartiţie, care are la bază o variabilă continuă X, respectiv,

Rii

ii

fxx

X,1.

1

:

Folosind notaţiile: '1

2 iii xxx

unde 'ix reprezintă mijlocul intervalului “i”, obţinem relaţia:

i

R

ii fxX

1

'

Relaţia ne arată că media aritmetică a unei serii de intervale se reduce la media

aritmetică a unei serii discrete în care clasele sunt reprezentate prin mijloacele intervalelor de variaţie.

Page 29: Statistica Descriptiva

29

2. Media armonică Se consideră o serie de forma:

Rii

i

Nx

X,1

:

(2.5)

În cazul unei serii discrete de forma (2.5), media armonică notată cu 1X se defineşte prin:

R

ii

i

R

ii

Nx

NX

1

11 1

(2.6)

numită şi formula mediei armonice ponderate.

Dacă ponderile sunt egale între ele, adică N1=N2=…=NR=N*, atunci relaţia (2.6) devine:

R

i i

R

i i

R

i

x

R

Nx

NX

11

*

1

*

1 11 (2.7)

care reprezintă formula mediei armonice simple. În cazul unei serii care are la bază o variabilă continuă X, respectiv,

Rii

ii

Nxx

X,1

1:

procedând ca la media aritmetică, pentru media armonică rezultă:

R

ii

i

R

ii

Nx

NX

1'

11 1

(2.8)

unde xi’ reprezintă mijlocul intervalului “i”, Ri ,1 .

Şi în acest caz, dacă ponderile sunt egale, se obţine relaţia de calcul a mediei armonice simple, de forma:

R

i ix

RX

1'

1 1

3. Media geometrică Pentru o serie care are la bază variabila discretă X, formată cu frecvenţe absolute, media geometrică notată cu gX (sau oX ) este definită prin expresia:

N NR

NNg

RxxxX ...2121 (2.9)

Page 30: Statistica Descriptiva

30

Din (2.9), pentru media geometrică ponderată exprimată cu frecvenţe relative se deduce:

R

i

R

i

f

i

NN

i

NR

i

N

iN N

R

NNg xxxxxx iiiRX

1 1

//1

121 ...21 (2.10)

Dacă variabila X, de la baza seriei este de variaţie continuă, atunci relaţiile de calcul pentru diversele variante de medie geometrică, rămân variabile cu singura modificare că valorile xi,

Ri ,1 , se înlocuiesc cu mijloacele intervalelor de variaţie, calculate conform formulei:

Rixxx iii ,1,

21'

(2.11)

B. Valoarea mediană

Valoarea mediană, notată cu eM este acea valoare a variabilei cantitative X care împarte repartiţia în două părţi egale, respectiv:

2 / 1 )(M FN e sau 2

)( NMN e (2.12)

Calculul valorii mediane se face diferenţiat, după cum seria are la bază o variabilă discretă sau continuă. Pentru o repartiţie discretă, calculul medianei nu implică probleme deosebite şi nici un volum mare de calcule.

Se consideră o repartiţie cu frecvenţe absolute:

.......

...

...:

2

2

1

1

R

R

i

i

Nx

Nx

Nx

Nx

X (2.13)

În calculul valorii mediane a unei serii discrete, pot apărea două situaţii:

a) volumul N al populaţiei este un număr impar; b) volumul N al populaţiei este un număr par.

În ambele cazuri, calculul medianei presupune, în prima fază, determinarea rangului medianei, notat cu

eMr , conform următoarei relaţii:

)(21

1e

R

iiM MNNr

e

(2.14)

a) Dacă volumul populaţiei N este un număr impar, rangul medianei este un număr zecimal a

cărui parte întreagă

2N indică numărul de unităţi din populaţie pentru care variabila X a

înregistrat valori mai mici ca mediana. Ca urmare, eM trebuie să fie valoarea imediat

următoare celei de rang

2N adică:

12Ne xM (2.15)

Page 31: Statistica Descriptiva

31

b) Dacă volumul populaţiei este un număr par, rangul medianei este un număr întreg şi ca urmare la mijlocul seriei nu se mai află o valoare a variabilei X cu care să coincidă mediana ci se găsesc două valori, mediana calculându-se în acest caz ca media aritmetică a acestora. Relaţia de calcul a medianei, în acest caz, este:

2

122

NN

e

xx

M (2.16)

Pentru o repartiţie continuă, calculul valorii mediane presupune verificarea egalităţii (2.12) şi ca urmare, trebuie cunoscută densitatea de repartiţie f(x). Determinarea funcţiei f(x) implică un volum mare de calcule şi deci, din acest motiv, în activitatea practică f(x) este aproximat. Acest lucru va conduce la o expresie aproximativă de calcul a valorii mediane, care necesită un volum redus de calcule. Pentru acesta se consideră o repartiţie continuă în raport cu variabila X, şi anume:

.......

...

...: 11

2

21

1

10

R

RR

i

ii

Nxx

Nxx

Nxx

Nxx

X (2.17)

unde intervalele xi-1-xi, Ri ,1 pot fi de lungime egală sau neegală. Calcularea rangului medianei va permite stabilirea intervalului în care se află valoarea mediană, interval numit şi interval median. Se cumulează frecvenţele absolute din aproape în aproape până ce este îndeplinită inegalitatea:

NNNN i 21...21

Ultima frecvenţă Ni cumulată, ne permite să indicăm intervalul median ii xx 1 .

Formula aproximativă de calcul a medianei:

11

1)()(

iii

ieie xx

NxNMNxM (2.18)

eMi xx 1 - limita inferioară a intervalului median;

eMi NN - frecvenţa absolută a intervalului median;

eMii lxx 1 - lungimea intervalului median,

C. Valoare modală

Valoarea modală Mo(X) a unei repartiţii reprezintă aceea valoare a variabilei X căreia îi corespunde frecvenţa cea mai mare. Acest parametru se mai numeşte modul, valoare dominantă, sau modă se notează cu Mo.

Mod de calcul:

Page 32: Statistica Descriptiva

32

a) Pentru o serie de repartiţie discretă, dată sub forma

.......

...

...:

2

2

1

1

R

R

i

i

fx

fx

fx

fx

X (2.19)

valoarea modală se citeşte direct din serie, nefiind nevoie de nici o tehnică sau formulă de calcul. În cazul acestui tip de serie, valoarea modală va fi acea valoare a variabilei X pentru care frecvenţa este cea mai mare.

b) Pentru serii de repartiţie continue, respectiv:

R

RR

i

ii

i

ii

i

ii

fxx

fxx

fxx

fxx

fxx

fxx

X 1

1

11

1

12

2

21

1

10

...

.........

: (2.20)

Modala nu poate fi determinată direct. Intervalul căruia îi corespunde frecvenţa cea mai mare, se numeşte intervalul modal şi va conţine modala. Să presupunem că intervalul modal este xi-1-xi.

Formula de calcul a modalei:

oo MMo lxxM

11

1 (2.21)

unde: Mo - reprezintă valoarea modală;

xMo - reprezintă limita inferioară a intervalului modal;

1 - reprezintă diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului precedent;

1 - reprezintă diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului următor;

lMo - reprezintă lungimea intervalului modal.

O serie poate avea o singură valoare modală, caz în care seria se numeşte unimodală. Dacă o serie are mai multe valori modale, atunci se numeşte plurimodală. O serie plurimodală evidenţiază faptul că populaţia în cauză este neomogenă. Calculul valorii modale, în asemenea cazuri, presupune o delimitare mai riguroasă a obiectului observării cât şi a populaţiei care urmează să fie studiată. O altă cale, care poate duce la eliminarea unui asemenea neajuns, o constituie comasarea a două câte două sau trei câte trei intervale etc., până se ajunge la o serie unimodală. În cazul unei serii simetrice valoarea modală coincide cu valoarea medie şi cu mediana.

Pentru serii uşor asimetrice, K. Pearson a stabilit următoarea relaţie între cei trei parametri:

eo MXXM 3

unde X este media aritmetică a variabilei X.

Page 33: Statistica Descriptiva

33

Calculul valorii modale reprezintă un deosebit interes pentru activitatea practică. Având în vedere că semnificaţia acestui parametru – indică acea valoare a variabilei înregistrată de cele mai multe unităţi din populaţie – se poate afla: ora la care sunt solicitate cele mai multe convorbiri telefonice, ora de vârf privind transportul în comun, mărimea cea mai solicitată la încălţăminte etc.

Dacă valoarea modală este identică cu valoarea medie, atunci se poate afirma că valoarea medie se bucură de o mai mare reprezentativitate.

Dacă, în plus, avem XMM oe , ţinând seama că valoarea mediană nu este influenţată de valorile extreme ale variabilei, se poate afirma că mediana reprezintă un grad de reprezentativitate mai mare decât valoarea medie.

2.2. Parametrii de structură

Frecvente sunt cazurile când este necesară studierea structurii unei populaţii în raport cu o variabilă sau alta. Parametrii statistici, în forma cea mai generală, folosiţi în caracterizarea structurii unei populaţii poartă denumirea de valori quantile. Valorile quantile ale unei serii de repartiţie unidimensionale sunt acele mărimi înregistrate de variabila X, care împart seria în n părţi egale (mai precis împarte populaţia în n părţi egale). În acest caz se vor calcula p quantile (p = n-1).

Pentru o serie continuă, a cărei densitate de probabilitate f(x) este cunoscută, următoarea egalitate este satisfăcută de cele p quantile:

1

1

2

1 1

1)(...)()(q

x

q

q

x

q

R

nn

dxxfdxxfdxxf (2.22)

unde cele n-1 quantile s-au notat cu q1, q2, …, qn-1.

Relaţia (2.22) se particularizează pentru cazul seriilor discrete, când seria este construită cu frecvenţe relative:

nfff

R

n

x

qi

q

qi

q

xi

1...1

2

1

1

1

(2.23)

Pentru o serie oarecare, quantila de ordinul p poate fi definită astfel:

n

pqF pN1 sau 1-n1,p ,)(

nNpqN p

Modul de calcul a valorilor quantile diferă în raport cu tipul seriei.

Fie o serie de repartiţie, care are la bază o variabilă X discretă, de următoarea formă:

.......

...

...:

2

2

1

1

R

R

i

i

Nx

Nx

Nx

Nx

X (2.24)

Pentru calculul valorii quantile de ordinul )1,1( npp , în prima etapă trebuie determinat rangul acesteia:

Page 34: Statistica Descriptiva

34

nNpqNr pq p )( (2.25)

Se disting două cazuri: a) dacă p·N se divide cu n atunci quantila de ordin p se calculează ca o medie aritmetică simplă a valorilor variabilei X, de ordinul rangului şi al rangului majorat cu o unitate, după cum urmează:

2)1(

pqpq rr

p

xxq (2.26)

b) dacă p·N nu se divide cu n atunci quantila de ordin p este egală cu acea valoare a variabilei X corespunzătoare parţi întregi a rangului majorat cu 1:

]1[ pqrp xq (2.27)

În cazul seriilor care au la bază o variabilă continuă, conform definiţiei, cele n-1 quantile trebuie să satisfacă relaţia (2.22). Determinarea quantilelor din asemenea egalităţi ar presupune cunoaşterea densităţii de probabilitate f(x). Ori în activitatea practică f(x) se aproximează prin diverse procedee, implicând un volum exagerat de calcule. În vederea găsirii unor formule aproximative de calcul a quantilei de ordin

)1,1( npp se consideră o serie de variaţie continuă, ale cărei intervale de variaţie nu trebuie să fie neapărat egale ca lungime:

.......

...

...: 11

2

21

1

10

R

RR

i

ii

Nxx

Nxx

Nxx

Nxx

X (2.28)

În prima etapă se determină rangul quantilei de ordinul )1,1( npp conform următoarei relaţii:

R

iipq N

npqNr

p1

1)( (2.29)

Cunoscând rangul, se poate identifica intervalul în care se află quantila de ordinul p, numit şi intervalul quantilei de ordinul )1,1( npp . Cumulând frecvenţele pe clase până la egalarea s-au depăşirea rangului, conform inegalităţii:

R

iii N

npNNN

121

1... (2.29’)

ultima frecvenţă adunată va corespunde intervalului quantilei de ordinul )1,1( npp . Prin urmare, quantila de ordinul p, qp, se calculează conform relaţiei:

)()()(

11

1

iii

ipip xx

NxNqN

xq (2.30)

Page 35: Statistica Descriptiva

35

1 iq xxp

- reprezentând limita inferioară a intervalului quantilei de ordinul p;

1 iiq xxlp

- reprezintă lungimea intervalului quantilei de ordinul p;

iq NNp - reprezintă frecvenţa absolută a intervalului quantilei qp,

Procedeul de determinare a quantilei de ordinul 1,1 np este acelaşi şi în cazul în care seria (2.28) este formată din frecvenţe relative. Caracterizarea structurii unei serii se poate face utilizând diverse cazuri particulare de valori quantile. Valoarea mediană (Me) este şi un parametru de structură obţinându-se ca un caz particular de quantilă, când n=2. Dacă pentru o serie se cunoaşte Me (quantila de ordinul 2), atunci structura populaţiei poate fi redată astfel:

%50%50

: maxmin xMMXX ee (2.31)

semnificând faptul că jumătate din populaţia supusă studiului a înregistrat pentru variabila X valori cuprinse între valoarea minimă a lui X şi mediană, iar cealaltă jumătate din populaţie a înregistrat pentru X valori cuprinse între mediană şi valoarea maximă a lui X. Valorile quartile reprezintă acel caz particular al valorilor quantile pentru care n=4. Cele trei quartile, care se obţin, notate: Q1, Q2 şi Q3 sunt acei parametri de structură care împart populaţia în patru părţi egale.

În raport cu mediana, quartila întâi Q1, se numeşte quartila mică (inferioară), quartila a doua Q2 coincide cu mediana şi se numeşte quartila mijlocie, iar quartila a treia Q3 se numeşte quartila mare (superioară). Cunoscându-se cele trei quartile, rezultă următoarea structură a populaţiei în raport cu variabila X:

%25%25

%25%25

: max332211min XQQQQQQxX (2.32)

ceea ce semnifică o structurare a populaţiei supusă studiului în patru parţi egale. Aceasta înseamnă că 25% din unităţile popupaţiei înregistrează valori pentru variabila X mai mici decât quartila mică, 25% din unităţile populaţiei înregistrează valori, în raport cu aceeaşi variabilă X, cuprinse între quartila mică şi cea mijlocie, 25% vor avea valori cuprinse între quartila mijlocie şi quartila mare, iar restul 25% din unităţile populaţiei vor avea valorile pentru variabila X cuprinse între quartila mare şi valoarea maximă a lui X.

2.3. Parametrii variaţiei Studiul unor populaţii statistice prezintă importanţă numai din punct de vedere al unor mărimi care variază de la o unitatea la alta sau de la un grup de unităţi la altul.

Page 36: Statistica Descriptiva

36

Valorile înregistrate de o variabilă cantitativă, în raport cu care este studiată o populaţie, se datoresc acţiunii diferiţilor factori esenţiali şi neesenţiali. Intensitatea diferită cu care se pot manifesta factorii esenţiali cât şi sensul contrar cu care pot acţiona factorii neesenţiali în raport cu fiecare unitate, provoacă nivele diferite înregistrate de variabile în raport cu care este studiată populaţia.

Problema măsurării variaţiei unei variabile cantitative este importantă pentru a vedea în ce măsură valoarea medie a acesteia poate reprezenta întrega populaţie.

Dacă abaterile de la valoarea medie sunt neesenţiale atunci se poate afirma că populaţia este omogenă şi că acest parametru poate reprezenta tendinţa centrală, iar dacă aceste abateri sunt mari atunci populaţia este eterogenă şi valoarea medie nu are capacitatea de a reprezenta populaţia.

Pentru unele serii, valoarea medie nu se poate calcula. În asemenea cazuri, parametrul valoarea mediană poate să-i ia locul. Aceeaşi problemă se pune şi în acest caz, de a vedea în ce măsură valoarea mediană este sau nu reprezentativă pentru populaţia în cauză. O altă problemă care nu se poate rezolva fără a studia şi măsura variaţia înregistrată de o variabilă în raport cu care este studiată o populaţie, o constituie verificarea de ipoteze. În activitatea practică, de multe ori pornind de la valorile unor parametrii calculaţi pe baza datelor culese relativ la un număr mic de unităţi, este necesar a fi extinşi la nivelul întregii populaţii sau de a se verifica anumite ipoteze statistice.

Parametrii variaţiei se pot calcula atât sub formă absolută cât şi relativă, şi măsoară împrăştierea valorilor unei variabile cantitative faţă de valoarea medie sau valoarea mediană.

Ca urmare, în funcţie de elementul de referinţă folosit în măsurarea variaţiei, deosebim: - parametrii variaţiei în raport cu valoarea medie;

- parametrii variaţiei în raport cu valoarea mediană.

2.3.1. Parametrii variaţiei în raport cu valoarea medie

Abaterea medie liniară

Abaterea medie liniară, notată cu xd , reprezintă media aritmetică a abaterilor variabilei X de la valoarea medie a acesteia, luate în valoare absolută:

XXMd x (2.33)

Relaţia (2.33) se particularizează în :

R

ii

i

R

ii

x

N

NXxd

1

1 (2.34)

Dacă seria are la bază o variabilă continuă şi se cunoaşte f(x), atunci abaterea medie liniară se calculează astfel:

Page 37: Statistica Descriptiva

37

dxxfXxdRx

xx )(

1

(2.35)

Densitatea de probabilitate f(x) se poate aproxima cu densitatea empirică şi atunci pentru abaterea medie liniară se pot obţine relaţii de calcul aproximativ, frecvent utilizate în activitatea practică, de forma:

i

R

ixR

ii

i

R

ix fXx d

N

NXxd

i

i

1

'

1

1

'

sau (2.36)

după cum seria în cauză este formată cu frecvenţe absolute sau relative, unde:

Rixx

x iii ,1 ,

21'

este mijlocul intervalului “i”.

Acest parametru serveşte caracterizării sintetice a gradului de reprezentativitate a valorii medii, arătând cu cât se abate în medie orice valoare a variabilei X de la valoarea medie X , într-un sens sau altul.

Sub forma relativă, acest indicator poartă denumirea de coeficient simplu de variaţie şi se calculează conform relaţiei:

100Xd

V xx (2.37)

Coeficientul simplu de variaţie (Vx) arată cu cât se abate în medie orice valoare a variabilei X de la valoarea medie echivalentă cu 1 sau 100%. Calculat pentru două serii diferite, se poate aprecia gradul de reprezentativitate a celor două medii. Se apreciază mai reprezentativă acea valoare medie pentru care coeficientul simplu de variaţie este mai mic. Parametrul abaterea medie liniară, în forma absolută sau relativă, prezintă unele deficienţe deoarece nu este suficient de sensibil la abaterile mici, adăugându-se şi unele inconveniente de natură teoretică, generate de exprimarea abaterilor în valoarea absolută.

Înlăturarea acestor deficienţe se poate realiza apelând la un nou parametru privind măsurarea variaţiei, numit abatarea medie pătratică.

Abaterea medie pătratică Acest indicator este utilizat atât pentru caracterizarea gradului de reprezentativitate a valorii medii cât şi în scopul estimării unor parametri necunoscuţi. Abaterea medie pătratică, notată cu σx , se defineşte ca fiind media pătratică a abaterilor valorilor variabilei X, de la valoarea medie X , adică:

2)( XXMx (2.38)

Un calcul intermediar în aflarea acestui parametru, îl constituie calcularea pătratului abaterii medii pătratice, care se numeşte dispersie sau varianţă şi are următoarea expresie de calcul:

Page 38: Statistica Descriptiva

38

)()( 222 XDXXMx (2.39)

V(x) reprezintă o altă notaţie pentru varianţă, pe lângă σ2x .

Varianţa fiind un calcul intermediar în aflarea abaterii medii pătratice, în cele ce urmează se va prezenta modul de calcul al acesteia. Relaţia de calcul a varianţei se particularizează în raport cu tipul seriei. În cazul unei serii care are la bază o variabilă X discretă, conform definiţiei, varianţa are expresia:

R

ii

i

R

ii

x

N

NXx

1

2

12

)( (2.40)

În cazul unei serii care are la bază o variabilă X continuă, varianţa se calculează conform următoarei relaţii:

dxxfXxRx

xx )(

1

22 (2.41)

a cărei aplicare presupune cunoaşterea densităţii de repartiţie f(x). Pentru o serie dată, varianţa calculată nu are interpretare, dar dacă se extrage rădăcina pătrată din acesta se obţine un număr care se exprimă în aceleaşi unităţi de măsură ca şi variabila de la baza seriei. Acest număr (valoare) reprezintă abaterea medie pătratică, simbolizând cu cât se abate în medie în plus sau minus orice valoare xi a variabilei X de la valoarea medie X . Parametrul abaterea medie pătratică se poate exprima şi sub formă relativă, caz în care se numeşte coeficientul de variaţie a lui Pearson, şi se notează cu Vx. Expresia de calcul este:

100X

V xx

(2.42)

şi reprezintă abaterea medie a orcărei valori a variabilei X de la valoarea medie, considerată egală cu 1 sau 100. Coeficientul de variaţie a lui Pearson calculat pentru două sau mai multe serii, poate fi folosit în aprecieri comparative privind gradul de reprezentativitate a valorii medii calculate. Deoarece gradul de reprezentativitate a valorii medii este în raport invers cu mărimea coeficientului de variaţie a lui Pearson, se poate afirma, în cazul mai multor serii, că este mai reprezentativă valoarea medie a acelei serii pentru care Vx este mai mic.

În concluzie, trebuie reţinut că parametrul abaterea medie pătratică sub formă absolută σx şi sub formă relativă Vx sunt indicatori fundamentali utilizaţi în măsurarea variaţiei unei variabile. Atât abaterea medie liniară, cât şi abaterea medie pătratică constituie o măsură a variaţiei medii, primul o medie de ordinul unu, iar al doilea o medie de ordinul doi )( xxd .

2.3.2. Parametrii variaţiei în raport cu valoarea mediană Abaterea interquartilă

Page 39: Statistica Descriptiva

39

Abaterea interquartilă, prin definiţie, este media aritmetică simplă a segmentelor Me – Q1 şi Q3 – Me, respectiv:

221331 QQMQQMQ ee

(2.43)

şi arată cu cât se abat în medie, în plus sau în minus, de la mediană, cele 50% din valorile variabilei cuprinse între Q1 şi Q3.

Forma relativă a acestui indicator notat cu Qr:

1002

100 13

ee

r MQQ

MQQ (2.44)

se numeşte coeficient de variaţie interquartilic şi arată cu cât se abat în medie de la mediană (considerată egală cu 100), valorile variabilei înregistrate pentru cele 50% din unităţile populaţiei cuprinse între Q1 şi Q3.

Ca atare, se apreciază că împrăştierea unităţilor în cadrul populaţiei studiate este cu atât mai mare, în raport cu variabila de studiat, cu cât abaterea interquartilă în valoarea absolută (2.43) sau relativă (2.44) este mai mare.

Abaterea interquantilă

Pentru acest parametru, sub formă absolută, avem:

221111 qqqMMqq neen

(2.45)

iar sub formă relativă denumită şi coeficient de variaţie interquantilic este:

1002

100 11

e

n

er M

qqMqq (2.46)

Cu cât abaterea interquantilică (relativă sau absolută) este mai mică, cu atât valoarea mediană este mai reprezentativă.

2.4. Parametrii concentrării

Energia informaţională Acest parametru a fost introdus de Acad. Octav Onicescu. Prin definiţie:

R

iifE

1

2

unde s-a notat cu E energia informaţională. Este un parametru utilizat în cazul în care seria are la bază o variantă nenumerică.

Page 40: Statistica Descriptiva

40

În cazul unei populaţii caracterizată de un grad de concentrare maxim, va exista o clasă care va avea frecvenţa relativă egală cu 1, iar celelalte vor avea frecvenţele relative 0 şi ca urmare: Emax = 1.

Dacă populaţia este caracterizată de o concentrare minimă, atunci:

RRR

xxxX R

/1.../1/1...

: 21

iar

RR

RE 112min

Se observă că:

11 E

R

Forma relativă a acestui parametru, notată cu Er, se deduce astfel:

R

Rf

R

RE

E

R

ii

r 11

1

11

11

2

de unde:

10 rE

Referitor la populaţia dată, studiată în raport cu o variabilă X, se calculează Er, iar dacă:

- Er se apropie de 1, atunci populaţia respectivă este caracterizată de un grad înalt de concentrare;

- Er se apropie de 0, populaţia în cauză se caracterizează printr-o concentrare minimă.

2.5. Parametrii formei Din aplicaţiile practice, precum şi din alte surse, s-au constatat că graficele pot avea diverse forme, dintre care: formă de coplot, formă de U, J, L sau alte forme. Ceea ce prezintă importanţă, nefiind surprins de nici un parametru prezentat, îl constituie modul de repartizare a valorilor variabilei de o parte şi de alta a valorii medii, considerată şi centrul de greutate a seriei. Acest lucru nu înseamnă altceva decât evidenţierea acelei curbe care aproximează cel mai bine conturul poligonal al seriei respective şi în acelaşi timp o imagine mai clară asupra gradului de reprezentativitate a valorii medii. În marea majoritate a cazurilor, distribuţia unităţilor unei populaţii se face după un clopot (după legea normală a lui Gauss). Dar unitătile nu se distribuie uniform în jurul valorii medii, ceea ce poate conduce la înclinaţii într-o direcţie sau alta a valorii medii. Această distribuire neuniformă poate conduce la cazul când diferite serii (diferit distribuite în jurul valorii medii) să aibă aceeaşi medie, acelaşi σ şi totuşi o curbă să fie mai aplatizată decât cealaltă, simetrică sau mai puţin simetrică. Evidenţierea acestor diferenţe poate fi realizată cu ajutorul parametrilor formei.

Parametrii formei unei serii de repartiţie, după conţinut, se clasifică în două grupe:

Page 41: Statistica Descriptiva

41

- parametrii asimetriei;

- parametrii boltirii.

2.5.1. Parametrii asimetriei

Asimetria unei serii se defineşte în raport cu dispunerea unităţilor într-o parte sau alta a valorii medii.

În acest sens, o serie de repartiţie este simetrică în raport cu media sa dacă frecvenţele valorilor variabilei X egal depărtate de valoarea medie sunt egale între ele, adică:

XX ff

oricare ar fi δ astfel încât X şi X să se afle printre valorile lui X.

Coeficientul de asimetrie al lui Fisher

Acest parametru se notează cu α3, iar expresia sa de calcul este:

3

3

3X

XXM

(2.47)

sau într-o formă echivalentă:

32

3

3

XXM

XXM

Calculând valoarea acestui parametru, în funcţie de semnul ei, avem următoarele cazuri:

1. α 3 = 0, ceea ce înseamnă că 3XXM = 0, adică suma tuturor abaterilor cu semnul minus este egală cu suma tuturor abaterilor cu semnul plus, ridicate la puterea a treia. Ca urmare în acest caz se poate spune că seria este simetrică.

2. α 3 > 0, ceea ce înseamnă că 3XXM > 0. Aceasta este echivalent cu faptul că pe total suma abaterilor cu semnul plus de la valoarea medie este mai mare decât suma abaterilor cu semnul minus şi ca urmare seria prezintă o asimetrie pozitivă.

3. α 3 < 0, deci 3XXM < 0. Aceasta înseamnă că pe total, suma abaterilor cu semnul minus este mai mare decât suma abaterilor cu semnul plus de la valoarea medie. O astfel de serie se spune că reprezintă o asimetrie negativă.

2.5.2. Parametrii boltirii

Page 42: Statistica Descriptiva

42

Aprecierea boltirii unei serii este utilă în caracterizarea gradului de reprezentativitate a valorii medii cât şi pentru compararea reprezentativităţii a două sau mai multe valori medii ce reprezintă serii diferite.

Parametrul 4XXM dă o caracterizare numerică sub formă absolută a gradului de boltire a unei serii. Sub formă relativă, gradul de boltire se măsoară cu parametrul:

4

4

4X

XXMB

(2.48)

Pentru a înţelege semnificaţia boltirii unei serii, se consideră două serii statistice care au la bază variabilele X şi Y, iar

YXYX ;

Mai presupunem, în plus, că cele două distribuţii au formă de clopot pentru care α 3X = α 3Y , adică ambele sunt simetrice. Deşi s-ar părea că cele două serii nu au nimic care să le deosebească, totuşi reprezentându-le grafic rezultă două curbe de forma:

X

Y

YX YX

unde graficul lui X este mai înalt, iar al celeilalte mai plat. Ca urmate, se observă că cele două serii nu sunt caracterizate de aceeaşi boltire.

Boltirea unei serii este utilă pentru a da o caracetrizare mai exactă reprezentativităţii valorii medii.

În cazul exemplului prezentat mai sus, atât mediile cât şi abaterile medii pătratice sunt egale şi ca urmare, coeficientul de variaţie al lui Pearson este acelaşi pentru cele două serii. Deci rezultă că ambele valori medii prezintă acelaşi grad de reprezentativitate. Cu toate acestea, graficele celor două serii contrazic concluzia dedusă în urma comparării celor doi coeficienţi de variaţie. Valoarea medie cea mai reprezentativă în seria în care cele mai multe unităţi ale populaţiei cercetate au înregistrat valori, mai apropiate de valoarea medie. Pentru o astfel de serie, împrăştierea faţă de valoarea medie fiind mică, graficul are o formă mai ascuţită în cazul seriei X şi mai plată în cazul seriei Y.

Page 43: Statistica Descriptiva

43

Nivelul boltirii pentru o serie oarecare dată se măsoară cu ajutorul parametrului B4, a cărui expresie de calcul este dată de relaţia (2.48). Valoarea lui B4 pentru o distribuţie normală este egală cu 3. Pentru orice altă curbă corespunzătoare unei serii date şi aproximată cu un clopot, raportul între momentul centrat de ordinul patru şi pătratul momentului centrat de ordinul al doilea, este un număr diferit de 3, curba respectivă fiind mai ascuţită sau mai plată decât curba normală a lui Gauss. Comparând gradul de boltire al unei serii oarecare şi gradul de boltire al clopotului lui Gauss, Fisher a stabilit următoarea expresie de calcul al coeficientului boltirii, notat cu B4

’:

34

4'4

X

XXMB

sau: B4’ = B4-3

expresie cunoscută în literatura de specialitate sub denumirea de exces al seriei. Următoarele cazuri sunt semnificative cu privire la aprecierea boltirii unei serii:

- dacă B4’ =0 (adică B4 = 3) atunci seria în cauză prezintă aceeaşi boltire cu a curbei normale

(excesul este nul);

- dacă B4’ > 0 (adică B4 > 3) atunci boltirea corespunzătoare curbei respective este mai înaltă

şi mai ascuţită decât curba normală (serie leptokurtică);

- dacă B4’ < 0 (adică B4 < 3) atunci boltirea corespunzătoare curbei respective este mai plată

(mai joasă şi mai largă) decât curba normală (serie platikurtică).

Asimetria şi boltirea joacă un rol însemnat în caracterizarea formei unei serii atributive de repartiţie. Cu ajutorul parametrilor prezentaţi poate fi formată o imagine mai clară asupra unei serii deja construite, asupra măsurii în care seria respectivă poate fi reprezentată de valoarea sa medie.

Bibliografie:

1. Buiga, A., Dragoş C., Lazăr D., Mare, C., Statistică descriptiva, Ed. Mediamira, Cluj-Napoca, 2011; 2. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Editura Continental, 1998. 3. Andrei Tudorel, Stancu Stelian, Statistică- teorie şi aplicaţii, Editura All, Bucureşti,

1995 4. Jaba Elisabeta, Statistică, Editura Economică, Bucureşti, 2002. 5. Kenkel, J.L. (1994), Introductory Statistics for Management and Economics, PWS Publishing Company, Boston, U.S.A. (disponibila la biblioteca facultatii).

Page 44: Statistica Descriptiva

44

MODULUL 3

ANALIZA LEGĂTURILOR DINTRE VARIABILELE UNEI REPARTIŢII MULTIDIMENSIONALE

Obiective Însuşirea conceptelor de corelaţie si regresie si utilizarea lor în economie Cunoaşterea posibilităţilor de cuantificare a intensităţii legăturii dintre diversele

mărimi economice Însuşirea metodelor de stabilire a unei legături funcţionale între variabile

Concepte de bază

Corelaţia dintre variabile, coeficienţi de asociere, coeficient de corelaţie Corelaţia rangurilor, coeficienţii lui Kendall si Spearman Metoda celor mai mici pătrate, regresia liniară simplă Regresia liniară multiplă, regresii neliniare: hiperbolică, parabolică, exponenţială

Rezultate aşteptate După parcurgerea acestui modul se cere studentului să stăpânească noţiunile de corelaţie şi regresie, să poată identifica existenţa unei eventuale legături între două mărimi. De asemenea să ştie măsura intensitatea legăturii dintre variabile, fie ele cantitative sau calitative. Se urmăreşte şi cunoaşterea metodelor de modelare funcţională a legăturilor. Sinteza

Ne propunem abordarea unor metode statistice caracteristice studiului seriilor multidimensionale. Scopul acestora este de a identifica şi utiliza eventualele legături care se pot manifesta între două sau mai multe variabile. Prezinta interes: existenţa legăturii, intensitatea acesteia, forma funcţională a legăturii, parametrii şi reprezentativitatea ei privind fenomenul cercetat. Problematica legăturilor dintre variabile este foarte curent întâlnită în economie. Spunem că salariul unui angajat este în funcţie de productivitatea muncii sale, vechimea în muncă, responsabilitatea activităţii sale, etc ; sau cererea dintr-un produs este în funcţie de preţul produsului, venitul consumatorilor, etc. De fiecare dată, atât în teoria economică, cât şi în aplicaţii se întâlneşte expresia “fie funcţia cererii…”. În realitatea economică însă, această funcţie nu se dă, nu se cunoaşte, ci trebuie estimată pornind de la o bază de date. Această problemă de estimare a unei funcţii şi alte probleme colaterale ei fac obiectul acestui capitol. Pentru a putea aborda studiul legăturilor dintre variabile trebuie să ştim în primul rând dacă există sau nu o legătură între variabilele studiate (sau între fenomenele pe care acestea le reprezintă) şi care este natura acestora. Putem clasifica legăturile dinte variabile astfel :

1. Legătura nulă. Semnifică lipsa oricărei legături între două sau mai multe fenomene sau variabile care cuantifică fenomenele. De exemplu, o legătură nulă se manifestă între înălţimea unui angajat şi salariul acestuia sau între produsul intern brut al unei ţări şi vârsta

Page 45: Statistica Descriptiva

45

primului ministru. Din punct de vedere statistic, spunem că între două variabile X şi Y există o legătură nulă, sau nu există legătură, dacă 0),cov( yx .

2. Legătura deterministă. Spunem că între variabilele X şi Y există o legătură deterministă dacă unei valori a lui X îi corespunde o singură valoare a lui Y. Astfel de legături se întâlnesc în special în fizică, unde de exemplu viteza este egală cu distanţa împărţită la timp: tdv / , sau forţa este egală cu masa înmulţită cu acceleraţia: amF . Astfel de exemple există şi în economie, unde rata profitului este egală cu profitul împărţit la cifra de afaceri: %100../ ACr . Legătura este deterministă pentru că variabila r este perfect determinată de celelalte două: şi ..AC Adică pentru o anumită valoare a profitului şi o anumită valoare a cifrei de afaceri nu putem avea decât o singură valoare a ratei profitului. 3. Legătura statistică. Se mai numeşte şi stocastică sau probabilistă. Este tipul de legătură cel mai des întâlnită în ştiinţele sociale, deci şi în economie. Fiecărei valori ix a variabilei X îi corespunde o distribuţie de valori ale variabilei Y. Matematic, o astfel de legătură se exprimă sub forma )(xfy , unde am notat prin componenta aleatoare reziduală, datorată acţiunii asupra lui Y a celorlalţi factori decât X. Deşi s-ar putea spune că prin luarea în considerare a tuturor factorilor care influenţează variabila Y, legătura este intrinsec deterministă, în ştiinţele economice vom întâlni aproape întotdeauna un număr foarte mare de factori, care nu pot fi identificaţi şi cuantificaţi în totalitatea lor. Asfel, funcţia care îl explicitează pe Y are două componente: una determnistă, ),...,,( 21 nxxxf , cuprinzând variabilele cuantificabile de care depinde Y, şi una aleatoare, , cuprinzând variabilele ce nu au putut fi cuantificate.

Sudiul legăturilor dintre variabile s-a dezvoltat într-o disciplină aparte, numită

econometrie. În capitolul de faţă nu ne propunem deci decât o introducere în această

problematică, fără a aborda elemente de inferenţă statistică specifice acestor legături. În

cele ce urmează vom prezenta câteva aspecte legate de variabile şi fenomenele

reprezentate de acestea, probleme atât de natura aparatului statistic utilizat, cât şi de

aplicabilitatea lui în contextul economic.

Analiza legăturii dintre variabilele unei repartiţii multidimensionale presupune

abordarea următoarelor probleme, care se pot constitui şi în etape ce trebuie parcurse în

demersul statistic necesar:

1. Organizarea rezultatelor observării populaţiei sau eşantionului în raport cu variabilele cercetate

2. Analiza statistică a existenţei legăturii 3. Analiza statistică a intensităţii legăturii sau a gradului de asociere dintre variabilele

observate 4. Formularea unor ipoteze cu privire la forma matematică a legăturii 5. Estimarea parametrilor funcţiei de regresie

Page 46: Statistica Descriptiva

46

6. Analiza reprezentativităţii funcţiei de regresie Aceste etape pot fi parcurse integral sau parţial, în funcţie de natura variabilelor. Pentru

variabilele calitative nu vor fi parcurse (în statistica descriptivă) decât primele trei,

deoarece posibilităţile de prelucrare sunt mai reduse. În schimb, toate cele şase etape pot fi

parcurse în cazul variabilelor cantitative.

3.1. Organizarea rezultatelor observării populaţiei sau eşantionului în raport cu

variabilele cercetate

În scopul utilizării facile a informaţiei culese la nivelul populaţiei sau eşantionului,

rezultatele observării vor fi sistematizate într-o formă convenabilă prelucrării lor. Se

preferă de obicei o formă tabelară a prezentării, care poate sugera unele idei de lucru

pentru etapele următoare, prin unele remarci cu privire la valorile pe care le-au înregistrat

variabilele.

3.2. Analiza statistică a existenţei legăturii

În studiul analizei existenţei legăturii vom folosi atât elemente de statistică deja

abordate în capitolele anterioare, cum ar fi tabelele şi graficele, cât şi parametri

(coeficienţi) specifici acestui capitol. Deoarece prezintă particularităţi distincte, vom

aborda separat problematica subcapitolului în funcţie de tipul variabilelor.

3.2.1. Analiza statistică a existenţei legăturii pentru variabile calitative

Page 47: Statistica Descriptiva

47

Un prim instrument ce ne stă la îndemână este tabelul de corelaţie, un tabel cu două

intrări, reprezentând o repartiţie bidimensională. Modul de construcţie al unui astfel de

tabel se cunoaşte de la seriile statistice.

I

i

J

j ij

ijij

NNN

1 1

22 )(

Ca o concluzie, distingem cele două cazuri:

1) Dacă 02 nu există legătură între variabile 2) Dacă 02 există legătură între variabile

Procedeul prezentat anterior ne permite identificarea existenţei legăturii dintre două

variabile, dar nu şi a intensităţii acesteia. Totuşi, pornind de la el se pot construi

coeficienţi care să ne permită şi aprecierea intensităţii legăturii, aşa cum se va vedea în

secţiunile următoare.

3.2.2. Analiza statistică a existenţei legăturii pentru variabile cantitative

Aşa cum s-a văzut în capitolul anterior, dacă dispunem de o repartiţie bidimensională,

putem descompune varianţa totală a variabilei de explicat Y ca sumă a varianţelor datorate

variabilei explicative X şi respectiv celorlalţi factori, adică:

2/

2/

2XYXYY

Dacă nu există legătură, adică X nu are nici o influenţă asupra lui Y, mediile condiţionate

XY / vor fi identice, iar dispersia lor va fi nulă: 02/ XY .

Putem reţine deci ca regulă de decizie în statistica descriptivă:

1) Dacă 02/ XY nu există legătură între variabile

2) Dacă 02/ XY există legătură între variabile

Page 48: Statistica Descriptiva

48

3.3. Analiza statistică a intensităţii legăturii sau a gradului de asociere dintre variabilele

observate

Ca şi în cazul existenţei legăturii, o primă apreciere a intensităţii se poate face pe baza

tabelului de corelaţie şi a norului de puncte. Cu cât frecvenţele mai mari sunt mai grupate

în jurul uneia din diagonalele tabelului de exemplu sau punctele norului sunt mai grupate

în jurul unei linii, cu atât legătura este mai intensă. În ceea ce priveşte metodele cantitative

de apreciere, ele sunt mult mai precise şi ne pot oferi valori numerice ale intensităţii sau

gradului de asociere. Aceste metode sunt însă diferite în funcţie de tipul variabilelor şi de

aceea le vom aborda separat.

3.3.1. Gradul de asociere sau intensitatea legăturii dintre variabilele calitative

Coeficientul de asociere (contingenţă) al lui Pearson

Relaţia de calcul a coeficientului este:

2

2

N

C

unde N este volumul populaţiei.

- dacă 02 legătura este nulă (lipsa legăturii) - dacă ) 0,3 ; 0 (2 legătura este de intensitate slabă - dacă ) 0,7 ; 0,3 [2 legătura este de intensitate medie - dacă ) 1 ; 0,7 [2 legătura este de intensitate puternică

3.3.2. Gradul de asociere sau intensitatea legăturii dintre variabilele ordinale

Page 49: Statistica Descriptiva

49

Coeficientul de corelaţie a rangurilor al lui Kendall

Pentru a putea utiliza acest indicator toate unităţile populaţiei trebuie să poată fi

ordonate în raport cu variabilele pentru care cercetăm intensitatea legăturii. Presupunem o

populaţie de volum n observată în raport cu m variabile.

Pentru a putea construi coeficientul, vom defini mai întâi indicatorul de

concordanţă (P) şi respectiv indicatorul de discordanţă (Q). Pe baza indicatorilor de

concordanţă şi discordanţă construim coeficientul de corelaţie simplă a rangurilor al lui

Kendall, definit astfel:

2)1(

nnQP

QPQP

În cazul unei legături directe de intensitate maximă, P va lua valoare sa maximă,

iar Q pe cea minimă, adică: 2

)1(

nnP iar 0Q , deci 1 .

În cazul unei legături inverse de intensitate maximă, P va lua valoare sa minimă,

iar Q pe cea maximă, adică: 0P iar, 2

)1(

nnQ deci 1 .

În cazul lipsei legăturii, QP , iar 0 .

Putem determina astfel intervalul în care va fi cuprins , respectiv 1] ; -1[ .

Interpretarea intensităţii legăturii pe baza acestui coeficient se va face astfel:

- dacă 0 legătura este directă - dacă 0 legătura este nulă - dacă 0 legătura este inversă - dacă 0,3) ; 0[ legătura este de intensitate slabă

- dacă 0,7) ; 3,0[ legătura este de intensitate medie

- dacă 1] ; 7,0[ legătura este de intensitate puternică

Page 50: Statistica Descriptiva

50

Coeficientul de corelaţie a rangurilor al lui Spearman

Ca şi coeficientul similar propus de Kendall, şi acesta se calculează pornind de la

tabelul de concordanţă a rangurilor. Ne vom folosi de diferenţele id dintre ranguri pentru

aceeaşi unitate a populaţiei relativ la cele două variabile. Coeficientul are următoarea

expresie:

)1(

61 2

1

2

nn

dn

ii

Limitele celor doi coeficienţi sunt aceleaşi, la fel şi interpretările valorilor numerice.

3.3.3. Intensitatea legăturii dintre variabilele cantitative

Raportul de corelaţie

Folosind regula de adunare a varianţelor descompunem varianţa totală a variabilei de

explicat Y ca sumă a varianţelor datorate variabilei explicative X şi respectiv celorlalţi

factori, adică:

2/

2/

2XYXYY

Varianţa explicită 2/ XY este cu atât mai mare cu cât mediile condiţionate XY / sunt mai

diferite între ele. Ceea ce le face să difere este numai influenţa lui X, deoarece am împărţit

populaţia în grupe având ca unic criteriu valorile lui X. Este firesc deci să folosim varianţa

explicită ca o mărime absolută a intensităţii legăturii dintre X şi Y şi ponderea varianţei

explicite în varianţa totală ca o mărime relativă. Raportul de corelaţie are expresia:

Page 51: Statistica Descriptiva

51

tot

rez

totYX V

VVV

R 1exp

sau sub forma ei matematică:

2

2/

2

2/ 1

Y

XY

Y

XYYXR

Pentru a-i găsi limitele ne raportăm la cele două situaţii extreme:

- dacă nu există legătură între X şi Y, mediile condiţionate XY / sunt egale între ele, deci 02

/ XY şi 0YXR - dacă legătura este de intensitate maximă, nu există influenţe ale altor factori decât

X asupra lui Y, nu există variaţie în cadrul grupelor, deci 02/ XY şi 1YXR .

În consecinţă, raportul de corelaţie aparţine intervalului 1] ; 0[YXR . Interpretarea

intensităţii legăturii pe baza acestui coeficient se va face astfel:

- dacă 0YXR legătura este nulă - dacă 0,3) ; 0[YXR legătura este de intensitate slabă - dacă 0,7) ; 3,0[YXR legătura este de intensitate medie - dacă 1] ; 7,0[YXR legătura este de intensitate puternică.

3.4. Formularea unor ipoteze cu privire la forma matematică a legăturii Dacă între două variabile (ambele cantitative !) se constată existenţa unei legături de o anumită intensitate, ne punem problema posibilităţii modelării legăturii printr-un model matematic. O primă etapă în acest demers este formularea unei ipoteze cât mai verosimile cu privire la forma legăturii. În acest scop, pe baza tabelului de corelaţie construim norul statistic şi linia poligonală a mediilor condiţionate ale variabilei dependente.

X x x x x

Y

1/ xY

2/ xY

3/ xY

4/ xY

Page 52: Statistica Descriptiva

52

În funcţie de forma liniei frânte obţinute şi a poziţiei punctelor norului faţă de ea se

formulează o ipoteză cu privire la forma funcţiei de regresie. Dacă dorim să studiem o legătură multiplă, respectiv dependenţa lui Y faţă de variabilele factoriale nXXX ,...,, 21 atunci pentru fiecare pereche ),( 1XY , ),( 2XY , ),( nXY desenăm câte un nor statistic. Forma generală a variabilei Y în funcţie de variabilele factoriale nXXX ,...,, 21 se scrie: ),...,,( 21 nXXXfY

unde ),...,,( 21 nXXXf reprezintă funcţia de regresie care aproximează cel mai bine forma legăturii, iar o variabilă aleatoare numită reziduală, care însumează efectul altor factori decât cei luaţi în calcul.

3.5. Estimarea parametrilor funcţiei de regresie

Este o etapă care se succede firesc alegerii formei funcţiei. În estimarea parametrilor va trebui să ţinem cont de abaterea punctelor norului faţă de modelul matematic ales ),...,,( 21 nXXXY , datorat altor factori decât nXXX ,...,, 21 , consideraţi neesenţiali, cuantificaţi prin variabila reziduală .

Principiul de la care se porneşte în estimarea parametrilor este cel al patratelor minime. Minimizăm suma patratelor abaterilor valorilor observate ale lui Y de la nivelul calculat prin ),...,,( 21 nXXXY . Condiţia de minim a sumei este echivalentă cu condiţia de minim a mediei:

)(),...,,( 2221 MXXXYYM n minimă

Ecuaţia ),...,,( 21 nXXXY care descrie legătura dintre Y şi factorii de influenţă

nXXX ,...,, 21 se numeşte ecuaţia de regresie. Metoda regresiei constă în modelarea legăturilor statistice prin ecuaţia de regresie.

Deoarece problema de minim se poate rezolva doar cunoscând forma particulară a funcţiei, vom aborda estimarea parametrilor seprat, pe tipuri de funcţii.

Regresia liniară

În ipoteza în care legătura dintre Y şi factorii săi de influenţă nXXX ,...,, 21 este liniară, ecuaţia de regresie va fi de forma:

nnn XaXaXaaXXXY 2211021 ),...,,(

Page 53: Statistica Descriptiva

53

Coeficienţii naaaa ,...,,, 210 se numesc parametrii modelului şi vor rezulta din minimizarea următoarei funcţii cu (n+1) necunoscute:

211010 )...(),...,,( nnn XaXaaYMaaaG

Condiţiile de minim constau în anularea celor (n+1) derivate parţiale ale funcţiei ),..,,( 10 naaaG în raport cu necunoscutele naaa ,...,, 10 , ceea ce conduce la următorul sistem

de ecuaţii:

0)...(2),...,,(

0)...(2),...,,(

11010

1100

10

jnnj

n

nnn

XXaXaaYMa

aaaG

XaXaaYMa

aaaG

nj ,1

sau într-o formă echivalentă:

jnnn

nn

XYMXXaXaaMYMXaXaaM

)(...)(...

110

110 nj ,1

de unde rezultă:

)()(...)()()(...)(

110

110

jjnnj

nn

YXMXXMaXXMaaYMXMaXMaa

nj ,1

Prin rezolvarea acestui sistem liniar de ecuaţii în raport cu necunoscutele naaa ,...,, 10 , se obţin valorile parametrilor ecuaţiei de regresie. Astfel, legătura statistică dintre Y şi

nXXX ,...,, 21 este modelată prin aproximare cu o legătură funcţională. Pentru cazul cu doi factori 1X şi 2X , ecuaţia de regresie se scrie:

2211021 ),( XaXaaXXY

iar sistemul de ecuaţii devine:

)()()()(

)()()()(

)()()(

222221120

12122

1110

22110

YXMXMaXXMaXMaYXMXXMaXMaXMa

YMXMaXMaa

Prin substituţia lui 0a din prima ecuaţie şi înlocuirea lui în celelalte, obţinem:

Page 54: Statistica Descriptiva

54

)()()()]([)()()()()()()()()()()]([)(

222

222221211

11212122

1211

XMYMYXMXMXMaXMXMXXMaXMYMYXMXMXMXXMaXMXMa

Dacă pentru a aduce la o formă mai simplă notăm cu:

)()()()]([)]([ jijijjiiij XMXMXXMXMXXMXMm

care reprezintă covariaţia dintre variabilele iX şi jX , obţinem:

02222121

01122111

mmamammama

de unde putem obţine valorile parametrilor:

2122211

011202112

2122211

021222011

mmmmmmma

mmmmmmma

De aici îl vom deduce şi pe 0a , care a fost substituit în prima ecuaţie. Astfel,

210 ,, aaa sunt valorile parametrilor modelului liniar cu trei variabile. Înlocuind valorile parametrilor în ecuaţia de regresie se obţine:

0)(

)()(),(

222120

1110

112220

121021

2221

1211

XMXmmmm

XMXmmmm

YMXXYmmmm

Pentru a face relaţia mai accesibilă, introducem matricea de variaţie şi covariaţie:

222120

121110

020100)3(

mmmmmmmmm

M

şi notând complementul algebric al elementului jm0 cu )3(ojM , 2,1,0j ecuaţia de regresie

devine:

Page 55: Statistica Descriptiva

55

0)()()(),( 22)3(

0211)3(

0121)3(

00 XMXMXMXMYMXXYM

Pentru cazul mai general al legăturii liniare dintre Y şi nXXX ,...,, 21 , matricea de variaţie şi covariaţie este:

nnnn

n

n

n

mmm

mmmmmm

M

...............

...

...

10

11110

00100

)1(

iar ecuaţia de regresie se poate scrie:

0)(...)()(),( )1(011

)1(0121

)1(00

nnnn

nn XMXMXMXMYMXXYM

Matricea de variaţie şi covariaţie )1( nM este simetrică în raport cu prima diagonală. Elementele iim de pe diagonala principală sunt varianţele variabilelor nXXXY ,...,,, 21 , iar elementele jimij , reprezintă covarianţele dintre variabilele corespunzătoare.

Regresia liniară simplă

În cazul regresiei liniare simple, cu variabila endogenă Y şi factorul 1X , matricea de variaţie şi covariaţie este:

1110

0100)2(

mmmm

M

iar ecuaţia de regresie devine:

0)()()( 111011 XMXmYMXYm

de unde îl putem exprima pe )(XY ca:

)()()( 111

101

11

10 XMmmYMX

mmXY

de unde rezultă coeficienţii:

Page 56: Statistica Descriptiva

56

111

101

111

100 )()(

Xmma

XMmmYMa

Regresia parabolică

În economie sunt numeroase exemplele în care legătura dintre fenomene şi deci variabilele care le cuantifică nu este liniară. Dacă Y reprezintă recolta la hectar dintr-un produs agricol, iar X cantitatea de îngrăşăminte, ne vom da seama chiar şi intuitiv că o anumită creştere a lui X nu provoacă aceeaşi creştere a lui Y pe tot intervalul de variaţie al celor două variabile. La valori mari ale cantităţii de îngrăşăminte, acestea provoacă saturaţie sau chiar nocivitate, ducând la o stagnare, respectiv diminuare a producţiei. Alte exemple pot fi: legătura dintre vechimea în muncă şi mărimea salariului, dintre cheltuielile cu publicitatea şi volumul vânzărilor, etc.

Determinarea parametrilor funcţiei parabolice de regresie se poate face fie aplicând direct funcţiei metoda patratelor minime, fie prin reducerea la cazul liniar prezentat anterior. În ambele cazuri vom exemplifica pentru parabola de ordinul doi.

a) Estimarea parametrilor prin aplicarea directă a metodei patratelor minime Ecuaţia de regresie a modelului se scrie:

2210)( XaXaaXY

Din condiţia de minimizare a expresiei:

2210 )(),,( XYYMaaaG

avem următoarele egalităţi:

0),,(

0),,(

0),,(

2

210

1

210

0

210

aaaaG

aaaaG

aaaaG

Page 57: Statistica Descriptiva

57

din care rezultă sistemul de ecuaţii:

0)(2

0)(20)(2

22210

2210

2210

XXaXaaYM

XXaXaaYMXaXaaYM

care este echivalent cu:

)()()()(

)()()()()()()(

242

31

20

32

210

2210

YXMXMaXMaXMa

YXMXMaXMaXMaYMXMaXMaa

Rezolvând acest sistem în necunoscutele 210 ,, aaa , rezultă parametrii ecuaţiei de regresie parabolice. În mod asemănător se poate proceda pentru orice regresie neliniară.

b) Estimarea parametrilor prin reducerea la cazul liniar Având modelul parabolic de ecuaţie:

2210)( XaXaaXY

facem substituţiile:

1XX

22 XX

după care ecuaţia devine:

2211021 ),( XaXaaXXY

care reprezintă un model liniar cu doi factori. Elementele matricei de variaţie şi covariaţie vor arăta astfel:

22200 ))(()( YYMYMm

Page 58: Statistica Descriptiva

58

),cov()()()(1001 XYXMYMYXMmm

),cov()()()( 2222002 XYXMYMYXMmm

22211 ))(()( XXMXMm

),cov()()()( 22312 XXXMXMXMm

222422 2))(()(

XXMXMm

Problema regresiei neliniare pentru cazul unei parabole de gradul doi se reduce astfel la o problemă de regresie liniară, care se rezolvă conform cazului liniar. În cazul mai general, dacă ecuaţia de regresie este un polinom de gradul n:

nn XaXaXaaXY ...)( 2

210

efectuând substituţiile:

nn XXXXXX ; ... ; ; 2

21

obţinem cazul liniar în raport cu (n+1) variabile.

Regresia exponenţială Dacă ecuaţia de regresie are formă exponenţială:

XbaXY )(

se încearcă aducerea la forma liniară. Mai întâi se logaritmează ecuaţia:

bXaXY lglg)(lg

iar apoi se fac substitiţiile:

baaa

XYXZ

lglg

)(lg)(

1

0

Rezultă astfel modelul liniar simplu:

Page 59: Statistica Descriptiva

59

XaaXZ 10)(

Regresia hiperbolică

Dacă ecuaţia de regresie are formă hiperbolică:

X

baXY 1)(

se face substituţia:

X

X 11

de unde rezultă modelul liniar:

11)( bXaXY

În matricea de variaţie şi covariaţie elementele vor fi:

22200 ))(()( YYMYMm

XY

XMYM

XYMmm 1,cov1)(1

1001

2/1

2

21111

XXM

XMm

Alte tipuri de regresie

În practica economică se întâlnesc frecvent şi alte tipuri de funcţii (unele chiar funcţii compuse). Principiul de lucru pentru estimarea parametrilor va rămâne însă întotdeauna acelaşi: încercarea de a aduce funcţia la o formă liniară.

Foarte des întâlnite sunt funcţiile de producţie. Forma generală a acestora este:

nmn

mmn XXXaXXXY ...),...,,( 21

2121

Printr-o astfel de funcţie se defineşte o legătură între nivelul producţiei Y şi factorii de care aceasta depinde: productivitatea muncii, calificarea forţei de muncă, gradul de înzestrare

Page 60: Statistica Descriptiva

60

cu capital fix, etc. Determinarea parametrilor se face prin reducere la cazul liniar prin logaritmare:

nnn XmXmaXXXY lg...lglg),...,,(lg 1121

Dacă în această nouă ecuaţie facem substituţiile:

niXX

XXXYXXXZ

ii

nn

,1 , lg'

),...,,(lg),...,,( 2121

reducem ecuaţia la una liniară multiplă. 4.6. Analiza reprezentativităţii funcţiei de regresie Coeficientul de corelaţie Construcţia lui este similară cu a raportului de corelaţie, cu deosebirea că varianţa în fiecare grupă este calculată folosind suma patratelor abaterilor faţă de valorile ajustate prin funcţia de regresie şi nu faţă de media grupei. Ca urmare, coeficientul de corelaţie va fi specific fiecărei funcţii în parte. Expresia lui de calcul (admisă aici fără demonstraţie) este:

0000

det1MmMrYX

]1 ; 0[YXr Interpretarea acestui coeficient în funcţie de valorile pe care le poate lua este următoarea:

- dacă ]3,0 ; 0[YXr funcţia nu este reprezentativă pentru modelarea legăturii dintre variabile

- dacă ]7,0 ; 3,0(YXr funcţia are o reprezentativitate medie pentru modelarea legăturii dintre variabile

- dacă ]1 ; 7,0(YXr funcţia este foarte reprezentativă pentru modelarea legăturii dintre variabile

Aceste limite nu trebuie interpretate foarte rigid. Valorile coeficienţilor este bine să fie comparate cu ale altor coeficienţi, ai altor funcţii. Pentru aceeaşi repartiţie de exemplu, pentru funcţiile de regresie alese ca fiind posibilecalculăm coeficienţii de corelaţie şi îl reţinem pe cel mai mare, considerând acea funcţie ca fiind cea mai reprezentativă. În cazul regresiei liniare simple, formula coeficientului poate fi adusă la o formă echivalentă mai simplă:

1110

0100)2(

mmmm

M

Page 61: Statistica Descriptiva

61

XY

YX

YMXMXYMmm

mmmmm

mmmmmm

MmMr

)()()(

1det1

1100

01

1100

1001

1100

10011100

0000

4.7. Corelaţia parţială Prin corelaţie simplă am studiat legătura liniară dintre doi factori neglijând influenţa celorlalţi factori, care acţionează în acelaşi timp asupra variabilei endogene. În corelaţia multiplă am măsurat influenţa simultană a două sau mai multe variabile exogene asupra celei endogene. Ne punem însă problema de a măsura influenţa unei variabile independente asupra celei dependente, presupunând celelalte variabile la un nivel constant. Fără a recurge la demonstraţii, vom da modul de calcul al coeficienţilor de corelaţie parţială pentru două cazuri:

a) Cazul unei variabile dependente Y şi două variabile independente X1 şi X2:

- corelaţia dintre Y şi X1, neglijând influenţa lui X2:

22212

2121

21 11 XXYX

XXYXYXXYX

rr

rrrr

- corelaţia dintre Y şi X2, neglijând influenţa lui X1:

22211

2112

12 11 XXYX

XXYXYXXYX

rr

rrrr

b) Cazul unei variabile dependente Y şi trei variabile independente X1, X2 şi X3: - corelaţia dintre Y şi X1, neglijând influenţa lui X2 şi X3:

2223123

2312321

321 11 XXXXYX

XXXXYXXYXXXYX

rr

rrrr

- corelaţia dintre Y şi X2, neglijând influenţa lui X1 şi X3:

2213213

2311312

312 11 XXXXYX

XXXXYXXYXXXYX

rr

rrrr

- corelaţia dintre Y şi X3, neglijând influenţa lui X1 şi X2:

2213212

1321213

213 11 XXXXYX

XXXXYXXYXXXYX

rr

rrrr

Aceste formule ale coeficienţilor de corelaţie parţială se pot generaliza şi pentru cazul a k variabile independente.

Page 62: Statistica Descriptiva

62

Probleme propuse

Problema 1

Cunoaştem următoarea distribuţie a 52 de societăţi comerciale cu acelaşi profil de activitate, în raport cu variabilele X – cheltuielile cu publicitatea (mil. lei) şi Y - volumul vânzărilor (mil. lei).

X

Y [ 30 ; 50 ] ( 50 ; 70 ] ( 70 ; 90 ] Total

( 600 ; 800 ] 2 7 8 17 ( 400 ; 600 ] 3 10 5 18 [ 200 ; 400 ] 14 2 1 17

Total 19 19 14 52 Se cere: 1) Pe baza unui grafic adecvat să se emită ipoteze privind forma posibilă a funcţiei de

regresie. 2) În ipoteza unei forme liniare a dependenţei dintre Y şi X, să se calculeze parametrii

funcţiei de regresie. 3) Să se studieze reprezentativitatea funcţiei de regresie pentru modelarea legăturii dintre

cele două variabile. 4) Care este valoarea medie a volumului vânzărilor pentru un nivel al cheltuielilor cu

publicitatea de 55 milioane lei ? 5) Aceleaşi cerinţe de la punctele 2, 3 şi 4 pentru o formă parabolică a dependenţei dintre

Y şi X.

Problema 2

Un produs a fost lansat simultan pe 13 pieţe. Pe aceste pieţe, produsul a fost propus la preţuri diferite (P), veniturile consumatorilor (V) fiind şi ele diferite. Pentru fiecare piată s-a înregistrat un anumit nivel al cererii (C), rezultatele fiind sintetizate în tabelul următor:

Nr. crt.

Cerere (C) Preţ (P) Venit (V)

1 15,4 1,4 620

2 3,2 5,1 530

3 4,9 2,5 490

4 10,5 1,7 800

5 8,0 1,8 630

Page 63: Statistica Descriptiva

63

6 5,1 3,4 410

7 7,6 2,1 670

8 11,3 1,6 920

9 14,0 3,6 990 10 6,4 3,5 320

11 13,2 1,9 520

12 8,8 1,8 700 13 12,1 1,9 730

Se cere: 1) Să se formuleze ipoteze cu privire la forma legăturii dintre cerere (C) şi preţ (P). Pentru formele funcţiilor de regresie reţinute ca fiind posibile, să se calculeze parametrii funcţiilor şi reprezentativitatea acestora. 2) Similar pentru legătura dintre cerere şi venit. 3) Să se calculeze parametrii funcţiei care modelează legătura liniară multiplă dintre cerere şi factorii săi e influenţă. Analizaţi reprezentativitatea acestei funcţii în raport cu reprezentativitatea funcţiilor de regresie simple. Care va fi valoarea estimată a cererii pe o piaţă unde preţul de vânzare va fi 3,2 iar venitul mediu al consumatorilor de 550 ?

Page 64: Statistica Descriptiva

64

Bibliografie:

1. Buiga, A., Dragoş C., Lazăr D., Mare, C., Statistică descriptiva, Ed. Mediamira, Cluj-Napoca, 2011; 2. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Editura Continental, 1998. 3. Andrei Tudorel, Stancu Stelian, Statistică- teorie şi aplicaţii, Editura All, Bucureşti,

1995 4. Jaba Elisabeta, Statistică, Editura Economică, Bucureşti, 2002. 5. Kenkel, J.L. (1994), Introductory Statistics for Management and Economics, PWS Publishing Company, Boston, U.S.A. (disponibila la biblioteca facultatii).

Page 65: Statistica Descriptiva

65

MODULUL 4

ANALIZA SI PREVIZIUNEA SERIILOR DE TIMP

Obiective

Intelegerea si aplicarea metodelor de calcul a indicilor factoriali in analiza dinamicii indicatorilor economici;

Cuantificarea dinamicii medii a unui indicator; Cunoasterea si utilizarea metodelor cantitative de previziune. Metoda clasica de

descompunere a unei serii de timp. Concepte de baza

Indice al variatiei integrale, indice factorial, indice al pretului; Nivel mediu al unei serii de timp, indice mediu, ritm mediu, diferenta medie absoluta; Serie de timp, model dinamic, functii de tendinta, coeficientii sezonalitatii, ciclicitate Medii mobile, previziune, erori de previziune, netezire exponentiala.

Rezultate asteptate Studentul intelege notiunile de indice factorial, nivel mediu, indice mediu, ritm mediu si stapaneste modalitatile de calcul a acestora. Utilizeaza metode cantitative in previziune; in acest sens, identifica componentele prezente intr-o serie de timp, modeleaza si extrapoleaza tendinta, utilizeaza adecvat o medie mobila, modeleaza componenta sezoniera si ciclica, utilizeaza metoda netezirii exponentiale in netezire si previziune. Sinteza 4.1. INDICII STATISTICI 4.1.1. Indicii statistici: definiţii şi tipologii Studiul fenomenelor economice şi sociale presupune în marea majoritate a cazurilor şi măsurarea variaţiei unor mărimi. Această variaţie poate fi urmărită în timp, spaţiu sau relativ la nişte categorii. Se va folosi termenul generic de stare, notându-se cu j starea luată ca bază de comparaţie şi cu k cea cercetată în raport cu aceasta. Se va nota cu Z mărimea care constituie obiectul de studiu, variaţia acesteia putând fi exprimată atât sub formă absolută, cât şi relativă.

Dintre exprimările sub formă relativă un loc deosebit de important îl ocupă indicele statistic. În practică variaţia totală a variabilei Z este datorată variaţiei unor alte variabile a căror evoluţie între două stări j şi k influenţează evoluţia lui Z. Avem de a face, aşadar, cu Z de forma ),,,( 21 mXXXfZ . Un astfel de model este un model de tip determinist în care cei m factori determină în totalitate nivelul lui Z . In cazul unui astfel de model se pot distinge trei categorii de indici:

1) indicele variaţiei totale (integrale) a mărimii Z :

)(,),(),(

)(,),(),()()(

21

21/

jXjXjXfkXkXkXf

jZkZI

m

mjkZ

2) indici ai factorilor iX (individuali sau elementari):

Page 66: Statistica Descriptiva

66

)()(/

jXkXI

i

ijkX i

3) indici ai variaţiei partiale ale lui Z sau indici factoriali: jkXZ i

I // - ne arată de câte ori s-a

modificat Z în starea k faţă de starea j sub influenţa exclusivă a factorului iX . 4.1.2. Indicii factoriali

Indicii factoriali de tip Laspeyres. Acest indice este cel mai cunoscut şi utilizat în practica economică. Mai poartă şi denumirea de indicele preţurilor. Dacă se consideră un coş de r

produse sau bunuri, volumul valoric al acestora Z se va calcula după relaţia:

r

iiiqpZ

1

.

Indicele factorial al preţurilor calculat prin metoda Laspeyres va avea expresia:

r

iii

r

iii

i

i

r

iii

r

iii

jkpZ

jqjp

jqjpjpkp

jqjp

jqkpLI

1

1

1

1//

)()(

)()()()(

)()(

)()()(

iar indicele factorial al cantităţilor (volumului fizic), expresia:

r

iii

r

iii

jkqZ

jqjp

kqjpLI

1

1//

)()(

)()()(

unde )( jpi şi )(kpi sunt preţurile din perioada de bază şi perioada curentă, )( jqi sunt cantităţile din perioada de bază, iar ik măsoară importanţa1 produsului sau bunului i în coşul indicelui la momentul bază de comparaţie. Pentru cazul general, când Z depinde de m factori de influenţă, iar forma funcţiei f este oarecare, Florea (1986) deduce o regulă pentru elaborarea indicilor factoriali de tip „Laspeyres”.

Indicii factoriali de tip Paasche. Acest indice a apărut tot ca un indice al preţurilor, indicele factorial de preţ de tip Paasche avand expresia:

r

iii

r

iii

jkpZ

kqjp

kqkpPI

1

1//

)()(

)()()( ,

iar cel factorial al cantităţilor (volumului fizic), expresia:

r

iii

r

iii

jkqZ

jqkp

kqkpPI

1

1//

)()(

)()()(

Pentru o funcţie oarecare f , în care mărimea Z depinde de m factori, in Florea(1986) este prezentata o generalizare.

Page 67: Statistica Descriptiva

67

Indicii factoriali de tip Fisher. In 1922, I. Fisher propune o nouă expresie de calcul a indicelui preţurilor. Acesta se va obţine ca o medie geometrică a indicilor de preţ de tip Laspeyres şi Paasche, astfel:

)()()( //

//

// PILIFI jk

pZjkpZ

jkpZ

De aceeaşi manieră se obţine şi indicele de volum: )()()( /

///

// PILIFI jk

qZjkqZ

jkqZ

Indicii factoriali generaţi prin Metoda Drumului Factorilor (MDF). Indicele factorial al unei variabile mXXfZ ,,1 , în raport cu factorul iX , obţinut prin MDF este dat de relaţia (Florea, 1989):

kj

i

iPP

im

mXjkXZ dX

XXfXXf

I, 1

1// ,,

,,'exp

unde kj PP , reprezintă porţiunea arcului din drumul factorilor cuprins între punctele )(,),(1 jXjXP mj şi )(,),(1 kXkXP mj , acest drum fiind descris de ecuaţiile

parametrice )(,),(11 mm XXXX , fiind în general un parametru legat de timp.

Exemple. Indicii factoriali calculati prin metoda Laspeyres. 1. O societate hotelieră dispune de 3 tipuri de locuri de cazare: camere cu un singur

pat(single), camere cu două paturi(double) şi apartamente. Numărul de camere închiriate (X) şi tariful practicat (Y) în două luni consecutive sunt date în tabelul următor:

Luna j Luna k Tipul

camerei X Y(€) X Y(€)

Single 80 30 110 35 Double 50 40 60 40

Apartament 20 50 25 45 Volumul valoric al încasărilor din închirierea camerelor (Z) se va calcula după relaţia:

3

1iiiYXZ . Indicii factoriali de tip Laspeyres vor fi:

287,15020405030805025406030110

)()(

)()()( 3

1

3

1//

iii

iii

jkXZ

jYjX

jYkXLI volumul valoric al

încasărilor a crescut în luna k faţă de luna j de 1,287 ori sub influenţa modificării numărului

de camere închiriate.

055,1502040503080452040503580

)()(

)()()( 3

1

3

1//

iii

iii

jkXZ

jYjX

kYjXLI volumul

valoric al încasărilor a crescut în luna k faţă de luna j de 1,055 ori sub influenţa modificării tarifului practicat.

2. Se consideră mărimea Z ca fiind profitul brut al unei societăţi şi factorii X - veniturile totale respectiv Y - cheltuielile totale ale aceleaşi societăţi. Modelul care leagă cele trei mărimi va fi de forma: YXZ . In doi ani consecutivi variabilele X şi Y au înregistrat valorile:

Page 68: Statistica Descriptiva

68

Variabila

Anul 1t t

X (mld lei) 10 12 Y (mld. Lei) 8 9

Expresiile şi valorile indicilor factoriali de tip Laspeyres sunt:

-

2

810812

)1()1()1()()(1/

/ tYtXtYtXLI tt

XZ profitul brut a crescut în anul t faţă de

anul 1t de 2 ori sub influenţa modificării veniturilor totale;

-

5,0

810910

)1()1()()1()(1/

/ tYtXtYtXLI tt

YZ profitul brut a scăzut în anul t faţă

de anul 1t de 0,5 ori sub influenţa modificării cheltuielilor totale. 4.1.3. Indicii factoriali de tip Laspeyres, Paasche şi Fisher prin prisma abordării axiomatice

Abordarea axiomatică se bazează pe stabilirea unor seturi de proprietăţi pe care un indice statistic trebuie să le verifice (Buiga & all, 2003).

4.1.4. Principalii indici utilizaţi în economie

Indicele preţurilor de consum este un indice de tip Laspeyres cu bazăfixa:

n

i

tpi

n

i i

in

iii

iin

iii

n

iii

tpZ i

Ikp

tp

qp

qp

qp

qtpLI

1

0/

1

11

10// )0(

)0()(

)0()0(

)0()0(

)0()0(

)0()()(

unde: n - reprezintă numărul de mărfuri şi servicii din coşul indicelui; )0(ik - reprezintă structura de consum, fiind ponderea mărfii sau serviciului i

în consumul populaţiei; )0(ip şi )(tpi sunt preţurile înregistrate de marfa sau produsul i în perioada

de bază şi perioada curentă; Ponderile )0(ik sunt obţinute prin Ancheta Integrată în Gospodării şi rezultă din

structura cheltuielilor medii lunare efectuate de o gospodărie pentru cumpărarea mărfurilor şi plata serviciilor necesare satisfacerii nevoilor de trai; aceste ponderi se actualizează la intervale de câţiva ani. Preţurile corespunzătoare celor n mărfuri şi servicii din coşul indicelui se culeg lunar, în urma unei cercetări selective organizate de Institutul National de Statistică.

Indicele producţiei industriale măsoară evoluţia de ansamblu a preţurilor produselor şi

serviciilor industriale fabricate şi livrate de producătorii interni în perioada curentă faţă de perioada de bază, în primul stadiu de comercializare a produselor sau serviciilor. ndicele utlizat este tot un indice de tip Laspeyres.

Indicele salariilor măsoară evoluţia salariilor în perioada curentă faţă de perioada de bază. Alături de indicele preţurilor de consum este folosit în evaluarea nivelului de trai. Se utilizează, de asemenea, un indice de tip Laspeyres, care măsoară variaţia fondului de salarii total Z sub influenţa modificării salariilor medii iS corespunzătoare ramurii i . Indicii bursieri. Principalii indici bursieri se diferenţiază prin mai multe elemente: eşantionarea, respectiv alegerea titlurilor din coşul indicelui, reprezentativitate, modul de

Page 69: Statistica Descriptiva

69

calcul utilizat şi natura variabilelor luate în calcul. Cei mai cunoscuţi şi urmăriţi indici bursieri, cu excepţia familiei de indici Dow Jones se calculeaza ca si indici Laspeyres. 4.2. PREVIZIUNEA SERIILOR DE TIMP

În derularea activităţii lor, frecvent agenţii economici sunt puşi în situaţia de a anticipa viitorul, iar apoi de a lua decizii în consecinţă. Oamenii de afaceri sunt nevoiţi să previzioneze anual cifra de afaceri şi alte elemente necesare întocmirii unui plan de afaceri, investitorii sunt interesaţi de profitul viitor degajat de investiţie, respectiv guvernele de previziunea consumului sau a cheltuielilor guvernamentale etc.. Obţinerea rapidă de previziuni utilizând modele cantitative de previziune este la îndemâna analiştilor, urmare şi a softurile de statistică accesibile şi uşor de exploatat.

Anticiparea, previziunea evoluţiei viitoare a fenomenelor economice presupune în primul rând cunoaşterea istoriei acestora, punerea în evidenţă a unor legităţi privind comportamentul lor trecut. Baza de date pe care se fundamentează analiza evoluţiei fenomenelor în timp este constituită din serii cronologice.

4.2.1. Indicatori medii specifici seriilor cronologice a) Nivelul mediu (valoarea medie). Nivelul mediu reprezintă nivelul teoretic atins de indicator în condiţiile în care evoluţia sa ar fi constantă în timp, factorii ce-i determină evoluţia ar acţiona cu aceeaşi intensitate pe întreaga perioadă de timp analizată.

Modul de determinare a volumului fenomenului diferă după cum seria este de intervale respectiv de momente. Pentru serii cronologice de intervale nivelul mediu este:

nyyyY n

...21

Pentru serii cronologice de momente nivelul mediu este definit de următoarea relaţie:

n

n

t

t

t

t

dt

dttyY

1

1)(

.

Daca se aproximează evoluţia indicatorului )(ty ca fiind liniară între două momente consecutive de timp, rezulta:

121

1121

212

11

...22

...22

n

nn

nnn

TTT

TyTTyTTyTyY

relaţie numită medie cronologică ponderată. Daca nivelul indicatorului se înregistrează la momente echidistante ( 121 .... nTTT ),

atunci relaţia anterioară devine:

12

....2 12

1

n

yyy

y

Y

nn

şi reprezintă media cronologică simplă. b) Indicele mediu. Ritmul mediu Pentru calculul acestui indicator se întâlnesc în literatură mai multe abordări. Indicele mediu este parametrul modelului autoregresiv:

ntyIy ttyt ,...,3,2,1

Page 70: Statistica Descriptiva

70

Utilizând metoda celor mai mici pătrate pentru estimarea parametrului yI , se obţine următoarea expresie de calcul a indicelui mediu:

n

tt

n

ttt

y

y

yyI

2

21

21

Metoda este întâlnită în practică sub denumirea de metoda autoregresivă. O alta expresie de calcul, adecvată pentru indicatori ce evoluează aproximativ exponenţial este urmatoarea:

1

1

n ny

yyI

Ritmul mediu yR se determină pornind de la indicele mediu:

1 yy IR sau 100100(%) yy IR .

c) Diferenţa medie absolută Expresia de calcul a diferenţei medii absolute:

112

1/

21

nn

yyn

t

tty

n

ttt

y

sau echivalent:

11

n

yyny .

4.2.2. Componentele unei serii cronologice. Modelul clasic de descompunere

O serie cronologică este o secvenţă de observaţii asupra unei variabile, ordonate după parametrul timp. Frecvent, măsurătorile asupra variabilei sunt efectuate la intervale egale de timp, seria cronologică fiind prezentată sub forma:

nt yyyynt

Y............21

:21

În abordarea tradiţională, fluctuaţiile din seriile cronologice sunt privite ca o rezultantă a suprapunerii următoarelor componente: tendinţa T, componenta ciclică C, sezonieră S respectiv reziduală E. Primele trei componente sunt considerate deterministe, sistematice, determinate de factori cu acţiune continuă asupra fenomenului, în timp ce componenta reziduală are caracter aleator fiind efectul acţiunii unor factori imprevizibili, accidentali.

Modelul clasic de descompunere a seriilor cronologice este de regulă: aditiv: ESCTY sau multiplicativ: ESCTY respectiv o combinaţie mixtă a componentelor seriei.

Tehnicile de analiză, in acest context, au ca obiective: - separarea fiecărei componente şi modelarea comportamentului său, respectiv

Page 71: Statistica Descriptiva

71

- previziunea evoluţiei fiecărei componente, iar apoi compunerea acestora în scopul obţinerii de previziuni privind evoluţia fenomenului Y. Principiul de la baza acestei tehnici este “descompune pentru a modela iar apoi recompune”.

4.2.3. Estimarea componentei de tendinţă Funcţii elementare utilizate în modelarea tendinţei Cele mai uzuale funcţii utilizate pentru modelarea tendinţei indicatorilor din economie

sunt redate în tabelul 1..

Tabelul 1. Funcţii elementare utilizate în modelarea tendinţei Tendinţă Forma liniarizată Diferenţe aprox. Constante liniară

btaTt

11/

tt

tty yy

parabolă 2ctbtaTt

cXbtaT unde ²tX

2/11/1/)2( tty

tty

tty

hiperbolă

tbaTt

1

bXaT

undet

X 1

11/ )1( tt

ttty ytty

exponenţială t

t baT BtAZ

unde

bBaATZ tt

ln;ln;ln

11/

ln lnln tt

tty yy

putere b

t taT bXAZ

unde

tXaATZ tt

ln;ln;ln

logaritmică tbaTt ln

bXaT unde tX ln

curba logistică

0,

,1

caeaT ctbt

Stabilirea funcţiei adecvate pentru modelarea tendinţei În acest scop sunt utile următoarele precizări: cronograma seriei iniţiale sau a valorilor netezite sugerează funcţiile candidate, numite

şi linii posibile de tendinţa; cea mai adecvată funcţie pentru modelarea tendinţei poate fi considerată aceea pentru

care se realizează minimul sumei pătratelor reziduurilor 2min t

tt Ty ;

este adecvată tendinţa liniară atunci când diferenţele absolute cu baza în lanţ 1

1/

tttt

y yy sunt aproximativ constante. De asemenea, precizări specifice în acest sens pentru parabolă, exponenţială respectiv hiperbolă găsim în tabelul 1.

Page 72: Statistica Descriptiva

72

Estimarea parametrilor tendinţei. Pentru estimarea parametrilor tendinţei liniare btaTt

se utilizează metoda celor mai mici pătrate, expresiile de calcul a parametrilor a, b sunt deci următoarele:

n

t

n

tt

tt

Yyttb

1

2

1

)(

))((,

tbYa , sau echivalent

.

,)]([)(

)()()(22

tbYa

tMtMYMtMtYMb

Seria prezintă o tendinţă de creştere atunci când b > 0 respectiv de descreştere dacă b < 0. Cu excepţia curbei logistice, celelalte funcţii neliniare din tabelul1 pot fi aduse la o formă

liniarizată prin anumite substituţii, respectiv prin aplicarea operaţiei de logaritmare în cazul funcţiei exponenţiale şi a funcţiei putere.

Exemplu. Estimarea tendinţei liniare Indicele lunar al preţului producţiei industriale pentru piaţa internă, în perioada ianuarie

1999 – iunie 2000 baza de comparaţie 1996, a avut o tendinţă crescătoare: Luna

(t) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Indice (yt)

3.7 3.8 4.1 4.3 4.5 4.8 4.9 5.1 5.3 5.5 5.6 5.8 6.0 6.2 6.3 6.5 6.6 7.0

Cronograma seriei sugerează prezenţa unei tendinţe liniare, peste care se suprapune o

componentă aleatoare de amplitudine redusă: .18,...,2,1, tbtay tt

Parametrii tendinţei se determină din relaţiile:

).()(

)()()()()(

22

tbMYMatMtM

YMtMtYMb

Figura 1. ---- Indice preţ productie industrială; ------ Tendinţa

Page 73: Statistica Descriptiva

73

Exemplificăm din calculele intermediare:

5.918

1821)(

tM

33.518

0.78.37.3)(

YM

72.5518

)0.718()8.32()7.31()(

tYM

2,11718

1821)(222

2

tM

rezultând

.55.35.919.033.5

,19.0)5.9(2.117

33.55.972.552

a

b

Tendinţa seriei se estimează prin funcţia de gradul întâi: ,19.055.3 tTt

al cărei grafic este redat în figura 1.

4.2.4. Estimarea componentelor deterministe în cazul seriilor sezoniere Presupunem în acest paragraf că seria cronologică prezintă tendinţă, sezonalitate şi o

componentă aleatoare. Vom prezenta modul de estimare a tendinţei respectiv a componentei sezoniere. 4.2.4.1. Modelul de descompunere. Perioada componentei sezoniere

Pentru alegerea modelului de descompunere este indicat a se analiza cronograma seriei. În general, este adecvat un model aditiv atunci când amplitudinea oscilaţiilor este aproximativ constantă respectiv multiplicativ dacă amplitudinea creşte sau scade în timp. Frecvent în practică este mai adecvat modelul multiplicativ.

Perioada componentei sezoniere, notată cu p, reprezintă numărul unităţilor de timp din cadrul unui ciclu sezonier. Majoritatea seriilor sezoniere din domeniul economic au durata unui ciclu de un an, p fiind egal cu 4 în cazul datelor trimestriale respectiv 12 în cazul datelor lunare. Prin extensie pot fi studiate şi fenomene cu durata unui ciclu mai mică de un an.

4.2.4.2. Mediile mobile Pentru eliminarea componentei sezoniere (desezonalizarea seriei) se aplică datelor o

medie mobilă de ordin p egal cu perioada componentei sezoniere. Mediile mobile de ordin p, notate în continuare MM(p), sunt definite de următoare relaţii: daca p este impar 12 kp , mediile mobile de ordin p sunt

knkktp

yyyyy kttktktt

,...,2,1;

......1 ;

daca p este par kp 2 se definesc analog

.5,0;...;5,1;5,0

,....... 5,05,05,05,15,0

knkktp

yyyyyy ktttktkt

t

Page 74: Statistica Descriptiva

74

In cazul p par, se introduc mediile mobile centrate de ordin p definite prin:

pyyyyyyy

y ktkttktktttt

5,0......5,02

115,05,0 .

4.2.4.3. Estimarea tendinţei în cazul seriilor cu componentă sezonieră În cazul seriilor sezoniere se întâlnesc preponderent în literatură doua modalităţi de

estimare a tendinţei: desezonalizarea seriei iar apoi estimarea tendinţei pornind de la valorile

desezonalizate (vezi 4.2.3.); modelarea tendinţei pornind de la mediile anuale.

4.2.4.4. Estimarea componentei sezoniere Notaţii: t indice pentru an (în general pentru un ciclu sezonier), variind de la 1 la n; s

indice pentru sezon, variind de la 1 la p. Modelul de descompunere a seriei are forma: ijjijij STCy respectiv ijjijij STCy

Metoda comparării cu mediile mobile În cazul modelului multiplicativ

ijjijij STCy metoda se întâlneşte în literatură şi sub denumire de metoda raportării la mediile mobile şi constă în următoarele:

calculul mediilor mobile ijy de ordin p egal cu perioada componentei sezoniere;

calculul rapoartelor ijijij yyS / ce cuantifică abaterea datelor observate de la tendinţă - ciclu. Dacă fixăm indicele j (ne situăm în sezonul j), aceste diferenţe constituie estimaţii pentru jS ;

determinarea unui indice mediu pentru fiecare sezon ca o medie a estimaţiilor precedente:

pjSn

In

iijj ,...,2,1;

11 1

1

,

aceasta justificându-se prin necesitatea eliminării efectului aleator din ijS . Pentru a nu fi afectaţi de valorile extreme, uneori înainte de calculul mediei, aceste valori se elimină, sau în loc de medie se ia valoarea mediană a estimaţiilor ijS ;

determinarea componentei sezoniere jS , etapă ce constă într-o corecţie adusă indicilor medii jI astfel încât media lor să fie 1:

p

iijj I

pIS

1

1/ pj ,...,2,1 .

În cazul modelului aditiv ijijijij STCy

determinarea componentei sezoniere decurge analog.

Exemplu. Estimarea componentelor deterministe în cazul seriilor sezoniere. Datele privind evoluţia trimestrială a producţiei de bere din ţara noastră (zeci mii hl) în

perioada 1996-2001 sunt indicate mai jos

Page 75: Statistica Descriptiva

75

An/Trim. I II III IV 1996 124.1 263.2 252.4 124.5 1997 130.1 280.2 260.6 151.1 1998 157.5 301.2 353.3 185.0 1999 169.7 340.0 350.9 168.7 2000 177.5 407.6 417.2 224.1

Figura 2. ---- Producţia de bere; -- -- MM(4); ---- Tendinţa

a) Calculul mediilor mobile de ordin p=4

Graficul seriei indică prezenţa unei componente sezoniere predominante, de perioadă p = 4. Mediile mobile de ordin p = 4 sunt calculate conform relaţiei de definiţie a mediilor mobile centrate. Astfel, spre exemplu:

8.191

41.1305.05.1244.2522.2631.1245.0

45.05.0 54321

3

yyyyyy

7.1944

2.2805.01.1305.1244.2522.2635.04

5.05.0 654324

yyyyyy

.0.306

46.1965.06.4253.3859.2021.2245.0

45.05.0 2423222120

22

yyyyyy

Datele observate au fost numerotate aici în ordine cronologică y1, y2, ..., y24. Mediile mobile de ordinul 4

t MM(4) t MM(4) 1 - 13 261.7 2 - 14 259.4 3 191.8 15 258.3 4 194.7 16 267.7 5 197.8 17 284.5 6 202.2 18 299.7

Page 76: Statistica Descriptiva

76

7 208.9 19 309.8 8 214.9 20 310.2 9 229.2 21 308.4

10 245.0 22 306.0 11 250.8 23 - 12 257.1 24 -

b) Estimarea tendinţei pornind de la valorile desezonalizate Seria mediilor mobile prezentată grafic relevă o uşoară tendinţă de creştere a producţiei

de bere. Vom considera tendinţa liniară: tt btaT ,

originea de măsurare a timpului trimestrul II al anului 1996, unitatea de măsură un trimestru. Astfel, pentru trimestrul III 1996 avem t = 1 ş.a.m.d:

t 1 2 3 ... 19 20 Valori desezonalizate (Z) 191.8 194.7 197.8 ... 308.4 306.0

).()(

,)()(

)()()(22

tbMZMatMtM

ZMtMtZMb

Calcule intermediare:

.44.180,9.6,9.2884)(,5.143)(,9.252)(,5.10)( 2

abtZMtMZMtM

Tendinţa producţiei de bere în perioada ianuarie 1996 – iunie 2000 este estimată prin: tTt 9.644.180 .

c) Estimarea componentei sezoniere prin metoda raportării la mediile mobile Cum amplitudinea oscilaţiilor creşte uşor în timp, cronograma seriei sugerează luarea în

considerare a unui model multiplicativ: ijjijij STy ; 6,...,2,1i iar 4,3,2,1j .

Datele sunt disponibile pentru 6 ani şi sunt prezente aici 4 sezoane. Ţinând seama de notaţiile specifice, ijy reprezintă nivelul producţiei de bere în anul i trimestrul j. Astfel, spre exemplu 4.252;199613 IIIyy sau 0.185;199834 IVyy . Mediile mobile din tabelul anterior vor fi transpuse într-un tabel analog cu cel de prezentare a datelor observate:

An/Trim. I II III IV 1996 - - 191.8 194.7 1997 197.8 202.2 208.9 214.9 1998 229.2 245.0 250.8 257.1 1999 261.7 259.4 258.3 267.7 2000 284.5 299.7 309.8 310.2 2001 308.4 306.0 - -

Rapoartele 100ij

ijij y

yS , respectiv mediile acestora pentru fiecare sezon sunt indicate în

tabelul urmator Calculul indicilor sezonalităţii

An/Trim. I II III INVESTI(I

E

1996 - - 131.6 63.9 1997 65.8 138.6 124.7 70.3

Page 77: Statistica Descriptiva

77

1998 68.7 122.9 140.9 71.9 1999 64.8 131.1 135.8 63.0 2000 62.4 136.0 134.7 72.7 2001 65.8 125.9 - -

jI 65.5 130.9 133.5 68.4 Media 99.6

jS 65.6 131.4 134.0 68.8 Media 100

Explicaţii privind calculele:

6.1311008.1914.252100

13

1313

yyS , 9.63100

7.1945.124100

14

1414

yyS ,

8.651008.1971.130100

21

2121

yyS , ş.a.m.d.

Cum era de aşteptat, aceste rapoarte între datele observate şi mediile mobile sunt mai mici decât 1 pentru trimestrele I şi IV, când nivelul producţiei a fost sistematic mai mic (sub tendinţă).

,9.130,5.654 2

514131211

ISSSSI

.4.68,5.1334 4

433323133

ISSSSI

Valoarea medie a acestor indici este 99.6, astfel că este necesară o corecţie astfel încât media să fie 100:

8.68,0.134,4.131,6.651006.995.65100

6.99 4321

1 SSSIS .

Urmare a caracterului sezonier specific producţiei de bere, în trimestrul I producţia a fost mai mică în medie cu 34.4% decât valorile corespunzătoare de pe tendinţă. În trimestrul II producţia a fost în medie mai mare de 1.314 ori decât valorile de pe tendinţă. Analog se interpretează S3 şi S4. Componenta sezonieră este dată de vectorul format cu indicii sezonalităţii:

S=(S1, S2, S3 , S4 ) = (0.656; 1.314; 1.340; 0.688). 4.2.5. Componenta ciclică. Componenta aleatoare

a) Componenta ciclică Pentru separarea componentei ciclice se poate utiliza metoda comparării cu tendinţa. Spre

exemplu în cazul modelului multiplicativ: ECSTY ,

metoda constă în calculul indicilor de ciclicitate. Astfel: se estimează tendinţa printr-o funcţie elementară. Dacă seria prezintă sezonalitate se

porneşte de la datele desezonalizate sau de la mediile anuale; se elimină componenta sezonieră din datele observate, iar apoi se utilizează medii

mobile în scopul eliminării şi a componentei aleatoare rezultând valorile netezite ty

(astfel CTyt ); se calculează indicii de ciclicitate Ct prin raportare la tendinţă:

t

tt T

yC

b) Componenta aleatoare:

Page 78: Statistica Descriptiva

78

jijij

ijij SCT

y

în cazul modelului multiplicativ, respectiv

)( jijijijij SCTy în caz aditiv. 4.2.6. Previziuni utilizând modelul de descompunere. Măsurarea acurateţii previziunilor

a) Previziuni utilizând modelul de descompunere se obţin prin compunerea previziunilor realizate pentru fiecare componentă prezentă în serie, ţinând seama de forma modelului:

SCTY ˆˆˆˆ respectiv SCTY ˆˆˆˆ . b) Măsurarea acurateţii previziunilor. Dacă modelul elaborat conduce la previziunile

pyyy ˆ,...,ˆ,ˆ 21 corespunzătoare datelor pyyy ,...,, 21 , pentru a măsura calitatea acestuia de a genera previziuni adecvate se utilizează o serie de indicatori sintetici ai erorilor de previziune, cei mai frecvent întâlniţi fiind:

- eroarea medie pătratică:

p

hhh yy

pMSE

1

2ˆ1

- eroarea medie absolută:

p

hhh yy

pMAE

1

ˆ1

- eroarea medie absolută exprimată procentual:

p

h h

hh

yyy

pMAPE

1 ˆˆ1

Exemplu (continuare). Previziunea producţiei de bere Tabelul următor conţine previziunile, datele reale respectiv erorile de previziune privind

nivelul producţiei de bere.

An Trim. Tendinţă Sezonalitate Previziune ŷ

Producţie

Eroare

2001 III 325.34 1.34 435.95 425.6 -10.35 IV 332.24 0.688 228.58 196.6 -31.98 2002 I 339.14 0.656 217.9 203.2 -14.7

Prezentăm modul de obţinere a rezultatelor anterioare pentru trim. III an 2001. Valorile

tendinţei respectiv a componentei sezoniere sunt:

T

(21) = 180.44 + 6.921 = 325.34 respectiv S

3 = 1.34.

Modelul de descompunere considerat a fost cel multiplicativ, astfel că valoarea previzionată este:

95.43534.134.325 y

iar eroarea de previziune aferentă:

35.1095.4356.425 e

Exemplu (continuare). Previziunea indicelui lunar al preţului producţiei industriale.

Având în vedere tendinţa estimată privind evoluţia acestui indicator:

Tt = 3.55 + 0.19t

Page 79: Statistica Descriptiva

79

previziunile respectiv erorile de previziune pentru perioada Iulie - Decembrie 2000 sunt indicate mai jos: Luna I A S O N D Indice y 7.40 7.66 7.96 8.26 8.47 8.65 Previziune y

7.16 7.35 7.54 7.73 7.92 8.11

Eroare e 0.24 0.31 0.42 0.53 0.55 0.54 Pentru luna Iulie 2000 avem t = 19, extrapolarea tendinţei conduce la:

19y = 19T

=3.55 + 0.19 19 = 7.16

19e = 19y - 19y = 0.24. 4.2.7. Alte metode de previziune a) Previziuni utilizând modele de regresie. Odată estimat şi validat, un model de regresie poate fi utilizat pentru previziunea variabilei dependente. b) Netezirea seriei respectiv previziuni utilizând modele de netezire exponenţială

Varianta simplă a acestei tehnici, în care previziunile sunt obţinute ca o medie ponderată a datelor reprezentând trecutul:

1

01,0,)1()(ˆ

n

jjn

jn cycchy

este adecvată previziunii seriilor staţionare. Metoda generalizată în varianta Holt-Winters este adecvată pentru serii cu tendinţă şi sezonalitate, model multiplicativ. Previziunile sunt date de o funcţie de previziune local liniară, valorile de pe tendinţa liniară fiind corectate cu un indice sezonier aferent sezonului pentru care se realizează previziunea.

Atunci când cronograma seriei nu oferă indicii foarte clare privind prezenţa respectiv forma tendinţei, este indicat a se utiliza în prealabil o tehnică de netezire ce atenuează amplitudinea fluctuaţiilor aleatoare din serie, scopul fiind evidenţierea tendinţei. Tehnicile de netezire general utilizate sunt mediile mobile sau tehnicii netezirii exponenţiale. Teme de control. Probleme propuse Problema 1. Estimarea si extrapolarea tendintei 1.1. Indicele lunar al preţului producţiei industriale pentru piaţa internă, în perioada ianuarie 1999 – iunie 2000 baza de comparaţie 1996, a avut o tendinţă crescătoare: Luna (t) 1 2 3 4 5 6 7 8 9 Indice (yt) 3.7 3.8 4.1 4.3 4.5 4.8 4.9 5.1 5.3 Luna (t) 10 11 12 13 14 15 16 17 18 Indice (yt) 5.5 5.6 5.8 6.0 6.2 6.3 6.5 6.6 7.0 Se cere: a) estimarea parametrilor tendintei liniare b) previziunea indicelui lunar al preţului producţiei industriale pentru urmatoarele doua luni. 1.2. Datele de mai jos redau evoluţia vânzărilor dintr-un produs pe o perioadă de 10 luni consecutive:

Page 80: Statistica Descriptiva

80

Luna F M A M I I A S O N Vânzări 20 32 40 47 52 60 62 63 65 67

Se cere: estimarea parametrilor parabolei de tendinta. 1.3. Populaţia României a crescut în perioada 1980-1988 într-un ritm destul de accelerat, după cum arată şi datele de mai jos:

An 1980 1981 1982 1983 1984 1985 1986 1987 1988 Nr. pop. (mil. Loc.)

22.20 22.35 22.48 22.55 22.62 22.72 22.82 22.94 23.15

Se cere: a) datele confirmă ipoteza modelării tendinţei printr-o funcţie exponenţială? b) estimarea parametrilor tendintei exponentiale; c) previziunea populaţiei României pentru urmatorii cinci ani. Comparatii cu valorile reale. Problema 2. Descompunerea si previziunea seriilor sezoniere Datele privind evoluţia trimestrială a producţiei de bere din ţara noastră (zeci mii hl) în perioada 1996-2001 sunt indicate in tabelul următor:

An/Trim. I II III IV 1996 124.1 263.2 252.4 124.5 1997 130.1 280.2 260.6 151.1 1998 157.5 301.2 353.3 185.0 1999 169.7 340.0 350.9 168.7 2000 177.5 407.6 417.2 224.1 2001 202.9 385.3 425.6 196.6

Se cere: a) Estimarea tendinţei pornind de la valorile desezonalizate; b) estimarea componentei sezoniere; c)determinarea componentei ciclice respectiv aleatoare. Descompunerea seriei pe componente; d) previziunea producţiei de bere pentru urmatoarele patru trimestre. Problema 3. Determinarea nivelului mediu 3.1. Populaţia judeţului Cluj la principalele recensăminte a fost: An 1930 1948 1956 1966 1977 1992 Nr. pop. (mii loc.) 475.5 520 580.3 629.7 715.7 736.3 Se cere: calculul populaţiei medii anuale, pe perioada 1930 – 1992. 3.2. Numărul navelor utilizate în transportul mărfurilor în perioada 1991-2000 a înregistrat următoarea evoluţie:

An 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Nr. nave 269 267 256 250 255 289 283 231 203 192 Se cere: calculul numărului mediu anual de nave utilizate in transportul marfurilor, in perioada considerata. Problema 4. Determinarea indicelui mediu, ritmului mediu respectiv a diferentei medii 4.1. Se cunoaşte populaţia judeţului Cluj la ultimele două recensăminte: Recens. 5 ian 1977 7 ian 1992 Nr. pop. (mii loc.) 715.7 736.3

Se cere: indicele mediu anual. Interpretare 4.2. Producţia de biciclete în România a scăzut după 1989:

An 1990 1991 1992 1993 1994 1995 Prod. (mii buc.) 136 107 67 42 28 22

Page 81: Statistica Descriptiva

81

Se cere: a) calculul indicelui mediu prin metoda autoregresivă b) ritmul mediu anual. Interpretare. 4.3. Fondul de locuinţe din ţara noastră a înregistrat o creştere lentă după 1990: An 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Fond de loc. (mii)

7659 7683 7710 7749 7782 7811 7837 7860 7883 7907

Se cere: calculul si interpretarea diferenţei medii absolute. Problema 5. Cantitatile cumparate q respectiv preturile unitare de cumparare (mii lei) p, pentru 3 produse aflate in consumul populatiei, in doua luni consecutive, au fost:

Luna k-1 Luna k q p q p

Produs 1 8 kg 30 10 kg 35 Produs 2 20 buc 70 18 buc 67 Produs 3 4 litri 50 5 litri 45

Se cere: indicii factoriali ai pretului respectiv ai cantitatii prin toate metodele cunoscute. Comparati rezultatele obtinute.

Problema 6. Indicele variatiei integrale si indicii variatiilor factoriale Cunoscând seriile cronologice cu privire la: numărul de şomeri muncitori (X), numărul de şomeri cu studii medii (Y), numărul de şomeri cu studii superioare (Z) din judeţul Cluj în 10 luni consecutive, respectiv:

mii persoane

luna 1 2 3 4 5 6 7 8 9 10

X 22,23 22,24 22,34 23,21 24,7 26,85 28,7 29,1 28,3 28,3 Y 3,86 3,87 3,98 4,52 4,1 4,53 4,91 5,28 6,18 6,2 W 0,396 0,395 0,419 0,437 0,357 0,406 0,455 0,487 0,5 0,5

Se cere: a) Relaţia matematică ce exprimă legătura dintre numărul total de şomeri (Z) şi X, Y, W b) indicii exprimând variaţia integrală a numărului total de şomeri, calculaţi cu bază fixă; c) indicii factoriali de tip Laspeyres, Paasche, Fisher aferenţi fiecărui factor care influenţează numărul total de şomeri, în ultima luna faţă de prima luna. Bibliografie

1. Buiga, A., Dragoş C., Lazăr D., Mare, C., Statistică descriptiva, Ed. Mediamira, Cluj-Napoca, 2011; 2. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Editura Continental, 1998. 3. Andrei Tudorel, Stancu Stelian, Statistică- teorie şi aplicaţii, Editura All, Bucureşti,

1995 4. Jaba Elisabeta, Statistică, Editura Economică, Bucureşti, 2002. 5. Kenkel, J.L. (1994), Introductory Statistics for Management and Economics, PWS Publishing Company, Boston, U.S.A. (disponibila la biblioteca facultatii). 6. Melard G., Methodes des prevision a court terme, Ed. de Universite de Bruxelles, 1990.

Page 82: Statistica Descriptiva

82

APLICAŢII

Problema 1 Considerând rata şomajului ca mărime analizată notată cu Z se cere:

1. Expresia de calcul a mărimii Z în funcţie de factorii de influenţă; 2. Având seriile cronologice relativ la numărul de şomeri X şi populaţia activă notată cu Y în 10 luni consecutive respectiv:

- numărul de şomeri

63563058060055052048037042033010987654321

:X

- populaţia activă

673867026304659361895843548543024827388210987654321

:Y

redaţi seria cronologică aferentă ratei lunare a şomajului;

3. Rata de şomaj medie lunară; 4. De câte ori au crescut în medie de la o lună la alta numărul de şomeri; 5. Exprimarea, calcularea şi interpretarea următorilor indici:

)(1/5/ FI xZ ; )(1/5

/ FI yZ ; 1/5ZI .

1) Z (rata şomajului) este influenţată de numărul de şomeri direct proporţional şi de numărul populaţiei active invers proporţional.

100100 YX

PSZ

a

2)

42,94,92,91,990,890,875,86,87,85,8

10987654321:Z

3) Seria cronologică fiind de momente, nivelul mediu se determină după următoarea relaţie:

945,89

2142,94,92,91,990,890,875,86,87,8

215,8

11021

21

10987654321

ZZZZZZZZZZZ

Rata de şomaj medie lunară din perioada analizată este de 8,945.

4)

211

tXtXtX

I X

Page 83: Statistica Descriptiva

83

056,13969336436003025270423041369176410894000536543490330028602496177615541386

630580600550520480370420330635630630580580600600550550520520480480370370420420330

222222222

Numărul de şomeri au crescut în medie de 1,056 ori de la o lună la alta.

5) 047,15,89,8

1

51/5 IZ

I Z , rata şomajului a crescut de 1,047 în luna a 5-a faţă de luna 1.

576,157,157,11/5

/1/5

/1/5

/ PILIFI xZxZxZ

576,1330

38823882520

1

1

1

5

1/5/

yxyx

LI xZ

576,1

5

1

5

5

1/5/

yxyx

PI xZ

- rata şomajului ar fi crescut de 1,576 datorită modificării numărului de şomeri, populaţia activă rămânând constantă; 664,01/5

/1/5

/1/5

/ PILIFI yZyZyZ

664,058433882

5

1

1

1

5

1

1/5/

yy

yxyx

LI yZ

664,05

1

1

5

5

5

1/5/

yy

yxyx

PI yZ

- rata şomajului ar fi scăzut de 0,664 datorită modificării populaţiei active, numărul de şomeri rămânând constant; 1/51/5

/1/5

/ 0465,166,057,1 ZyZxZ III

Page 84: Statistica Descriptiva

84

Problema 2 Din mulţimea autoturismelor vândute prin licitaţie s-a constituit un eşantion de 30 de unităţi, rezultatele observării în raport cu variabilele X – vechimea autoturismelor exprimată în ani şi y – preţul la care s-au vândut (în milioana lei) sunt prezentate în tabelul următor:

3073017142041010191429355193369299281020181319835327201217201372212262281628862710253821517155238241913141713436523241113209325102233512401230721326113041

. .. .. . YXcrtNrYXcrtNrYXcrtNr

Se cere: 1. Elaborarea repartiţiei bidimensionale ştiind că numărul de intervale pentru variabila X =

4, iar lungimea unui interval pentru Y,ly = 8 intervalele fiind egale. 2. Parametrii tendinţei centrale în raport cu preţul de vânzare şi interpretarea acestora; 3. Studierea reprezentativităţii funcţiilor de regresie, liniară şi hiperbolică şi alegerea celei

mai reprezentative; 4. Pentru funcţia aleasă la punctul precedent calculaţi parametrii.

1) lungime interval = 54

020intervalenumar

minmax

XX

31012520;1515;1010;55;0

:X

6910542;3434;2626;1818;10

:Y

X

Y

[0;5) [5;10) [10;15) [15;20) TOTAL

[10;18) - - 2 3 5 [18;26) - 3 7 - 10 [26;34) 1 7 1 - 9 [34;42) 4 2 - - 6 TOTAL 5 12 10 3 30

Page 85: Statistica Descriptiva

85

2) Media:

26,2630785

3065,3793010225141

'

N

NYY

R

iii

- preţul mediu de vânzare al maşinilor este de 26,26 mii lei

Mediana: 152

3021

NrMe

26;1815105 MerMe

26810

51518

Me

- jumătate din maşini se vând cu un preţ mai mic de 26.000 mii lei, iar cealaltă jumătate cu un preţ mai mare de 26.000.000 lei.

1515

41;262610

Modala:

max(5, 10, 9, 6) = 10Mo [18;26) Cele mai multe autoturisme se vând cu un preţ cuprins între 18.000 şi 26.000 mii lei.

66,24815

5188910510

51018

Mo

- cea mai mare parte a autoturismelor se vând la un preţ în jur de 24.666,666 mii lei. 3) Din tabelul de corelaţie se observă că frecvenţele diferite de zero sunt grupate, rezultă că între cele două variabile există legătură, ce poate fi modelată cu ajutorul funcţiei de regresie. a. Dacă funcţia de regresie este o dreptă bxaXY )(

b. Dacă funcţia de regresie este o hiperbolă x

baXY 1)(

Mai reprezentativă este funcţia care are coeficientul de regresie mai mare. Ca urmare trebuie calculat acest coeficient pentru cele două cazuri.

a. YX

YXYMXMXYMR

33,930

35,17105,12125,755,226,26

XM

YM

86,62626,2638926,26301026,2622526,2614301 22222 Y

1389,19333,95,171033,95,121233,95,7533,95,2301 22222 X

2163145,17...4385,21305,2301

XYM

836,01389,1986,62

26,2633,9216

YXR

Page 86: Statistica Descriptiva

86

b.

YX

YX

YMX

MYX

MR

1

11

'

632,4314057,0...4384,01304,03011

013,0

3152,0057,010152,008,0120152,133,05152,04,03011

152,03057,01008,012133,054,03011

22222

YX

M

X

XM

7218,086,62013,0

26,26152,0632,4'

YXR

YXR > 'YXR , rezultă că dreapta de regresie este mai reprezentativă. 4) bXaXY

Folosind metoda celor mai mici pătrate, unde 2XYYM - min, rezultă:

)()()()()(

2 XYMXbMXaMYMXbMa

222

)()()()()(

)()()()()(

X

YMXMXYMXMXM

YMXMXYMb

XbMYMa

25,10635,17105,12125,755,2301)( 22222 XM

40,4033,9516,126,26

516,11389,19

26,2633,9216

a

b

XXY 516,140,40)(

Page 87: Statistica Descriptiva

87

Problema 3 Preţul unui produs a fost observat în 30 puncte de vânzare la un moment t dat. Valorile înregistrate sunt următoarele: 21; 24; 26; 30; 25,9; 26; 20; 24,2; 27; 29; 25,6; 26,3; 27; 22; 24,5; 28; 25; 27,5; 22,5; 24,7; 26,6; 23,2; 25,1; 27,5; 23; 24,8; 23,7; 25; 22,8; 23.

Se cere: 1. elaborarea distribuţiei statistice a punctelor de vânzare în raport cu preţul; 2. analiza reprezentativităţii preţului mediu; 3. reprezentarea grafică a structurii repartiţiei; 4. având seria cronologică ce redă variaţia preţului produsului studiat în 6 luni consecutive

ca fiind următoarea:

288,265,26267,2525654321

:Y

Calculaţi şi interpretaţi: a) preţul mediu lunar; b) ritmul mediu lunar.

1) elaborarea distribuţiei statistice a punctelor de vânzare în raport cu preţul:

- calculăm lungimea intervalului: 25

105

2030

Xl

381072

30282826262424222220:X

- serie de repartiţie unidimensională, având la bază o variabilă atributivă, cantitativă continuă şi frecvenţa absolută. 2) Analiza reprezentativităţii preţului mediu:

2,2530756

308721625016142

303298271025723221

X

- preţul mediu este 25,2; analizăm reprezentativitatea mediei cu ajutorul varianţei şi a coeficientului de variaţie a lui Pearson:

)()(

)(

2

1

2'

2

XVXN

NXXXV

X

R

iii

X

Page 88: Statistica Descriptiva

88

100)( X

XCV X

- dacă CV(X) 50% - media este nereprezentativă

63,430

32,252982,2527102,252572,252322,2521 222222

X

- preţul se abate în medie de la valoarea medie cu 2,15. 15,263,42 XX

%30%53,81000853,01002,25

15,2100)(X

XCV Xmedia este reprezentativă.

3) Reprezentarea grafică a structurii repartiţiei: - reprezentarea grafică a structurii unei repartiţii se face cu ajutorul diagramelor de structură;

100NNf i

i frecvenţa relativă

%101001,0100308

%67,621002667,0100308

%33,331003333,01003010

%33,231002333,0100307

%67,61000667,0100302

5

4

3

2

1

f

f

f

f

f

360 ii f

36

01,9699,119

99,8301,24

5

4

3

2

1

Titlu: Stuctura punctelor de vânzare în raport cu preţul

6,67%

23,33%

33,33%

26,67%

10%

12345

Page 89: Statistica Descriptiva

89

Legendă: 1. 6,67% din punctele de vânzare au preţuri cuprinse între 20 şi 22; 2 . 23,33% din punctele de vânzare au preţuri cuprinse în intervalul [22 - 24); 3 . 33,33% din punctele de vânzare au preţuri cuprinse în intervalul [24 - 26); 4 . 26,67% din punctele de vânzare au preţuri cuprinse în intervalul [26 - 28); 5 . 10% din punctele de vânzare au preţuri cuprinse în intervalul [28 - 30);

4)

288,265,26267,2525654321

:Y

Calculaţi şi interpretaţi: a) preţul mediu lunar; b) ritmul mediu lunar.

a) 33,265

21288,265,26267,25

2125

/

lunaY

- preţul mediu lunar este de 26,33

b) %100%1001 YYY IIR

0231,198,33813,3460

24,71825,70267649,6606254,7502,7106892,6685,642

8,265,26267,25255,26285,268,26265,267,2526257,25

22222

YI

%31,21000231,01001 YY IR - preţul a crescut în medie de la o lună la alta cu 2,31%.

Problema 4

Se consideră un eşantion de 100 gospodării şi variabilele X-număr de membrii şi Y-cantitatea de pâine consumată zilnic de o gospodărie (Kg), rezultatele fiind prezentate în tabelul următor:

X

Y 1 2 3 4 TOTAL

0,25 5 - - - 5 0,5 5 30 5 - 40 1 - 5 15 10 30

1,5 - - 5 20 25 TOTAL 10 35 25 30 100

Page 90: Statistica Descriptiva

90

Se cere: 1. cantitatea medie, mediană şi modală de pâine consumată zilnic de o gospodărie (calcul şi

interpretare); 2. în ce proporţie cantitatea de pâine depinde de numărul de membrii; 3. analiza numerică şi caracterizarea intensităţii legăturii între cele două variabile.

1)

2530405

5,115,025,0:Y

Y - Media

][89,0100

75,88100

5,37302025,1100

255,1301405,0525,0 kgY

- 0,89 este cantitatea medie de pâine consumată zilnic de o gospodărie. Me – Mediana

- variabila discretă N=100 502

N

75,02

15,022

51501

22

YY

YY

MNN

e

- jumătate din gospodării consumă zilnic pâine între 0,25 şi 0,75 kg, iar cealaltă jumătate între 0,75 şi 1,5 kg de pâine pe zi. Mo – Modala - variabila discretă NMo = max(N1, N2, N3, N4)NMo = 40Mo = 0,5 - cele mai multe gospodării consumă zilnic în jur de 0,5 kg de pâine.

2) Se calculează: TOT

EXPxy V

Vr 2

18,0

1002589,05,13089,014089,05,0589,025,2)(

2222

YVTOT

N

NYYV

r

iii

TOT

1

.2

N

NYxYV

J

jjj

EXP

1

.

2/

Page 91: Statistica Descriptiva

91

Calculăm mediile condiţionate ale lui Y în funcţie de X.

33,130

205,1101/

125

55,115155,0/

57,035

51305,0/

35,010

55,0525,0/

44

33

22

11

xYY

xYY

xYY

xYY

12,0100

35,12100

7,5025,5,39,2100

3089,033,12589,013589,057,01089,035,0)(2222

YVEXP

%6666,018,012,02

TOT

EXPxy V

Vr

- consumul zilnic de pâine de gospodărie depinde de numărul de membrii al gospodăriei în proporţie de 66%. 3) Analiza numerică şi caracterizarea intensităţii legăturii între cele 2 variabile

- X, Y variabile cantitative intensitatea legăturii se studiază cu ajutorul raportului de corelaţie (rXY)

]1;0[2 TOT

EXPXYXY V

Vrr

181,066,02XYXY rr legătura intensă între cele două variabile.

Problema 5 Cunoscând seriile cronologice cu privire la: numărul de şomeri muncitori (X), numărul de şomeri cu studii medii (Y), numărul de şomeri cu studii superioare (Z) din judeţul Cluj în 10 luni consecutive, respectiv:

mii persoane

Luna

1 2 3 4 5 6 7 8 9 10

X 22,23

22,24

22,34

23,21

24,7 26,85

28,7 29,1 28,3 28,3

Y 3,86 3,87 3,98 4,52 4,1 4,53 4,91 5,28 6,18 6,2 W 0,39

6 0,39

5 0,41

9 0,43

7 0,35

7 0,40

6 0,45

5 0,48

7 0,5 0,5

Page 92: Statistica Descriptiva

92

Se cere: 1. Relaţia matematică ce exprimă legătura dintre numărul total de şomeri (Z) şi X, Y, W; 2. Seria cronologică având la bază numărul total de şomeri din judeţul Cluj; 3. Numărul mediu lunar de şomeri; 4. Indicele mediu şi ritmul mediu al numărului total de şomeri; 5. Diferenţa medie absolută a numărului total de şomeri; 6. Primii 4 indici exprimând variaţia integrală a numărului total de şomeri, calculaţi cu bază

fixă; 7. Indicii factoriali de tip Paasche aferenţi fiecărui factor care influenţează numărul total de

şomeri în luna 4 faţă de luna 1. 1. z(t) = x(t) + y(t) + w(t); 10 ,1t 2.

Luna

1 2 3 4 5 6 7 8 9 10

z(t) 26,486

26,205

27,739

28,167

29,154

31,786

34,065

34,867

34,980

35,000

3. z(t) este o serie cronologică de momente

77,309

2779

2)10(z)9(z.....)3(z)2(z

2)1(z

z

Numărul mediu de şomeri din Cluj în cele 10 luni este de 30,77 mii 4.

03,198,34....505,26486,26

98,3435....505,26739,26486,26505,26

)]1([

)1()(

222

10

1

2

10

1

i

iz

tz

tztzI

În primele 10 luni, numărul de şomeri a crescut în medie de 1,03 ori de la o lună la alta.

%303,0103,11IR zz Numărul total de şomeri a crescut în medie cu 3% de la o lună la alta.

5. 945,09

)1(z)10(zz

Numărul total de şomeri a crescut în medie cu 0,954 mii persoane de la un an la altul.

Page 93: Statistica Descriptiva

93

6. 007,1

486,26505,26

1z2zI 1/2

z

Numărul total de şomeri din judeţul Cluj a crescut de 1,007 ori în luna a doua faţă de prima.

1,1

486,26154,29

1z5zI

063,1486,26167,28

1z4zI

0095,1486,26739,26

1z3zI

1/5z

1/4z

1/3z

7. Numărul total de şomeri z(t) depinde de factorii de influenţă astfel:

z(t) = x(t) + y(t) + w(t)

036,1

4w4y1x4w4y4xPI 1/4

x/z

Numărul total de şomeri ar fi crescut de 1,036 ori în luna 4 faţă de luna 1 datorită modificării numărului de şomeri muncitori.

023,1

4w1y4x4w4y4xPI 1/4

y/z

Numărul total de şomeri ar fi crescut de 1,023 ori în luna 4 faţă de luna 1 datorită modificării numărului de şomeri cu studii medii.

0014,1

1w4y1x4w4y4xPI 1/4

w/z

Numărul total de şomeri ar fi crescut de 1,0014 ori în luna 4 faţă de luna 1 datorită modificării numărului de şomeri cu studii superioare. Problema 6

Evoluţia numărului de contracte de vânzare încheiate de o societate în zilele lucrătoare

într-o anumită perioadă a fost următoarea:

232425242322232422211921222120151413121110987654321

:Y

Se cere: 1. Tendinţa mărimii analizate (dacă se constată prezenţa factorilor sezonieri desezonalizaţi

serie). 2. Previziunea mărimii pe următoarele 5 zile.

Page 94: Statistica Descriptiva

94

Rezolvare: 1. Pentru a determina tendinţa, trebuie să reprezentăm cronograma în vederea stabilirii prezenţei factorilor sezonieri:

232425242322232422211921222120151413121110987654321

:Y

După cum se observă din grafic, există factori sezonieri, tendinţa fiind crescătoare. Deci,

variaţia numărului de contracte este de forma:

y(t) = T(t) + S(t) + ε(t)

unde: T(t) – tendinţa S(t) – componenta sezonieră

ε (t) – factori neesenţiali

Ne organizăm datele astfel:

Ziua Săpt.

I II III IV V

1 20 21 22 21 19 2 21 22 24 23 22 3 23 24 25 24 23

Folosind procedeul mediilor mobile calculăm seria desezonalizată după relaţia:

23

2425

2423

2223

24

22

21

19

21

22

21

20

0

5

10

15

20

25

30

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Page 95: Statistica Descriptiva

95

5YYYYY

Y

5YYYYY

Y

2115141312'14

1514131211'13

. . . .

5YYYYY

Y 3534333231'33

Ziua Săpt.

I II III IV V

1 - - 20,6 20,8 21 2 21,4 21,8 22,4 22,8 23,2 3 23,4 23,6 23,8 - -

Calculăm coeficienţii de sezonalitate:

Ziua Săpt.

I II III IV V

1 - - 1,07 1,01 0,90 2 0,98 1,01 1,07 1,01 0,95 3 0,98 1,02 1,05 - - K 0,98 1,015 1,063 1,01 0,925

'ts

tsts Y

YK

2

KKK I3I2

I

.

.

.

.

2

21 VVV

KKK

8,236,234,232,238,224,228,214,21218,206,20

1110987654321:Y '

)t(

Page 96: Statistica Descriptiva

96

Din grafic se observă că tendinţa cea mai probabilă este o dreaptă. Deci: T(t) = a + b·t

Punând condiţia ca: 2tTtYM =minim, obţinem:

222

)()()()]([])([

)(]([

])([)()()]([)(

tMtMtMtyMttyMb

tbMtyMa

ttyMtbMtaMtyMtbMa

611

11...21)(

tM

07,13711

8,2311...8,2026,201

25,2211

8,23...8,206,20

61,411

11...21)(222

2

ttyM

tyM

tM

357,0361,46

625,2207,137

b

a = 22,25 – 0,357 · 6 = 20,108

6.1.1.1.1.1 T(t) = 20,108 + 0,357 t 2. Previziunea valorilor lui Y

23,823,623,423,222,822,4

21,821,4

20,820,6

19

20

21

22

23

24

25

1 2 3 4 5 6 7 8 9 10

Page 97: Statistica Descriptiva

97

2554,24925,118357,0108,20)18(

264,2601,117357,0108,20)17(

2744,27063,116357,0108,20)16(

268,25015,115357,0108,20)15(

256,2498,014357,0108,20)14(

4

4

4

4

4

VPV

IVPIV

IIIPIII

IIPII

IPI

KTY

KTY

KTY

KTY

KTY

Problema 7 O agenţie imobiliară doreşte să dispună de o funcţie cu ajutorul căreia să poată evalua rapid valoarea de piaţă a apartamentelor. Pentru aceasta, are la dispoziţie o bază de date cuprinzând 30 de apartamente observate în raport cu variabilele: Y = preţul de vânzare în mii euro 1X = suprafaţa în metri pătraţi

2X = numărul de camere

3X = finisaj*nr.camere. Se calculează prin înmulţirea gradului de finisare (0 pentru nefinisat, 1 pentru semifinisat şi 2 pentru finisat) cu numărul de camere.

Page 98: Statistica Descriptiva

98

Se cere:

Nr.crt. Y 1X 2X 3X

1 15,3 22 1 2 2 42,0 74 4 4 3 13,0 21 1 1 4 20,0 32 2 4 5 25,8 52 3 0 6 46,6 88 4 4 7 24,7 48 2 0 8 18,9 35 1 0 9 41,5 78 3 6 10 47,5 80 4 8 11 24,0 45 2 0 12 22,3 39 2 2 13 33,5 68 3 0 14 20,7 42 1 0 15 49,5 92 4 4 16 26,6 50 2 0 17 16,0 26 1 1 18 32,7 60 3 3 19 38,1 64 3 6 20 15,1 28 1 0 21 15,6 30 1 1 22 39,8 83 4 0 23 27,0 44 2 4 24 35,0 71 3 0 25 17,3 28 1 2 26 25,5 49 2 2 27 25,0 46 2 2 28 14,5 22 1 1 29 39,5 65 3 6 30 41,5 69 3 6

Page 99: Statistica Descriptiva

99

1) Studiaţi grafic existenţa şi forma legăturii dintre preţ şi fiecare din variabilele dependente.

2) Calculaţi parametrii funcţiei liniare multiple dintre preţ şi toate variabilele explicative. 3) Este reprezentativă această funcţie ? 4) Să se facă câteva simulări ale valorii de piaţă a apartamentelor pentru diferite valori

ale variabilelor explicative. 5) Comparaţi reprezentativitatea funcţiei obţinute cu a funcţiilor de regresie simple.

Rezolvare

1) Graficul care ne poate indica existenţa sau forma legăturii este diferit în funcţie de natura variabilei explicative: discretă sau continuă.

a) Legătura dintre preţ şi suprafaţă. Deoarece suprafaţa este o variabilă continuă, putem construi norul de puncte.

05

101520253035404550

0 20 40 60 80 100suprafata (mp)

pret

(mii

euro

)

Se observă că legătura există şi este liniară. b) Legătura dintre preţ şi numărul de camere. Norul statistic se prezintă astfel:

Page 100: Statistica Descriptiva

100

0

5

10

15

20

25

30

35

40

45

50

0 1 2 3 4numar camere

pret

(mii

euro

)

Dacă forma legăturii nu pare evidentă prin norul de puncte se poate utiliza şi un grafic care foloseşte mediile condiţionate, din grupe. Procedând analog şi pentru variabila rămasă, concluzionăm că putem modela legăturile dintre preţ şi fiecare din variabile prin funcţii liniare.

2) Funcţia de regresie liniară multiplă se scrie :

332211 XaXaXaY

Prin aplicarea metodei celor mai mici patrate ajungem la ecuaţia scrisă sub formă implicită :

0)(

)()()(

3303

2202110100

XMXMXMXMXMXMYMYM

Scriem matricea de variaţie şi covariaţie :

33

2322

131211

03020100

)4(

mmmmmmmmmm

M

55,121200 Ym

227)()()( 1101 XMYMYXMm

196,11)()()( 2202 XMYMYXMm

229,16)()()( 3303 XMYMYXMm

Page 101: Statistica Descriptiva

101

443211 1

Xm

39,21)()()( 212112 XMXMXXMm

19,23)()()( 313113 XMXMXXMm

143,1222 2

Xm

2767,1)()()( 323223 XMXMXXMm

41,5233 3

Xm

41,52767,1143,1

19,2339,21443229,16196,1122755,121

)4(M

Calculăm complemenţii algebrici:

92,19300 M

58,8201 M

4,13502 M

79,19503 M

Ecuaţia de regresie devine :

0)(79,195

)(4,135)(58,82)(92,193

31

2211

XMXXMXXMXYMY

Prin înlocuirea valorilor medii, avem:

03,279,195

3,24,1357,5158,8248,2892,193

1

21

XXXY

După efectuarea calculelor se obţine ecuaţia sub formă explicită :

321 01,1698,04258,0559,2 XXXY

Page 102: Statistica Descriptiva

102

3) Reprezentativitatea funcţiei o apreciem prin coeficientul de corelaţie liniară multiplă:

997,092,19355,121

75,1311det10000

)4(

, 321

MmMR XXXY

deci funcţia este foarte reprezentativă.

4) Pentru un apartament de 65mp, cu 3 camere, semifinisat :

661 X 32 X 33 X

8,35301,13698,0664258,0559,2)3,3,66( Y mii euro

Rezultatul este foarte realist dacă privim baza de date iniţială.

5) Rezolvarea acestui punct rămâne la latitudinea cititorului.

Page 103: Statistica Descriptiva

103

LUCRĂRI PRACTICE

LUCRAREA 1 P1. Daţi 5 exemple de populaţii statistice a căror cercetare ar prezenta interes şi pentru fiecare

populaţie selectată precizaţi: 1. denumirea populaţiei, a unităţii statistice şi volumul acesteia; 2. scopul cercetării statistice; 3. variabilele statistice în raport cu care s-ar face observarea statistică a populaţiei.

P2. Să se extragă din Anuarul Statistic sau alte surse informaţionale o serie statistică bidimensională ce redă distribuţia unei populaţii în raport cu două variabile atributive, relativ la care se cere:

1. denumirea populaţiei ce a fost supusă observării şi volumul acesteia; 2. unitatea statistică; 3. caracterizarea variabilelor statistice în raport cu care a fost studiată populaţia; 4. caracterizarea seriei statistice în raport cu toate criteriile cunoscute; 5. elaborarea seriei bidimensionale formată cu frecvenţe relative, interpretare; 6. extragerea repartiţiilor unidimensionale marginale şi a celor condiţionate; 7. pornind de la o repartiţie marginală deduceţi celelalte serii statistice posibile,

interpretare. P3. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie statistică de repartiţie,

având la bază o variabilă de spaţiu, relativ la care se cere: 1. denumirea populaţiei statistice şi volumului ei; 2. unitatea statistică; 3. caracterizarea seriei după toate criteriile cunoscute; 4) deducerea seriei formată cu frecvenţe relative; 5) interpretare.

P4. Din Anuarul Statistic sau alte surse informaţionale extrageţi două serii cronologice având la bază indicatorul de nivel, una de momente, alta de intervale şi deduceţi seriile formate cu diferenţe absolute, indici statistici, diferenţe relative, cu bază fixă şi cu bază în lanţ (interpretări).

P5. Daţi 5 exemple de serii cronologice având la bază indicatorul relativ de intensitate. P6. Din Anuarul Statistic sau alte surse informaţionale extrageţi o serie de spaţiu formată cu

indicator de nivel sau indicator relativ de intensitate şi deduceţi seriile formate cu diferenţe absolute, indici şi diferenţe relative, calculate cu bază fixă. Interpretare.

P7. Extrageţi 5 exemple de serii de spaţiu ce conţin informaţii importante pentru domeniul economic. LUCRAREA 2 Luând ca exemplu o populaţie statistică studiată în raport cu un anumit număr de variabile

(stabilite în raport cu obiectivul studiului), se cere: P1. Elaborarea tuturor seriilor statistice de repartiţie unidimensionale P2. Elaborarea a trei serii statistice de repartiţie bidimensionale ( una are la baza două

variabile calitative, una are la bază o variabila calitativă şi o variabilă cantitativă, una are la bază două variabile cantitative)

P3. Reprezentarea grafică a: histogramei, poligonului frecvenţei, cercului de structură, diagramei prin benzi sau coloane, norul statistic, cronograma şi cartograma.

LUCRAREA 3

Page 104: Statistica Descriptiva

104

Considerăm o populaţie statistică din lucrările anterioare observată în raport cu mai multe variabile. Se cere:

1. Alegeţi două variabile (una cantitativă, cealaltă calitativă) şi construiţi repartiţia populaţiei în raport cu fiecare din ele;

2. Calculaţi şi interpretaţi corespunzător parametrii tendinţei centrale (valoarea medie, mediană, modală) pentru seria care are la bază variabila cantitativă;

3. Analizaţi reprezentativitatea parametrilor tendinţei centrale (sub formă absolută şi relativă)

4. Folosind parametrii de structură analizaţi structura populaţiei în raport cu variabila cantitativă;

5. Analizaţi gradul de dispersare a unităţilor populaţiei în raport cu variabila cantitativă; 6. Caracterizaţi sintetic concentrarea unităţilor din populaţie folosind variabila

nenumerică; 7. Analiza statistică a asimetriei repartiţiei de la punctul 1; 8. Analizaţi comparativ rezultatele obţinute la punctele 5 şi 6.

LUCRAREA 4 P1. Pentru o distribuţie în raport cu două variabile calitative între care se presupune că ar

putea exista vreo legătură, se cere : 1. Verificarea existenţei legăturii dintre cele două variabile. 2. Dacă legătura există, căt de intensă este aceasta ?

P2. Pentru o populaţie observată în raport cu două variabile cantitative între care ar putea exista o legătură, se cere :

1. Aprecierea existenţei şi a intensităţii legăturii dintre variabile ; 2. Să se formuleze pe baza unui grafic adecvat ipoteze cu privire la forma posibilă a

funcţiei de regresie dintre ele ; 3. Pentru funcţiile reţinute ca fiind posibile, să se calculeze parametrii ; 4. Care din aceste funcţii este mai reprezentativa ? 5. Pentru funcţia aleasă să se facă câteva simulări ale valorilor previzionate prin

aceasta. P3. Pentru o populaţie observată în raport cu mai multe variabile, în care presupunem că una

din ele depinde de celelalte se cere : 1. Pe baza unui tip de grafic adecvat, să se stabilească dacă ar putea exista legătură

între variabila dependentă şi fiecare din celelalte variabile; 2. În ipoteza unei legături liniare multiple, să se calculeze parametrii funcţiei; 3. Să se stabilească reprezentativitatea acestei funcţii şi să se compare cu

reprezentativitatea fiecăreia dintre funcţiile liniare simple. LUCRAREA 5 P1. Pentru trei produse, în două luni consecutive se cunosc preţul de vânzare şi respectiv

cantităţile vândute. Se cere : 1. Indicele variaţiei integrale ; 2. Indicii factoriali ai preţurilor şi respectiv cantităţilor vândute, prin metodele L, P,

F. Este verificată sau nu condiţia de completitudine ? P2. Din Anuarul Statistic al României, extrageţi structura de consum a populaţiei pentru trei

grupe de produse :

Page 105: Statistica Descriptiva

105

- mărfuri alimentare - mărfuri nealimentare - servicii pentru două luni consecutive. Se cere :

1. Indicii preţurilor pe cele trei grupe ; 2. Calculaţi indicele preţului (pe total) de tip L şi P.

P3. Dacă pentru un coş bursier format din trei acţiuni se cunoaşte :

- cursul fiecărei acţiuni - numărul de acţiuni tranzacţionate

să se calculeze indicele bursier.

LUCRAREA 6 P1. Alegând o serie cronologică din lucrarea 1, care manifestă componentă de tendinţă, se

cere : 1. Diferenţa medie absolută, indicele mediu, ritmul mediu ; 2. Emiterea unor ipoteze privind forma tendinţei ; 3. Estimarea parametrilor tendinţei ; 4. Previziunea pentru următoarele trei perioade.

P2. Pentru o serie cronologică ce prezintă componentă sezonieră, se cere :

1. Cronograma şi precizarea componentelor prezente ; 2. Calculul mediilor mobile de ordin p (p=perioada componentei sezoniere) ; 3. Calculul şi interpretarea coeficienţilor sezonalităţii ; 4. Estimarea parametrilor tendinţei ; 5. Previziuni pentru următoarele 4 perioade de timp.


Recommended