Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Statistica
Tematica orientativă a prelegerilor(1):1. Statistica – noţiuni fundamentale2. Prelucrarea primară a datelor3. Indicatorii tendinţei centrale (1)4. Indicatorii tendinţei centrale (2)5. Indicatorii variaţiei (simpli şi sintetici)6. Analiza dispersională. Analiza formei seriilor7. Sondajul statistic (1)8. Sondajul statistic (2). Serii cronologice (1)9. Serii cronologice (2). 10. Teoria indicilor (1)11. Teoria indicilor (2)12. Analiza statistică a legăturilor dintre variabile (1)13. Analiza statistică a legăturilor dintre variabile (2)14. Definitivarea rezultatelor obţinute
Resurse
The Joy of Statistics: http://www.youtube.com/watch?v=jbkSRLYSojoFB Group Loving statistics 101The Michelle Obama effect: http://hbr.org/web/extras/michelle-obama-effect/1-slide
Istoria statisticii în România:
În România, nu se poate vorbi despre o statistică organizată înainte de secolele XVIII-XIX. În aprilie 1859, Al. I. Cuza aprobă înfiinţarea unui birou de statistică în Ţara Românească, sub conducerea lui Dionisie Pop Marţian.În luna iulie a aceluiaşi an, a Direcţiei de Statistică din Moldova, sub conducerea lui Ion Ionescu de la Brad. La 4 august 1859, cele două direcţii se reunesc sub denumirea Oficiului Statistic pentru Principatele Unite având la conducere pe Dionisie Pop Marţian.Pe scheletul acelei instituţii s-a constituit şi consolidat Instituţia Statisticii Publice ce avea să poarte numele de Institutul Central de Statistică, Direcţia Centrală de Statistică, Comisia Naţională pentru Statistică sau Institutul Naţional de Statistică şi Studii Economice.În prezent denumirea este: Institutul Naţional de Statistică ( http://www.insse.ro ).
Curs 1
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Ce este statistica?Conform DEX, Statistica are următoarele accepţiuni: -Evidenţă numerică, situaţie cifrică referitoare la diverse fenomene, numărătoare; -Culegere prelucrare şi valorificare a unor date legate de fenomene generale; -Ştiinţă care culege, sintetizează, descrie şi interpretează date referitoare la fenomene
generale.
Etapele cercetării statistice:1. Observarea statistică a fenomenului studiat2. Prelucrarea şi modelarea datelor culese3. Analiza şi interpretarea datelor culese
Terminologie (2)Prelucrarea primară a datelor statistice
Elemente fundamentale Obiectul de studiu al Statisticii îl reprezintă analiza datelor ce descriu
comportamentul fenomenului studiat Fenomenele studiate trebuie să fie bine localizate în spaţiu şi timp Datele ce descriu fenomenul pot fi cantitative sau calitative Rezultatele trebuie ancorate (validate) într-un sistem teoretic
Tipuri de metode statistice Statistica descriptivă / analiza primară a datelor statistice (clasificări,
reprezentări grafice, tendinţa centrală, analiza dispersională) Statistica inferenţială (extinderea rezultatelor obţinute prin cercetări parţiale,
verificarea ipotezelor statistice, elemente de prognoză)
Curs 2
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Noţiunile de bază a statisticii Unitatea statistică reprezintă elementul de bază supus analizei statistice. Există
unităţi simple (de ex.: persoane, obiecte etc.) şi unităţi complexe (de ex.: gospodăria).
Populaţia statistică este compusă dintr-o mulţime finită de unităţi statistice. Variabila (caracteristica) statistică este o aplicaţie definită pe populaţia
studiată şi cu valori într-o anumită mulţime. Parametrul statistic este o ilustrare (de obicei cantitativă) a stării variabile
statistice Estimatorul este o funcţie statistică utilizată pentru aproximarea unui
parametru necunoscut la nivelul unei populaţii statistice Eşantionul statistic o mulţime de dimensiuni reduse a unităţilor statistice dintr-
o populaţie
Tipuri de variabile statisticeÎn funcţie de natura mulţimii în care ia valori funcţia definită pe populaţia studiată există: Variabile numerice (cantitative) şi nenumerice (calitative) Variabile discrete (mulţimea este una numărabilă) sau continue Variabile binare/ alternative (mulţime cu două elemente) şi variabile cu
mulţimi asociate compuse din mai mult de două elementeTeoria scalării
Variabilele statistice pot fi măsurate pe patru scale de măsurare:o Scala nominalăo Scala ordinalăo Scala de intervalo Scala de raport
Metode de observare statistică În funcţie de periodicitate avem: observări curente şi periodice În funcţie de volumul unităţilor statistice observate avem: cercetări
exhaustive (de tip recensământ) şi cercetări selective (sondaje sau anchete statistice)
În funcţie de modalitatea de declanşare a evenimentului avem: observări clasice şi observări provocate (proiectarea experimentelor)
În funcţie de modul de administrare: observări directe şi observări indirecte (din surse publicate anterior: anuare, buletine, rapoarte etc.)
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Prelucrarea primară a datelor statistice (2)Indicatorii tendinţei central
De ce prelucrare primară?o din considerente practice (prezentare sintetică, publicare, diseminare etc.)o pentru a studia pe baza graficelor ulterioare forma funcţiilor de repartiţieo pentru a “curăţa” datele de valorile aberante sau de “non-răspunsuri
Gruparea statistică grupări simple
– pe variante după o variabilă calitativă
– după o variabilă binară– după o variabilă polihotomică
după o variabilă cantitativă– după o variabilă binară– după o variabilă discretă cu un număr rezonabil de variante.
– pe grupe/ intervale egale inegale
– după un criteriu geografic– după criteriul cronologic
grupări combinate
După o variabilă calitativă binară
Curs 3
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
După o variabilă calitativă polihotomică
După o variabilă cantitativă binară
După o variabilă cantitativă discrete
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Grupare după un criteriu geographic
Sursa de date: Anuarul statistic 2006, pag. 24
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Grupare după criteriul cronologic
Grupări combinate (1) Tabele de contingenţă (bidimensionale)
Grupări combinate (2) Tabele cu mai mult de două dimensiuni
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Etapele grupării pe intervale egale
1. Stabilirea numărului de intervale (ng) Se recomandă formula lui Sturges:
ng=1+3,322*lg(N)1. Stabilirea mărimii intervalului de grupare (k)
Se calculează amplitudinea: A=xmax-xmin
k=A/ng2. Se construiesc grupele (intervalele)3. Se stabilesc frecvenţele absolute
Elemente necesare unui tabel statistico Titlu sugestiv şi concis (cu precizarea localizării în timp şi spaţiu)o Unităţi de măsurăo Sursa de date
Tipuri de reprezentări grafice a datelor prelucrate primar (1)
Histograma pentru o variabilă cantitativă continua
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
MBAC
10,00
9,75
9,50
9,25
9,00
8,75
8,50
8,25
8,00
7,75
7,50
7,25
7,00
6,75
6,50
6,25
6,00
5,75
5,50
1400
1200
1000
800
600
400
200
0
Std. Dev = ,80
Mean = 8,78
N = 8831,00
Tipuri de reprezentări grafice a datelor prelucrate primar (2)
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Tipuri de reprezentări grafice a datelor prelucrate primar (3)Zonele de provenienţă (ca procent din numărul total de absolvenţi) a candidaţilor la concursul de admitere al ASE(Sursa de date: Prelucrări ale informaţiilor bazei de date a admiterii ASE şi a informaţiilor referitoare la examenele de Bacalaureat)
L
ARAD
CARAS- SEV ERIN
BIHOR
HUNED OARA
ALBA
CLUJ
GORJ MEHED INTI
DOLJ
VALCEA
TELEORMAN
ARGES DAMBOVITA
GIURGIU
SIBIU BRASOV
PRAHOVA
BUCURESTI
COVASNA
BUZAU
CALARASI
IALOMITA
BRAILA
CONSTANTA
TULC EA
GALATI VRANCEA
BACAU VASLUI
IASI
NEAMT
HARGHITA
BOTOSANI
SUCEAVA BISTRITA- NASAUD
MARAMURES
MURES
SATU MAR E
SALAJ
TIMIS
2005
sub 1%
1-3%
3-5%
5-10%
10% si peste
OLT
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Indicatorii tendinţei centrale
Caracteristici ale indicatorului tendinţei centrale ideal (Yule 1945)
Să fie definit în mod obiectiv Să depindă de toate valorile individuale Să aibă o semnificaţie concretă (uşor de înţeles chiar şi de către nespecialişti) Să fie simplu şi rapid de calculat Să fie puţin sensibil la fluctuaţiile de selecţie Să se preteze la calcule algebrice
Tipuri de indicatori ai tendinţei centrale Mediile
– Media aritmetică caz particular (media variabilei de tip binar)
– Media pătratică– Media geometrică– Media armonică– Media cronologică (se va discuta despre ea la capitolul Serii cronologice)
Indicatorii medii de poziţie– Mediana– Valoarea modală
Media aritmetică Se poate calcula doar pentru variabile cantitative Se mai numeşte momentul de ordin 1
– pentru un şir simplu de valori
n
xx i
– Pentru o serie de frecvenţe sau de date grupate pe intervale de grupare
i
ii
n
nxx
Curs 4
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Media variabilei de tip binar Distribuţia după culoarea ochilor unei populaţii de 100 de persoane este:
Observaţie: orice variabilă se poate “binariza”
Media pătratică
Se mai numeşte momentul de ordin 2– pentru un şir simplu de valori
n
xx i
p
2
– Pentru o serie de frecvenţe sau de date grupate pe intervale de grupare
i
iip n
nxx
2
Media armonică Se mai numeşte momentul de ordin -1
– pentru un şir simplu de valori
i
h
x
nx
1
– Pentru o serie de frecvenţe sau de date grupate pe intervale de grupare
ii
ih
nx
nx
1
Media geometrică Se foloseşte pentru calculul unor medii în cazul mărimilor relative de dinamică
– pentru un şir simplu de valori
nig xx
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
– Pentru o serie de frecvenţe sau de date grupate pe intervale de grupare
i in nig xx
Observaţie: MRD trebuie să fie exprimate sub formă de indici (nu ritmuri) şi coeficienţi (nu procente)
Relaţia de ordine între cele patru tipuri de medii
pgh xxxx
Mediana (Me) Avantaj: Spre deosebire de medii, Me nu este aşa de influenţată de apariţia
valorilor extreme Mod de calcul:
1. Se ordonează crescător seria de date2. Se calculează poziţia (locul) Medianei
1)(2
1 inlocMe
3. În funcţie de forma datelor disponibile vom avea: Pentru un şir simplu de valori:
– cu un număr impar de termeni Me este valoarea de rang locMe din şirul obţinut
la pasul 2– cu un număr par de termeni
Nu există un termen central. Me se calculează ca o medie aritmetică simplă a termenilor centrali
Pentru o serie de frecvenţe:
3. Se calculează frecvenţe cumulate crescător (Fi) :
Fi oferă răspunsul la întrebarea: “Câte cazuri ale
variabilei xi sunt cel mult egale cu varianta
curentă?”
4. Mediana este prima variantă pentru care este adevărată relaţia:
locMeFi
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Pentru o serie de date grupate pe intervale:
3. Se calculează frecvenţe cumulate crescător (Fi) :
Fi oferă răspunsul la întrebarea: “Câte cazuri ale
variabilei xi sunt cel mult egale cu limita
superioară a intervalului curent?”
4. Se alege intervalul ce conţine mediana ca fiind primul interval pentru care este valabilă relaţia:
locMeFi 5. În interiorul intervalului ce conţine mediana, formula de calcul este:
Me
i
n
FlocMekxMe 1
0
Mediana face parte din indicatorii cuantilici Alţi indicatori cuantilici sunt:
– cuartilele (împart o serie de date în 4)– decilele (împart o serie de date în 10)– percentilele (procentilele) (împart o serie de date în 100)
Valoarea modală (Mo) Definiţie: Valoarea modală este valoarea cu frecvenţă maximă de apariţie Avantaje:
– Poate fi calculată pentru variabile calitative (exprimate prin cuvinte) (de ex.: culoarea ochilor, culoarea părului, starea civilă etc.)
– Şansele ca rezultatul să fie o valoare existentă în realitate sunt mult mai mari decât la medii
Serie de date unimodală
Prof. univ. dr. Miruna Mazurencu Marinescu, [email protected]
Serie de date bimodală
Pentru o serie de date grupate pe intervale:1. Se alege intervalul modal ca fiind intervalul cu frecvenţa maximă2. În interiorul intervalului modal, valoarea modală se determină cu ajutorul
formulei:
21
10
kxMo
*Valoarea modală este varianta: “căsătorit”
Relaţia de ordine între x , Me şi Mo:Pentru o serie cel mult uşor asimetrică este valabilă relaţia:
)(3 MexMox