Date post: | 03-Mar-2016 |
Category: |
Documents |
Upload: | constantin-slobodeanu |
View: | 232 times |
Download: | 2 times |
of 38
Proiect la Statistica - Practica
PROIECT PENTRU
PRACTICA IN STATISTICA
Prof. Coordonator
Student:Anul I , ZI
FEAA
Structura proiectului
I. Obiectivul proiectului
a. Verificarea existentei unei relatii ntre 2 variabile categoriale
b. Verificarea existentei unei relatii ntre 2 variabile numerice
II. Crearea bazei de date
a. Se identific minim 4 variabiale statistice (2 numerice, 2 categoriale), conform
obiectivului cercetrii
b. Se definesc variabilele si se introduc datele n editorul de date folosind un
program statistic (Excell, SPSS)
c. Se verific datele introduse (outlieri, greseli, valori lips)
III. Descrierea statistic a variabilelor
a. Pentru variabile categoriale: proportii, valoarea dominant, diagrama de
structur, diagrama Pareto
b. Pentru variabile numerice: nivelul mediu (media aritmetic, modul, mediana),
dispersia (varianta, intervalul mediu de varietie, coeficientul de variatie), forma
distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma,
curba frecventelor, box-plot, curba de concentrare)
IV. Inferenta statistic
a. Estimarea prin interval de ncredere a unei medii
b. Estimarea prin interval de ncredere a unei proportii
c. Testarea unei valori medii cu o valoare fix
d. Testarea unei proportii cu o valoare fix
V. Analiza statistic a legturilor dintre variabile
a. Analiza variantei (ANOVA)
b. Analiza de corelatie si asociere
c. Analiza de regresie
VI. Concluzii
BibliografieI. Obiectivul proiectului
Orice analiza statistica a bazelor de date incepe cu pregatirea setului de date.Acestea au fost obtinute din Anuarul Statistic al Romaniei din anul 2008 . Pentru analiza statistica urmarita, au fost luate in calcul urmatoarele variabile:
Variabile categoriale: valorile lor aparin unei mulimi de categorii distinct; Cauze ale deceselor
Sexul persoanelor decedate
Variabile numerice: valorile lor se stabilesc prin numarare, masurare , calcul; Varsta populatiei
Numarului deceselor
Obiectivul proiectului se refera la analiza si descrierea statistica a unei distributii bivariate folosind indicatori ai tendintei centrale, indicatori ai dispersiei si indicatori ai formei precum si o parte a statisticii inferentiale folosind estimarea si testarea unor parametri si analiza statistica a legaturilor dintre variabile (ANOVA, Analiza de corelatie si regresie)Datele care urmeaza a fi sistematizate sunt preluate din Anuarul Statistic al Romaniei, 2008 Sistematizarea datelor inregistrate presupune ordonarea acestora in functie de omogenitatea lor.
Rezultatul sistematizarii se prezinta intr-o forma comoda de manevrat, prin serii, tabele si grafice. Sistematizarea datelor este prima faza a prelucrarii statistice si vizeaza obtinerea de distributii statistice. Distributia bivariata pe care o voi analiza o voi obtine prin gruparea statistica dupa doua caracteristici.
Datele ce vor fi grupate se refera la NUMARUL DECESELOR, PE GRUPE DE VRST in anul 2007 in Romania pentru variabile numerice, si sunt prezentate in urmatorul tabel:
Tabelul 1.Numarul deceselor pe grupa de varsta in anul 2007 in Romania
Grupa de vrst (ani)nr deceselor
0 4 3046
59327
1014343
1519906
20241029
25291243
30341832
35393295
40443841
45497602
505412866
555915958
606416745
656925386
707435322
757943293
808442793
858922821
909410185
95992843
100 i peste 289
total 251965
Sursa: Anuarul Statistic al Romaniei 2008Iar pentru variabilele categoriale, datele ce vor fi grupate se refera la NUMARULUI DECESELOR, PE CAUZE DE DECES SI SEXE in anul 2007 in Romania pentru variabile numerice, si sunt prezentate in urmatorul tabel:
Tabelul 2 . Numarul deceselor, pe cauze de deces si sexe in anul 2007 in Romania
Sexul TOTAL
CAUZEMasculinFemininM+F
BOLI INFECTIOASE SI PARAZITARE17466292375
TUMORI267531863045383
BOLI ENDOCRINE DE NUTRITIE SI METABOLISM107613062382
TULBURARI MENTALE SI DE COMPORTAMNET481107588
BOLI ALE SISTEMULUI NERVOS10619572018
BOLI ALE APARATULUI CIRCULATOR7326381253154516
BOLI ALE APARATULUI RESPIRATOR7926473012656
BOLI ALE APARATULUI DIGESTIV8723584514568
BOLI ALE APARATULUI GENITO-URINAR13299652294
SARCINA NASTERE SI LAUZIE03333
MALFORMATII CONGENITALE DEFORMATII SI ANOMALII430327757
LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE9343291412257
ALTE CAUZE7084711179
TOTAL132839118167251006
Sursa: Anuarul Statistic al Romaniei 2008III. Descrierea statistica a variabilelor
Obtinerea indicatorilor statistici este necesara pentru caracterizarea, in expresii numerice generalizatoare, a ceea ce este esential pentru un grup de unitati sau pentru intreaga colectivitate studiata in conditii de timp si de spatiu date.
a) Pentru variabilele categoriale vom folosi :
Proportia Valoarea dominanta Diagrama de structura
Diagram Pareto
Proportia este un parametru al populaiei, care arat proporia elementelor din populaie avnd o anumit proprietate.Mod de calcul; unde - reprezinta indivizii dintr-o anumita categorie (i)
N intreaga populatie Tabelul 3 . Tabelul cu elementele necesare calcului proportieiTOTALProportia
CAUZEMasculinFemininM+FMasculinFeminin
BOLI INFECTIOASE SI PARAZITARE174662923750,0069560,002506
TUMORI2675318630453830,1065830,074221
BOLI ENDOCRINE DE NUTRITIE SI METABOLISM1076130623820,0042870,005203
TULBURARI MENTALE SI DE COMPORTAMNET4811075880,0019160,000426
BOLI ALE SISTEMULUI NERVOS106195720180,0042270,003813
BOLI ALE APARATULUI CIRCULATOR73263812531545160,2918770,323709
BOLI ALE APARATULUI RESPIRATOR79264730126560,0315770,018844
BOLI ALE APARATULUI DIGESTIV87235845145680,0347520,023286
BOLI ALE APARATULUI GENITO-URINAR132996522940,0052950,003845
SARCINA NASTERE SI LAUZIE0333300,000131
MALFORMATII CONGENITALE DEFORMATII SI ANOMALII4303277570,0017130,001303
LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE93432914122570,0372220,011609
ALTE CAUZE70847111790,0028210,001876
TOTAL1328391181672510060,5292260,470774
Din totalul deceselor inregistrate 53% sunt persoane de genul masculine si 47% de genul feminin.
Valoarea dominanta ( D ) a seriei este acea valoare a caracteristicii care are cea mai mare frecven de apariie. Valoarea dominant se mai numetevaloare modal.Tabelul 4. Tabelul cu elementele necesare calcului valorii dominanteSexul TOTAL
CAUZEMasculinFemininM+F
BOLI INFECTIOASE SI PARAZITARE17466292375
TUMORI267531863045383
BOLI ENDOCRINE DE NUTRITIE SI METABOLISM107613062382
TULBURARI MENTALE SI DE COMPORTAMNET481107588
BOLI ALE SISTEMULUI NERVOS10619572018
BOLI ALE APARATULUI CIRCULATOR7326381253154516
BOLI ALE APARATULUI RESPIRATOR7926473012656
BOLI ALE APARATULUI DIGESTIV8723584514568
BOLI ALE APARATULUI GENITO-URINAR13299652294
SARCINA NASTERE SI LAUZIE03333
MALFORMATII CONGENITALE DEFORMATII SI ANOMALII430327757
LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE9343291412257
ALTE CAUZE7084711179
TOTAL132839118167251006
Interpretare: Valoarea dominanta in exemplul nostru este valoarea in care prezentam cea mai frecventa cauza de deces atat in cazul femeilor cat si a barbatilor . Aceasta este in cadrul bolilor ale aparatului circulator avand valoarea de 154516 iar dominanta dintre masculin si feminin are valoarea de 132839 si se prezinta in cazul barbatilor.
Grafic 1. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului feminin
Grafic 2. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului masculinb) Pentru variabile numerice vom folosi : nivelul mediu (media aritmetic, modul, mediana), dispersia, (prin varianta, intervalul mediu de varietie, coeficientul de varitie), forma distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma, curba frecventelor, box-plot, curba de concentrare)
Indicatorii nivelului mediu sunt:
Media aritmetica a unei distributii empirice reprezinta valoarea pe care ar purta-o fiecare unitate statistica daca distributia ar fi omogena.
In exemplul nostru media se calculeaza ca medie ponderata, cand nn..n, dupa relatia:
= , unde x = , -mijlocul intervalelor;
- numarul indivizilor din populatie
Pentru calculul mediei aritmetice la nivelul populatiei vor fi necesare cateva elemente de calcul ce vor fi prezentate in urmatorul tabel:
Tabelul 5. Tabelul cu elementele necesare calcului medieiGrupa de vrst (ani)nr deceselor mijlocul intervalului
0 4 304626092
5932772289
1014343124116
15199061715402
202410292222638
252912432733561
303418323258624
3539329537121915
4044384142161322
4549760247357294
50541286652669032
55591595857909606
606416745621038190
656925386671700862
707435322722543184
757943293773333561
808442793823509026
858922821871985427
90941018592937020
9599284397275771
100 i peste 28910530345
Total 251965-17715277
=
Interpretare : Varsta medie de deces este de 70,30 ani pentru populatia Romaniei in anul 2007Modul (M) face parte din categoria marimilor medii fundamentale, de pozitie. El este valoarea cea mai frecvent observata intr-o distributie, adica valoarea ce corespunde frecventei dominante.Aflarea modului in cazul variabilelor continue presupune efectuarea urmatoarelor operatii:
a) Aflarea frecventei maxime ( )b) Indicarea intervalului modal () corespunzator frecventei maximec) Efectuarea interpolarii in intervalul modal dupa relatia: M= x+d ,
In care: x - limita inferioara a intervalului modal
d - marimea intervalului modal()
- diferenta dintre frecventa intervalului modal si frecventa intervalului anterior celui modal (= n- n)
- diferenta dintre frecventa intervalului modal si frecventa intervalului urmator celui modal (= n- n)
Tabelul 5. Tabelul cu elementele necesare calcului medieiGrupa de vrst (ani)nr deceselor
0 4 3046
59327
1014343
1519906
20241029
25291243
30341832
35393295
40443841
45497602
505412866
555915958
606416745
656925386
707435322
757943293
808442793
858922821
909410185
95992843
100 i peste 289
Total 251965
=43293(75;79)
Interpretare : La nivelul esantionului considerat cele mai multe decese au loc la varsta d 78,76 ani.Mediana se defineste ca acea valoare a caracteristicii unei serii ordonate, crescator sau descrescator, pana la care si peste care sunt distribuite in numar egal unitatile colectivitatii observate: jumatate din unitati au valori mai mari decat mediana si jumatate au valori mai mici.
Pentru a calcula valoarea medianei trebuie:
calculate frecventele relative cumulate(N): calcularea unitatii mediane aflarea intervalului median in dreptul determinarea medianei prin interpolare, in cadrul intervalului median dupa formula:
, unde
-limita inferioara a intervalului median
- marimea intervalului median
- unitatea mediana
- frecventa cumulata anterior intervalului median
- frecventa intervalului median
Tabelul 6. Tabelul cu elementele necesare calcului medianei, quartilelorGrupa de vrst (ani)nr deceselor Frecvente
0 4 30463046
593273373
10143433716
15199064622
202410295651
252912436894
303418328726
3539329512021
4044384115862
4549760223464
50541286636330
55591595852288
60641674569033
65692538694419
707435322129741
757943293173034
808442793215827
858922821238648
909410185248833
95992843251676
100 i peste 289251965
total 251965-
Interpretare : 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57 ani.Generalizarea medianei:
Quantilele sunt marimi de pozitie.ele sunt valori ale caracteristicii care impart seria in r grupe ale caror effective sunt egale. Numarul r defineste ordinul quantilelor. Ele sunt folosite in calculul unor indicatori ai dispersiei
quartile(sunt in numar de trei):
Q in care: U=
Q=Me
Q
U=
Calcul : U== 62991,25=(60-64) Q60+4* 0,6391908 = 62,55676Interpretare: 25% din decedati au varsta de pana la 62,55 ani iar 75% din ei au varsta de peste 62,55 anI
= Me =
U=(80-84) 81,47273 Interpretare : 75% din decedati au varsta de pana la 62,55 ani iar 25% din au varsta de peste 62,55 ani
Indicatori ai dispersiei
Orice colectivitate are o anumita organizare interna, definita de modul in care valorile individuale ale caracteristicii se disperseaza sau se concentreaza in jurul valorii centrale, generand o anumita forma a distributiei observate. Din acest motiv se impune ca indicatorii tendintei centrale ai unei variabile sa fie completati cu indicatori ai dispersiei, asimetriei si boltirii.
Dispersia exprima gradul de imprastiere a valorilor individuale ale unei distributii in jurul valorii centrale si este datorata influentei factorilor aleatori.
Indicatorii pentru calculul dispersiei sunt: amplitudinea
abaterea individuala
abaterea medie liniara varianta
abaterea medie patratica intervalul mediu de varietie,
coeficientul de variatieTabelul 7. Tabelul cu elementele necesare calcului indicatorilor dispersieiGrupa de vrst (ani)nr deceselormijlocul intervalului
0 4 304626092-68682071284624
5932772289-6363206013969
1014343124116-5858198943364
15199061715402-5353480182809
202410292222638-4848493922304
252912432733561-4343534491849
303418323258624-3838696161444
3539329537121915-33331087351089
4044384142161322-2828107548784
4549760247357294-2323174846529
50541286652669032-1818231588324
55591595857909606-1313207454169
606416745621038190-8813396064
656925386671700862-33761589
70743532272254318422706444
7579432937733335617730305149
8084427938235090261212513516144
8589228218719854271717387957289
909410185929370202222224070484
9599284397275771272776761729
100 i peste 289105303453535101151225
total 251965-17715277309450126255
a) Amplitudinea variatiei(A):
-in marime absoluta: A =x - x= 100 - 0= 100
b) Abaterea individuala(d):
- in marime absoluta: d=x- , este calculata in tabelul nr 7 in coloana 6.c) Abaterea medie liniara():
Calcul: == 12,28147163
Interpretare: In medie, numarul de decese se abat de la valoarea medie (), in plus sau in minus, cu 12,28147163d) Varianta (dispersia,): Calcul: ==268,1277916
Interpretare: varianta,fiind o marime la patrat,este o marime abstracta, nu se interpreteaza.
e) Abaterea medie patratica():
Calcul: = =16,374608Interpretare: In medie, numarul de decese se abat de la valoarea medie (), in plus sau in minus, cu 16, 374608
f) Intervalul mediu de variatie:
= = , de aici rezulta ca 68.27 % dintre decese sunt cuprins intre varsta de 53,93 si 86,68 ani
g) Coeficientul de variatie():17,46797976 => este o colectivitate omogena iar media este moderat reprezentativa.
Indicatori ai formeiForma unei distributii statistice poate fi apreciata cu ajutorul a doua categorii de valori tipice: indicatori de asimetrie si indicatori de boltire.
Indicatori ai asimetriei dau informatii asupra modului de repartizare a frecventelor de o parte sau alta a valorii centrale a unei serii.
Asimetria reprezinta o deviatie de la forma simetrica de distributie. Ca valori central pentru aprecierea asimetriei, sunt folosite : media aritmetica (), modul si mediana (Me).Pentru calculul asimetriei vom folosi: a) Coeficientul de asimetrie Yule(C) masoara asimetria in functie de pozitia quartilelor ()C= = , unde: q=Me - Q si q=Q-Me
Q= 62,55676 ; Q= 81,47273 ; Me= - dupa cum am calculate anterior.
- 7,898303
C= distributia este moderat asimetrica la stanga
b) Coeficientul de asimetrie Pearson():
= , unde si
268,1277916 ; = 9315,013
= = 4,501336049 >0 - distributia este asimetrica la dreapta.
c) Coeficientul de asimetrie Fisher():
= = => distributia este asimetrica la dreapta.
Indicatori ai boltirii
Indicatorii boltirii exprima masura aglomerarii frecventelor in zona centrala, pe langa medie.
Boltirea se defineste prin raportarea unei distributii empirice la distributia normal sub aspectul variatiei variabile X si a frecventei relative
a) Coeficientul de boltire Pearson(:
= ;
= = 6,201828499b) Coeficientul de boltire Fisher():
= - 3 = 6,201828499 3 = 3,201828499
> 6,201828499 , > 3,201828499 => distributia este leptocurtica.
Indicatori ai concentrarii
Prin concentrare se exprima aglomerarea unitatilor unei colectivitati sau a valorilor globale ale unei distributii in jurul unei valori a caracteristicii de grupare.
Masurarea concentrarii se poate realiza prin calculul Indicelui de concentrare Gini.
Mod de calcul:
= 0,1210050149 Tabelul 8. Tabelul cu elementele necesare calcului a indicatorilor dispersieiGrupa de vrst (ani)
nr deceselor
--
304660920,0003440,0120890,00000571920,00000460350,0000011157
59327337383810,0004730,0133870,00000944350,00000697720,0000024663
10143433716124970,0007050,0147480,00002322610,00001294040,0000102857
15199064622278990,0015750,0183440,00005233010,00003532040,0000170096
202410295651505370,0028530,0224280,00010646890,00007805350,0000284154
252912436894840980,0047470,0273610,00022043170,00016440410,0000560276
3034183287261427220,0080560,0346320,00051734180,00038436460,0001329773
35393295120212646370,0149380,0477090,00114715010,00094041670,0002067333
40443841158624259590,0240450,0629530,00278337580,00223914220,0005442336
45497602234647832530,0442130,0931240,00763423870,00637498690,0012592518
5054128663633014522850,0819790,1441870,01922370460,01701240520,0022112994
5559159585228823618910,1333250,2075210,03982934170,03652821350,0033011282
6064167456903334000810,1919290,2739790,07888947250,07192179110,0069676814
6569253869441951009430,287940,3747310,16169594360,14826530870,0134306348
70743532212974176441270,4314990,5149170,31908027600,29632696700,0227533090
757943293173034109776880,6196740,6867380,56158198590,53079703970,0307849462
808442793215827144867140,8177530,8565750,79646676790,77453227560,0219344923
858922821238648164721410,9298270,9471470,93078092700,91826886930,0125120576
909410185248833174091610,982720,987570,98587806600,98159306000,0042850060
95992843251676176849320,9982870,9988530,99885301530,99828707170,0005659436
100peste2892519651771527711---
total251965------0,1210050149
Grafic 3. Diagrama box-and-wisker
IV.Inferenta statisticaa) Estimarea prin interval de incredere a unei medii
Estimarea punctuala a unui parametru presupune aflarea unei valori posibile a estimatorului parametrului pe baza datelor inregistrate la nivelul unui esantion.
Pentru estimarea prin interval de incredere am avut in vedere un esantion extras din Populatia Romaniei. . Am ales un esantion din totalul populatiei reprezentand decesele inregistrate pe categorii de varsta in Judetul Iasi.
Tabelul 9.Numarul deceselor pe grupa de varsta in anul 2007 in Judetul IasiGrupa de vrst (ani)nr deceselor
0 4 76
5942
101434
151955
202426
252931
303484
353982
404496
4549190
5054645
5559533
6064743
6569635
7074557
75791082
80841070
8589571
9094255
959971
100 i peste 15
total 6893
Media a populatiei se poate estima punctual prin media () obtinuta la nivelul unui esantion. Media este o valoare a estimatorului , calculata pe baza datelor la nivelul unui esantionMedia la nivelul esantionului este de = 67,77469897 ani , iar la nivelul populatiei este de
.
Estimarea mediei prin interval de incredere: I.C.(), ; ; unde s =
Tabelul 10. Tabelul cu elementele necesare calcului estimarii prin interval de incredere a medieiGrupa de vrst (ani)nr deceselor mijlocul intervalului
0 4 762152-65,774698974326,311025
59427294-60,774698973693,564035
10143412408-55,774698973110,817045
15195517935-50,774698972578,070055
20242622572-45,774698972095,323066
25293127837-40,774698971662,576076
303484322688-35,774698971279,829086
353982373034-30,77469897947,0820967
404496424032-25,77469897664,335107
4549190478930-20,77469897431,5881173
50546455233540-15,77469897248,8411276
55595335730381-10,77469897116,0941379
60647436246066-5,7746989733,34714819
65696356742545-0,774698970,600158494
707455772401044,2253010317,85316879
7579108277833149,22530103
80841070828774014,22530103202,3591894
8589571874967719,22530103369,6121997
9094255922346024,22530103586,86521
95997197688729,22530103854,1182203
100 i peste 15105157537,225301031385,723037
total 6893-467171-24690,01549
; , z = 1,96
=0,022795671
=1,96 *0,022795671 = 0,044679515
67,77469897 - 0,04467951567,77469897 + 0,044679515
67,73001945 < < 67,81937849
Se poate afirma ca intervalul de variatie a varstei din esantionul studiat este (67,73001945 - 67,81937849 ) ani in 95% din cazuri .Estimarea proportiei prin interval de increderePentru estimarea proportiei am ales un esantion format din numarul deceselor grupate pe cauze de deces si sexe inregistrat in Judetul Iasi in anul 2007Tabelul 11. Decesele grupate pe cauze de deces si sexe inregistrat in Judetul Iasi in anul 2007Sexul TOTAL
CAUZEMasculinFemininM+F
BOLI INFECTIOASE SI PARAZITARE8645131
TUMORI8038751678
BOLI ENDOCRINE DE NUTRITIE SI METABOLISM363672
TULBURARI MENTALE SI DE COMPORTAMNET24832
BOLI ALE SISTEMULUI NERVOS362662
BOLI ALE APARATULUI CIRCULATOR289614274323
BOLI ALE APARATULUI RESPIRATOR368142510
BOLI ALE APARATULUI DIGESTIV365199564
BOLI ALE APARATULUI GENITO-URINAR9612108
SARCINA NASTERE SI LAUZIE022
MALFORMATII CONGENITALE DEFORMATII SI ANOMALII161733
LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE267215482
ALTE CAUZE191130
TOTAL501230158027
Sursa: Anuarul statistic al Romaniei 2008Intervalul de incredere pentru parametrul p , la nivelul unui esantion este:
Proportia pentru cele doua sexe: = 0,6243927 in cazul sexului masculin
= 0,3756073 in cazul sexului masculine
IC: Testarea unei valori medii cu o valoare fixa
Admitem ca parametrul - nivelul mediu al distributiei unei populatii si un estimator al acesteia .Testarea ipotezei ca o valoare a estimatorului estimeaza valoarea parametrului , presupune parcurgerea urmatoarelor etape:
1.Formularea ipotezelor: H: = 70,30848
H: 70,30848
2. Alegem testul statistic:
-avand in vedere ca esantionul este de volum mare (n> 30) se foloseste statistica z, definit de relatia:
z =
3.Specificam un prag de semnificatie al testului
= 0,05
= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H) cand aceasta este adevarata.
4.Definim regiunea de respingerePentru = 0,025 , citim in tabel valorile : si In acest caz, regiunea de respingere este z > 0,198 si z < - 0,198 . Pentru P( z > 0,198 = = 0,025 , respingem H daca z < -0,198 sau daca z > 0,198.
5.Calculam valoare numerica a statisticii z:
z = = = -111,152
6.Concluzie:
Spunem cu o incredere de 95% ca se repinge ipoteza H Deci, dupa rezultatele esantionului, se poate afirma, cu un risc de 5%, ca numarul deceselor din judetul Iasi difera semnificativ de media populatiei .Testarea unei proportii cu o valoare fixa
Admitem ca parametrul f - proportia unei populatii si un estimator al acesteia p. .Testarea ipotezei ca o valoare p a estimatorului f estimeaza valoarea parametrului f, presupune parcurgerea urmatoarelor etape:
1.Formularea ipotezelor: H: p = H: p
2. Alegem testul statistic:
-avand in vedere ca esantionul este de volum mare (n> 30) se foloseste statistica z, definit de relatia:
z =
3.Specificam un prag de semnificatie al testului
= 0,05
= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H) cand aceasta este adevarata.
4.Definim regiunea de respingerePentru = 0,025 , citim in tabel valorile : si In acest caz, regiunea de respingere este z > 0,198 si z < - 0,198 . Pentru P( z > 0,198 = = 0,025 , respingem H daca z < -0,198 sau daca z > 0,198.
5.Calculam valoare numerica a statisticii z:
= =
6.Concluzie:
Spunem cu o incredere de 95% ca se repinge ipoteza H Deci, dupa rezultatele esantionului, se poate afirma, cu un risc de 5%, ca proportia deceselor din judetul Iasi difera semnificativ de proportia populatiei .V. Analiza statistica a legaturilor dintre variabile Analiza Variantei (ANOVA) este un procedeu de analiza a variatiei considerand un singur factor cauza. Tabelul 12. Decesele grupate dupa varsta si numarul lor inregistrate in Judetele Iasi, Suceava, Neamt in anul 2007Grupa de vrst (ani)mijlocul intervaluluinr decese iasinr decese suceavanr decese neamttotal decese
0 4 2766574215
597423236110
101412344556135
151917553582172
20242226154384
25292731244297
303432846559208
353937827285239
404442968539220
45494719010896394
5054526455927291966
5559575335648361933
6064627436755982016
6569676355357531923
7074725575536561766
75797710829789873047
808482107098310983151
8589875715424691582
909492255246291792
959997715968198
100 i peste 10515121643
total -68936285711320291
media mediilor----
In exemplul oferit ne aflam in cazul unei ANOVA pentru un factor (tipul zonei).Notam: Nr decese in Iasi: - Nr decese in Suceava -
Nr. Decese in Neamt - Numarul zonelor- k=3
Productia media pe zone: Esantionul n = 20291 persoane repartizat in grupe cu un volum de : 6893;6285; =7113
Ipoteze: cel putin varsta medie dintr doua judete diferite sa difere intre ele.
Varsta medie pe judete este reprezentata in ultima linie a tabelului!!!!!!!!!!!!!!!!
Pe baza acestor valori calculam media pe toate judetele observate:
ani
pentru verificarea ipotezei aplicam testul F,fiind indeplinite conditiile:
Esantioanele au fost selectate aleator si independent- conditia de independenta
Populatiile sunt distribuite normal- conditia de normalitate
Varianta distributiei deceselor dupa grupa de varsta este aceiasi pentru fiecare judet- conditia de homoscedasticitate
Regula de decizie: S-au admis tre judete, deci gradul de libertate .
Sunt n = 20291 persoane de observant, impartite in k=3 esantioane, deci Se respinge ipoteza , la un nivel de semnificatie de , daca are loc relatia .Tabelul 11. Tabel cu elementele de calcul pentru ANOVA :
276-654195,76176318877,8938
742-613752,14195157589,9618
1234-553046,11492103567,9072
17551728915895
22262248412584
27312772922599
328432102486016
3782371369112258
4296421764169344
47190472209419710
526455227041744080
575335732491731717
627436238442856092
676356744892850515
725577251842887488
7710827759296415178
8210708267247194680
875718775694321899
922559284642158320
9771979409668039
1051510511025165375
Total6893--34411824,76
265-664389,68925285329,8011
732-603623,03112115936,9958
1245121446480
17351728910115
2215224847260
27242772917496
326532102466560
377237136998568
4285421764149940
47108472209238572
525925227041600768
575645732491832436
626756238442594700
675356744892401615
725537251842866752
779787759295798562
829838267246609692
875428775694102398
922469284642082144
9759979409555131
1051210511025132300
Total 26285--31572755,8
274-654249,94732314496,1015
7367491764
1256121448064
17821728923698
22432248420812
27422772930618
325932102460416
3785371369116365
423942176468796
4796472209212064
527295227041971216
578365732492716164
625986238442298712
677536744893380217
726567251843400704
779877759295851923
8210988267247382952
874698775693549861
922919284642463024
9768979409639812
1051610511025176400
Total 37113--34688078,1
Total20291--100672658,7
Calculul Testului F
Calculul componentelor variatiei:
Variatia intergrupe:
21,462044+1804,3078+1977,736= 3803,506
Variatia intragrupe:
100672658,7
Variatia totala:
100676462,1672
Calculul estimatorilor variantei
1901,753
4962,1776
Calculul raportului Fisher
0,38325
Decizie: Pentru ; citim in tabelul F valoarea =4,605. Se compara valoarea calculate cu valoarea tabelata si se constata ca: ) se accepta ipoteza nula deci coeficientul de corelatie nu este semnificativ
Analiza de asociere
Tabelul 13. Decesele grupate pe judete si sexe inregistrate in Romania in anul 2007masculin feminintotal
IASI394629476893
NEAMT425628577113
total8202580414006
Coeficientul de asociere: -0,05327 = >intre distributia pe sexe si distributia pe judet la momentul considerat, exista o asociere negativa slaba.
Analiza de regresie
Analiza de regresie este o metoda statistica care permite studierea si masurarea relatiei care exista intre doua sau mai multe variabile, precum si descoperirea legii relative la forma legaturilor dintre variabile. Prin aceasta metoda se incearca pe baza datelor unui esantion sa se estimeze relatia matematica dintre doua sau mai multe variabile, adica sa se estimeze valorile unei variabile in functie de valorile altei variabile.Modelul de regresie liniara simpla exprima legatura dintre doua variabile si ia forma : .Daca : - legatura directa (pozitiva)
- nu exista legatura
legatura inversa (negativa)
Ecuatia estimate este:
= 328,2380952-(*52,14285714)= 62520844,23
= 62520844,23 + (x)Testarea semnificatiei coeficientului de regresie bFormularea ipotezelor:
Daca respingem ipoteza , cu un prag de semnificatie ales, atunci legatura dintre cele doua variabile X si Y este semnificativa.In practica se foloseste de regula , adica se considera un risc de 5% de a respinge pe nedrept ipoteza atunci cand aceasta ar fi adevarata.
Test: Pentru testarea semnificatiei coeficientului de regresie se foloseste statistica definite de testu t:
Estimatia variantei estimatorului parametrului de regresie la nivelul unui esantion se calculeaza:
= 1479937151753073.6842
Raportul Student:
==2.093
Estimarea prin interval de incredere = > = > Putem spune ca ne asumam un risc de 5% ca valoarea adevarata a coeficientului de regresie sa fie acoperita de intervalul [-1774758.5596457; -623289.4403543]
Concluzii In urma gruparii unor date preluate din Anuarul Statistic al Romanie 2008, care se refera la 2 variabile numerice -numarul deceselor dupa varsta in Romania in anul 2007 ,si 2 variabile categoriale- Decesele dupa sexe si cauze de deces am obtinut o distributie statistica bivariata.
Cu ajutorul indicatorilor tendintei centrale, ai dispersiei si ai formei am analizat si am interpretat rezultatele legate de aceasta.
Indicatorii tendintei centrale ne arata ca:
- varsta medie () de deces pe tara este egala cu 70,30 ani
- la nivelul esantionului cele mai multe decese au loc la varsta de 78,76 ani (Mo)
- 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57 ani(Me);
- Cu ajutorul quartilelor am realizat diagrama box-and-wisker care arata ca distributia este asimetrica la dreapta.
Diagrama box-and-wisker
Cu ajutorul indicatorilor dispersiei aflam ca 68.27 % dintre decese sunt cuprins intre varsta de 53,93 si 86,68 ani . Indicatorii formei ne arata ca distributia este leptcurtica si moderat asimetrica la dreapta.
In urma testarii mediei putem afirma cu un coeficient de incredere de 95% ca numarul de decese inregistrate este egal cu 70,30 ani . Din analiza ANOVA aflam ca numarul deceselor din cele 3 judete nu influenteaza semnificativ variatia varstei medii, iar din analiza de corelatie asociere si regresie aflam ca avem o legatura negativa.Bibliografie
1. Anuarul Statistic al Romaniei din 2008
2.Elisabeta Jaba, Statistica, editia a 3 a revizuita, Editura Economica, Bucuresti, 2002
3.Elisabeta Jaba, Teste grila si probleme, Editura Sedcom Libris, Iasi, 2005Intervalul modal
Interval quartilic 1
Interval median
Interval quartilic 3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
_1353087366.unknown
_1353087399.unknown
_1353087417.unknown
_1353087434.unknown
_1353087442.unknown
_1353087446.unknown
_1353087450.unknown
_1353087455.unknown
_1353087457.unknown
_1353087458.unknown
_1353087456.unknown
_1353087453.unknown
_1353087454.unknown
_1353087451.unknown
_1353087448.unknown
_1353087449.unknown
_1353087447.unknown
_1353087444.unknown
_1353087445.unknown
_1353087443.unknown
_1353087438.unknown
_1353087440.unknown
_1353087441.unknown
_1353087439.unknown
_1353087436.unknown
_1353087437.unknown
_1353087435.unknown
_1353087426.unknown
_1353087430.unknown
_1353087432.unknown
_1353087433.unknown
_1353087431.unknown
_1353087428.unknown
_1353087429.unknown
_1353087427.unknown
_1353087422.unknown
_1353087424.unknown
_1353087425.unknown
_1353087423.unknown
_1353087420.unknown
_1353087421.unknown
_1353087418.unknown
_1353087409.unknown
_1353087413.unknown
_1353087415.unknown
_1353087416.unknown
_1353087414.unknown
_1353087411.unknown
_1353087412.unknown
_1353087410.unknown
_1353087403.unknown
_1353087405.unknown
_1353087407.unknown
_1353087408.unknown
_1353087406.unknown
_1353087404.unknown
_1353087401.unknown
_1353087402.unknown
_1353087400.unknown
_1353087383.unknown
_1353087391.unknown
_1353087395.unknown
_1353087397.unknown
_1353087398.unknown
_1353087396.unknown
_1353087393.unknown
_1353087394.unknown
_1353087392.unknown
_1353087387.unknown
_1353087389.unknown
_1353087390.unknown
_1353087388.unknown
_1353087385.unknown
_1353087386.unknown
_1353087384.unknown
_1353087375.unknown
_1353087379.unknown
_1353087381.unknown
_1353087382.unknown
_1353087380.unknown
_1353087377.unknown
_1353087378.unknown
_1353087376.unknown
_1353087371.unknown
_1353087373.unknown
_1353087374.unknown
_1353087372.unknown
_1353087369.unknown
_1353087370.unknown
_1353087368.unknown
_1353087334.unknown
_1353087350.unknown
_1353087358.unknown
_1353087362.unknown
_1353087364.unknown
_1353087365.unknown
_1353087363.unknown
_1353087360.unknown
_1353087361.unknown
_1353087359.unknown
_1353087354.unknown
_1353087356.unknown
_1353087357.unknown
_1353087355.unknown
_1353087352.unknown
_1353087353.unknown
_1353087351.unknown
_1353087342.unknown
_1353087346.unknown
_1353087348.unknown
_1353087349.unknown
_1353087347.unknown
_1353087344.unknown
_1353087345.unknown
_1353087343.unknown
_1353087338.unknown
_1353087340.unknown
_1353087341.unknown
_1353087339.unknown
_1353087336.unknown
_1353087337.unknown
_1353087335.unknown
_1353087318.unknown
_1353087326.unknown
_1353087330.unknown
_1353087332.unknown
_1353087333.unknown
_1353087331.unknown
_1353087328.unknown
_1353087329.unknown
_1353087327.unknown
_1353087322.unknown
_1353087324.unknown
_1353087325.unknown
_1353087323.unknown
_1353087320.unknown
_1353087321.unknown
_1353087319.unknown
_1353087310.unknown
_1353087314.unknown
_1353087316.unknown
_1353087317.unknown
_1353087315.unknown
_1353087312.unknown
_1353087313.unknown
_1353087311.unknown
_1353087306.unknown
_1353087308.unknown
_1353087309.unknown
_1353087307.unknown
_1353087304.unknown
_1353087305.unknown
_1353087303.unknown