Home > Documents > Statistica - notite de curs

Statistica - notite de curs

Date post: 09-Dec-2016
Category:
Author: ngoque
View: 323 times
Download: 14 times
Share this document with a friend
Embed Size (px)
of 89 /89
Statisticˇ a - notit ¸e de curs S ¸tefan Balint, Loredana Tˇanasie Cuprins 1 Ce este statistica? 3 2 Not ¸iuni de bazˇ a 5 3 Colectarea datelor 7 4 Determinarea frecvent ¸ei ¸ si gruparea datelor 11 5 Prezentarea datelor 14 6 Parametrii ¸ si statistici ai tendint ¸ei centrale 19 7 Parametrii ¸ si statistici ai dispersiei 22 8 Parametrii ¸ si statistici factoriali ai variant ¸ei 25 9 Parametrii ¸ si statistici ale pozit ¸iei 26 10 Seria de distribut ¸ie a statisticilor de e¸ santioane 28 11 Teorema limitˇ a centralˇ a 32 12 O aplicat ¸ie a teoremei limitˇ a centralˇ a 35 13 Estimarea punctualˇ a a unui parametru; intervalul de ˆ ıncredere 36 14 Generalitˇ at ¸i privind ipotezele statistice ¸ si problema verificˇ arii ipotezelor statistice 38 1
Transcript
  • Statistica - notite de curs

    Stefan Balint, Loredana Tanasie

    Cuprins

    1 Ce este statistica? 3

    2 Notiuni de baza 5

    3 Colectarea datelor 7

    4 Determinarea frecventei si gruparea datelor 11

    5 Prezentarea datelor 14

    6 Parametrii si statistici ai tendintei centrale 19

    7 Parametrii si statistici ai dispersiei 22

    8 Parametrii si statistici factoriali ai variantei 25

    9 Parametrii si statistici ale pozitiei 26

    10 Seria de distributie a statisticilorde esantioane 28

    11 Teorema limita centrala 32

    12 O aplicatie a teoremei limita centrala 35

    13 Estimarea punctuala a unui parametru; intervalul de ncredere 36

    14 Generalitati privind ipotezele statistice si problema verificarii ipotezelorstatistice 38

    1

  • 15 Verificarea ipotezelor statistice: varianta clasica 41

    16 Verificarea ipotezelor statistice: varianta probabilista 48

    17 Inferenta statistica privind media populatiei daca nu se cunoasteabaterea standard a populatiei 52

    18 Inferenta relativa la varianta si estimarea variantei 59

    19 Generalitati despre corelatie. Corelatie liniara 65

    20 Analiza de corelatie liniara 73

    21 Inferenta privind coeficientul de corelatie liniara 76

    22 Regresie liniara 80

    23 Analiza de regresie liniara 83

    24 Inferenta referitoare la panta unei drepte de regresie liniara 87

    2

  • 1 Ce este statistica?

    Definitia 1.1. Statistica este stiinta colectarii, clasificarii, prezentarii, interpretariidatelor numerice si a folosirii acestora pentru a formula concluzii si a lua decizii.

    Definitia 1.2. Statistica descriptiva se ocupa cu colectarea, clasificarea si prezentareadatelor numerice.

    Definitia 1.3. Statistica inferentiala (inferential statistics) se ocupa cu interpretareadatelor oferite de statistica descriptiva si cu folosirea acestora pentru a formula concluziisi lua decizii.

    Problema 1.1. Universitatea de Vest din Timisoara doreste sa faca un plan de dezvoltarea facilitatilor de cazare. Pentru a trece la actiune consiliul de administratie hotaraste caeste necesar sa se raspunda la urmatoarea ntrebare: Cati studenti vor trebui cazati nurmatorii zece ani?Pentru a raspunde la aceasta ntrebare trebuie sa cunoastem raspunsul la cel putinurmatoarele doua ntrebari: Cati absolventi de liceu vor fi? Cati vor sa vina launiversitate? (Si altele poate).Pentru a raspunde la aceste doua ntrebari e nevoie de date referitoare la numarul deabsolventi de liceu n urmatorii zece ani si de date care indica procentul acelor absolventide liceu care doresc sa devina studenti la U.V.T. n urmatorii zece ani.O cale de a obtine date refritoare la numarul de absolventi de liceu n urmatorii zece anieste de a vedea care a fost acest numar n ultimii zece ani si a extrapola acest numar.Trebuie remarcat ca aceasta idee presupune ca exista o legatura dintre trecut si viitor.Acest lucru nu este ntotdeauna adevarat. O ntrebare suplimentara care se pune n acestcontext este daca va trebui sa numaram toti absolventii de liceu din toate scolile dinultimii zece ani sau ne putem limita sa numaram doar la anumite scoli? Altfel spus, dacaputem considera doar esantioane?O cale de a obtine date referitoare la procentul acelor absolventi care doresc sa devinastudenti la U.V.T. este aceea de a vedea aceste procente n ultimii zece ani si de aextrapola.Alte ntrebari care se pun sunt: Cum interpretam aceste date? Cum formulam o concluziepe baza acestor date? Cum se ia o decizie pe baza acestor date?Nu am terminat cu enumerarea ntrebarilor care pot fi relevante. La acest moment ceeace este important este sa ncepem sa ne gandim la asemenea probleme si la ntrebarilecare trebuiesc lamurite pentru a obtine un raspuns.

    Remarca 1.1. Relatia dintre statistica si probabilitatiStatistica si probabilitatile sunt doua domenii strans legate, dar distincte ale matematicii.Se spune ca probabilitatile sunt vehiculul statisticii. Aceasta este adevarat n sensulca daca nu ar fi legile probabiliste teoria statistica nu ar fi posibila. Pentru a ilustransa diferenta dintre probabilitati si statistica sa consideram doua urne: una probabilistasi una statistica. In cazul urnei probabiliste se stie ca urna contine 5 bile albe, 5 bilenegre si 5 bile rosii; problema de probabilitate este daca scoatem o bila, care este sansaca aceasta sa fie alba? In cazul unei urne statistice nu cunoastem care este combinatiade bile din urna. Extragem un esantion si din acest esantion conjecturam ce credem case gaseste n urna. Trebuie retinuta deosebirea: probabilitatea pune ntrebarea sanseica ceva (un eveniment) sa se ntample atunci cand se cunosc posibilitatile (se cunoaste

    3

  • populatia). Statistica ne cere sa facem un esantion, sa analizam esantionul si pe urma safacem predictie asupra populatiei pe baza informatiei gasite n esantion.

    Remarca 1.2. Folosirea corecta si folosirea gresita a statisticiiUtilizarea statisticii este nelimitata. Este greu de gasit un domeniu n care statistica nuse foloseste. Iata cateva exemple, unde si cum este folosita statistica:

    n educatie; statistica descriptiva este adesea folosita pentru a prezenta rezultatele; n stiinta; rezultatele experimentale trebuiesc colectate si analizate; guvernele; aduna diferite date statistice tot timpul.

    Multi oameni sunt indiferenti fata de descrierea statistica, altii cred ca statisticile suntminciuni. Majoritatea minciunilor statistice sunt inocente si rezulta din folosirea uneistatistici neadecvate sau date obtinute dintr-un esantion nepotrivit. Toate acestea conducla o ntelegere gresita a informatiei din partea consumatorului. Folosirea gresita astatisticii duce uneori la ncurcaturi.

    Remarca 1.3. Statistica si calculatorulIn ultimul deceniu calculatorul a avut un rol important n aproape toate aspectele vietii.Domeniul statististicii nu face exceptie. Statistica foloseste multe tehnici care au onatura repetitiva; formule pentru a calcula statistici descriptive, proceduri de urmatpentru a formula predictii. Calculatorul este foarte bun pentru a face asemenea operatiirepetitive. Daca calculatorul are un soft standard statistic este mult mai usoara analizaunor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (programbiomedical), SAS (Sistem de analiza statistica), IBM Scientific Subroutine Packages siSPSS (pachet statistic pentru stiinte sociale).

    4

  • 2 Notiuni de baza

    Definitia 2.1. Populatia este o colectie (multime) de indivizi, obiecte sau date numericeobtinute prin masuratori ale carei proprietati trebuiesc analizate.

    Remarca 2.1. Populatia este colectia completa de indivizi, obiecte sau date numericeobtinute prin masuratori care prezinta interes (pentru cel care colecteaza esantionul).Conceptul de populatie este fundamental n statistica. Populatia trebuie definita cu grijasi se considera complet definita daca lista membrilor este specificata. Multimea studentilorFacultatii de Matematica si Informatica este o populatie bine definita.Daca auzim cuvantul populatie de obicei ne gandim la o multime de oameni. In statisticapopulatia poate fi o multime de animale, de obiecte fabricate sau de date numericeobtinute prin masuratori. De exemplu multimea naltimilor studentilor facultatii deMatematica si Informatica este o populatie.

    Definitia 2.2. Esantionul este o submultime a unei populatii.

    Remarca 2.2. Un esantion consta din indivizi, obiecte sau date masurate selectate dinpopulatie (de catre colectorul de esantion).

    Definitia 2.3. O variabila de raspuns (simplu variabila) este o caracteristica (deobicei numerica) care prezinta interes n cazul fiecarui element (individ) al unei populatii.

    Remarca 2.3. Varsta studentului, media lui, culoarea parului, naltimea, greutateas.a.m.d. sunt variabile de raspuns n cazul populatiei: studentii de la Facultatea deMatematica si Informatica.

    Definitia 2.4. O data (la singular) este valoarea unei variabile de raspuns n cazulunui element al populatiei sau esantionului.

    Exemplul 2.1. Popescu Nicolae are vrsta de 19 ani, media 8.50, parul lui estecastaniu, naltimea lui este 1 m si 75 cm, iar greutatea lui este 65 kg. Aceste cincivalori ale celor cinci variabile de raspuns (Remarca 2.3) n cazul lui Popescu Nicolaesunt cinci date.

    Definitia 2.5. Valorile unei variabile de raspuns n cazul unei populatii sau a unuiesantion constituie un set de date . Intr-un set de date aceeasi data apare de atatea oride cate ori variabila are aceasta valoare.

    Exemplul 2.2. Cele 25 de naltimi n cazul unui esantion de 25 de studenti este un setde 25 de date nu neaparat diferite.

    Definitia 2.6. O activitate planificata n urma careia se obtine un set de date se numesteexperiment sau sondaj.

    Definitia 2.7. Parametru este o caracteristica numerica a unei populatii.

    Exemplul 2.3. Procentul de studenti de la Facultatea de Matematica si Informatica careau promovat toate examenele la sesiunea din iarna este un exemplu de parametru n cazulpopulatiei: studentii de la Facultatea de Matematica si Informatica.

    Remarca 2.4. Parametrul este o valoare numerica care se refera la ntreaga populatie.In statistica se obisnuieste ca parametrul sa fie notat cu litera greceasca.

    5

  • Definitia 2.8. O statistica este o caracteristica numerica a unui esantion

    Exemplul 2.4. Inaltimea medie gasita folosind cele 25 de naltimi n cazul unui esantionde 25 de studenti este un exemplu de statistica (de esantion).

    Remarca 2.5. O statistica este o valoare numerica care se refera la un esantion.Statisticile (de esantion) se noteaza cu literele alfabetului latin.

    6

  • 3 Colectarea datelor

    Prima problema a statisticianului este colectarea unui set de date. Aceasta presupunedefinirea prealabila a obiectivelor sondajului (experimentului) a populatiei si a variabilei.Exemple de obiective:

    a) Compararea eficacitatii unui medicament nou cu eficacitatea unui medicamentstandard;

    b) Estimarea venitului mediu al unei familii din judet.

    Exemple de populatii si variabile corespunzatoare:

    a) pacientii care sufera de o boala care se trateaza cu medicamentul consideratreprezinta populatia, iar timpul de recuperare reprezinta variabila;

    b) familiile din judet reprezinta populatia, iar venitul total al unei familii din judetreprezinta variabila.

    Tot nainte de colectarea setului de date trebuie hotarat daca setul de date se constituiepentru ntreaga populatie sau doar pentru un esantion. Daca setul de date se constituiepentru ntreaga populatie atunci se face un recensamant.

    Definitia 3.1. Un recensamant este o enumerare sau o listare a fiecarui element alpopulatiei mpreuna cu data (valoarea variabilei) corespunzatoare elementului.

    In cazul unei populatii mari, constituirea unui set de date la nivelul populatiei este dificilsi costisitor. De aceea, n cazul n care nu este posibila realizarea unui recensamant,setul de date se constituie doar pentru o parte a populatiei, pentru un esantion. Selectiaelementelor pentru esantion se face dintr-un cadru de esantionare.

    Definitia 3.2. Cadrul de esantionare este o lista de elemente care apartin populatiei,din care va fi extras esantionul.

    Remarca 3.1. Deoarece numai elementele din cadrul esantionului au sansa sa fie selectatepentru esantion, din perspectiva variabilei de raspuns cadrul de esantion trebuie sa fiereprezentativ pentru populatie.

    Remarca 3.2. In cazul unei populatii de indivizi listele de alegatori sau cartile de telefonsunt folosite adesea drept cadru de esantion. In functie de variabila de raspuns acesteapot fi cadre de esantion potrivite sau nepotrivite.

    Remarca 3.3. Dupa definirea cadrului esantionului se trece la stabilirea modului dealegere a elementelor esantionului. Acest proces se numeste proiectarea esantionului.

    Definitia 3.3. Proiectarea esantionului nseamna stabilirea procedurii de alegere aelementelor esantionului din cadrul esantionului.

    Exista mai multe procedee de alegere a elementelor esantionului. In mare aceste procedeempreuna cu esantioanele corespunzatoare se mpart n doua categorii: procedee bazatepe reprezentativitate si procedee probabiliste.

    7

  • Definitia 3.4. Esantioane bazate pe reprezentativitate sunt acelea pentru careelementele se aleg astfel ncat din perspectiva variabilei de raspuns, elementul ales sa fiereprezentativ pentru populatie.

    Exemplul 3.1. Din perspectiva variabilei de raspuns: cursul A este util sau nu nformarea dumneavoastra profesionala?, studentii din cadrul unui esantion care nu aufrecventat cursul nu sunt reprezentativi. Deci nu sunt alesi n esantion.

    Definitia 3.5. Un esantion pentru care elementele sunt selectate pe baza probabilista;oricare element din cadrul esantionului are o anumita sansa nenula sa fie selectat; senumeste esantion probabilist.

    Remarca 3.4. Inferente statistice cer ca esantionul sa fie probabilist. Esantioaneleprobabiliste aleatoare sunt cele mai familiare esantioane probabiliste.

    Definitia 3.6. Un esantion de marimea n este esantion probabilist aleator daca oriceesantion de marimea n ales din acelasi cadru are aceeasi probabilitate sa fie ales.

    Remarca 3.5. Cea mai raspandita metoda de a colecta date foloseste esantion aleatorsimplu.

    Definitia 3.7. Un esantion probabilist aleator pentru care elementele sunt selectate dintr-un cadru n care elementele au aceeasi probabilitate sa fie alese se numeste esantionaleator simplu.

    Remarca 3.6. Atunci cand se construieste un esantion probabilist aleator simplu trebuieavuta grija ca fiecare element din cadrul esantionului sa aibe aceeasi probabilitate sa fieselectat. Adesea se fac greseli pentru ca termenul aleator este confundat cu alesla ntamplare. Un procedeu corect de selectare a unui esantion probabilist aleatorsimplu este acela care foloseste un generator de numere aleatoare sau o tabela de numerealeatoare. Prima oara se numeroteaza elementele din cadrul de esantionare. Dupa aceastan tabelul cu numere aleatoare se aleg atatea numere cate sunt necesare pentru esantion.Fiecare element din cadrul de esantionare, al carui numar coincide cu un numar selectatdin tabelul de numere aleatoare va fi ales pentru esantion.

    Exemplul 3.2. Daca cadrul esantionului este o lista de 4265 de studenti atunci ei suntnumerotati de la 0001; 0002; ...; 4265. Pentru un esantion de 50 de studenti se aleg 50 denumere aleatoare cu patru cifre si se identifica studentii din cadrul esantionului.

    Definitia 3.8. Esantionul sistematic se construieste alegand fiecare al k-lea elementdin cadrul esantionului.

    Remarca 3.7. In aceasta selectie se foloseste tabela de numere aleatoare o singura data,pentru a determina punctul de plecare.

    Exemplul 3.3. Daca se considera un cadru de esantion de 245 de studenti ai Facultatiide Matematica si Informatica si se doreste un esantion sistematic format din 15 studentiatunci:

    1) asociem fiecarui student un numar de la 1 la 245;

    8

  • 2) se calculeaza k (pasul de numarare) folosind urmatoarea relatie:

    k =

    [numarul de elemente din cadrul esantionului

    numarul de elemente din esantion

    ]=

    [245

    15

    ]= 16

    3) se alege punctul de plecare ntre 1 si numarul k cu ajutorul unui tabel de numerealeatoare.

    Daca acest numar este 10, atunci obtinem esantionul:

    10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.

    Deoarece k =245

    15= 16, 33, nu este un numar ntreg, pasul de numarare poate fi si 17. In

    acest caz esantionul sistematic obtinut este de numai 14 elemente.

    Remarca 3.8. Este o procedura buna pentru a esantiona un procentaj n cazulpopulatiilor mari. Pentru a selecta un esantion sistematic de x% dintr-o populatie, unelement din 100/x va fi selectat (daca 100/x nu este ntreg se ia partea ntreaga).

    Remarca 3.9. Folosirea esantionului sistematic nu este potrivita daca populatia esterepetitiva sau ciclica n natura.(din perspectiva variabilei de raspuns)

    Exemplul 3.4. Daca se doreste estimarea numarului studentilor admisi la Facultatea deMatematica si Informatica care au depasit varsta de 20 de ani si se foloseste esantionareasistematica extragand din lista candidatilor admisi numai pe cei de pe pozitiile care suntmultiplu de 5, exista posibilitatea ca toti candidatii admisi pe pozitiile respective sa aibasub 20 de ani. Un asemenea esantion spune ca nu au fost admisi candidati peste 20 deani, ceea ce nu poate fi sustinut.

    Cand se esantioneaza populatii foarte mari, atunci cand este posibil se mparte populatian doua subpopulatii pe baza unor caracteristici. Aceste subpopulatii se numesc straturi,iar straturile sunt esantionate separat.

    Definitia 3.9. Un esantion obtinut n urma stratificarii cadrului esantionului si prinselectarea unui numar dat de elemente din fiecare strat se numeste esantion stratificat.

    Remarca 3.10. Cand se proiecteaza un esantion stratificat, cadrul se mparte n doua saumai multe straturi si n fiecare strat se proiecteaza un subesantion. Aceste subesantioanepot fi aleatoare, sistematice sau de alt gen. Dupa aceea subesantioanele sunt asamblatentr-un singur esantion pentru a colecta un set de date.

    Exemplul 3.5. Pentru studierea unei caracteristici a populatiei studentilor din Facul-tatea de Matematica si Informatica, aceasta populatie poate fi mpartita:- pe domenii: informatica, matematica- pe ani de studiu.

    Definitia 3.10. Esantion cota (sau esantion proportional) este unesantion stratificat care se construieste prin selectarea unui numar de elemente din fiecarestrat dupa o anumita cota sau proportional cu marimea stratului.

    9

  • Exemplul 3.6. Daca se doreste construirea unui esantion de 150 de studenti din populatiastudentilor Facultatii de Matematica si Informatica putem face stratificarea dupa anii destudiu. In acest caz, numarul de studenti ce va fi selectat din fiecare an ce va fi selectatva fi proportional cu numarul total de studenti din anul respectiv:

    Anul de studiu Numar studenti Cota Nr. studentiselectat n esantion:

    Anul I 431 36.49% 54Anul II 303 25.65% 40Anul III 206 17.44% 26Anul IV 240 20.40% 30

    Esantionul va fi format din 54 de studenti din anul I, 40 de studenti din anul II, 26 destudenti din anul III si 30 de studenti din anul IV.

    O alta metoda de esantionare care pleaca de la stratificarea populatiei este esantionulciorchine.

    Definitia 3.11. Esantionul ciorchine este un esantion stratificat care se construiesteprin selectarea de esantioane din anumite straturi (nu din toate).

    Exemplul 3.7. Daca se doreste realizarea unui esantion ciorchine format din studentiiUniversitatii de Vest din Timisoara, aceasta populatie poate fi startificata n functiede specializarea pe care au ales-o studentii selectionand esantioane doar de la catevaspecializari (nu de la toate).

    Remarca 3.11. Esantionul ciorchine se obtine folosind numere aleatoare sau o metodasistematica pentru identificarea straturilor (ciorchine) care trebuiesc esantionate, dupacare fiecare din aceste straturi este esantionat. Subesantioanele asamblate formeaza unesantion ciorchine.

    Intr-un caz concret procedeul de esantionare care se foloseste depinde de populatie devariabila de dificultatea esantionarii si de cost. Dupa determinarea esantionului se poatetrece la colectarea setului de date.

    10

  • 4 Determinarea frecventei si gruparea datelor

    Dupa colectarea unui set de date urmeaza prelucrarea primara a datelor. Determinareafrecventei si gruparea datelor este un procedeu de prelucrae primara a datelor si esteutilizat atunci cand numarul datelor este mare.Pentru a prezenta conceptul de frecventa sa consideram urmatorul set de date:

    3 2 2 3 24 4 1 2 24 3 2 0 22 1 3 3 1

    Valoarea 0 apare n acest set o singura data prin urmare frecventa pentru 0 este unu.Valoarea 1 apare n acest set de trei ori prin urmare frecventa pentru 1 este trei.Valoarea 2 apare n acest set de opt ori prin urmare frecventa pentru 2 este opt.Valoarea 3 apare n acest set cinci ori prin urmare frecventa pentru 3 este cinci.Valoarea 4 apare n acest set de doua ori prin urmare frecventa pentru 4 este doi.Frecventa datelor 0,1,2,3,4 care apar n setul de date este redata n tabelul urmator:

    x f0 11 32 83 54 3

    Definitia 4.1. Frecventa f (din coloana a doua) arata de cate ori apare valoarea variabileix n setul de date.

    Atunci cand ntr-un set de date multe sunt distincte (n loc de cateva ca n cazul precedent)se grupeaza datele n clase si apoi se construiesc frecvente pentru clase.

    Pentru a ilustra acest procedeu consideram urmatorul set de date:

    82 74 88 66 5862 68 72 92 8674 78 84 96 7676 52 76 82 78

    Vom pune n aceeasi clasa toate datele la care prima cifra este aceeasi si obtinemurmatoarele cinci clase:

    50 59; 60 69; 70 79; 80 89; 90 99(50 59 este clasa formata cu toate datele la care prima cifra este 5, s.a.m.d.).Aceste clase nu se intersecteaza (nu exista date care sa apartina la doua clase) si oricaredin date apartine unei clase.Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.Datele care apartin unei clase sunt mai mari decat limita inferioara a clasei si mai micidecat limita superioara a clasei.

    11

  • Definitia 4.2. Latimea unei clase definita ca diferenta dintre limita inferioara a claseiurmatoare si limita inferioara a clasei (este egala cu 10 si este aceeasi pentru toate claselen exemplul de mai sus) latimea clasei nu este egala cu diferenta dintre limita superioarasi limita inferioara a clasei.

    Definitia 4.3. Frontierele unei clase definite ca media aritmetica dintre limita superioaraa clasei si limita inferioara a clasei urmatoare sunt:

    49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.

    Definitia 4.4. Marca unei clase definita ca media aritmetica dintre limita superioara silimita inferioara a clasei, n acest caz este:

    54.5 =50 + 59

    2n cazul clasei 50 59

    64.5 =60 + 69

    2n cazul clasei 60 69

    74.5 =70 + 79

    2n cazul clasei 70 79

    84.5 =80 + 89

    2n cazul clasei 80 89

    94.5 =90 + 99

    2n cazul clasei 90 99

    Frecventa n acest caz este numarul de date dintr-o clasa. Frecventa datelor pe clase este:

    n cazul clasei 50 59 2 date

    n cazul clasei 60 69 3 date

    n cazul clasei 70 79 8 date

    n cazul clasei 80 89 5 date

    n cazul clasei 90 99 2 date

    In general, n cazul gruparii datelor pe clase si a determinarii frecventei trebuiescrespectate urmatoarele reguli:

    1) Clasele nu trebuie sa se intersecteze si fiecare data din setul de date trebuie saapartina la o clasa;

    2) Fiecare clasa trebuie sa aibe aceeasi latime.

    Procedeul concret de grupare este urmatorul:

    12

  • i) Se identifica cea mai mare data H si cea mai mica data L si se determina plaja:R = H L.

    ii) Se alege numarul de clase m si latimea clasei c (daca se poate numar impar) astfelca produsul m c sa fie putin mai mare ca plaja R.

    iii) Se alege un punct de plecare I care este putin mai mic decat cea mai mica data L.Adaugam la I multiplii lui c (c este latimea clasei) si obtinem numerele:

    I, I + c, I + 2c, I + 3c, ..., I + (m 1)c

    Aceste numere sunt limitele inferioare ale claselor.

    iv) Limitele superioare se stabilesc astfel ncat sa fie respectate conditiile 1) si 2).

    v) Se determina frecventa fiecarei clase numarand elementele din fiecare clasa.

    13

  • 5 Prezentarea datelor

    Prezentarea unui set de date poate fi facuta sub diferite forme si face parte din prelucrareaprimara a datelor.

    Prezentarea datelor sub forma de serii

    Definitia 5.1. Seria de distributie este un ansamblu de doua siruri finite dintre careprimul este sirul elementelor distincte din setul de date statistice sau sirul claselor obtinuteprin gruparea elementelor din setul de date statistice, iar cel de-al doilea este sirul defrecvente corespunzatoare.

    Exemplul 5.1. In cazul setului de date statistice:

    3 2 2 3 24 4 1 2 24 3 2 0 22 1 3 3 1

    seria de distributie este:

    X

    (0 1 2 3 41 3 8 5 3

    )

    Exemplul 5.2. In cazul claselor 50 59; 60 69; 70 79; 80 89; 90 99 obtinute pringruparea datelor din setul de date:

    82 74 88 66 58 74 78 84 96 7662 68 72 92 86 76 52 76 82 78

    seria de distributie este:

    X

    (50 59 60 69 70 79 80 89 90 99

    2 3 8 5 2

    )

    In general, o serie de distributie arata n felul urmator:

    X

    (x1 x2 x3 xnf1 f2 f3 fn

    )

    si oricare ar fi nivelul de grupare al datelor, xi avand frecventa fi, se numeste termenulseriei de distributie.

    Remarca 5.1. Adesea n prezentarea seriilor de distributie n locul frecventei fi sefoloseste frecventa relativa:

    f i =fi

    nj=1

    fj

    sau sub forma procentuala:f i = f

    i 100

    14

  • Definitia 5.2. Valoarea datei care apare cu cea mai mare frecventa ntr-o serie dedistributie de date statistice se numeste mod.

    Definitia 5.3. Clasa cu cea mai mare frecventa ntr-o serie de distributie de date grupatese numeste clasa modala.

    Definitia 5.4. Serie bimodala este o serie de distributie de date grupate n care apardoua clase modale, separate de clase cu frecventa mai joasa.

    Definitia 5.5. Frecventa cumulata a unei clase este suma frecventelor tutror claselorcu valori mai mici (marca mai mica).

    Definitia 5.6. Seria dinamica (temporala, cronologica) este un sir dublu dintrecare primul este sirul de valori ale variabilei de raspuns, iar cel de-al doilea sir este sirulde momente de timp la care variabila are aceste valori. In general, o serie dinamica(temporala) se noteaza astfel:

    X

    (x1 x2 x3 xnt1 t2 t3 tn

    )

    Prezentarea datelor sub forma de tabele statistice

    Tabelele statistice sunt foarte variate si se folosesc pentru ordonarea datelor statisticedintr-un set de date n vederea aplicarii metodelor de calcul si de interpretare statistica.

    In functie de numarul de caracteristici prezentate n tabel exista tabele simple, tabele cudubla intrare, tabele pe grupe, etc.

    Prezentarea datelor sub forma grafica

    Exista mai multe metode de prezentare grafica a unui set de date statistice. Metodade prezentare grafica este determinata de tipul de date si de ideea de prezentare. Dela nceput trebuie sa fie clar ca exista mai multe cai de a dispune grafic anumite datestatistice. Judecata analistului si circumstantele din jurul problemei joaca un rol majorn alegerea modului de dispunere grafica a datelor statistice.

    Definitia 5.7. Graficele de reprezentare a seriilor statistice fara grupare se numescdiagrame.

    Definitia 5.8. Diagrama cerc a seriei de distributie (fara grupare)

    X

    (x1 x2 x3 xnf1 f2 f3 fn

    )

    este un cerc mpartit n n sectoare de cerc S1, S2, ..., Sn astfel ncat aria sectorului Si esteegala cu

    f i =fi

    nj=1

    fj

    100

    procente din aria cercului.

    15

  • Exemplul 5.3. In cazul seriei de distributie din exemplul 5.1

    X

    (0 1 2 3 41 3 8 5 3

    )

    cercul se mparte n cinci sectoare avand ariile egale cu 5%, , 15%, 40%, 25%, 15% dinaria cercului

    Definitia 5.9. Diagrama coloana a seriei de distributie (fara grupare):

    X

    (x1 x2 x3 xnf1 f2 f3 fn

    )

    este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate peaxa Ox, iar naltimile lor sunt f1, f2, ..., fn

    Exemplul 5.4. In cazul seriei de distributie din exemplul 5.1:

    X

    (0 1 2 3 41 3 8 5 3

    )

    diagrama coloana este:

    16

  • Definitia 5.10. Diagrama linie (ramura-frunza) a seriei de distributie (fara grupare)

    X

    (x1 x2 x3 xnf1 f2 f3 fn

    )

    este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate peaxa Oy, iar lungimile lor sunt f1, f2, ..., fn.

    Exemplul 5.5. In cazul seriei de distributie din exemplul 5.1:

    X

    (0 1 2 3 41 3 8 5 3

    )

    diagrama linie este:

    Definitia 5.11. Histograma seriei de distributie cu grupare

    X

    (x1 x2 x3 xnf1 f2 f3 fn

    )

    este un set de n dreptunghiuri care reprezinta clasele. Bazele acestor dreptunghiurisunt egale (clasele au aceeasi latime) si sunt asezate pe axa Ox, iar naltimile lor suntf1, f2, ..., fn.

    Exemplul 5.6. In cazul seriei de distributie din exemplul 5.2:

    X

    (50 59 60 69 70 79 80 89 90 99

    2 3 8 5 2

    )

    histograma este:

    17

  • Remarca 5.2. In cazul histogramei o coloana reprezinta un numar de date diferite spredeosebire de diagrama coloana.

    Remarca 5.3. O histograma are urmatoarele componente:

    i) Un titlu care identifica populatia la care se refera;

    ii) O scara orizontala pe care se identifica variabila X, valorile limitelor claselor,frontierele claselor, marcile claselor.

    iii) O scara verticala pe care se identifica frecventele pentru fiecare clasa.

    Definitia 5.12. O histograma de frecvente relative este o histograma obtinuta dintr-o histograma nlocuind frecventele cu frecvente relative.

    Frecventa relativa (este o masura proportionala cu frecventa n cauza) se obtine prinmpartirea frecventei clasei la numarul total de elemente din setul de date.

    Definitia 5.13. Ogiva unei serii de distributie de clase cu frecvente relative cumulateeste un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale si asezate pe axa Ox, iarnatimile lor sunt frecventele relative cumulate.

    Ogiva are urmatoarele componente:

    1. Un titlu care identifica populatia.

    2. O scara orizontala pe care sunt marcate frontierele superioare ale claselor.

    3. O scara verticala pe care sunt marcate frecventele relative cumulate pentru fiecareclasa.

    18

  • 6 Parametrii si statistici ai tendintei centrale

    O categorie de caracteristici numerici asociati unui set de date statistice sunt: parametriitendintei centrale n cazul populatiilor si statistici ale tendintei centrale n cazulesantioanelor. Intrucat acestia au definitii analoage vom prezenta doar statistici aletendintei centrale.

    Definitia 6.1. Statistici ale tendintei centrale sunt valori numerice asociate unui setde date statistice care localizeaza ntr-un anumit sens mijlocul multimii de date statistice.

    Definitia 6.2. Media aritmetica a setului de date statistice {x1, x2, ..., xn} este prindefinitie suma acestor date mpartita la numarul datelor

    x =

    ni=1

    xi

    n

    Remarca 6.1. Atunci cand datele sunt prezentate sub forma unei serii de distributie(fara grupare n clase), media aritmetica se gaseste cu formula:

    x =

    mj=1

    xj fjm

    j=1

    fj

    Remarca 6.2. In cazul unei serii de distributie (cu grupare n clase) formula de calcul amediei este:

    x =

    x fxfx

    n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

    Definitia 6.3. Media patratica a setului de date statistice {x1, x2, ..., xn} este prindefinitie numarul:

    xp =

    n

    i=1

    x2i

    n

    Remarca 6.3. Daca datele sunt prezentate sub forma unei serii de distributie (faragrupare n clase), media patratica se gaseste cu formula:

    xp =

    mj=1

    x2j fjm

    j=1

    fj

    19

  • Remarca 6.4. In cazul unei serii de distributie cu grupare n clase media patratica esteprin definitie:

    xp =

    x2 fxfx

    n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

    Definitia 6.4. Media armonica a setului de date statistice {x1, x2, ..., xn} este prindefinitie numarul:

    xh =n

    ni=1

    1

    xi

    Remarca 6.5. Daca datele sunt prezentate sub forma unei serii de distributie (faragrupare n clase), media armonica se gaseste cu formula:

    xh =

    mj=1

    fj

    mj=1

    1

    xj fj

    Remarca 6.6. In cazul unei serii de distributie cu grupare n clase media armonica esteprin definitie:

    xh =

    ni=1

    fx

    ni=1

    1

    x fx

    n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

    Definitia 6.5. Media geometica a setului de date statistice {x1, x2, ..., xn} este prindefinitie numarul:

    xp =n

    n

    i=1

    xi

    Remarca 6.7. Daca datele sunt prezentate sub forma unei serii de distributie (faragrupare n clase), media geometrica se gaseste cu formula:

    Remarca 6.8. In cazul unei serii de distributie cu grupare n clase media geometrica esteprin definitie: n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar sumase extinde pe ansamblul claselor.

    20

  • Definitia 6.6. Mediana me a unui set de date statistice distincte ordonate dupa marimex1 < x2 < ... < xn este numarul care mparte setul de date n doua grupe egale ca numar:

    - daca n = 2 k + 1, atunci me este valoarea de rangul k + 1: me = xk+1;- daca n = 2 k, atunci orice numar ntre valorile xk si xk+1 satisface conditia din

    definitia lui me. In acest caz se convine ca me sa fie media aritmetica a valorilor

    xk si xk+1: me =xk + xk+1

    2.

    Exemplul 6.1. In cazul setului de date statistice:

    4 7 12 26 32 38 59

    mediana este me = 26.In cazul setului de date statistice:

    4 7 12 26 32 38

    mediana este me =12 + 26

    2= 19.

    Remarca 6.9. Mediana me n acest caz are proprietatea ca suma frecventelor valorilormai mari decat me este egala cu suma frecventelor valorilor mai mici decat me.

    Remarca 6.10. Daca datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianeipoate sa nu fie adevarata. In cazul setului de date statistice:

    1 1 1 2 3 3 4

    Seria de distributie corespunzatoare este:

    1 2 3 43 1 2 1

    Conform definitiei lui me n acest caz me = 2, 5. Aceasta valoare a lui me nu raspundecerintei ca me este o valoare cu proprietatea ca valorile mai mari sau mai mici decat eaapar cu frecvente cumulate egale; frecventa celor mai mici este 4, iar frecvena celor maimari este 3.

    Remarca 6.11. Cand datele sunt prezentate sub forma unei serii de distributie cu sau faragrupare me se calculeaza prin procedeul interpolarii liniare, bazate pe ipoteza repartitieiuniforme a frecventelor n intervalul median.

    Definitia 6.7. Mijlocul plajei este prin definitie numarul:

    Mr =L + H

    2

    unde L este cea mai mica valoare, iar H este cea mai mare valoare a variabilei X

    21

  • 7 Parametrii si statistici ai dispersiei

    Dupa ce mijlocul unui set de date a fost stabilit urmatoarea ntrebare naturala este:care sunt parametrii si statisticile care caracterizeaza dispersia (mprastierea) datelor.

    Parametrii si statisticile dispersiei sunt: plaja, deviatia medie absoluta, varianta, deviatiastandard si coeficientul de variatie. Aceste valori numerice descriu marimea mprastieriiori a variabilitatilor datelor. Datele strans grupate vor avea mprastiere mica, iar celecare nu sunt grupate (sunt mprastiate) vor avea o dispersie mai mare.

    Definitia 7.1. Plaja P este diferenta dintre cea mai mare (H) si cea mai mica (L) valoarea valorilor xi dintr-un set de date:

    P = H L

    Deviatia medie absoluta, varianta si deviatia standard masoara dispersia fata de mediaaritmetica.

    Definitia 7.2. Deviatia fata de media aritmetica x a valorii xi a variabilei X estedi = xi x.

    Deviatia este zero daca si numai daca xi = x.Deviatia este pozitiva daca si numai daca xi > x.Deviatia este negativa daca si numai daca xi < x.

    S-ar putea crede ca suma deviatilorn

    i=1

    (xix) poate servi ca masura a dispersiei fata demedia aritmetica. Dar aceasta suma este zero ntotdeauna:

    ni=1

    (xi x) =n

    i=1

    xi n x = n x n x = 0

    Reducerea deviatiilor poate fi eliminata prin folosirea valorii absolute a deviatiilor: xix.Definitia 7.3. Deviatia medie absoluta a setului de date statistice distincte {x1, x2, ..., xn}este prin definitie:

    d =

    ni=1

    |xi x|

    n

    Remarca 7.1. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub formaunei serii de distributie fara grupare de date se calculeaza cu formula:

    d =

    mj=1

    |xj x| fjm

    j=1

    fj

    22

  • Remarca 7.2. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub formaunei serii de distributie cu grupare de date se calculeaza cu formula:

    d =

    |x x| fx

    fx

    n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

    Cu toate ca acest parametru al mprastierii nu se foloseste frecvent, el este o masura amprastierii si arata distanta medie la care se afla o valoare a variabilei X fata de mediaaritmetica.Mai exista o cale de eliminare a reducerii deviatiilor. Ridicand la patrat deviatiileindividuale acestea devin pozitive (sau zero). Cand aceste patrate sunt adunate rezultatul

    este pozitiv. Suma patratelor deviatiilor fata de media aritmetican

    i=1

    (xix)2 este folositan definirea variantei.

    Definitia 7.4. Varianta s2 a setului de date statistice distincte {x1, x2, ..., xn} este prindefinitie:

    s2 =

    ni=1

    (xi x)2

    n

    Remarca 7.3. Daca setul de date este prezentat sub forma unei serii de distributie faragrupare de date varianta s2 se calculeaza cu formula:

    s2 =

    mj=1

    (xj x)2 fjm

    j=1

    fj

    Remarca 7.4. Daca setul de date este prezentat sub forma unei serii de distributie cugrupare de date varianta s2 se calculeaza cu formula:

    s2 =

    (x x)2 fx

    fx

    n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

    Definitia 7.5. Deviatia standard (abaterea standard) s a setului de date statisticedistincte {x1, x2, ..., xn} este prin definitie:

    s =

    ni=1

    (xi x)2

    n

    1

    2

    23

  • Remarca 7.5. Daca setul de date este prezentat sub forma unei serii de distributie faragrupare de date deviatia standard s se calculeaza cu formula:

    s =

    mj=1

    (xj x)2 fjm

    j=1

    fj

    1

    2

    Remarca 7.6. Daca setul de date este prezentat sub forma unei serii de distributie cugrupare de date deviatia standard s se calculeaza cu formula:

    s =

    (x x)2 fx

    fx

    1

    2

    n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

    Remarca 7.7. Deviatia standard a fost definita cu o formula. Se poate pune ntrebareace reprezinta ea n realitate? Un raspuns la aceasta ntrebare poate fi dat cu inegalitatealui Cebsev din care rezulta ca pentru orice serie de distributie fractiunea de date situatala cel mult k unitati de deviatie standard fata de medie este cel putin 1 1

    k2, unde k este

    un numar pozitiv oarecare mai mare ca 1. Rezulta n particular ca pentru orice serie dedistributie fractiunea de date situata la cel mult k = 2 unitati de deviatie standard fata demedie este de cel putin 75% din totalul de date. Daca k = 3 atunci este 89% din totalulde date.Conform regulii empirice daca o serie de repartitie este normala atunci fractiunea de datesituate la cel mult o unitate de deviatie standard fata de medie este aproximativ 68%,iar fractiunea de date situate la cel mult doua unitati de deviatie standard fata de medieeste aproximativ 95%.

    Definitia 7.6. Coeficientul de variatie V este prin definitie:

    V =s

    x 100

    Remarca 7.8. Coeficientul de variatie este o statistica relativa a dispersiei si se folosestela compararea dispersiei diferitelor variabile (caracteristici).

    Remarca 7.9. V poate lua valori ntre 0 si 100%. Daca V este aproape de zero(V < 35%), atunci populatia studiata statistic este omogena si media x este reprezentativapentru aceasta populatie. Daca V este aproape de 100% (V > 75%), atunci populatiastudiata statistic este eterogena si media x nu este reprezentativa. De cele mai multeori n asemenea cazuri este necesara separarea populatiei statistice n mai multe grupeomogene, care se studiaza separat.

    24

  • 8 Parametrii si statistici factoriali ai variantei

    In analiza variantei unui set de date statistice se folosesc urmatorii parametrii factorialiai variantei:

    - varianta de grupa (partiala) s2j

    - media variantelor de grupa s2

    - varianta mediilor de grupa fata de media generala 2

    - varianta totala (generala) s2.

    Definitia 8.1. Pentru o grupa de m date x1, x2, ..., xm, varianta de grupa este definitacu formula:

    s2j =

    mi=1

    (xi xj)2 nijm

    i=1

    nij

    n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j avandfrecventele nij

    Remarca 8.1. Variantele de grupa sunt mai mici decat varianta si au valori mai marisau mai mici n functie de eterogenitatea grupei.

    Definitia 8.2. Prin definitie media variantelor de grupa este:

    s2 =

    kj=1

    s2j njk

    j=1

    nj

    n care k este numarul de grupe, nj =m

    i=1

    nij este numarul de date din grupa.

    Definitia 8.3. Varianta mediilor de grupa fata de media generala este prindefinitie:

    2 =

    kj=1

    (xj x)2 njk

    j=1

    nj

    25

  • 9 Parametrii si statistici ale pozitiei

    Parametrii si statistici ai pozitiei se folosesc pentru a descrie locatia unei date n raportcu celelalte date.

    Definitia 9.1. Quantilele sunt valori numerice care mpart setul de date n q grupeegale. Constanta q se numeste ordinul quantilei.

    Mediana este quantila de ordinul doi.Quantilele de ordinul patru mpart setul de date n patru grupe egale si se numescquartile. Quartilele sunt n numar de trei, notate de obicei cu Q1, Q2, Q3.Quartila Q1 este un numar cu proprietatea ca o patrime din date au valori mai mici decatQ1 si trei patrimi din date au valori mai mari decat Q1.Quartila Q2 este un numar cu proprietatea ca jumatate din date au valori mai mici decatQ2 si jumatate din date au valori mai mari decat Q2. Quartila Q2 este chiar mediana.Quartila Q3 este un numar cu proprietatea ca trei patrimi din date au valori mai micidecat Q3 si o patrime din date au valori mai mari decat Q3.Alte categorii de quantile folosite sunt:

    - decilele care mpart setul de date n 10 grupe egale.

    - centilele care mpart setul de date n 100 grupe egale.

    - promilele care mpart setul de date n 1000 grupe egale.

    Orice set de date are 99 de centile Pk, k = 1..99. Centila Pk este o valoare numerica cuproprietatea ca k% din date are valori mai mici decat Pk, iar (100 k)% din date auvalori mai mari decat Pk.

    Remarca 9.1. Q1 = P25; Q3 = P75; me = Q2 = P50

    Remarca 9.2. Procedeul de determinare a centilei Pk este urmatorul:

    1) datele se ordoneaza crescator;

    2) trebuie gasita pozitia i a centilei k. Prima oara se determina numaruln k100

    , unde

    n este numarul de date. Dacan k100

    nu este un numar ntreg, atunci i este numarul

    ntreg urmator (n k100

    = 17.2 i = 18). Daca n k100

    este un numar ntreg, atunci i

    esten k100

    + 0.5 (n k100

    = 23 i = 23.5).

    3) localizarea valorii Pk: se numara de la valoarea L (cea mai mica valoare a datelor) ivalori daca i este ntreg. Daca i nu este ntreg atunci este un ntreg plus o jumatate.

    In acest caz valoarea Pk este semisuma datelor de pe locurilen k100

    sin k100

    + 1

    O statistica aditionala a pozitiei este scorul standard sau z-scor.

    26

  • Definitia 9.2. Scorul standard sau z-scorul este pozitia valorii x fata de mediana xn unitati de deviatie standard:

    z =x x

    s

    27

  • 10 Seria de distributie a statisticilor

    de esantioane

    Pentru a face inferenta (predictie) asupra parametrilor populatiei, este necesar sa analizamstatisticile de esantioane. Media x n cazul unui esantion nu este neaparat egala cu media a populatiei. Suntem nsa multumiti daca media x este apropiata de . Daca se consideramedia x n cazul unui al doilea esantion aceasta poate sa fie diferita de x si de . Ceea ceputem spera este ca aceasta sa fie apropiata de valoarea si de x. Valabilitatea acestuitip de comportament intereseaza pentru orice populatie si orice statistica.

    Intrebarea care se naste n mod natural este ce nseamna aproape? Cum se masoara si sedetermina aceasta apropiere? Care este seria de distributie a statisticilor de esantioane?

    Definitia 10.1. Seria de distributie a statisticilor de esantioane este seria dedistributie a statisticilor de un anumit tip obtinute pentru esantioane de aceeasi marime.Tipul de statistica poate fi oricare din statisticile prezentate n sectiunile 6 si 7.

    Exemplul 10.1. Se considera o populatie de N elemente de la care se pot obtineurmatoarele date statistice distincte: {0, 2, 4, 6, 8}. In cazul acestei populatii formamesantioane de marime 2 de la care putem avea urmatoarele date statistice:

    (0, 0) (2, 0) (4, 0) (6, 0) (8, 0)(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)

    Pentru aceste esantioane mediile x sunt:

    0 1 2 3 41 2 3 4 52 3 4 5 63 4 5 6 74 5 6 7 8

    Esantioanele fiind aleatoare fiecare esantion, are probabilitatea 1/25 sa fie ales si seria dedistributie a mediilor acestor esantioane este:

    x f (x)0 0.041 0.082 0.123 0.164 0.205 0.166 0.127 0.088 0.04

    unde f (x) este frecventa relativa a mediei x. Diagrama coloana a mediilor esantioaneloreste:

    28

  • Pentru acelasi set de 25 de esantioane putem determina seria de distributie a plajelor Ra acestor esantioane.

    Plajele R ale esantioanelor sunt date n tabelul urmator:

    0 2 4 6 82 0 2 4 64 2 0 2 46 4 2 0 28 6 4 2 0

    Seria de distributie a plajelor acestor esantioane este:

    R f (R)0 0.202 0.324 0.246 0.168 0.08

    iar diagrama coloana a plajei esantioanelor este:

    29

  • Exemplul 10.2. In cazul aruncarii zarului de un numar de N ori, setul de date statisticecare se refera la numarul de pe fata care apare este 1, 2, 3, 4, 5, 6.Formam esantioane care constau din 5 aruncari. Fiecare din aceste esantioane are mediax. Consideram 30 de esantioane de acest fel (nseamna 30 5 = 150 aruncari) si ntr-untabel reprezentam rezultatele precum si mediile corespunzatoare:

    Incercare Esantion x Incercare Esantion x1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.22 4 5 5 4 5 4.6 17 6 1 3 3 5 3.63 3 1 5 2 4 3.0 18 6 5 5 2 6 4.84 5 6 6 4 2 4.6 19 1 3 5 5 6 4.05 5 4 1 6 4 4.0 20 3 1 5 3 1 2.66 3 5 6 1 5 4.0 21 5 1 1 4 3 2.87 2 3 6 3 2 3.2 22 4 6 3 1 2 3.28 5 3 4 6 2 4.0 23 1 5 3 4 5 3.69 1 5 5 3 4 3.6 24 3 4 1 3 3 2.810 4 1 5 2 6 3.6 25 1 2 4 1 4 2.411 5 1 3 3 2 2.8 26 5 2 1 6 3 3.412 1 5 2 3 1 2.4 27 4 2 5 6 3 4.013 2 1 1 5 3 2.4 28 4 3 1 3 4 3.014 5 1 4 4 6 4.0 29 2 6 5 3 3 3.815 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2

    Histograma seriei de distributie a mediilor celor 30 de esantioane este reprezentata nfigura urmatoare:

    30

  • Aceasta lege de repartitie pare sa aibe caracteristicile unei legi de repartitie normala; estemaxim si este simetric fata de media proprie 3.5.

    31

  • 11 Teorema limita centrala

    In sectiunea precedenta am prezentat seria de distributie a mediei si plajei unui set deesantioane. Media este statistica folosita cel mai frecvent n cazul esantioanelor si de aceeaeste foarte importanta. Teorema limita centrala se refera la seria de distributie a medieituturor esantioanelor aleatoare de aceeasi marime n.

    Sa formulam ce anume intereseaza n cazul acestei serii de distributie:

    1) Unde este centrul datelor?

    2) Cat de mare este dispersia datelor?

    3) Care este caracterul seriei de distributie?

    Teorema limita centrala ofera raspuns la aceste trei ntrebari.

    Teorema 11.1. Teorema limita centralaFie media si deviatia standard a unei variabile n cazul unei populatii. Daca seconsidera toate esantioanele aleatoare de marime n din aceasta populatie, atunci seria dedistributie a mediilor acestor esantioane are urmatoarele proprietati:

    a) media x a acestei serii de distributie este egala cu ;

    b) deviatia standard x a acestei serii de distributie esten

    .

    c) daca seria de distributie a variabilei n cazul populatiei este normala, atunci seriade distributie a mediilor esantioanelor este normala; daca seria de distributiei avariabilei n cazul populatiei nu este normala, atunci seria de distributie a mediiloresantioanelor este aproximativ normala pentru esantioane de marime mai mare ca30. Tendinta catre o serie de distributie normala creste daca marimea esantionuluicreste.

    Pe scurt, teorema limita centrala stabileste urmatoarele:

    1) x = , unde x este media esantionului x;

    2) x = /

    n, deviatia standard a mediei este egala cu deviatia standard a populatieimpatita cu radacina patrata a marimii esantionului.

    3) seria de distributiei a mediei esantioanelor este aproximativ normala indiferent deseria de distributiei a variabilei n cazul populatiei.

    Remarca 11.1. Deviatia standard x a seriei de distributie a mediilor esantioaneloreste deviatia standard a mediilor esantioanelor fata de media seriei de distributie aesantioanelor.Nu vom face demonstratie teoremei limita centrala. Vom ilustra nsa validitatea eiexaminand un caz ilustrativ.

    32

  • Consideram o populatie pentru care seria de distributie de date statistice cu frecventerelative n cazul variabilei X este:

    X :

    (2 4 6

    1/3 1/3 1/3

    )

    Media si deviatia standard pentru aceasta variabila sunt:

    =3

    j=1

    xj f xj =

    3j=1

    x2j f xj (

    3j=1

    xj f xj)2

    =12

    3= 4 = 1, 63

    In cazul acestei populatii oricare esantion de marime doi are urmatoarele date posibile:

    (2, 2) (2, 4) (2, 6)(4, 2) (4, 4) (4, 6)(6, 2) (6, 4) (6, 6)

    Esantioanele au urmatoarele medii:

    2 3 43 4 54 5 6

    Esantion Media(2,2) 2(2,4) 3(2,6) 4(4,2) 3(4,4) 4(4,6) 5(6,2) 4(6,4) 5(6,6) 6

    Esantioanele fiind aleatoare fiecare esantion are probabilitatea1

    9sa fie ales si seria de

    distributie a mediilor esantioanelor este:

    X

    (2 3 4 5 6

    1/9 2/9 3/9 2/9 1/9

    )

    Media seriei de distributie a mediilor esantioanelor x este x = 36/9 = 4, 0. Prin urmare = x, iar deviatia standard a repartitiilor mediilor esantioanelor este:

    x =

    5

    j=1

    x2j f xj (

    5j=1

    xj f xj)2

    =

    156

    9

    (36

    9

    )2= 1, 15

    n

    =1, 63

    2=

    1, 63

    1, 44= 1, 15 = x

    Reprezentand seria de distributie a mediilor esantioanelor obtinem:

    33

  • Aceasta diagrama arata ca seria de distributie a mediilor esantioanelor este normala.

    34

  • 12 O aplicatie a teoremei limita centrala

    Teorema limita centrala ofera informatii asupra seriei de distributie a mediilor esan-tioanelor descriind forma repartitiei mediilor tuturor esantioanelor (aproape normala).Ea stabileste relatia dintre media a populatiei si media x a seriei de distributie amediilor tuturor esantioanelor si relatia dintre deviatia standard a populatiei si deviatiastandard x a seriei de distributie a mediilor esantioanelor. Deoarece seria de distributiea mediilor esantioanelor este aproape normala putem stabili legaturi probabiliste dintremedia populatiei si media unui esantion.

    Exemplul 12.1. Consideram o populatie normala cu = 100 si = 20. Daca se alegeun esantion aleator de marime n = 16 care este probabilitatea ca valoarea medie a acestuiesantion sa fie ntre 90 si 110? Altfel spus, cat este P (90 < x < 110)?

    Solutie: Conform teoremei limita centrala repartitia valorilor medii ale esantioaneloreste normala. Prin urmare va trebui sa transformam conditia P (90 < x < 110) ntr-oconditie care sa permita folosirea tabelului de distributie normala standard. Aceasta seface scriind:

    P (90 < x < 110) =

    (110 x

    x

    )

    (90 x

    x

    )=

    =

    (110 100

    x

    )

    (10x

    )= 2

    (10

    x

    ) 1 = F

    (10

    x

    )

    unde (X) =12

    X

    e1

    2t2

    dt si F (X) = (X) 12.

    Deoarece x =n

    , avem x =2016

    = 5 si astfel obtinem:

    P (90 < x < 110) = 2 (2) 1 = 2F (2) = 0.9544

    Efectul cresterii dimensiunii n a esantionului nu afecteaza x = si micsoreaza x. Prinurmare P (90 < x < 110) creste, daca n creste.

    Exemplul 12.2. Inaltimea copiilor la o gradinita are o distributie normala avand o medie = 100 cm cu o deviatie standard de 12, 5 cm. Pentru un esantion aleator de 25 de copiise determina media x. Care este probabilitatea ca aceasta medie sa fie ntre 90 cm si 110cm?

    Solutie:

    P (90 < x < 110) = 2 (

    10

    x

    ) 1 = 2 (4) 1 = 2 F (4) = 2 0.499968

    35

  • 13 Estimarea punctuala a unui parametru; intervalul

    de ncredere

    Consideram o populatie a carei medie nu o cunoastem si ne punem problema s-o gasim.Pentru acest scop consideram un esantion aleator de dimensiune n pentru care determinammedia x. Media x a esantionului este o estimare punctuala a mediei a populatiei.

    Definitia 13.1. O estimare punctuala a parametrului a unei populatii este ovaloare g a unei statistici corespunzatoare.

    Remarca 13.1. Daca x este media esantioanului cu care estimam media necunoscuta a populatiei, aceasta nu nseamna ca x = . In general, x 6= si la ceea ce ne putemastepta este ca x sa fie aproape de . Aceasta apropiere poate fi fixata prin specificareaunui interval (centrat n ) numit interval de estimare.

    Definitia 13.2. Un interval marginit (a, b) folosit pentru a estima valoarea unui anumitparametru a populatiei se numeste interval de estimare. Valorile a, b (capeteleintervalului) sunt calculate din esantion care este folosit pentru estimare.

    Cum anume se poate specifica un interval centrat n care este necunoscut folosind doardate furnizate de un esantion va fi lamurit n continuare.

    Exemplul 13.1. Consideram o populatie avand o deviatie standard cunoscuta, o medie necunoscuta si un esantion aleator simplu de marime n si medie x cunoscute. Conditiax ( 1, + 1) nseamna ca scorul standard z (pentru mediile esantioanelor) dat de:

    z =x x

    x=

    x n

    sa verifice:

    z ( 1n

    ,1n

    ) = (

    n

    ,

    n

    )

    Astfel n termenii scorului standard intervalul de estimare este intervalul (a, b) cu a =

    n

    si b =

    n

    .

    Mai general conditia x ( , + ), nseamna ca scorul standard z (pentru mediileesantioanelor) dat de:

    z =x x

    x=

    x n

    sa verifice:

    z (

    n

    , n

    )

    Intervalul de estimare este (

    n

    , n

    ).

    Definitia 13.3. Nivelul de nencredere este probabilitatea ca statistica esantionuluisa aibe valoarea n afara intervalului de estimare.

    36

  • Conform teoremei de limita centrala, repartitia lui x este normala sau aproape normalasi avem:

    P ( 1 < x < + 1) = P(

    n

    < z 4, 9/106 este afirmatia: valoarea medie este mai mare ca 4, 9/106.

    Inegalitatea 4, 9/106 este echivalenta cu < 4, 9/106 sau = 4, 9/106 si esteafirmatia contrara: valoarea medie nu este mai mare ca 4, 9/106.

    Ecologistul sustine ca > 4, 9/106. Pentru a formula ipoteza H0 si ipoteza Ha reamintimca:

    1) In general, ipoteza H0 sustine ca media (parametrul n chestiune) are o valoarespecifica anume.

    2) Inferenta privind media a populatiei se bazeaza pe media unui esantion si mediileesantioanelor au o distributie aproximativ normala. (conform teoremei limitacentrala).

    3) O distributie normala este complet determinata daca valoarea medie si deviatiastandard a distributiei sunt cunoscute.

    Cele de mai sus sugereaza ca afirmatia = 4, 9/106 ar trebui sa fie ipoteza nula si afirmatia > 4, 9/106 ar trebui sa fie ipoteza alternativa:

    H0 : = 4, 9/106

    Ha : > 4, 9/106

    Reamintim ca dupa ce ipoteza nula H0 este formulata, n testul statistic identificat sepresupune ca H0 este adevarata. Aceasta nseamna ca = 4, 9/10

    6 este egala cu media

    41

  • distributiei mediilor esantioanelor x si este o ratiune n plus pentru care ipoteza H0trebuie scrisa doar cu semnul egal

    H0 : = 4, 9/106.

    Daca admitem ca afirmatia = 4, 9/106 sau < 4, 9/106 este ipoteza nula H0, atunci:

    H0 : 4, 9/106Ha : > 4, 9/10

    6.

    Remarca 15.1. Semnul egal trebuie sa fie inclus totdeauna n ipoteza nula. In acestexemplu asertiunea ecologistului este exprimata de fapt n Ha si aceasta este analizat.

    Exemplul 15.2. Vom considera acum o a doua asertiune; de exemplu al Camerei deComert, care sustine ca nivelul mediu al monoxidului de carbon n centrul orasuluiTimisoara este mai mic decat 4, 9/106 (valoare normala). Aceasta este o reclama bunapentru turism.

    Si n acest caz parametrul este media a repartitiei monoxidului de carbon. Valoareaspecifica este 4, 9/106 care este valoare normala.

    < 4, 9/106 valoarea medie este mai mica decat valoarea medie normala 4, 9/106 valoarea medie este mai mare sau egala decat valoarea

    medie normala

    H0, Ha pot fi formulate astfel:

    H0 : 4, 9/106Ha : < 4, 9/10

    6

    Si de data aceasta asertiunea Camerei de Comert este exprimata n Ha si aceasta trebuieanalizata.

    Exemplul 15.3. O a treia asertiune (mai neutra) sustine doar ca nivelul mediu almonoxidului de carbon n aerul din centrul orasului Timisoara este diferit de 4, 9/106

    (valoarea normala diferita de ).In acest caz:

    H0 : = 4.9/106 si Ha : 6= 4, 9/106

    Cele trei exemple arata ca asertiunea care trebuie analizata determina ntr-un anumit sensformularea ipotezelor H0, Ha. Mai exact: n aceste cazuri asertiunea sustine ca valoareaparametrului este diferita de cea normala, iar ipoteza nula sustine ca este aceeasi (nudifera).

    In cazul acestor exemple, cei care si formuleaza asertiunea se asteapta la respingereaipotezei nule H0 si la acceptarea ipotezei alternative Ha care este o afirmatie conforma cuasertiunea lor.

    Situatiile de la procesele juridice prezinta o oarecare asemanare cu cele relatate. Dacaprocurorul nu crede n vinovatia inculpatului nu intenteaza proces (ipoteza H0 prezumtiade nevinovatie este presupusa adevarata). Procesul se declanseaza doar daca procurorulare suficiente probe pentru a face proces.

    42

  • Si n statistica daca experimantatorul crede n ipoteza H0 nu face test pentru investi-garea lui H0. El testeaza ipoteza nula doar daca doreste sa arate ca Ha este corecta.

    Exemplul care urmeaza ilustreaza toate cele cinci etape de verificare a ipotezelor statisticen cazul unei asertiuni care se refera la media unei populatii.

    Exemplul 15.4. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media a acestor rezultate este 72 si abaterea standard este = 12. Clasa de 36 de elevi pecare-i nvata la momentul actual are o medie x = 75, 2 (mai ridicata decat media = 72)si profesorul afirma ca aceasta clasa este superioara celor de pana acum. Intrebarea estedaca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia profe-sorului la nivelul de semnificatie = 0, 05.Mentionam ca pentru ca aceasta clasa sa fie superioara trebuie sa aibe o medie mai maredecat toate clasele dinainte. Daca media ei este egala sau mai mica decat media uneiclase anterioare, atunci ea nu este superioara.Daca se considera esantioane aleatoare de marime n = 36 dintr-o populatie cu media = 72, multe esantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.Doar medii x care sunt considerabil mai mari decat 72 vor sustine afirmatia profesorului.De aceea:

    Etapa 1. H0 : x = = 72 clasa nu este superioara

    Etapa 2. Ha : x = > 72 clasa este superioara

    Etapa 3. - Atunci cand n ipoteza nula H0 media populatiei si deviatiastandard sunt cunoscute scorul standard z este folosit ca si teststatistic.

    - Nivelul de semnificatie = 0, 05 este dat;

    - Reamintim ca n baza teoremei limita centrala distributiamediilor esantioanelor este aproape normala. Prin urmare,distributia normala va fi folosita pentru determinarea regiu-nii critice. Regiunea critica este egala cu multimea valo-rilor scorului standard z care determina respingerea ipotezeiH0 si este situata la extremitatea dreapta a distributiei nor-male. Regiunea critica este la dreapta deoarece valori mariale mediei esantionului sustin ipoteza H0 n timp ce valoriapropiate ori sub 72 sustin ipoteza nula.

    Figura 1:

    43

  • Valoarea critica ce desparte zona valorilor nu este superior de zona valorilor este su-perior este determinata de probabilitatea de a comite o eroare de tip I. = 0, 05 afost data. Astfel regiunea critica hasurata pe Figura 2. are aria 0, 05 si valoarea critica

    1, 65 este solutia ecuatiei:12

    z

    et2

    2 dt = 0, 05.

    Figura 2:

    Etapa 4. Valoarea testului statistic este dat de:

    z =x

    n

    =75, 2 72

    12/6= 1, 6

    Etapa 5. Comparam valoarea gasita 1, 6 cu valoarea critica 1, 65 si gasim 1, 6 alternativa

    Regiunea critica O regiune Doua regiuni O regiunela stanga de fiecare la dreapta

    parte cate unatest unilateral test bilateral test unilateral

    stanga dreapta

    3. Pentru multe cazuri semnul din ipoteza Ha indica directia n care regiunea criticase gaseste

    Valoarea lui se numeste nivel de semnificatie si reprezinta riscul (probabilitatea)respingerii lui H0 atunci cand aceasta estea adevarata. Nu putem determina

    46

  • daca ipoteza H0 este adevarata sau falsa. Putem doar decide ca o respingemsau ca o acceptam.Probabilitatea cu care respingem ipoteza adevarata este , dar nu stim probabilitatea cucare facem o decizie eronata. O eroare de tip I si o eroare n decizie sunt lucruri diferite.

    47

  • 16 Verificarea ipotezelor statistice:

    varianta probabilista

    In sectiunea precedenta am descris varianta clasica de verificare a ipotezelor statisticen cazul asertiunilor referitoare la media a unei populatii. O varianta probabilistaconsta n determinarea unei probabilitati numita p-valoarea (prob-valoare) referitoarela o statistica observata, care este comparata cu nivelul de semnificatie dat.

    Definitia 16.1. P-valoarea unui test statistic este cea mai mica valoare a niveluluide semnificatie pentru care informatia extrasa din esantion este semnificativa (H0adevarata se respinge).

    Consideram din nou exemplul 15.4 din sectiunea precedenta si-l analizam din acest punctde vedere.

    Exemplul 16.1. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media a acestor rezultate este 72 si dispersia = 12. Clasa de 36 de elevi pe care-i nvatala momentul actual are o medie x = 75, 2 . Aceasta medie fiind mai ridicata decat 72profesorul vrea sa arate ca aceasta clasa este superioara celor de pana acum. Intrebareaeste daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatiaprofesorului la nivelul de semnificatie = 0, 05?Precizam ca pentru a putea sustine ca actuala clasa este mai buna decat toate celelalteclase anterioare trebuie ca media clasei actuale sa fie mai mare decat media oricarei clasedinainte. Daca media clasei actuale este mai mica sau egala cu media unei clase anterioare,atunci clasa actuala nu este mai buna decat toate celelalte.

    Etapa 1. Formularea ipotezei H0: H0 : x = = 72.Aceasta ipoteza corespunde asertiunii ca actuala clasa nu este superioaracelorlalte clase.

    Etapa 2. Formularea ipotezei alternative Ha: Ha : x = > 72.Aceasta ipoteza corespunde asertiunii ca actuala clasa este superioaracelorlalte clase.

    Remarcam faptul ca etapele 1 si 2 sunt aceleasi n varianta probabilista ca si n variantaclasica de verificare a ipotezelor statistice.

    Etapa 3. Specificarea nivelului de semnificatie , a probabilitatii erorii de tip I: = 0, 005.

    Etapa 4. Folosind formula scorului standard (z-scorului) si media x = 75, 2 aesantionului de marime n = 36 se determina valoarea testului statistic:

    z =x

    n

    = 1, 60

    Remarcam aici ca Etapa 4 n varianta probabilista este aceeasi ca sivarianta clasica de verificare a ipotezelor statistice.

    48

  • Etapa 5. Se reprezinta distributia normala a mediilor (testul statistic) n acestcaz si se localizeaza valoarea z determinata n Etapa 4 (care mpartedistributia n doua parti) si se determina care parte a distributieireprezinta pvaloarea.Dupa care se determina pvaloarea. Ipoteza alternativa Ha arata ca ncazul nostru:

    p = P (z > z) = P (z > 1, 6) = 0, 0548

    Etapa 6. p-valoarea n cazul nostru este 0, 0548. Prin urmare pentruorice nivel de semnificatie 0, 0548 nu putem respingeipoteza nula si concluzia este ca nu avem probe suficiente pen-tru a demonstra superioritatea clasei actuale. Daca nsa nivelul desemnificatie fixat la nceput este mai mare ca 0, 0548 (de ex. = 0, 1)atunci decizia noastra va fi de respingere a ipotezei H0 si concluzia desuperioritate a clasei actuale.

    Figura 5:

    Inainte sa trecem la un al doilea exemplu recapitulam cateva detalii privind verificareaipotezelor statistice n varianta probabilista:

    1. Ipotezele H0 si Ha se formuleaza n aceeasi maniera ca si n varianta clasica.

    2. Se specifica nivelul de semnificatie care va fi folosit.

    3. Valoarea testului statistic se calculeaza n Etapa 4 de aceeasi maniera ca n variantaclasica.

    4. P-valoarea este aria aflata ntre curba de densitate de probabilitate axa Oz si z = z.Exista trei cazuri posibile: doua unilaterale si unul bilateral. Directia (sau semnul)n ipoteza Ha este indiciul:

    Cazul 1. Daca Ha este unilaterala la dreapta ( > ) atunci p = P (z > z) si aria este

    n dreapta lui z.

    Cazul 2. Daca Ha este unilaterala stanga ( < ), atunci p = P (z < z) este aria din

    stanga lui z.

    Cazul 3. Daca Ha este bilaterala ( 6= ), atunci p = P (z < |z|) + P (z > |z|) =2 P (z > |z|)

    49

  • 5. Decizia se ia comparand P -valoarea cu nivelul de semnificatie :

    a) Daca P atunci H0 se respinge;b) Daca P > atunci H0 se accepta.

    6. Concluzia se formuleaza de aceeasi maniera ca si n varianta clasica.

    Consideram acum un exemplu n care Ha este bilateral.

    Exemplul 16.2. Companii mari folosesc agentii specializate pentru a testa candidatiicare doresc sa fie angajati. Agentia A foloseste un test de selectie pentru care n decursultimpului s-a stabilit o medie de 82 si o deviatie standard de 8. Agentia B a dezvoltato noua metoda de testare care este mai rapida, mai usor de aplicat si costa mai putin.Agentia B sustine ca testul lor da aceleasi rezultate ca si testul agentiei A.Mai multe companii, pentru a reduce costul, se gandesc sa treaca de la agentia A laagentia B, dar ei nu doresc sa faca aceasta trecere daca media cu teste B difera de ceacu teste A. O agentie independenta C a testat cu noul test 36 de indivizi si a obtinut omedie de 80.Care este pvaloarea asociata acestui test?Rezultatul testului agentiei B este acelasi daca = 82 si este diferit daca 6= 82. Prinurmare:

    Etapa 1. H0 : = 82 (testele au aceeasi medie)

    Etapa 2. Ha : 6= 82 (testele au medii diferite)

    Etapa 3. Este omisa daca se cere p-valoarea fara luarea unei decizii.

    Etapa 4. Informatia din esantion: n = 36 si x = 80:

    z =x

    n

    =28

    6

    = 128

    = 32

    = 1.5

    Etapa 5. Se localizeaza z pe o distributie normala si deoarece Ha este bilateralvom considera P (z < |z|) si P (z > |z|) si obtinem:

    p = P (z < 1, 50) + P (z > 1, 50)= 0, 5 0, 4332 + 0, 5 0, 4332 = 0, 1336

    deci p valoarea este 0, 1336.

    50

  • Figura 6:

    Fiecare companie va lua propria decizie: a) continua cu A sau b) schimba si trece laB. Fiecare va trebui sa stabileasca propriul nivel de semnificatie si sa ia o decizie nconsecinta.

    51

  • 17 Inferenta statistica privind media populatiei daca

    nu se cunoaste abaterea standard a populatiei

    Pana acum am prezentat doua tipuri de inferenta statistica privind media populatiei:evaluarea intervalului de ncredere si verificarea ipotezelor statistice. In cele douatipuri de inferente statistice abaterea standard este considerata cunoscuta. In generalnsa abaterea standard nu este cunoscuta. Subiectul acestei sectiuni este inferentastatistica privind media daca abaterea standard nu este cunoscuta.

    Daca dimensiunea esantionului este suficient de mare (n general vorbind, esantioanea caror marimi este mai mare decat n = 30 de date sunt considerate suficient de mari),deviatia standard s a esantionului este o estimare buna a deviatiei standard a populatiei siputem susbstitui cu s n procedura discutata deja. Daca populatia pe care o investigameste aproape normala si n 30, atunci procedeul se bazeaza pe distributia Student t.Distributia Student t (sau simplu t distributia) este distributia statisticii t, definita prin:

    t =x

    sn

    In anul 1908 W.S. Gosset un functionar la o fabrica de bere n Irlanda a publicat olucrare relativa la aceasta distributie sub pseudonimul Student. In lucrarea lui Gossetse presupune ca populatia este normala. Aceasta restrictie s-a dovedit ulterior restrictiva,ntrucat se obtin rezultate satisfacatoare si pentru multe populatii care nu sunt normale.Ecuatia care defineste distributia t nu o dam aici, doar dam cateva proprietati ale lui t:

    1) distributia t are media 0;

    2) distributia t este simetrica fata de medie;

    3) distributia t are varianta supraunitara, dar daca dimensiunea esantionului creste,varianta tinde la 1;

    4) distributia t n jurul mediei este sub si departe de medie este deasupra distributieinormale;

    5) fiecarei marimi de esantion i corespunde o distributie t separata care depinde demarimea esantionului. Daca marimea esantionului creste atunci t- distributia tindela distributia normala.

    52

  • Figura 7:

    Cu toate ca pentru fiecare marime de esantion (n=2,3,4,...) avem o distributie t separatacompleta, n practica doar anumite valori critice ale lui t sunt folosite. Aceste valori criticeaflate n dreapta mediei sunt redate n tabelul urmator:

    0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005df1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,62 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,603 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,944 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,6105 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,8596 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,9597 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,4058 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,0419 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,78110 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,58711 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,43712 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,31813 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,22114 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,14015 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,07316 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015

    53

  • 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005df17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,96518 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,92219 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,88320 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,85021 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,81922 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,79223 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,76724 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,74525 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,72526 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,70727 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,69028 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,67429 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646

    Figura 8:

    In acest tabel df are valorile de la 1 la 29 si este numarul gradelor de libertate.Apropierea valorilor din liniile corespunzatoare lui df = 29 si z se datoreaza faptuluica daca n 30 distributia t este cea normala (teorema limita centrala).Gradul de libertate df este un parametru statistic care este greu de definit. El este unindice care se foloseste pentru a identifica distributia care trebuie folosita. In consideratiilenoastre df = n 1, unde n este marimea esantionului. Valoarea critica a testului t caretrebuie folosita n estimarea intervalului de ncredere precum si n verificarea ipotezelorstatistice se obtine din tabelul prezentat. Pentru a obtine aceasta valoare este nevoie dea cunoaste:

    1) df - numarul gradelor de libertate;

    2) aria determinata de curba de repartitie aflata n dreapta valorii critice. Aceastavaloare este notata t(df, ).

    54

  • Exemplul 17.1. Determinati t(10, 0.05) din tabel. Avem df = 10 si = 0.05, decit(10, 0.05) = 1.81.Valorile critice ale testului statistic t aflate n stanga mediei se obtin cu formula: t(df, ),tinand seama de simetria distributiei t.

    Figura 9:

    Se observa usor ca t(df, ) = t(df, 1 ). Astfel: t(df ; 0, 05) = t(df ; 0, 95).Exemplul 17.2. Determinati t(15; 0, 95). Avem: t(15; 0, 95) = t(15; 0, 05) = 1, 75.

    Figura 10:

    Statistica t este folosita n verificarea ipotezelor statistice privind asertiuni relative lamedia de aceeasi maniera ca si statistica z.

    Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere alecologistului este: nivelul monoxidului de carbon n aer este mai mare decat 4, 9/106.Un esantion de 25 de determinari cu media x = 5, 1/106 si s = 2, 1/106 este un argumentsuficient pentru a sustine afirmatia? Se foloseste nivelul de semnificatie = 0, 05.

    Etapa 1. H0 : = 4, 9/106

    Etapa 2. Ha : > 4, 9/106

    55

  • Etapa 3. = 0, 05; df = 25 1 = 24 si t(24; 0, 05) = 1, 71 din tabel.

    Etapa 4.

    t =x

    sn

    =5, 1 4, 92, 1/

    25

    =0, 20

    0, 42= 0, 476 ' 0, 48

    Etapa 5. Decizia: Nu putem respinge H0 (t nu este n regiunea critica).

    Concluzie: Nu avem suficiente argumente pentru ca sa respingemipoteza ca nivelul monoxidului de carbon este 4, 96/106.

    Figura 11:

    Remarca 17.1. Daca valoarea df (df = n 1) este mai mare ca 29, atunci valoareacritica a lui t(df, ) este foarte apropiata de z() (scorul z este listat la capatul tabelului)si prin urmare n loc de t(df, ) se foloseste z(). Deoarece tabelul considerat contine doarvalorile critice ale distributiei t, p-valoarea nu poate fi gasita din tabel n cazul verificariiipotezei statistice pentru ca aceasta necesita distributia t completa. P-valoarea poate finsa estimata folosind tabelul.

    Exemplul 17.4. Sa revenim la exemplul 17.3. Retinem t = 0, 48, df = 24 si Ha : > 49.Astfel pentru a rezolva problema folosind varianta probabilista pentru Etapa 5 cu p-valoarea avem:

    p = P (t > 0, 48, stiind df = 24)

    56

  • Figura 12:

    Randul df = 24 din tabel arata ca p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 dintabel arata ca P (t > 0, 685) = 0, 25 asa cum arata figura urmatoare:

    Figura 13:

    Comparand t = 0, 48, vedem ca p valoarea este mai mare ca 0, 25.Exemplul 17.5. Sa se determine pvaloarea pentru urmatoarea ipoteza statistica:

    H0 : = 55

    Ha : 6= 55n conditiile n care df = 15 si t = 1, 84.

    Solutie: p = P (t < 1, 84) + P (t > 1, 84) = 2 P (t > 1, 84). Randul df = 15 din tabelarata ca P (t > 1, 84) este ntre 0, 025 si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.

    Media populatiei poate fi estimata daca este necunoscut de o maniera similara cu cazul cunoscut. Diferenta este ca se foloseste distributia t n loc de distributia z si deviatiastandard s ca estimare a lui . Formula pentru intervalul de ncredere 1 este:

    (x t(df,

    2) s

    n, x + t(df,

    2) s

    n

    )

    57

  • Figura 14:

    unde df = n 1.Exemplul 17.6. In cazul unui esantion aleator de 20 de noi nascuti, media greutatii loreste 3, 4 kg si deviatia standard este 0, 9 kg. Sa se estimeze cu o ncredere de 95% mediagreutatii noilor nascuti.

    Solutie: x = 3, 4 kg, s = 0, 9 kg si n = 20, iar 1 = 0, 95, implica: = 0, 05; df = 19,iar din tabel gasim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:

    x t(19; 0, 025) sn

    = 3, 4 2, 09 0, 920

    3, 4 2, 09 0, 94, 472

    = 3, 4 0, 46

    Intervalul de ncredere de 95% este (2, 94; 3, 86).

    58

  • 18 Inferenta relativa la varianta si estimarea variantei

    Adesea se pun probleme care cer sa facem inferenta asupra variantei. De exemplu, ocompanie de produse racoritoare are o masina de mbuteliat, care umple cu racoritoarebutelii de 0, 32 l= 32 cl. Cantitatea medie pusa n fiecare butelie este importanta, darcantitatea medie corecta nu asigura ca masina lucreaza corect. Daca varianta este mare,vor fi multe butelii care sunt prea umplute si multe butelii care nu sunt bine umplute.De aceea, compania doreste sa controleze varianta 2 a cantitatii x de racoritoare pusa nfiecare butelie si sa mentina varianta la un nivel cat mai scazut posibil.

    Vom prezenta n aceasta sectiune o inferenta privind varianta unei populatii. Adesea ncazul acestei inferente se vorbeste despre deviatia standard n loc de varianta. Trebuie sasubliniem ca deviatia standard este radacina patrata a variantei; asadar a vorbi desprevarianta este comparabil cu a vorbi despre deviatie standard.Sa revenim la exemplul companiei de produse racoritoare. Sa ne imaginam ca aceastacompanie doreste sa detecteze cand variabilitatea cantitatii de racoritoare pusa n fiecarebutelie scapa de sub control. O varianta de 0, 0004 este considerata acceptabila sicompania va regla masina de mbuteliat daca varianta devine mai mare decat aceastavaloare. Decizia va fi luata folosind verificarea ipotezelor statistice. Ipoteza H0 este cavarianta are valoarea 0, 0004, iar ipoteza Ha este ca varianta depaseste valoarea 0, 0004:

    H0 : 2 = 0, 0004 (varianta este controlata)

    Ha : 2 > 0, 0004 (varianta nu este controlata)

    Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul 2.

    Valoarea calculata a lui 2 se va obtine folosind formula:

    2 =n s22

    unde s2 este varianta esantionului, n este marimea esantionului, iar 2 este valoareaspecificata n ipoteza nula.

    Daca se iau esantioane de marime n dintr-o populatie normala, avand varianta 2, atuncicantitatea n s2/2 are o distributie care se numeste distributia 2. Formula care definestedistributia 2 nu o vom da aici, dar pentru a folosi distributia 2, prezentam urmatoareleproprietati ale acesteia:

    1. distributia 2 are valori nenegative, este zero sau este pozitiva;

    2. distributia 2 nu este simetrica, este asimetrica la dreapta;

    3. exista mai multe repartitii 2. Ca si pentru distributiile t exista o distributie 2

    pentru fiecare grad de libertate. Inferenta pe care o discutam aici se refera la cazuldf = n 1.

    Valorile critice ale lui 2 sunt date n tabelul urmator:

    59

  • df/ 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.0052 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.63 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.94 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.95 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.86 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.67 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.38 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.09 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.610 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.211 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.812 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.313 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.814 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.315 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.816 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.317 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.718 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.219 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.620 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.021 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.422 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.823 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.224 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.625 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.926 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.327 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.728 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.029 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.330 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.740 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.850 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.560 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.070 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.080 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.090 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0

    60

  • Figura 15:

    Valorile critice vor fi identificate prin doua valori: grade de libertate si aria situata subcurba n dreapta valorii critice. Astfel 2(df, ) este simbolul folosit pentru identificareavalorii critice 2 cu df grade de libertate si cu aria sub grafic si n dreapta, asa cumeste prezentat pe figura urmatoare:

    Figura 16:

    Exemplul 18.1. Folosind tabelul determinati 2(20; 0, 05) si 2(14; 0, 90).Din tabel se obtine: 2(20; 0, 05) = 31, 4 si 2(14; 0, 90) = 7, 79.

    Remarca 18.1. Daca df > 2 valoarea medie a lui 2 este df . Valoarea medie estelocalizata n dreapta modului (locul n care curba atinge valoarea maxima).

    61

  • Figura 17:

    Exemplul 18.2. Reluam cazul companiei de produse racoritoare care doresc sa controlezevarianta ca sa nu depaseasca 0, 0004. Un esantion de marime 28 cu o varianta de 0, 0010indica oare la nivelul de semnificatie 0, 05 ca procesul de mbuteliere nu este sub control(referitor la varianta)?

    Solutie:Etapa 1. H0 :

    2 = 0, 0004 (procesul este sub control)

    Etapa 2. H0 : 2 > 0, 0004 (procesul nu este sub control)

    Etapa 3. = 0, 05, n = 28, df = 27 si obtinem din tabel:

    2(27; 0, 005) = 40, 1.Etapa 4.

    2 =n s22

    =28 0, 0010

    0, 0004= 70

    Etapa 5. Luarea deciziei.

    Figura 18:

    62

  • Concluzia: Procesul de mbuteliere este sub control n ceea ce priveste varianta.

    Exemplul 18.3. Specificatiile unui anumit medicament indica ca fiecare comprimattrebuie sa contina 2,5 g de substanta activa. 100 de comprimate alese la ntamplaredin productie sunt analizate. Ele contin n media 2,6 g de substanta activa cu o deviatiastandard de s = 0, 4g.Se poate spune ca medicamentul respecta specificatiile ( = 0, 05)?

    Etapa 1. Ipoteza H0 este ca medicamentul respecta specificatiile:

    H0 : = 2, 5

    Etapa 2. Ipoteza Ha este ca medicamentul nu respecta specificatiile:

    H0 : 6= 2, 5Etapa 3. Statistica folosita este media x, iar nivelul de semnificatie este = 0, 05.

    Regiunea critica este:

    Etapa 4. Testul statistic este:

    z =x

    sn

    =2, 6 2, 5

    0, 4

    10

    =0, 1

    0, 04= 2, 5

    Valoarea lui z n tabel este: z0,975 = 1, 96 < 2, 5.Etapa 5. Ipoteza H0 este respinsa, asadar nu putem spune ca medicamentul

    respecta specificatiile.Abordarea probabilista a inferentei statistice asupra variantei, p-valoarea poate fi estimatapentru verificarea ipotezelor statistice folosind tabelul statistic 2 de aceeasi maniera casi n cazul testului Student.

    Exemplul 18.4. Sa se determine p-valoarea n cazul urmatoarelor ipoteze statistice:

    H0 : 2 = 150

    Ha : 2 > 150

    Se cunosc: df = 18 si 2 = 32, 7.

    Solutie: p = P (2 > 32, 7) (0, 010; 0, 025) (date citite din tabel).Exemplul 18.5. Un parametru folosit n determinarea utilitatii unui examen ca masuraa abilitatii studentilor este mprastierea rezultatelor. Un set de rezultate al unui testare valoare mica daca plaja notelor este mica. Din contra daca plaja notelor este mare,este o diferenta mare ntre rezultatul cel mai bun si rezultatul cel mai slab, atunci testulare valoare mai mare. La un test la care nota maxima este de 100 de puncte s-a pretinsca o deviatie standard de 12 puncte este de dorit. Pentru a vedea daca un anume testde o ora a fost sau nu un test bun din acest punct de vedere un profesor verifica aceastaipoteza statistica la nivelul de semnificatie = 0, 05 folosind rezultatele obtinute de clasa.Au fost 28 de rezultate si deviatia standard gasita a fost 10, 5. Constituie aceasta o probala nivelul de semnificatie = 0, 05 ca examenul nu are deviatia standard specificata?

    Solutie: n = 28, s = 10, 5 si = 0, 05Etapa 1. H0 : = 12

    63

  • Etapa 2. H0 : 6= 12

    Etapa 3. = 0, 05, df = 27 si obtinem valorile critice din tabel:

    21(27; 0, 975) = 14, 6 si 22(27; 0, 025) = 43, 2.

    Etapa 4.

    2 =n s22

    =28 (10, 5)2

    (12)2=

    3087

    144= 21, 43

    Etapa 5. Nu se poate respinge H0.Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0

    64

  • 19 Generalitati despre corelatie.

    Corelatie liniara

    In statistica adesea apar probleme de genul urmator: pentru aceeasi populatie avem douaseturi de date corespunzatoare la doua variabile distincte si se pune ntrebarea daca ntrecele doua variabile exista vreo legatura (relatie)? Daca da, care este aceasta relatie? Cumsunt aceste variabile corelate? Relatiile pe care le discutam aici nu sunt neaparat de tipcauza-efect. Ele sunt relatii matematice care permit anticiparea comportamentului uneivariabile n functie de comportamentul celeilalte. Iata cateva exemple:

    Exemplul 19.1.

    - In general o persoana care creste n naltime creste si n greutate. Se pune ntrebarea:exista vreo relatie ntre naltime si greutate?

    - Studentii si petrec timpul la universitate nvatand sau dand examene. Se punentrebarea: studiind mai mult, obtii note mai mari?

    - Doctorii care testeaza un nou medicament prescriu cantitati diferite si observaraspunsul pacientilor; se pune ntrebarea: cantitatea de medicament prescrisadetermina oare timpul de nsanatosire al pacientului?

    Problemele din exemplul precedent cer analiza corelatiei dintre doua variabile.

    In cazul n care pentru o populatie avem doua seturi de date corespunzatoare la douavariabile distincte se formeaza perechile de date (x, y), n care x este valoarea primeivariabile si y este valoarea celei de-a doua variabile. De exemplu, x este natimea si y estegreutatea.O pereche ordonata de date (x, y) se numeste data bidimensionala.

    In mod traditional, variabila X (avand valorile x) se numeste variabila de intrare(variabila independenta), iar variabila Y (avand valorile y) se numeste variabila deiesire (variabila dependenta).

    Variabila de intrare X este cea masurata sau controlata pentru a prezice variabila Y .

    In cazul testarii medicamentului doctorii (masoara) controleaza cantitatea de medicamentprescrisa si deci aceasta cantitate x este valoarea variabilei de intrare (independenta) X.Timpul de recuperare y este valoarea variabilei de iesire (dependente) Y .

    In cazul naltimii si greutatii oricare din variabile poate fi atat variabila de intrare cat sivariabila de iesire. Rezultatele analizei vor fi nsa functie de alegerea facuta.

    In cazul problemelor de analiza a corelatiei dintre doua variabile datele esantionului seprezinta sub forma unei diagrame de mprastiere.

    Definitia 19.1. O diagrama de mprastiere sau nor de puncte este reprezentareagrafica a perechilor de date ntr-un sistem de coordonate ortogonal. Valorile x ale variabileide intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de iesire Y suntreprezentate pe axa Oy.

    65

  • Exemplul 19.2. Pentru un esantion de 15 studenti urmatorul tabel de date reprezintanumarul de ore de studiu x pentru un examen si nota y obtinuta la acel examen:

    x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9

    Diagrama de mprastiere n acest caz este:

    Exemplul 19.3. Diagrama de mprastiere n cazul tabelului de date:

    x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 1


Recommended