+ All Categories
Home > Documents > Statistica - notite de curs

Statistica - notite de curs

Date post: 09-Dec-2016
Category:
Upload: ngoque
View: 387 times
Download: 15 times
Share this document with a friend
89
Statisticˇ a - notit ¸e de curs S ¸tefan Balint, Loredana Tˇanasie Cuprins 1 Ce este statistica? 3 2 Not ¸iuni de bazˇ a 5 3 Colectarea datelor 7 4 Determinarea frecvent ¸ei ¸ si gruparea datelor 11 5 Prezentarea datelor 14 6 Parametrii ¸ si statistici ai tendint ¸ei centrale 19 7 Parametrii ¸ si statistici ai dispersiei 22 8 Parametrii ¸ si statistici factoriali ai variant ¸ei 25 9 Parametrii ¸ si statistici ale pozit ¸iei 26 10 Seria de distribut ¸ie a statisticilor de e¸ santioane 28 11 Teorema limitˇ a centralˇ a 32 12 O aplicat ¸ie a teoremei limitˇ a centralˇ a 35 13 Estimarea punctualˇ a a unui parametru; intervalul de ˆ ıncredere 36 14 Generalitˇ at ¸i privind ipotezele statistice ¸ si problema verificˇ arii ipotezelor statistice 38 1
Transcript
Page 1: Statistica - notite de curs

Statistica - notite de curs

Stefan Balint, Loredana Tanasie

Cuprins

1 Ce este statistica? 3

2 Notiuni de baza 5

3 Colectarea datelor 7

4 Determinarea frecventei si gruparea datelor 11

5 Prezentarea datelor 14

6 Parametrii si statistici ai tendintei centrale 19

7 Parametrii si statistici ai dispersiei 22

8 Parametrii si statistici factoriali ai variantei 25

9 Parametrii si statistici ale pozitiei 26

10 Seria de distributie a statisticilorde esantioane 28

11 Teorema limita centrala 32

12 O aplicatie a teoremei limita centrala 35

13 Estimarea punctuala a unui parametru; intervalul de ıncredere 36

14 Generalitati privind ipotezele statistice si problema verificarii ipotezelorstatistice 38

1

Page 2: Statistica - notite de curs

15 Verificarea ipotezelor statistice: varianta clasica 41

16 Verificarea ipotezelor statistice: varianta probabilista 48

17 Inferenta statistica privind media populatiei daca nu se cunoasteabaterea standard a populatiei 52

18 Inferenta relativa la varianta si estimarea variantei 59

19 Generalitati despre corelatie. Corelatie liniara 65

20 Analiza de corelatie liniara 73

21 Inferenta privind coeficientul de corelatie liniara 76

22 Regresie liniara 80

23 Analiza de regresie liniara 83

24 Inferenta referitoare la panta unei drepte de regresie liniara 87

2

Page 3: Statistica - notite de curs

1 Ce este statistica?

Definitia 1.1. Statistica este stiinta colectarii, clasificarii, prezentarii, interpretariidatelor numerice si a folosirii acestora pentru a formula concluzii si a lua decizii.

Definitia 1.2. Statistica descriptiva se ocupa cu colectarea, clasificarea si prezentareadatelor numerice.

Definitia 1.3. Statistica inferentiala (inferential statistics) se ocupa cu interpretareadatelor oferite de statistica descriptiva si cu folosirea acestora pentru a formula concluziisi lua decizii.

Problema 1.1. Universitatea de Vest din Timisoara doreste sa faca un plan de dezvoltarea facilitatilor de cazare. Pentru a trece la actiune consiliul de administratie hotaraste caeste necesar sa se raspunda la urmatoarea ıntrebare: Cati studenti vor trebui cazati ınurmatorii zece ani?Pentru a raspunde la aceasta ıntrebare trebuie sa cunoastem raspunsul la cel putinurmatoarele doua ıntrebari: Cati absolventi de liceu vor fi? Cati vor sa vina launiversitate? (Si altele poate).Pentru a raspunde la aceste doua ıntrebari e nevoie de date referitoare la numarul deabsolventi de liceu ın urmatorii zece ani si de date care indica procentul acelor absolventide liceu care doresc sa devina studenti la U.V.T. ın urmatorii zece ani.O cale de a obtine date refritoare la numarul de absolventi de liceu ın urmatorii zece anieste de a vedea care a fost acest numar ın ultimii zece ani si a extrapola acest numar.Trebuie remarcat ca aceasta idee presupune ca exista o legatura dintre trecut si viitor.Acest lucru nu este ıntotdeauna adevarat. O ıntrebare suplimentara care se pune ın acestcontext este daca va trebui sa numaram toti absolventii de liceu din toate scolile dinultimii zece ani sau ne putem limita sa numaram doar la anumite scoli? Altfel spus, dacaputem considera doar esantioane?O cale de a obtine date referitoare la procentul acelor absolventi care doresc sa devinastudenti la U.V.T. este aceea de a vedea aceste procente ın ultimii zece ani si de aextrapola.Alte ıntrebari care se pun sunt: Cum interpretam aceste date? Cum formulam o concluziepe baza acestor date? Cum se ia o decizie pe baza acestor date?Nu am terminat cu enumerarea ıntrebarilor care pot fi relevante. La acest moment ceeace este important este sa ıncepem sa ne gandim la asemenea probleme si la ıntrebarilecare trebuiesc lamurite pentru a obtine un raspuns.

Remarca 1.1. Relatia dintre statistica si probabilitatiStatistica si probabilitatile sunt doua domenii strans legate, dar distincte ale matematicii.Se spune ca ”probabilitatile sunt vehiculul statisticii”. Aceasta este adevarat ın sensulca daca nu ar fi legile probabiliste teoria statistica nu ar fi posibila. Pentru a ilustraınsa diferenta dintre probabilitati si statistica sa consideram doua urne: una probabilistasi una statistica. In cazul urnei probabiliste se stie ca urna contine 5 bile albe, 5 bilenegre si 5 bile rosii; problema de probabilitate este daca scoatem o bila, care este sansaca aceasta sa fie alba? In cazul unei urne statistice nu cunoastem care este combinatiade bile din urna. Extragem un esantion si din acest esantion conjecturam ce credem case gaseste ın urna. Trebuie retinuta deosebirea: probabilitatea pune ıntrebarea sanseica ceva (un eveniment) sa se ıntample atunci cand se cunosc posibilitatile (se cunoaste

3

Page 4: Statistica - notite de curs

populatia). Statistica ne cere sa facem un esantion, sa analizam esantionul si pe urma safacem predictie asupra populatiei pe baza informatiei gasite ın esantion.

Remarca 1.2. Folosirea corecta si folosirea gresita a statisticiiUtilizarea statisticii este nelimitata. Este greu de gasit un domeniu ın care statistica nuse foloseste. Iata cateva exemple, unde si cum este folosita statistica:

• ın educatie; statistica descriptiva este adesea folosita pentru a prezenta rezultatele;

• ın stiinta; rezultatele experimentale trebuiesc colectate si analizate;

• guvernele; aduna diferite date statistice tot timpul.

Multi oameni sunt indiferenti fata de descrierea statistica, altii cred ca statisticile suntminciuni. Majoritatea minciunilor statistice sunt inocente si rezulta din folosirea uneistatistici neadecvate sau date obtinute dintr-un esantion nepotrivit. Toate acestea conducla o ıntelegere gresita a informatiei din partea consumatorului. Folosirea gresita astatisticii duce uneori la ıncurcaturi.

Remarca 1.3. Statistica si calculatorulIn ultimul deceniu calculatorul a avut un rol important ın aproape toate aspectele vietii.Domeniul statististicii nu face exceptie. Statistica foloseste multe tehnici care au onatura repetitiva; formule pentru a calcula statistici descriptive, proceduri de urmatpentru a formula predictii. Calculatorul este foarte bun pentru a face asemenea operatiirepetitive. Daca calculatorul are un soft standard statistic este mult mai usoara analizaunor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (programbiomedical), SAS (Sistem de analiza statistica), IBM Scientific Subroutine Packages siSPSS (pachet statistic pentru stiinte sociale).

4

Page 5: Statistica - notite de curs

2 Notiuni de baza

Definitia 2.1. Populatia este o colectie (multime) de indivizi, obiecte sau date numericeobtinute prin masuratori ale carei proprietati trebuiesc analizate.

Remarca 2.1. Populatia este colectia completa de indivizi, obiecte sau date numericeobtinute prin masuratori care prezinta interes (pentru cel care colecteaza esantionul).Conceptul de populatie este fundamental ın statistica. Populatia trebuie definita cu grijasi se considera complet definita daca lista membrilor este specificata. Multimea studentilorFacultatii de Matematica si Informatica este o populatie bine definita.Daca auzim cuvantul populatie de obicei ne gandim la o multime de oameni. In statisticapopulatia poate fi o multime de animale, de obiecte fabricate sau de date numericeobtinute prin masuratori. De exemplu multimea ”ınaltimilor” studentilor facultatii deMatematica si Informatica este o populatie.

Definitia 2.2. Esantionul este o submultime a unei populatii.

Remarca 2.2. Un esantion consta din indivizi, obiecte sau date masurate selectate dinpopulatie (de catre colectorul de esantion).

Definitia 2.3. O variabila de raspuns (simplu variabila) este o caracteristica (deobicei numerica) care prezinta interes ın cazul fiecarui element (individ) al unei populatii.

Remarca 2.3. Varsta studentului, media lui, culoarea parului, ınaltimea, greutateas.a.m.d. sunt variabile de raspuns ın cazul populatiei: studentii de la Facultatea deMatematica si Informatica.

Definitia 2.4. O data (la singular) este ”valoarea” unei variabile de raspuns ın cazulunui element al populatiei sau esantionului.

Exemplul 2.1. Popescu Nicolae are vırsta de ”19 ani”, media 8.50, parul lui este”castaniu”, ınaltimea lui este ”1 m si 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci”valori” ale celor cinci variabile de raspuns (Remarca 2.3) ın cazul lui Popescu Nicolaesunt ”cinci” date.

Definitia 2.5. ”Valorile” unei variabile de raspuns ın cazul unei populatii sau a unuiesantion constituie un set de date . Intr-un set de date aceeasi data apare de atatea oride cate ori variabila are aceasta ”valoare”.

Exemplul 2.2. Cele 25 de ınaltimi ın cazul unui esantion de 25 de studenti este un setde 25 de date nu neaparat diferite.

Definitia 2.6. O activitate planificata ın urma careia se obtine un set de date se numesteexperiment sau sondaj.

Definitia 2.7. Parametru este o caracteristica numerica a unei populatii.

Exemplul 2.3. Procentul de studenti de la Facultatea de Matematica si Informatica careau promovat toate examenele la sesiunea din iarna este un exemplu de parametru ın cazulpopulatiei: studentii de la Facultatea de Matematica si Informatica.

Remarca 2.4. Parametrul este o valoare numerica care se refera la ıntreaga populatie.In statistica se obisnuieste ca parametrul sa fie notat cu litera greceasca.

5

Page 6: Statistica - notite de curs

Definitia 2.8. O statistica este o caracteristica numerica a unui esantion

Exemplul 2.4. Inaltimea medie gasita folosind cele 25 de ınaltimi ın cazul unui esantionde 25 de studenti este un exemplu de statistica (de esantion).

Remarca 2.5. O statistica este o valoare numerica care se refera la un esantion.Statisticile (de esantion) se noteaza cu literele alfabetului latin.

6

Page 7: Statistica - notite de curs

3 Colectarea datelor

Prima problema a statisticianului este colectarea unui set de date. Aceasta presupunedefinirea prealabila a obiectivelor sondajului (experimentului) a populatiei si a variabilei.Exemple de obiective:

a) Compararea eficacitatii unui medicament nou cu eficacitatea unui medicamentstandard;

b) Estimarea venitului mediu al unei familii din judet.

Exemple de populatii si variabile corespunzatoare:

a) pacientii care sufera de o boala care se trateaza cu medicamentul consideratreprezinta populatia, iar timpul de recuperare reprezinta variabila;

b) familiile din judet reprezinta populatia, iar venitul total al unei familii din judetreprezinta variabila.

Tot ınainte de colectarea setului de date trebuie hotarat daca setul de date se constituiepentru ıntreaga populatie sau doar pentru un esantion. Daca setul de date se constituiepentru ıntreaga populatie atunci se face un recensamant.

Definitia 3.1. Un recensamant este o enumerare sau o listare a fiecarui element alpopulatiei ımpreuna cu data (valoarea variabilei) corespunzatoare elementului.

In cazul unei populatii mari, constituirea unui set de date la nivelul populatiei este dificilsi costisitor. De aceea, ın cazul ın care nu este posibila realizarea unui recensamant,setul de date se constituie doar pentru o parte a populatiei, pentru un esantion. Selectiaelementelor pentru esantion se face dintr-un cadru de esantionare.

Definitia 3.2. Cadrul de esantionare este o lista de elemente care apartin populatiei,din care va fi extras esantionul.

Remarca 3.1. Deoarece numai elementele din cadrul esantionului au sansa sa fie selectatepentru esantion, din perspectiva variabilei de raspuns cadrul de esantion trebuie sa fiereprezentativ pentru populatie.

Remarca 3.2. In cazul unei populatii de indivizi listele de alegatori sau cartile de telefonsunt folosite adesea drept cadru de esantion. In functie de variabila de raspuns acesteapot fi cadre de esantion potrivite sau nepotrivite.

Remarca 3.3. Dupa definirea cadrului esantionului se trece la stabilirea modului dealegere a elementelor esantionului. Acest proces se numeste proiectarea esantionului.

Definitia 3.3. Proiectarea esantionului ınseamna stabilirea procedurii de alegere aelementelor esantionului din cadrul esantionului.

Exista mai multe procedee de alegere a elementelor esantionului. In mare aceste procedeeımpreuna cu esantioanele corespunzatoare se ımpart ın doua categorii: procedee bazatepe reprezentativitate si procedee probabiliste.

7

Page 8: Statistica - notite de curs

Definitia 3.4. Esantioane bazate pe reprezentativitate sunt acelea pentru careelementele se aleg astfel ıncat din perspectiva variabilei de raspuns, elementul ales sa fiereprezentativ pentru populatie.

Exemplul 3.1. Din perspectiva variabilei de raspuns: ”cursul A este util sau nu ınformarea dumneavoastra profesionala?”, studentii din cadrul unui esantion care nu aufrecventat cursul nu sunt reprezentativi. Deci nu sunt alesi ın esantion.

Definitia 3.5. Un esantion pentru care elementele sunt selectate pe baza probabilista;oricare element din cadrul esantionului are o anumita sansa nenula sa fie selectat; senumeste esantion probabilist.

Remarca 3.4. Inferente statistice cer ca esantionul sa fie probabilist. Esantioaneleprobabiliste aleatoare sunt cele mai familiare esantioane probabiliste.

Definitia 3.6. Un esantion de marimea n este esantion probabilist aleator daca oriceesantion de marimea n ales din acelasi cadru are aceeasi probabilitate sa fie ales.

Remarca 3.5. Cea mai raspandita metoda de a colecta date foloseste esantion aleatorsimplu.

Definitia 3.7. Un esantion probabilist aleator pentru care elementele sunt selectate dintr-un cadru ın care elementele au aceeasi probabilitate sa fie alese se numeste esantionaleator simplu.

Remarca 3.6. Atunci cand se construieste un esantion probabilist aleator simplu trebuieavuta grija ca fiecare element din cadrul esantionului sa aibe aceeasi probabilitate sa fieselectat. Adesea se fac greseli pentru ca termenul ”aleator” este confundat cu ”alesla ıntamplare”. Un procedeu corect de selectare a unui esantion probabilist aleatorsimplu este acela care foloseste un generator de numere aleatoare sau o tabela de numerealeatoare. Prima oara se numeroteaza elementele din cadrul de esantionare. Dupa aceastaın tabelul cu numere aleatoare se aleg atatea numere cate sunt necesare pentru esantion.Fiecare element din cadrul de esantionare, al carui numar coincide cu un numar selectatdin tabelul de numere aleatoare va fi ales pentru esantion.

Exemplul 3.2. Daca cadrul esantionului este o lista de 4265 de studenti atunci ei suntnumerotati de la 0001; 0002; ...; 4265. Pentru un esantion de 50 de studenti se aleg 50 denumere aleatoare cu patru cifre si se identifica studentii din cadrul esantionului.

Definitia 3.8. Esantionul sistematic se construieste alegand fiecare al k-lea elementdin cadrul esantionului.

Remarca 3.7. In aceasta selectie se foloseste tabela de numere aleatoare o singura data,pentru a determina punctul de plecare.

Exemplul 3.3. Daca se considera un cadru de esantion de 245 de studenti ai Facultatiide Matematica si Informatica si se doreste un esantion sistematic format din 15 studentiatunci:

1) asociem fiecarui student un numar de la 1 la 245;

8

Page 9: Statistica - notite de curs

2) se calculeaza k (pasul de numarare) folosind urmatoarea relatie:

k =

[numarul de elemente din cadrul esantionului

numarul de elemente din esantion

]=

[245

15

]= 16

3) se alege punctul de plecare ıntre 1 si numarul k cu ajutorul unui tabel de numerealeatoare.

Daca acest numar este 10, atunci obtinem esantionul:

10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.

Deoarece k =245

15= 16, 33, nu este un numar ıntreg, pasul de numarare poate fi si 17. In

acest caz esantionul sistematic obtinut este de numai 14 elemente.

Remarca 3.8. Este o procedura buna pentru a esantiona un procentaj ın cazulpopulatiilor mari. Pentru a selecta un esantion sistematic de x% dintr-o populatie, unelement din 100/x va fi selectat (daca 100/x nu este ıntreg se ia partea ıntreaga).

Remarca 3.9. Folosirea esantionului sistematic nu este potrivita daca populatia esterepetitiva sau ciclica ın natura.(din perspectiva variabilei de raspuns)

Exemplul 3.4. Daca se doreste estimarea numarului studentilor admisi la Facultatea deMatematica si Informatica care au depasit varsta de 20 de ani si se foloseste esantionareasistematica extragand din lista candidatilor admisi numai pe cei de pe pozitiile care suntmultiplu de 5, exista posibilitatea ca toti candidatii admisi pe pozitiile respective sa aibasub 20 de ani. Un asemenea esantion spune ca nu au fost admisi candidati peste 20 deani, ceea ce nu poate fi sustinut.

Cand se esantioneaza populatii foarte mari, atunci cand este posibil se ımparte populatiaın doua subpopulatii pe baza unor caracteristici. Aceste subpopulatii se numesc straturi,iar straturile sunt esantionate separat.

Definitia 3.9. Un esantion obtinut ın urma stratificarii cadrului esantionului si prinselectarea unui numar dat de elemente din fiecare strat se numeste esantion stratificat.

Remarca 3.10. Cand se proiecteaza un esantion stratificat, cadrul se ımparte ın doua saumai multe straturi si ın fiecare strat se proiecteaza un subesantion. Aceste subesantioanepot fi aleatoare, sistematice sau de alt gen. Dupa aceea subesantioanele sunt asamblateıntr-un singur esantion pentru a colecta un set de date.

Exemplul 3.5. Pentru studierea unei caracteristici a populatiei studentilor din Facul-tatea de Matematica si Informatica, aceasta populatie poate fi ımpartita:- pe domenii: informatica, matematica- pe ani de studiu.

Definitia 3.10. Esantion cota (sau esantion proportional) este unesantion stratificat care se construieste prin selectarea unui numar de elemente din fiecarestrat dupa o anumita cota sau proportional cu marimea stratului.

9

Page 10: Statistica - notite de curs

Exemplul 3.6. Daca se doreste construirea unui esantion de 150 de studenti din populatiastudentilor Facultatii de Matematica si Informatica putem face stratificarea dupa anii destudiu. In acest caz, numarul de studenti ce va fi selectat din fiecare an ce va fi selectatva fi proportional cu numarul total de studenti din anul respectiv:

Anul de studiu Numar studenti Cota Nr. studentiselectat ın esantion:

Anul I 431 36.49% 54Anul II 303 25.65% 40Anul III 206 17.44% 26Anul IV 240 20.40% 30

Esantionul va fi format din 54 de studenti din anul I, 40 de studenti din anul II, 26 destudenti din anul III si 30 de studenti din anul IV.

O alta metoda de esantionare care pleaca de la stratificarea populatiei este esantionulciorchine.

Definitia 3.11. Esantionul ciorchine este un esantion stratificat care se construiesteprin selectarea de esantioane din anumite straturi (nu din toate).

Exemplul 3.7. Daca se doreste realizarea unui esantion ciorchine format din studentiiUniversitatii de Vest din Timisoara, aceasta populatie poate fi startificata ın functiede specializarea pe care au ales-o studentii selectionand esantioane doar de la catevaspecializari (nu de la toate).

Remarca 3.11. Esantionul ciorchine se obtine folosind numere aleatoare sau o metodasistematica pentru identificarea straturilor (ciorchine) care trebuiesc esantionate, dupacare fiecare din aceste straturi este esantionat. Subesantioanele asamblate formeaza unesantion ciorchine.

Intr-un caz concret procedeul de esantionare care se foloseste depinde de populatie devariabila de dificultatea esantionarii si de cost. Dupa determinarea esantionului se poatetrece la colectarea setului de date.

10

Page 11: Statistica - notite de curs

4 Determinarea frecventei si gruparea datelor

Dupa colectarea unui set de date urmeaza prelucrarea primara a datelor. Determinareafrecventei si gruparea datelor este un procedeu de prelucrae primara a datelor si esteutilizat atunci cand numarul datelor este mare.Pentru a prezenta conceptul de frecventa sa consideram urmatorul set de date:

3 2 2 3 24 4 1 2 24 3 2 0 22 1 3 3 1

Valoarea 0 apare ın acest set o singura data prin urmare frecventa pentru 0 este unu.Valoarea 1 apare ın acest set de trei ori prin urmare frecventa pentru 1 este trei.Valoarea 2 apare ın acest set de opt ori prin urmare frecventa pentru 2 este opt.Valoarea 3 apare ın acest set cinci ori prin urmare frecventa pentru 3 este cinci.Valoarea 4 apare ın acest set de doua ori prin urmare frecventa pentru 4 este doi.Frecventa datelor 0,1,2,3,4 care apar ın setul de date este redata ın tabelul urmator:

x f0 11 32 83 54 3

Definitia 4.1. Frecventa f (din coloana a doua) arata de cate ori apare valoarea variabileix ın setul de date.

Atunci cand ıntr-un set de date multe sunt distincte (ın loc de cateva ca ın cazul precedent)se grupeaza datele ın clase si apoi se construiesc frecvente pentru clase.

Pentru a ilustra acest procedeu consideram urmatorul set de date:

82 74 88 66 5862 68 72 92 8674 78 84 96 7676 52 76 82 78

Vom pune ın aceeasi clasa toate datele la care prima cifra este aceeasi si obtinemurmatoarele cinci clase:

50− 59; 60− 69; 70− 79; 80− 89; 90− 99

(50− 59 este clasa formata cu toate datele la care prima cifra este 5, s.a.m.d.).Aceste clase nu se intersecteaza (nu exista date care sa apartina la doua clase) si oricaredin date apartine unei clase.Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.Datele care apartin unei clase sunt mai mari decat limita inferioara a clasei si mai micidecat limita superioara a clasei.

11

Page 12: Statistica - notite de curs

Definitia 4.2. Latimea unei clase definita ca diferenta dintre limita inferioara a claseiurmatoare si limita inferioara a clasei (este egala cu 10 si este aceeasi pentru toate claseleın exemplul de mai sus) latimea clasei nu este egala cu diferenta dintre limita superioarasi limita inferioara a clasei.

Definitia 4.3. Frontierele unei clase definite ca media aritmetica dintre limita superioaraa clasei si limita inferioara a clasei urmatoare sunt:

49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.

Definitia 4.4. Marca unei clase definita ca media aritmetica dintre limita superioara silimita inferioara a clasei, ın acest caz este:

54.5 =50 + 59

2ın cazul clasei 50− 59

64.5 =60 + 69

2ın cazul clasei 60− 69

74.5 =70 + 79

2ın cazul clasei 70− 79

84.5 =80 + 89

2ın cazul clasei 80− 89

94.5 =90 + 99

2ın cazul clasei 90− 99

Frecventa ın acest caz este numarul de date dintr-o clasa. Frecventa datelor pe clase este:

ın cazul clasei 50− 59 2 date

ın cazul clasei 60− 69 3 date

ın cazul clasei 70− 79 8 date

ın cazul clasei 80− 89 5 date

ın cazul clasei 90− 99 2 date

In general, ın cazul gruparii datelor pe clase si a determinarii frecventei trebuiescrespectate urmatoarele reguli:

1) Clasele nu trebuie sa se intersecteze si fiecare data din setul de date trebuie saapartina la o clasa;

2) Fiecare clasa trebuie sa aibe aceeasi latime.

Procedeul concret de grupare este urmatorul:

12

Page 13: Statistica - notite de curs

i) Se identifica cea mai mare data H si cea mai mica data L si se determina plaja:R = H − L.

ii) Se alege numarul de clase m si latimea clasei c (daca se poate numar impar) astfelca produsul m · c sa fie putin mai mare ca plaja R.

iii) Se alege un punct de plecare I care este putin mai mic decat cea mai mica data L.Adaugam la I multiplii lui c (c este latimea clasei) si obtinem numerele:

I, I + c, I + 2c, I + 3c, ..., I + (m− 1)c

Aceste numere sunt limitele inferioare ale claselor.

iv) Limitele superioare se stabilesc astfel ıncat sa fie respectate conditiile 1) si 2).

v) Se determina frecventa fiecarei clase numarand elementele din fiecare clasa.

13

Page 14: Statistica - notite de curs

5 Prezentarea datelor

Prezentarea unui set de date poate fi facuta sub diferite forme si face parte din prelucrareaprimara a datelor.

Prezentarea datelor sub forma de serii

Definitia 5.1. Seria de distributie este un ansamblu de doua siruri finite dintre careprimul este sirul elementelor distincte din setul de date statistice sau sirul claselor obtinuteprin gruparea elementelor din setul de date statistice, iar cel de-al doilea este sirul defrecvente corespunzatoare.

Exemplul 5.1. In cazul setului de date statistice:

3 2 2 3 24 4 1 2 24 3 2 0 22 1 3 3 1

seria de distributie este:

X

(0 1 2 3 41 3 8 5 3

)

Exemplul 5.2. In cazul claselor 50− 59; 60− 69; 70− 79; 80− 89; 90− 99 obtinute pringruparea datelor din setul de date:

82 74 88 66 58 74 78 84 96 7662 68 72 92 86 76 52 76 82 78

seria de distributie este:

X

(50− 59 60− 69 70− 79 80− 89 90− 99

2 3 8 5 2

)

In general, o serie de distributie arata ın felul urmator:

X

(x1 x2 x3 · · · xn

f1 f2 f3 · · · fn

)

si oricare ar fi nivelul de grupare al datelor, xi avand frecventa fi, se numeste termenulseriei de distributie.

Remarca 5.1. Adesea ın prezentarea seriilor de distributie ın locul frecventei fi sefoloseste frecventa relativa:

f ′i =fi

n∑j=1

fj

sau sub forma procentuala:f ′′i = f ′i · 100

14

Page 15: Statistica - notite de curs

Definitia 5.2. Valoarea datei care apare cu cea mai mare frecventa ıntr-o serie dedistributie de date statistice se numeste mod.

Definitia 5.3. Clasa cu cea mai mare frecventa ıntr-o serie de distributie de date grupatese numeste clasa modala.

Definitia 5.4. Serie bimodala este o serie de distributie de date grupate ın care apardoua clase modale, separate de clase cu frecventa mai joasa.

Definitia 5.5. Frecventa cumulata a unei clase este suma frecventelor tutror claselorcu valori mai mici (marca mai mica).

Definitia 5.6. Seria dinamica (temporala, cronologica) este un sir dublu dintrecare primul este sirul de valori ale variabilei de raspuns, iar cel de-al doilea sir este sirulde momente de timp la care variabila are aceste valori. In general, o serie dinamica(temporala) se noteaza astfel:

X

(x1 x2 x3 · · · xn

t1 t2 t3 · · · tn

)

Prezentarea datelor sub forma de tabele statistice

Tabelele statistice sunt foarte variate si se folosesc pentru ordonarea datelor statisticedintr-un set de date ın vederea aplicarii metodelor de calcul si de interpretare statistica.

In functie de numarul de caracteristici prezentate ın tabel exista tabele simple, tabele cudubla intrare, tabele pe grupe, etc.

Prezentarea datelor sub forma grafica

Exista mai multe metode de prezentare grafica a unui set de date statistice. Metodade prezentare grafica este determinata de tipul de date si de ideea de prezentare. Dela ınceput trebuie sa fie clar ca exista mai multe cai de a dispune grafic anumite datestatistice. Judecata analistului si circumstantele din jurul problemei joaca un rol majorın alegerea modului de dispunere grafica a datelor statistice.

Definitia 5.7. Graficele de reprezentare a seriilor statistice fara grupare se numescdiagrame.

Definitia 5.8. Diagrama cerc a seriei de distributie (fara grupare)

X

(x1 x2 x3 · · · xn

f1 f2 f3 · · · fn

)

este un cerc ımpartit ın n sectoare de cerc S1, S2, ..., Sn astfel ıncat aria sectorului Si esteegala cu

f ′′i =fi

n∑j=1

fj

· 100

procente din aria cercului.

15

Page 16: Statistica - notite de curs

Exemplul 5.3. In cazul seriei de distributie din exemplul 5.1

X

(0 1 2 3 41 3 8 5 3

)

cercul se ımparte ın cinci sectoare avand ariile egale cu 5%, , 15%, 40%, 25%, 15% dinaria cercului

Definitia 5.9. Diagrama coloana a seriei de distributie (fara grupare):

X

(x1 x2 x3 · · · xn

f1 f2 f3 · · · fn

)

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate peaxa Ox, iar ınaltimile lor sunt f1, f2, ..., fn

Exemplul 5.4. In cazul seriei de distributie din exemplul 5.1:

X

(0 1 2 3 41 3 8 5 3

)

diagrama coloana este:

16

Page 17: Statistica - notite de curs

Definitia 5.10. Diagrama linie (ramura-frunza) a seriei de distributie (fara grupare)

X

(x1 x2 x3 · · · xn

f1 f2 f3 · · · fn

)

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate peaxa Oy, iar lungimile lor sunt f1, f2, ..., fn.

Exemplul 5.5. In cazul seriei de distributie din exemplul 5.1:

X

(0 1 2 3 41 3 8 5 3

)

diagrama linie este:

Definitia 5.11. Histograma seriei de distributie cu grupare

X

(x1 x2 x3 · · · xn

f1 f2 f3 · · · fn

)

este un set de n dreptunghiuri care reprezinta clasele. Bazele acestor dreptunghiurisunt egale (clasele au aceeasi latime) si sunt asezate pe axa Ox, iar ınaltimile lor suntf1, f2, ..., fn.

Exemplul 5.6. In cazul seriei de distributie din exemplul 5.2:

X

(50− 59 60− 69 70− 79 80− 89 90− 99

2 3 8 5 2

)

histograma este:

17

Page 18: Statistica - notite de curs

Remarca 5.2. In cazul histogramei o coloana reprezinta un numar de date diferite spredeosebire de diagrama coloana.

Remarca 5.3. O histograma are urmatoarele componente:

i) Un titlu care identifica populatia la care se refera;

ii) O scara orizontala pe care se identifica variabila X, valorile limitelor claselor,frontierele claselor, marcile claselor.

iii) O scara verticala pe care se identifica frecventele pentru fiecare clasa.

Definitia 5.12. O histograma de frecvente relative este o histograma obtinuta dintr-o histograma ınlocuind frecventele cu frecvente relative.

Frecventa relativa (este o masura proportionala cu frecventa ın cauza) se obtine prinımpartirea frecventei clasei la numarul total de elemente din setul de date.

Definitia 5.13. Ogiva unei serii de distributie de clase cu frecvente relative cumulateeste un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale si asezate pe axa Ox, iarınatimile lor sunt frecventele relative cumulate.

Ogiva are urmatoarele componente:

1. Un titlu care identifica populatia.

2. O scara orizontala pe care sunt marcate frontierele superioare ale claselor.

3. O scara verticala pe care sunt marcate frecventele relative cumulate pentru fiecareclasa.

18

Page 19: Statistica - notite de curs

6 Parametrii si statistici ai tendintei centrale

O categorie de caracteristici numerici asociati unui set de date statistice sunt: parametriitendintei centrale ın cazul populatiilor si statistici ale tendintei centrale ın cazulesantioanelor. Intrucat acestia au definitii analoage vom prezenta doar statistici aletendintei centrale.

Definitia 6.1. Statistici ale tendintei centrale sunt valori numerice asociate unui setde date statistice care localizeaza ıntr-un anumit sens mijlocul multimii de date statistice.

Definitia 6.2. Media aritmetica a setului de date statistice {x1, x2, ..., xn} este prindefinitie suma acestor date ımpartita la numarul datelor

x =

n∑i=1

xi

n

Remarca 6.1. Atunci cand datele sunt prezentate sub forma unei serii de distributie(fara grupare ın clase), media aritmetica se gaseste cu formula:

x =

m∑j=1

xj · fj

m∑j=1

fj

Remarca 6.2. In cazul unei serii de distributie (cu grupare ın clase) formula de calcul amediei este:

x =

∑x · fx∑fx

ın care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

Definitia 6.3. Media patratica a setului de date statistice {x1, x2, ..., xn} este prindefinitie numarul:

xp =

√√√√√n∑

i=1

x2i

n

Remarca 6.3. Daca datele sunt prezentate sub forma unei serii de distributie (faragrupare ın clase), media patratica se gaseste cu formula:

xp =

√√√√√√√√√

m∑j=1

x2j · fj

m∑j=1

fj

19

Page 20: Statistica - notite de curs

Remarca 6.4. In cazul unei serii de distributie cu grupare ın clase media patratica esteprin definitie:

xp =

√√√√√∑

x2 · fx∑fx

ın care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

Definitia 6.4. Media armonica a setului de date statistice {x1, x2, ..., xn} este prindefinitie numarul:

xh =n

n∑i=1

1

xi

Remarca 6.5. Daca datele sunt prezentate sub forma unei serii de distributie (faragrupare ın clase), media armonica se gaseste cu formula:

xh =

m∑j=1

fj

m∑j=1

1

xj

· fj

Remarca 6.6. In cazul unei serii de distributie cu grupare ın clase media armonica esteprin definitie:

xh =

n∑i=1

fx

n∑i=1

1

x· fx

ın care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

Definitia 6.5. Media geometica a setului de date statistice {x1, x2, ..., xn} este prindefinitie numarul:

xp = n

√√√√n∏

i=1

xi

Remarca 6.7. Daca datele sunt prezentate sub forma unei serii de distributie (faragrupare ın clase), media geometrica se gaseste cu formula:

Remarca 6.8. In cazul unei serii de distributie cu grupare ın clase media geometrica esteprin definitie: ın care x reprezinta marca clasei si fx frecventa corespunzatoare, iar sumase extinde pe ansamblul claselor.

20

Page 21: Statistica - notite de curs

Definitia 6.6. Mediana me a unui set de date statistice distincte ordonate dupa marimex1 < x2 < ... < xn este numarul care ımparte setul de date ın doua grupe egale ca numar:

- daca n = 2 · k + 1, atunci me este valoarea de rangul k + 1: me = xk+1;

- daca n = 2 · k, atunci orice numar ıntre valorile xk si xk+1 satisface conditia dindefinitia lui me. In acest caz se convine ca me sa fie media aritmetica a valorilor

xk si xk+1: me =xk + xk+1

2.

Exemplul 6.1. In cazul setului de date statistice:

4 7 12 26 32 38 59

mediana este me = 26.In cazul setului de date statistice:

4 7 12 26 32 38

mediana este me =12 + 26

2= 19.

Remarca 6.9. Mediana me ın acest caz are proprietatea ca suma frecventelor valorilormai mari decat me este egala cu suma frecventelor valorilor mai mici decat me.

Remarca 6.10. Daca datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianeipoate sa nu fie adevarata. In cazul setului de date statistice:

1 1 1 2 3 3 4

Seria de distributie corespunzatoare este:

1 2 3 43 1 2 1

Conform definitiei lui me ın acest caz me = 2, 5. Aceasta valoare a lui me nu raspundecerintei ca me este o valoare cu proprietatea ca valorile mai mari sau mai mici decat eaapar cu frecvente cumulate egale; frecventa celor mai mici este 4, iar frecvena celor maimari este 3.

Remarca 6.11. Cand datele sunt prezentate sub forma unei serii de distributie cu sau faragrupare me se calculeaza prin procedeul interpolarii liniare, bazate pe ipoteza repartitieiuniforme a frecventelor ın intervalul median.

Definitia 6.7. Mijlocul plajei este prin definitie numarul:

Mr =L + H

2

unde L este cea mai mica valoare, iar H este cea mai mare valoare a variabilei X

21

Page 22: Statistica - notite de curs

7 Parametrii si statistici ai dispersiei

Dupa ce ”mijlocul” unui set de date a fost stabilit urmatoarea ıntrebare naturala este:care sunt parametrii si statisticile care caracterizeaza dispersia (ımprastierea) datelor.

Parametrii si statisticile dispersiei sunt: plaja, deviatia medie absoluta, varianta, deviatiastandard si coeficientul de variatie. Aceste valori numerice descriu marimea ımprastieriiori a variabilitatilor datelor. Datele strans grupate vor avea ımprastiere mica, iar celecare nu sunt grupate (sunt ımprastiate) vor avea o dispersie mai mare.

Definitia 7.1. Plaja P este diferenta dintre cea mai mare (H) si cea mai mica (L) valoarea valorilor xi dintr-un set de date:

P = H − L

Deviatia medie absoluta, varianta si deviatia standard masoara dispersia fata de mediaaritmetica.

Definitia 7.2. Deviatia fata de media aritmetica x a valorii xi a variabilei X estedi = xi − x.

Deviatia este zero daca si numai daca xi = x.Deviatia este pozitiva daca si numai daca xi > x.Deviatia este negativa daca si numai daca xi < x.

S-ar putea crede ca suma deviatilorn∑

i=1

(xi−x) poate servi ca masura a dispersiei fata de

media aritmetica. Dar aceasta suma este zero ıntotdeauna:

n∑i=1

(xi − x) =n∑

i=1

xi − n · x = n · x− n · x = 0

Reducerea deviatiilor poate fi eliminata prin folosirea valorii absolute a deviatiilor: xi−x.

Definitia 7.3. Deviatia medie absoluta a setului de date statistice distincte {x1, x2, ..., xn}este prin definitie:

d =

n∑i=1

|xi − x|

n

Remarca 7.1. Deviatia medie absoluta, ın cazul ın care datele sunt prezentate sub formaunei serii de distributie fara grupare de date se calculeaza cu formula:

d =

m∑j=1

|xj − x| · fj

m∑j=1

fj

22

Page 23: Statistica - notite de curs

Remarca 7.2. Deviatia medie absoluta, ın cazul ın care datele sunt prezentate sub formaunei serii de distributie cu grupare de date se calculeaza cu formula:

d =

∑|x− x| · fx∑

fx

ın care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

Cu toate ca acest parametru al ımprastierii nu se foloseste frecvent, el este o masura aımprastierii si arata distanta medie la care se afla o valoare a variabilei X fata de mediaaritmetica.Mai exista o cale de eliminare a reducerii deviatiilor. Ridicand la patrat deviatiileindividuale acestea devin pozitive (sau zero). Cand aceste patrate sunt adunate rezultatul

este pozitiv. Suma patratelor deviatiilor fata de media aritmetican∑

i=1

(xi−x)2 este folosita

ın definirea variantei.

Definitia 7.4. Varianta s2 a setului de date statistice distincte {x1, x2, ..., xn} este prindefinitie:

s2 =

n∑i=1

(xi − x)2

n

Remarca 7.3. Daca setul de date este prezentat sub forma unei serii de distributie faragrupare de date varianta s2 se calculeaza cu formula:

s2 =

m∑j=1

(xj − x)2 · fj

m∑j=1

fj

Remarca 7.4. Daca setul de date este prezentat sub forma unei serii de distributie cugrupare de date varianta s2 se calculeaza cu formula:

s2 =

∑(x− x)2 · fx∑

fx

ın care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

Definitia 7.5. Deviatia standard (abaterea standard) s a setului de date statisticedistincte {x1, x2, ..., xn} este prin definitie:

s =

n∑i=1

(xi − x)2

n

1

2

23

Page 24: Statistica - notite de curs

Remarca 7.5. Daca setul de date este prezentat sub forma unei serii de distributie faragrupare de date deviatia standard s se calculeaza cu formula:

s =

m∑j=1

(xj − x)2 · fj

m∑j=1

fj

1

2

Remarca 7.6. Daca setul de date este prezentat sub forma unei serii de distributie cugrupare de date deviatia standard s se calculeaza cu formula:

s =

∑(x− x)2 · fx∑

fx

1

2

ın care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde peansamblul claselor.

Remarca 7.7. Deviatia standard a fost definita cu o formula. Se poate pune ıntrebareace reprezinta ea ın realitate? Un raspuns la aceasta ıntrebare poate fi dat cu inegalitatealui Cebısev din care rezulta ca pentru orice serie de distributie fractiunea de date situatala cel mult k unitati de deviatie standard fata de medie este cel putin 1− 1

k2 , unde k esteun numar pozitiv oarecare mai mare ca 1. Rezulta ın particular ca pentru orice serie dedistributie fractiunea de date situata la cel mult k = 2 unitati de deviatie standard fata demedie este de cel putin 75% din totalul de date. Daca k = 3 atunci este 89% din totalulde date.Conform regulii empirice daca o serie de repartitie este normala atunci fractiunea de datesituate la cel mult o unitate de deviatie standard σ fata de medie este aproximativ 68%,iar fractiunea de date situate la cel mult doua unitati de deviatie standard σ fata de medieeste aproximativ 95%.

Definitia 7.6. Coeficientul de variatie V este prin definitie:

V =s

x· 100

Remarca 7.8. Coeficientul de variatie este o statistica relativa a dispersiei si se folosestela compararea dispersiei diferitelor variabile (caracteristici).

Remarca 7.9. V poate lua valori ıntre 0 si 100%. Daca V este aproape de zero(V < 35%), atunci populatia studiata statistic este omogena si media x este reprezentativapentru aceasta populatie. Daca V este aproape de 100% (V > 75%), atunci populatiastudiata statistic este eterogena si media x nu este reprezentativa. De cele mai multeori ın asemenea cazuri este necesara separarea populatiei statistice ın mai multe grupeomogene, care se studiaza separat.

24

Page 25: Statistica - notite de curs

8 Parametrii si statistici factoriali ai variantei

In analiza variantei unui set de date statistice se folosesc urmatorii parametrii factorialiai variantei:

- varianta de grupa (partiala) s2j

- media variantelor de grupa s2

- varianta mediilor de grupa fata de media generala δ2

- varianta totala (generala) s2.

Definitia 8.1. Pentru o grupa de m date x1, x2, ..., xm, varianta de grupa este definitacu formula:

s2j =

m∑i=1

(xi − xj)2 · nij

m∑i=1

nij

ın care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j avandfrecventele nij

Remarca 8.1. Variantele de grupa sunt mai mici decat varianta si au valori mai marisau mai mici ın functie de eterogenitatea grupei.

Definitia 8.2. Prin definitie media variantelor de grupa este:

s2 =

k∑j=1

s2j · nj

k∑j=1

nj

ın care k este numarul de grupe, nj =m∑

i=1

nij este numarul de date din grupa.

Definitia 8.3. Varianta mediilor de grupa fata de media generala este prindefinitie:

δ2 =

k∑j=1

(xj − x)2 · nj

k∑j=1

nj

25

Page 26: Statistica - notite de curs

9 Parametrii si statistici ale pozitiei

Parametrii si statistici ai pozitiei se folosesc pentru a descrie locatia unei date ın raportcu celelalte date.

Definitia 9.1. Quantilele sunt valori numerice care ımpart setul de date ın q grupeegale. Constanta q se numeste ordinul quantilei.

Mediana este quantila de ordinul doi.Quantilele de ordinul patru ımpart setul de date ın patru grupe egale si se numescquartile. Quartilele sunt ın numar de trei, notate de obicei cu Q1, Q2, Q3.Quartila Q1 este un numar cu proprietatea ca o patrime din date au valori mai mici decatQ1 si trei patrimi din date au valori mai mari decat Q1.Quartila Q2 este un numar cu proprietatea ca jumatate din date au valori mai mici decatQ2 si jumatate din date au valori mai mari decat Q2. Quartila Q2 este chiar mediana.Quartila Q3 este un numar cu proprietatea ca trei patrimi din date au valori mai micidecat Q3 si o patrime din date au valori mai mari decat Q3.Alte categorii de quantile folosite sunt:

- decilele care ımpart setul de date ın 10 grupe egale.

- centilele care ımpart setul de date ın 100 grupe egale.

- promilele care ımpart setul de date ın 1000 grupe egale.

Orice set de date are 99 de centile Pk, k = 1..99. Centila Pk este o valoare numerica cuproprietatea ca k% din date are valori mai mici decat Pk, iar (100 − k)% din date auvalori mai mari decat Pk.

Remarca 9.1. Q1 = P25; Q3 = P75; me = Q2 = P50

Remarca 9.2. Procedeul de determinare a centilei Pk este urmatorul:

1) datele se ordoneaza crescator;

2) trebuie gasita pozitia i a centilei k. Prima oara se determina numaruln · k100

, unde

n este numarul de date. Dacan · k100

nu este un numar ıntreg, atunci i este numarul

ıntreg urmator (n · k100

= 17.2 → i = 18). Dacan · k100

este un numar ıntreg, atunci i

esten · k100

+ 0.5 (n · k100

= 23 →i = 23.5).

3) localizarea valorii Pk: se numara de la valoarea L (cea mai mica valoare a datelor) ivalori daca i este ıntreg. Daca i nu este ıntreg atunci este un ıntreg plus o jumatate.

In acest caz valoarea Pk este semisuma datelor de pe locurilen · k100

sin · k100

+ 1

O statistica aditionala a pozitiei este scorul standard sau z-scor.

26

Page 27: Statistica - notite de curs

Definitia 9.2. Scorul standard sau z-scorul este pozitia valorii x fata de mediana xın unitati de deviatie standard:

z =x− x

s

27

Page 28: Statistica - notite de curs

10 Seria de distributie a statisticilor

de esantioane

Pentru a face inferenta (predictie) asupra parametrilor populatiei, este necesar sa analizamstatisticile de esantioane. Media x ın cazul unui esantion nu este neaparat egala cu media µa populatiei. Suntem ınsa multumiti daca media x este apropiata de µ. Daca se consideramedia x′ ın cazul unui al doilea esantion aceasta poate sa fie diferita de x si de µ. Ceea ceputem spera este ca aceasta sa fie apropiata de valoarea µ si de x. Valabilitatea acestuitip de comportament intereseaza pentru orice populatie si orice statistica.

Intrebarea care se naste ın mod natural este ce ınseamna aproape? Cum se masoara si sedetermina aceasta apropiere? Care este seria de distributie a statisticilor de esantioane?

Definitia 10.1. Seria de distributie a statisticilor de esantioane este seria dedistributie a statisticilor de un anumit tip obtinute pentru esantioane de aceeasi marime.Tipul de statistica poate fi oricare din statisticile prezentate ın sectiunile 6 si 7.

Exemplul 10.1. Se considera o populatie de N elemente de la care se pot obtineurmatoarele date statistice distincte: {0, 2, 4, 6, 8}. In cazul acestei populatii formamesantioane de marime 2 de la care putem avea urmatoarele date statistice:

(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)

Pentru aceste esantioane mediile x sunt:

0 1 2 3 41 2 3 4 52 3 4 5 63 4 5 6 74 5 6 7 8

Esantioanele fiind aleatoare fiecare esantion, are probabilitatea 1/25 sa fie ales si seria dedistributie a mediilor acestor esantioane este:

x f ′(x)0 0.041 0.082 0.123 0.164 0.205 0.166 0.127 0.088 0.04

unde f ′(x) este frecventa relativa a mediei x. Diagrama coloana a mediilor esantioaneloreste:

28

Page 29: Statistica - notite de curs

Pentru acelasi set de 25 de esantioane putem determina seria de distributie a plajelor Ra acestor esantioane.

Plajele R ale esantioanelor sunt date ın tabelul urmator:

0 2 4 6 82 0 2 4 64 2 0 2 46 4 2 0 28 6 4 2 0

Seria de distributie a plajelor acestor esantioane este:

R f ′(R)0 0.202 0.324 0.246 0.168 0.08

iar diagrama coloana a plajei esantioanelor este:

29

Page 30: Statistica - notite de curs

Exemplul 10.2. In cazul aruncarii zarului de un numar de N ori, setul de date statisticecare se refera la numarul de pe fata care apare este 1, 2, 3, 4, 5, 6.Formam esantioane care constau din 5 aruncari. Fiecare din aceste esantioane are mediax. Consideram 30 de esantioane de acest fel (ınseamna 30× 5 = 150 aruncari) si ıntr-untabel reprezentam rezultatele precum si mediile corespunzatoare:

Incercare Esantion x Incercare Esantion x1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.22 4 5 5 4 5 4.6 17 6 1 3 3 5 3.63 3 1 5 2 4 3.0 18 6 5 5 2 6 4.84 5 6 6 4 2 4.6 19 1 3 5 5 6 4.05 5 4 1 6 4 4.0 20 3 1 5 3 1 2.66 3 5 6 1 5 4.0 21 5 1 1 4 3 2.87 2 3 6 3 2 3.2 22 4 6 3 1 2 3.28 5 3 4 6 2 4.0 23 1 5 3 4 5 3.69 1 5 5 3 4 3.6 24 3 4 1 3 3 2.810 4 1 5 2 6 3.6 25 1 2 4 1 4 2.411 5 1 3 3 2 2.8 26 5 2 1 6 3 3.412 1 5 2 3 1 2.4 27 4 2 5 6 3 4.013 2 1 1 5 3 2.4 28 4 3 1 3 4 3.014 5 1 4 4 6 4.0 29 2 6 5 3 3 3.815 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2

Histograma seriei de distributie a mediilor celor 30 de esantioane este reprezentata ınfigura urmatoare:

30

Page 31: Statistica - notite de curs

Aceasta lege de repartitie pare sa aibe caracteristicile unei legi de repartitie normala; estemaxim si este simetric fata de media proprie 3.5.

31

Page 32: Statistica - notite de curs

11 Teorema limita centrala

In sectiunea precedenta am prezentat seria de distributie a mediei si plajei unui set deesantioane. Media este statistica folosita cel mai frecvent ın cazul esantioanelor si de aceeaeste foarte importanta. Teorema limita centrala se refera la seria de distributie a medieituturor esantioanelor aleatoare de aceeasi marime n.

Sa formulam ce anume intereseaza ın cazul acestei serii de distributie:

1) Unde este centrul datelor?

2) Cat de mare este dispersia datelor?

3) Care este caracterul seriei de distributie?

Teorema limita centrala ofera raspuns la aceste trei ıntrebari.

Teorema 11.1. Teorema limita centralaFie µ media si σ deviatia standard a unei variabile ın cazul unei populatii. Daca seconsidera toate esantioanele aleatoare de marime n din aceasta populatie, atunci seria dedistributie a mediilor acestor esantioane are urmatoarele proprietati:

a) media µx a acestei serii de distributie este egala cu µ;

b) deviatia standard σx a acestei serii de distributie esteσ√n

.

c) daca seria de distributie a variabilei ın cazul populatiei este normala, atunci seriade distributie a mediilor esantioanelor este normala; daca seria de distributiei avariabilei ın cazul populatiei nu este normala, atunci seria de distributie a mediiloresantioanelor este aproximativ normala pentru esantioane de marime mai mare ca30. Tendinta catre o serie de distributie normala creste daca marimea esantionuluicreste.

Pe scurt, teorema limita centrala stabileste urmatoarele:

1) µx = µ, unde x este media esantionului x;

2) σx = σ/√

n, deviatia standard a mediei este egala cu deviatia standard a populatieiımpatita cu radacina patrata a marimii esantionului.

3) seria de distributiei a mediei esantioanelor este aproximativ normala indiferent deseria de distributiei a variabilei ın cazul populatiei.

Remarca 11.1. Deviatia standard σx a seriei de distributie a mediilor esantioaneloreste deviatia standard a mediilor esantioanelor fata de media seriei de distributie aesantioanelor.Nu vom face demonstratie teoremei limita centrala. Vom ilustra ınsa validitatea eiexaminand un caz ilustrativ.

32

Page 33: Statistica - notite de curs

Consideram o populatie pentru care seria de distributie de date statistice cu frecventerelative ın cazul variabilei X este:

X :

(2 4 6

1/3 1/3 1/3

)

Media µ si deviatia standard σ pentru aceasta variabila sunt:

µ =3∑

j=1

xj · f ′xjσ =

√√√√3∑

j=1

x2j · f ′xj

−(

3∑j=1

xj · f ′xj

)2

µ =12

3= 4 σ = 1, 63

In cazul acestei populatii oricare esantion de marime doi are urmatoarele date posibile:

(2, 2) (2, 4) (2, 6)(4, 2) (4, 4) (4, 6)(6, 2) (6, 4) (6, 6)

Esantioanele au urmatoarele medii:

2 3 43 4 54 5 6

Esantion Media(2,2) 2(2,4) 3(2,6) 4(4,2) 3(4,4) 4(4,6) 5(6,2) 4(6,4) 5(6,6) 6

Esantioanele fiind aleatoare fiecare esantion are probabilitatea1

9sa fie ales si seria de

distributie a mediilor esantioanelor este:

X

(2 3 4 5 6

1/9 2/9 3/9 2/9 1/9

)

Media seriei de distributie a mediilor esantioanelor µx este µx = 36/9 = 4, 0. Prin urmareµ = µx, iar deviatia standard a repartitiilor mediilor esantioanelor este:

σx =

√√√√5∑

j=1

x2j · f ′xj

−(

5∑j=1

xj · f ′xj

)2

=

√156

9−

(36

9

)2

= 1, 15

σ√n

=1, 63√

2=

1, 63

1, 44= 1, 15 = σx

Reprezentand seria de distributie a mediilor esantioanelor obtinem:

33

Page 34: Statistica - notite de curs

Aceasta diagrama arata ca seria de distributie a mediilor esantioanelor este normala.

34

Page 35: Statistica - notite de curs

12 O aplicatie a teoremei limita centrala

Teorema limita centrala ofera informatii asupra seriei de distributie a mediilor esan-tioanelor descriind forma repartitiei mediilor tuturor esantioanelor (aproape normala).Ea stabileste relatia dintre media µ a populatiei si media µx a seriei de distributie amediilor tuturor esantioanelor si relatia dintre deviatia standard σ a populatiei si deviatiastandard σx a seriei de distributie a mediilor esantioanelor. Deoarece seria de distributiea mediilor esantioanelor este aproape normala putem stabili legaturi probabiliste dintremedia populatiei si media unui esantion.

Exemplul 12.1. Consideram o populatie normala cu µ = 100 si σ = 20. Daca se alegeun esantion aleator de marime n = 16 care este probabilitatea ca valoarea medie a acestuiesantion sa fie ıntre 90 si 110? Altfel spus, cat este P (90 < x < 110)?

Solutie: Conform teoremei limita centrala repartitia valorilor medii ale esantioaneloreste normala. Prin urmare va trebui sa transformam conditia P (90 < x < 110) ıntr-oconditie care sa permita folosirea tabelului de distributie normala standard. Aceasta seface scriind:

P (90 < x < 110) = Φ

(110− µx

σx

)− Φ

(90− µx

σx

)=

= Φ

(110− 100

σx

)− Φ

(−10

σx

)= 2 · Φ

(10

σx

)− 1 = F

(10

σx

)

unde Φ(X) =1√2π

X∫

−∞

e−1

2t2

dt si F (X) = Φ(X)− 1

2.

Deoarece σx =σ√n

, avem σx =20√16

= 5 si astfel obtinem:

P (90 < x < 110) = 2 · Φ(2)− 1 = 2F (2) = 0.9544

Efectul cresterii dimensiunii n a esantionului nu afecteaza µx = µ si micsoreaza σx. Prinurmare P (90 < x < 110) creste, daca n creste.

Exemplul 12.2. Inaltimea copiilor la o gradinita are o distributie normala avand o medieµ = 100 cm cu o deviatie standard de 12, 5 cm. Pentru un esantion aleator de 25 de copiise determina media x. Care este probabilitatea ca aceasta medie sa fie ıntre 90 cm si 110cm?

Solutie:

P (90 < x < 110) = 2 · Φ(

10

σx

)− 1 = 2 · Φ(4)− 1 = 2 · F (4) = 2 · 0.499968

35

Page 36: Statistica - notite de curs

13 Estimarea punctuala a unui parametru; intervalul

de ıncredere

Consideram o populatie a carei medie µ nu o cunoastem si ne punem problema s-o gasim.Pentru acest scop consideram un esantion aleator de dimensiune n pentru care determinammedia x. Media x a esantionului este o estimare punctuala a mediei µ a populatiei.

Definitia 13.1. O estimare punctuala a parametrului γ a unei populatii este ovaloare g a unei statistici corespunzatoare.

Remarca 13.1. Daca x este media esantioanului cu care estimam media necunoscuta µa populatiei, aceasta nu ınseamna ca x = µ. In general, x 6= µ si la ceea ce ne putemastepta este ca x sa fie aproape de µ. Aceasta apropiere poate fi fixata prin specificareaunui interval (centrat ın µ) numit interval de estimare.

Definitia 13.2. Un interval marginit (a, b) folosit pentru a estima valoarea unui anumitparametru γ a populatiei se numeste interval de estimare. Valorile a, b (capeteleintervalului) sunt calculate din esantion care este folosit pentru estimare.

Cum anume se poate specifica un interval centrat ın µ care este necunoscut folosind doardate furnizate de un esantion va fi lamurit ın continuare.

Exemplul 13.1. Consideram o populatie avand o deviatie standard σ cunoscuta, o medieµ necunoscuta si un esantion aleator simplu de marime n si medie x cunoscute. Conditiax ∈ (µ− 1, µ + 1) ınseamna ca scorul standard z (pentru mediile esantioanelor) dat de:

z =x− µx

σx

=x− µ

σ√n

sa verifice:

z ∈ (− 1σ√n

,1σ√n

) = (−√

n

σ,

√n

σ)

Astfel ın termenii scorului standard intervalul de estimare este intervalul (a, b) cu a =

−√

n

σsi b =

√n

σ.

Mai general conditia x ∈ (µ − δ, µ + δ), ınseamna ca scorul standard z (pentru mediileesantioanelor) dat de:

z =x− µx

σx

=x− µ

σ√n

sa verifice:

z ∈ (−δ · √n

σ,δ · √n

σ)

Intervalul de estimare este (−δ · √n

σ,δ · √n

σ).

Definitia 13.3. Nivelul de neıncredere α este probabilitatea ca statistica esantionuluisa aibe valoarea ın afara intervalului de estimare.

36

Page 37: Statistica - notite de curs

Conform teoremei de limita centrala, repartitia lui x este normala sau aproape normalasi avem:

P (µ− 1 < x < µ + 1) = P

(−√

n

σ< z <

√n

σ

)=

2 · P(

0 < z <

√n

σ

)= 2 · F

(√n

σ

)

unde F (z) =1√2 · π

z∫

0

e−1

2t2

dt.

Deci nivelul de neıncredere α este 1− 2 · F(√

n

σ

).

Definitia 13.4. Nivelul de ıncredere (coeficient de ıncredere) 1−α este probabilitateaca statistica esantionului sa se afle ın intervalul de estimare ales.

Definitia 13.5. Intervalul de ıncredere este un interval de estimare cu un nivel deıncredere 1− α specificat.

Exemplul 13.2. In cazul exemplului 13.1, intervalul de estimare

(−√

n

σ,

√n

σ

)este un

interval de ıncredere cu coeficientul de ıncredere 1− α = 2 · F(√

n

σ

).

Definitia 13.6. Eroarea maxima de estimare este jumatatea lungimii intervalului deıncredere cu nivelul de ıncredere 1− α.

In termen de scor standard aceasta eroare se exprima cu formula:

E = z(α

2

)· σ√

n

unde z(α

2

)este solutia ecuatiei F (z) =

1− α

2, iar intervalul de ıncredere 1−α pentru µ

este: (x− z

2

)· σ√

n, x + z

2

)· σ√

n

)

x−z(α

2

)· σ√

neste limita inferioara de ıncredere, iar x+z

2

)· σ√

neste limita superioara

de ıncredere.

37

Page 38: Statistica - notite de curs

14 Generalitati privind ipotezele statistice si proble-

ma verificarii ipotezelor statistice

Pentru a ilustra analiza care precede luarea unei decizii ın privinta credibilitatii uneiasertiuni (numita verificarea ipotezelor statistice) sa consideram urmatorul exemplu:Candidatul la admitere Popescu Nicolae trebuie sa completeze un formular test cu zeceıntrebari. Fiecare ıntrebare are cinci raspunsuri dintre care doar unul este corect. PopescuNicolae a completat formularul si din cele zece ıntrebari el a raspuns corect la sapte. Elsustine ca a completat formularul fara sa citeasca ıntrebarile si raspunsurile la ele si amarcat raspunsurile aleator.Intrebarea este ın ce masura putem da crezare spuselor ca el a marcat raspunsurile aleator?O asemenea ıntrebare ne determina sa analizam si sa hotaram: este sau nu este rezona-bil ca Popescu Nicolae sa obtina sapte raspunsuri corecte alegand aleator raspunsurile laıntrebari? Descriem ın cele ce urmeaza o analiza, care se numeste verificarea ipotezelorstatistice si care conduce la formularea unei concluzii.Verificarea ipotezelor statistice, ın general, este un procedeu care are 5 etape. Fiecare dinaceste etape va fi prezentata si ilustrata ın cazul exemplului considerat.

Etapa 1. Formularea ipotezei nule H0

Prin ipoteza ıntelegem o afirmatie care sustine ca ceva este adevarat. Ingeneral, ipoteza nula este o afirmatie relativa la un parametru al uneipopulatii si afirma ca parametrul are o valoare data. Adesea expresia”nu difera” este folosita ın formularea ei, de aici vine numele de ipotezanula. (diferenta este nula)

Etapa 2. Formularea ipotezei alternative Ha

Ipoteza alternativa Ha este o afirmatie relativa la acelasi parametru alpopulatiei care apare ın ipoteza nula H0. In ipoteza Ha se afirma caparametrul are o valoare diferita de cea sustinuta ın H0.

Ipoteza H0 si ipoteza Ha se formuleaza dupa o analiza a asertiunii care trebuie inves-tigata.In cazul exemplului considerat, asertiunea care trebuie analizata este: Popescu a comple-tat formularul aleator.Populatia este o multime de 510 elemente (distincte). Un element este un sistem ordonatde 10 raspunsuri (R′

i1, R′

i2, . . . , R′

i10), i1, i1, . . . , i10 ∈ {1, 2, 3, 4, 5}; R′

i1este unul din cele

cinci raspunsuri posibile la prima ıntrebare, . . . , R′i10

este unul din cele cinci raspunsuriposibile la cea de-a zecea ıntrebare.Pentru o persoana care marcheaza raspunsurile aleator (fara sa le citeasca), toateraspunsurile sunt egal posibile. Altfel spus fiecare din cele cinci raspunsuri la o ıntrebareare aceeasi sansa ca sa fie corect. Din afirmatia lui Popescu Nicolae rezulta ca el a marcat

raspunsurile aleator, deci a admis ca probabilitatea (parametrul p) este1

510pentru fiecare

element al populatiei.Analiza afirmatiei lui Popescu Nicolae conduce la urmatoarea formulare a ipotezei nule:

H0 : p(X) =1

510= p pentru orice Popescu Nicolae a completat

element X al populatiei ⇔ formularul aleator.

38

Page 39: Statistica - notite de curs

Ipoteza alternativa este:

Ha : exista doua elemente X1, X2 ın populatie Popescu Nicolae nu a completatpentru care p(X1) 6= p(X2) ⇔ formularul aleator

De la acest punct ıncepand se admite ca ipoteza nula este adevarata. Situatia poate ficomparata cu un proces la judecatorie, ın care acuzatul este presupus nevinovat panacand se dovedeste contrariul.Doar ın etapa a 5-a a verificarii ipotezelor, vom lua una din cele doua decizii posibile:vom decide ın concordanta cu ipoteza nula H0 si spunem ca acceptam H0 sau decidem ınconcordanta cu Ha si spunem ca respingem ipoteza H0.In functie de valoarea de adevar a ipotezei H0 si de respingerea sau nerespingerea eideciziile care se iau sunt prezentate ın tabelul urmator:

Decizia Ipoteza H0 esteAdevarata Falsa

Nu respingem H0 decizie eroare(acceptam) corecta

Tip A Tip II

Respingem H0 eroare deciziecorecta

Tip I Tip B

O decizie corecta de tip A: apare cand H0 este adevarata si nu respingem H0

O decizie corecta de tip B: apare cand H0 este falsa si respingem H0

O eroare de tip I: apare cand H0 este adevarata si H0 este respinsaO eroare tip II: apare cand H0 este falsa si H0 nu este respinsa

Ar fi foarte frumos ca de fiecare data cand luam decizii sa luam decizii corecte, dar aceastaeste statistic imposibil pentru ca ne bazam pe informatii furnizate de esantioane. Cel maibun lucru la ce putem spera este sa controlam riscul sau probabilitatea de a comite oeroare.Probabilitatea asignata limitarii comiterii unei erori de tip I se noteaza cu α si cea asignatacomiterii unei erori de tip II cu β:

Eroarea Tipul de eroare ProbabilitateRespingerea unei ipoteze adevarate I αAcceptarea unei ipoteze false II β

Etapa 3 Metodologia de verificare a ipotezelor: aceasta consta din (1)identificarea unui test statistic; (2) specificarea valorii lui α; (3) de-terminarea regiunii critice.(1) Un test statistic este o variabila aleatoare folosita pentru a respingesau nu ipoteza H0. Testul statistic este o statistica de esantioane saualte valori rezultate dintr-un esantion. Probabilitatile care apar ın acesttest statistic sunt determinate presupunand ca H0 este adevarata.

39

Page 40: Statistica - notite de curs

In cazul exemplului considerat, variabila aleatoare ”X= numarul de raspunsuri corecte”este folosit ca test statistic. Probabilitatile pentru fiecare valoare x ale variabilei X ınipoteza ca H0 este adevarata sunt date ın tabelul urmator:

X 0 1 2 3 4 5P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264

X 6 7 8 9 10P(X) 0.0055 7.92·10−4 7.38·10−5 4.098·10−6 1.02·10−7

Aceasta repartitie arata ca probabilitatea sa ghicesti raspunsul corect la 5 sau mai multeıntrebari este 0.0327, iar la 4 sau mai putin decat 4 ıntrebari este 0.9673. Putem spuneca aparitia valorilor 5, 6, 7, 8, 9, 10 nu sustine ipoteza H0. Daca cineva spune ca a ghicitraspunsul corect la 0, 1, 2, 3, 4 ıntrebari, spunem ca este foarte probabil. Daca cineva spuneca a ghicit raspunsul corect la 5, 6, 7, 8, 9, 10 ıntrebari spunem ca este putin probabil.Nivelul de semnificatie este probabilitatea α de a face o eroare de tip I, adica de arespinge H0 adevarat. In mod curent α se da la ınceput si acesta determina regiuneacritica. In cazul exemplului, daca α = 0.033, atunci din P (x ≥ 5) = 0.0327 rezultaregiunea critica x = 5, 6, 7, 8, 9, 10.Regiunea critica: este multimea de valori (W ) pentru care P (X ∈ W ) ≤ α si care nedetermina sa respingem ipoteza H0. (nu sustin ipoteza H0)Valoarea critica: este prima valoare din regiunea critica.Daca pentru un esantion valoarea testului statistic X depaseste valoarea critica ipotezaH0 este respinsa.Dupa ce Etapa 3 a fost epuizata, putem trece la Etapa 4.

Etapa 4. Determinarea valorii testului statisticDupa ce am parcurs etapele 1,2,3 observam sau calculam valoarea x atestului statistic.

In cazul exemplului x = 7 (numarul de raspunsuri corecte) este valoarea testului sta-tistic si este dat. Uzual valoarea testului statistic se calculeaza pe baza informatiiloroferite de esantion.

Etapa 5. Luarea unei decizii si interpretarea eiDecizia se ia comparand valoarea testului statistic determinata la Etapa4 cu regiunea critica gasita la Etapa 3.Regula de decizie: Daca valoarea testului statistic este ın regiuneacritica respingem ipoteza H0, daca nu, atunci acceptam ipoteza H0.Ansamblul de valori ale testului statistic care nu sunt ın regiunea criticaformeaza regiunea de acceptabilitate. Testul este terminat prin luareasi justificarea deciziei luate.

In cazul exemplului: x = 7 este ın regiunea critica si respingem ipoteza H0.

Remarca 14.1. Cu aceasta nu am demonstrat ca Popescu Nicolae nu a ghicit cele 7raspunsuri. Am aratat doar ca daca el le-a ghicit este foarte norocos pentru ca acestaeste un eveniment rar si are probabilitatea cel mult 0.033.

40

Page 41: Statistica - notite de curs

15 Verificarea ipotezelor statistice:

varianta clasica

In sectiunea precedenta am prezentat generalitati privind verificarea ipotezelor statis-tice. In aceasta sectiune trecem la prezentarea verificarii ipotezelor statistice ın cazulasertiunilor referitoare la media µ a unei populatii. Pentru a simplifica aceasta prezentarela ınceput presupunem ca deviatia standard σ a populatiei este cunoscuta.

Urmatoarele trei exemple se refera la diferite formulari ale ipotezei H0 si a ipotezei Ha.

Exemplul 15.1. Un ecologist sustine ca orasul Timisoara are o problema privind poluareaaerului. Concret, el sustine ca nivelul mediu al monoxidului de carbon ın aer ın centrulorasului depaseste valoarea 4, 9/106 = valoarea medie normala.

Pentru a formula ın acest caz, ipotezele H0 si Ha, trebuie sa identificam: populatia,parametrul populatiei ın cauza si valoarea cu care aceasta urmeaza sa fie comparata.Populatia ın acest caz poate fi multimea locurilor din centrul orasului Timisoara. VariabilaX este concentratia monoxidului de carbon ale carei valori x variaza ın functie de loc,iar parametrul populatiei este valoarea medie µ a acestei variabile. Valoarea specifica cucare aceasta medie trebuie comparata este 4, 9/106 egala cu valoarea (medie) normala.Ecologistul face o asertiune privind valorea lui µ. Aceasta valoare poate fi: µ < 4, 9/106

sau µ = 4, 9/106 sau µ > 4, 9/106. Cele trei situatii pot fi cuprinse ın doua afirmatii dintrecare una exprima ceea ce ecologistul sustine, iar cealalta exprima contrariul.

Inegalitatea µ > 4, 9/106 este afirmatia: ”valoarea medie este mai mare ca 4, 9/106”.

Inegalitatea µ ≤ 4, 9/106 este echivalenta cu ”µ < 4, 9/106 sau µ = 4, 9/106” si esteafirmatia contrara: ”valoarea medie nu este mai mare ca 4, 9/106”.

Ecologistul sustine ca µ > 4, 9/106. Pentru a formula ipoteza H0 si ipoteza Ha reamintimca:

1) In general, ipoteza H0 sustine ca media µ (parametrul ın chestiune) are o valoarespecifica anume.

2) Inferenta privind media µ a populatiei se bazeaza pe media unui esantion si mediileesantioanelor au o distributie aproximativ normala. (conform teoremei limitacentrala).

3) O distributie normala este complet determinata daca valoarea medie si deviatiastandard a distributiei sunt cunoscute.

Cele de mai sus sugereaza ca afirmatia µ = 4, 9/106 ar trebui sa fie ipoteza nula si afirmatiaµ > 4, 9/106 ar trebui sa fie ipoteza alternativa:

H0 : µ = 4, 9/106

Ha : µ > 4, 9/106

Reamintim ca dupa ce ipoteza nula H0 este formulata, ın testul statistic identificat sepresupune ca H0 este adevarata. Aceasta ınseamna ca µ = 4, 9/106 este egala cu media

41

Page 42: Statistica - notite de curs

distributiei mediilor esantioanelor µx si este o ratiune ın plus pentru care ipoteza H0

trebuie scrisa doar cu semnul egal

H0 : µ = 4, 9/106.

Daca admitem ca afirmatia ”µ = 4, 9/106 sau µ < 4, 9/106” este ipoteza nula H0, atunci:

H0 : µ ≤ 4, 9/106

Ha : µ > 4, 9/106.

Remarca 15.1. Semnul egal trebuie sa fie inclus totdeauna ın ipoteza nula. In acestexemplu asertiunea ecologistului este exprimata de fapt ın Ha si aceasta este analizat.

Exemplul 15.2. Vom considera acum o a doua asertiune; de exemplu al Camerei deComert, care sustine ca nivelul mediu al monoxidului de carbon ın centrul orasuluiTimisoara este mai mic decat 4, 9/106 (valoare normala). Aceasta este o reclama bunapentru turism.

Si ın acest caz parametrul este media µ a repartitiei monoxidului de carbon. Valoareaspecifica este 4, 9/106 care este valoare normala.

”µ < 4, 9/106” ⇔ ”valoarea medie este mai mica decat valoarea medie normala””µ ≥ 4, 9/106” ⇔ ”valoarea medie este mai mare sau egala decat valoarea

medie normala”

H0, Ha pot fi formulate astfel:

H0 : µ ≥ 4, 9/106

Ha : µ < 4, 9/106

Si de data aceasta asertiunea Camerei de Comert este exprimata ın Ha si aceasta trebuieanalizata.

Exemplul 15.3. O a treia asertiune (mai neutra) sustine doar ca nivelul mediu µ almonoxidului de carbon ın aerul din centrul orasului Timisoara este diferit de 4, 9/106

(valoarea normala diferita de µ).In acest caz:

H0 : µ = 4.9/106 si Ha : µ 6= 4, 9/106

Cele trei exemple arata ca asertiunea care trebuie analizata determina ıntr-un anumit sensformularea ipotezelor H0, Ha. Mai exact: ın aceste cazuri asertiunea sustine ca valoareaparametrului µ este diferita de cea normala, iar ipoteza nula sustine ca este aceeasi (nudifera).

In cazul acestor exemple, cei care ısi formuleaza asertiunea se asteapta la respingereaipotezei nule H0 si la acceptarea ipotezei alternative Ha care este o afirmatie conforma cuasertiunea lor.

Situatiile de la procesele juridice prezinta o oarecare asemanare cu cele relatate. Dacaprocurorul nu crede ın vinovatia inculpatului nu intenteaza proces (ipoteza H0 prezumtiade nevinovatie este presupusa adevarata). Procesul se declanseaza doar daca procurorulare suficiente probe pentru a face proces.

42

Page 43: Statistica - notite de curs

Si ın statistica daca ”experimantatorul” crede ın ipoteza H0 nu face test pentru investi-garea lui H0. El testeaza ipoteza nula doar daca doreste sa arate ca Ha este corecta.

Exemplul care urmeaza ilustreaza toate cele cinci etape de verificare a ipotezelor statisticeın cazul unei asertiuni care se refera la media unei populatii.

Exemplul 15.4. Un profesor a ınregistrat pe mai multi ani rezultatul elevilor si mediaµ a acestor rezultate este 72 si abaterea standard este σ = 12. Clasa de 36 de elevi pecare-i ınvata la momentul actual are o medie x = 75, 2 (mai ridicata decat media µ = 72)si profesorul afirma ca aceasta clasa este superioara celor de pana acum. Intrebarea estedaca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia profe-sorului la nivelul de semnificatie α = 0, 05.Mentionam ca pentru ca aceasta clasa sa fie superioara trebuie sa aibe o medie mai maredecat toate clasele dinainte. Daca media ei este egala sau mai mica decat media uneiclase anterioare, atunci ea nu este superioara.Daca se considera esantioane aleatoare de marime n = 36 dintr-o populatie cu mediaµ = 72, multe esantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.Doar medii x care sunt considerabil mai mari decat 72 vor sustine afirmatia profesorului.De aceea:

Etapa 1. H0 : µx = µ = 72 ⇔ clasa nu este superioara

Etapa 2. Ha : µx = µ > 72 ⇔ clasa este superioara

Etapa 3. - Atunci cand ın ipoteza nula H0 media populatiei si deviatiastandard sunt cunoscute scorul standard z este folosit ca si teststatistic.

- Nivelul de semnificatie α = 0, 05 este dat;

- Reamintim ca ın baza teoremei limita centrala distributiamediilor esantioanelor este aproape normala. Prin urmare,distributia normala va fi folosita pentru determinarea regiu-nii critice. Regiunea critica este egala cu multimea valo-rilor scorului standard z care determina respingerea ipotezeiH0 si este situata la extremitatea dreapta a distributiei nor-male. Regiunea critica este la dreapta deoarece valori mariale mediei esantionului sustin ipoteza H0 ın timp ce valoriapropiate ori sub 72 sustin ipoteza nula.

Figura 1:

43

Page 44: Statistica - notite de curs

Valoarea critica ce desparte zona valorilor ”nu este superior” de zona valorilor ”este su-perior” este determinata de probabilitatea α de a comite o eroare de tip I. α = 0, 05 afost data. Astfel regiunea critica hasurata pe Figura 2. are aria 0, 05 si valoarea critica

1, 65 este solutia ecuatiei:1√2 · π

∞∫

z

e−t2

2 dt = 0, 05.

Figura 2:

Etapa 4. Valoarea testului statistic este dat de:

z∗ =x− µ

σ√n

=75, 2− 72

12/6= 1, 6

Etapa 5. Comparam valoarea gasita 1, 6 cu valoarea critica 1, 65 si gasim 1, 6 <1, 65. Decizia este ca nu putem respinge ipoteza H0. Testul se ıncheiecu formularea concluziei.Concluzie: Probele nu sunt suficiente pentru a sustine ca actuala clasaeste superioara claselor anterioare.

Pare aceasta concluzie realista ın conditiile ın care ın mod evident, 75, 2 este mai mareca 72. Nu trebuie sa uitam x = 75, 2 este media unui esantion de 36 de indivizi extrasdintr-o populatie cu media µ = 72 si deviatia standard σ = 12 si analiza arata ca proba-bilitatea ca media esantionului sa fie mai mare decat mediile tuturor esantioanelor estemai mare decat riscul α cu care noi acceptam o eroare de tip I.

Exemplul 15.5. La un colegiu s-a stabilit ca greutatea medie a studentelor este µ = 54, 4kg, iar abaterea standard σ = 5, 4 kg. Profesorul de sport nu crede aceasta afirmatie.Pentru a face un test selectioneaza un esantion aleator de 100 de studente si gaseste camedia x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmatia la nivelul desemnificatie α = 0, 05?

Etapa 1. H0 : µ = 54, 4 kg

Etapa 2. Ha : µ 6= 54, 4 kg

44

Page 45: Statistica - notite de curs

Etapa 3. - deoarece folosim o distributie de medii de esantioane testul statisticva fi scorul standard.

- nivelul α = 0, 05 este dat;

- media esantionului este o estimare a mediei populatiei. Ipotezaalternativa ”nu este egal” este sustinuta de medii de esantioaneconsiderabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nulaeste sustinuta de medii de esantioane ın jurul valorii 54, 4. Regiuneacritica este formata din doua parti egale situate la cele doua extremitatiale distributiei normale. Aria corespunzatoare fiecarei portiuni esteα

2si probabilitatea fiecarei parti a regiunii critice este 0, 025. Rezulta

z(α

2

)= 1, 96

z

2

)este solutia ecuatiei:

1√2 · π

∞∫

z

e−t2

2 dt =α

2

.

Figura 3:

Etapa 4. Se determina valoarea testului statistic:

z∗ =x− µ

σ√n

= −1, 204

a carei locatie este data pe figura urmatoare:

45

Page 46: Statistica - notite de curs

Figura 4:

Reamintim: Daca valoarea testului statistic este ın regiunea critica respingem ipotezaH0 daca nu, nu putem respinge ipoteza H0.

Etapa 5. Valoarea testului statistic nu este ın regiunea critica.Decizia: Nu respingem ipoteza H0.Justificarea deciziei: Valoarea testului nu este ın dezacord cu H0 lanivel de risc α = 0, 05. Aceasta nu ınseamna ca H0 este adevarata.

Concluzie: Media x gasita de profesor nu contravine ipotezei ca media µ este 54,4kg, cand dispersia σ este 5, 4 kg.O decizie de respingere a lui H0 ınseamna ca valoarea testului implica ca H0 este falsa siindica Ha.

Rezumat privind verificarea ipotezelor statistice asupra mediei ın variantaclasica:

1. Ipoteza H0 specifica o valoare particulara a mediei populatiei.

2. Ipoteza Ha are trei forme. Fiecare dintre acestea determina o locatie specifica aregiunii critice asa cum apare ın tabelul de mai jos:

Semne ın ipoteza < 6= >alternativa

Regiunea critica O regiune Doua regiuni O regiunela stanga de fiecare la dreapta

parte cate unatest unilateral test bilateral test unilateral

stanga dreapta

3. Pentru multe cazuri semnul din ipoteza Ha indica directia ın care regiunea criticase gaseste

Valoarea lui α se numeste nivel de semnificatie si reprezinta riscul (probabilitatea)respingerii lui H0 atunci cand aceasta estea adevarata. Nu putem determina

46

Page 47: Statistica - notite de curs

daca ipoteza H0 este adevarata sau falsa. Putem doar decide ca o respingemsau ca o acceptam.Probabilitatea cu care respingem ipoteza adevarata este α, dar nu stim probabilitatea cucare facem o decizie eronata. O eroare de tip I si o eroare ın decizie sunt lucruri diferite.

47

Page 48: Statistica - notite de curs

16 Verificarea ipotezelor statistice:

varianta probabilista

In sectiunea precedenta am descris varianta clasica de verificare a ipotezelor statisticeın cazul asertiunilor referitoare la media µ a unei populatii. O varianta probabilistaconsta ın determinarea unei probabilitati numita p-valoarea (prob-valoare) referitoarela o statistica observata, care este comparata cu nivelul de semnificatie α dat.

Definitia 16.1. P-valoarea unui test statistic este cea mai mica valoare a niveluluide semnificatie α pentru care informatia extrasa din esantion este semnificativa (H0

adevarata se respinge).

Consideram din nou exemplul 15.4 din sectiunea precedenta si-l analizam din acest punctde vedere.

Exemplul 16.1. Un profesor a ınregistrat pe mai multi ani rezultatul elevilor si mediaµ a acestor rezultate este 72 si dispersia σ = 12. Clasa de 36 de elevi pe care-i ınvatala momentul actual are o medie x = 75, 2 . Aceasta medie fiind mai ridicata decat 72profesorul vrea sa arate ca aceasta clasa este superioara celor de pana acum. Intrebareaeste daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatiaprofesorului la nivelul de semnificatie α = 0, 05?Precizam ca pentru a putea sustine ca actuala clasa este mai buna decat toate celelalteclase anterioare trebuie ca media clasei actuale sa fie mai mare decat media oricarei clasedinainte. Daca media clasei actuale este mai mica sau egala cu media unei clase anterioare,atunci clasa actuala nu este mai buna decat toate celelalte.

Etapa 1. Formularea ipotezei H0: H0 : µx = µ = 72.Aceasta ipoteza corespunde asertiunii ca actuala clasa nu este superioaracelorlalte clase.

Etapa 2. Formularea ipotezei alternative Ha: Ha : µx = µ > 72.Aceasta ipoteza corespunde asertiunii ca actuala clasa este superioaracelorlalte clase.

Remarcam faptul ca etapele 1 si 2 sunt aceleasi ın varianta probabilista ca si ın variantaclasica de verificare a ipotezelor statistice.

Etapa 3. Specificarea nivelului de semnificatie α, a probabilitatii erorii de tip I:α = 0, 005.

Etapa 4. Folosind formula scorului standard (z-scorului) si media x = 75, 2 aesantionului de marime n = 36 se determina valoarea testului statistic:

z∗ =x− µ

σ√n

= 1, 60

Remarcam aici ca Etapa 4 ın varianta probabilista este aceeasi ca sivarianta clasica de verificare a ipotezelor statistice.

48

Page 49: Statistica - notite de curs

Etapa 5. Se reprezinta distributia normala a mediilor (testul statistic) ın acestcaz si se localizeaza valoarea z∗ determinata ın Etapa 4 (care ımpartedistributia ın doua parti) si se determina care parte a distributieireprezinta p−valoarea.Dupa care se determina p−valoarea. Ipoteza alternativa Ha arata ca ıncazul nostru:

p = P (z > z∗) = P (z > 1, 6) = 0, 0548

Etapa 6. p-valoarea ın cazul nostru este 0, 0548. Prin urmare pentruorice nivel de semnificatie α ≤ 0, 0548 nu putem respingeipoteza nula si concluzia este ca nu avem probe suficiente pen-tru a demonstra superioritatea clasei actuale. Daca ınsa nivelul desemnificatie α fixat la ınceput este mai mare ca 0, 0548 (de ex. α = 0, 1)atunci decizia noastra va fi de respingere a ipotezei H0 si concluzia desuperioritate a clasei actuale.

Figura 5:

Inainte sa trecem la un al doilea exemplu recapitulam cateva detalii privind verificareaipotezelor statistice ın varianta probabilista:

1. Ipotezele H0 si Ha se formuleaza ın aceeasi maniera ca si ın varianta clasica.

2. Se specifica nivelul de semnificatie α care va fi folosit.

3. Valoarea testului statistic se calculeaza ın Etapa 4 de aceeasi maniera ca ın variantaclasica.

4. P-valoarea este aria aflata ıntre curba de densitate de probabilitate axa Oz si z = z∗.Exista trei cazuri posibile: doua unilaterale si unul bilateral. Directia (sau semnul)ın ipoteza Ha este indiciul:

Cazul 1. Daca Ha este unilaterala la dreapta (” > ”) atunci p = P (z > z∗) si aria esteın dreapta lui z∗.

Cazul 2. Daca Ha este unilaterala stanga (” < ”), atunci p = P (z < z∗) este aria dinstanga lui z∗.

Cazul 3. Daca Ha este bilaterala (” 6= ”), atunci p = P (z < −|z∗|) + P (z > |z∗|) =2 · P (z > |z∗|)

49

Page 50: Statistica - notite de curs

5. Decizia se ia comparand P -valoarea cu nivelul de semnificatie α:

a) Daca P ≤ α atunci H0 se respinge;

b) Daca P > α atunci H0 se accepta.

6. Concluzia se formuleaza de aceeasi maniera ca si ın varianta clasica.

Consideram acum un exemplu ın care Ha este bilateral.

Exemplul 16.2. Companii mari folosesc agentii specializate pentru a testa candidatiicare doresc sa fie angajati. Agentia A foloseste un test de selectie pentru care ın decursultimpului s-a stabilit o medie de 82 si o deviatie standard de 8. Agentia B a dezvoltato noua metoda de testare care este mai rapida, mai usor de aplicat si costa mai putin.Agentia B sustine ca testul lor da aceleasi rezultate ca si testul agentiei A.Mai multe companii, pentru a reduce costul, se gandesc sa treaca de la agentia A laagentia B, dar ei nu doresc sa faca aceasta trecere daca media cu teste B difera de ceacu teste A. O agentie independenta C a testat cu noul test 36 de indivizi si a obtinut omedie de 80.Care este p−valoarea asociata acestui test?Rezultatul testului agentiei B este acelasi daca µ = 82 si este diferit daca µ 6= 82. Prinurmare:

Etapa 1. H0 : µ = 82 (testele au aceeasi medie)

Etapa 2. Ha : µ 6= 82 (testele au medii diferite)

Etapa 3. Este omisa daca se cere p-valoarea fara luarea unei decizii.

Etapa 4. Informatia din esantion: n = 36 si x = 80:

z∗ =x− µ

σ√n

=−28

6

= −12

8= −3

2= −1.5

Etapa 5. Se localizeaza z∗ pe o distributie normala si deoarece Ha este bilateralvom considera P (z < −|z∗|) si P (z > |z∗|) si obtinem:

p = P (z < −1, 50) + P (z > 1, 50)= 0, 5− 0, 4332 + 0, 5− 0, 4332 = 0, 1336

deci p− valoarea este 0, 1336.

50

Page 51: Statistica - notite de curs

Figura 6:

Fiecare companie va lua propria decizie: a) continua cu A sau b) schimba si trece laB. Fiecare va trebui sa stabileasca propriul nivel de semnificatie si sa ia o decizie ınconsecinta.

51

Page 52: Statistica - notite de curs

17 Inferenta statistica privind media populatiei daca

nu se cunoaste abaterea standard a populatiei

Pana acum am prezentat doua tipuri de inferenta statistica privind media populatiei:evaluarea intervalului de ıncredere si verificarea ipotezelor statistice. In cele douatipuri de inferente statistice abaterea standard σ este considerata cunoscuta. In generalınsa abaterea standard σ nu este cunoscuta. Subiectul acestei sectiuni este inferentastatistica privind media µ daca abaterea standard σ nu este cunoscuta.

Daca dimensiunea esantionului este suficient de mare (ın general vorbind, esantioanea caror marimi este mai mare decat n = 30 de date sunt considerate suficient de mari),deviatia standard s a esantionului este o estimare buna a deviatiei standard a populatiei siputem susbstitui σ cu s ın procedura discutata deja. Daca populatia pe care o investigameste aproape normala si n ≤ 30, atunci procedeul se bazeaza pe distributia Student t.

Distributia Student t (sau simplu t distributia) este distributia statisticii t, definita prin:

t =x− µ

s√n

In anul 1908 W.S. Gosset un functionar la o fabrica de bere ın Irlanda a publicat olucrare relativa la aceasta distributie sub pseudonimul ”Student”. In lucrarea lui Gossetse presupune ca populatia este normala. Aceasta restrictie s-a dovedit ulterior restrictiva,ıntrucat se obtin rezultate satisfacatoare si pentru multe populatii care nu sunt normale.Ecuatia care defineste distributia t nu o dam aici, doar dam cateva proprietati ale lui t:

1) distributia t are media 0;

2) distributia t este simetrica fata de medie;

3) distributia t are varianta supraunitara, dar daca dimensiunea esantionului creste,varianta tinde la 1;

4) distributia t ın jurul mediei este sub si departe de medie este deasupra distributieinormale;

5) fiecarei marimi de esantion ıi corespunde o distributie t separata care depinde demarimea esantionului. Daca marimea esantionului creste atunci t- distributia tindela distributia normala.

52

Page 53: Statistica - notite de curs

Figura 7:

Cu toate ca pentru fiecare marime de esantion (n=2,3,4,...) avem o distributie t separatacompleta, ın practica doar anumite valori critice ale lui t sunt folosite. Aceste valori criticeaflate ın dreapta mediei sunt redate ın tabelul urmator:

α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005df1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,62 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,603 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,944 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,6105 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,8596 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,9597 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,4058 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,0419 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,78110 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,58711 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,43712 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,31813 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,22114 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,14015 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,07316 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015

53

Page 54: Statistica - notite de curs

α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005df17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,96518 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,92219 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,88320 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,85021 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,81922 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,79223 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,76724 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,74525 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,72526 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,70727 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,69028 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,67429 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646

Figura 8:

In acest tabel df are valorile de la 1 la 29 si este numarul gradelor de libertate.Apropierea valorilor din liniile corespunzatoare lui df = 29 si z se datoreaza faptuluica daca n ≥ 30 distributia t este cea normala (teorema limita centrala).

Gradul de libertate df este un parametru statistic care este greu de definit. El este unindice care se foloseste pentru a identifica distributia care trebuie folosita. In consideratiilenoastre df = n − 1, unde n este marimea esantionului. Valoarea critica a testului t caretrebuie folosita ın estimarea intervalului de ıncredere precum si ın verificarea ipotezelorstatistice se obtine din tabelul prezentat. Pentru a obtine aceasta valoare este nevoie dea cunoaste:

1) df - numarul gradelor de libertate;

2) α aria determinata de curba de repartitie aflata ın dreapta valorii critice. Aceastavaloare este notata t(df, α).

54

Page 55: Statistica - notite de curs

Exemplul 17.1. Determinati t(10, 0.05) din tabel. Avem df = 10 si α = 0.05, decit(10, 0.05) = 1.81.Valorile critice ale testului statistic t aflate ın stanga mediei se obtin cu formula: −t(df, α),tinand seama de simetria distributiei t.

Figura 9:

Se observa usor ca −t(df, α) = t(df, 1− α). Astfel: −t(df ; 0, 05) = t(df ; 0, 95).

Exemplul 17.2. Determinati t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75.

Figura 10:

Statistica t este folosita ın verificarea ipotezelor statistice privind asertiuni relative lamedia µ de aceeasi maniera ca si statistica z.

Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere alecologistului este: ”nivelul monoxidului de carbon ın aer este mai mare decat 4, 9/106”.Un esantion de 25 de determinari cu media x = 5, 1/106 si s = 2, 1/106 este un argumentsuficient pentru a sustine afirmatia? Se foloseste nivelul de semnificatie α = 0, 05.

Etapa 1. H0 : µ = 4, 9/106

Etapa 2. Ha : µ > 4, 9/106

55

Page 56: Statistica - notite de curs

Etapa 3. α = 0, 05; df = 25− 1 = 24 si t(24; 0, 05) = 1, 71 din tabel.

Etapa 4.

t∗ =x− µ

s√n

=5, 1− 4, 9

2, 1/√

25=

0, 20

0, 42= 0, 476 ' 0, 48

Etapa 5. Decizia: Nu putem respinge H0 (t∗ nu este ın regiunea critica).Concluzie: Nu avem suficiente argumente pentru ca sa respingemipoteza ca nivelul monoxidului de carbon este 4, 96/106.

Figura 11:

Remarca 17.1. Daca valoarea df (df = n − 1) este mai mare ca 29, atunci valoareacritica a lui t(df, α) este foarte apropiata de z(α) (scorul z este listat la capatul tabelului)si prin urmare ın loc de t(df, α) se foloseste z(α). Deoarece tabelul considerat contine doarvalorile critice ale distributiei t, p-valoarea nu poate fi gasita din tabel ın cazul verificariiipotezei statistice pentru ca aceasta necesita distributia t completa. P-valoarea poate fiınsa estimata folosind tabelul.

Exemplul 17.4. Sa revenim la exemplul 17.3. Retinem t∗ = 0, 48, df = 24 si Ha : µ > 49.Astfel pentru a rezolva problema folosind varianta probabilista pentru Etapa 5 cu p-valoarea avem:

p = P (t > 0, 48, stiind df = 24)

56

Page 57: Statistica - notite de curs

Figura 12:

Randul df = 24 din tabel arata ca p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 dintabel arata ca P (t > 0, 685) = 0, 25 asa cum arata figura urmatoare:

Figura 13:

Comparand t∗ = 0, 48, vedem ca p− valoarea este mai mare ca 0, 25.

Exemplul 17.5. Sa se determine p−valoarea pentru urmatoarea ipoteza statistica:

H0 : µ = 55

Ha : µ 6= 55

ın conditiile ın care df = 15 si t∗ = −1, 84.

Solutie: p = P (t < −1, 84) + P (t > 1, 84) = 2 · P (t > 1, 84). Randul df = 15 din tabelarata ca P (t > 1, 84) este ıntre 0, 025 si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.

Media populatiei poate fi estimata daca σ este necunoscut de o maniera similara cu cazulσ cunoscut. Diferenta este ca se foloseste distributia t ın loc de distributia z si deviatiastandard s ca estimare a lui σ. Formula pentru intervalul de ıncredere 1− α este:

(x− t(df,

α

2) · s√

n, x + t(df,

α

2) · s√

n

)

57

Page 58: Statistica - notite de curs

Figura 14:

unde df = n− 1.

Exemplul 17.6. In cazul unui esantion aleator de 20 de noi nascuti, media greutatii loreste 3, 4 kg si deviatia standard este 0, 9 kg. Sa se estimeze cu o ıncredere de 95% mediagreutatii noilor nascuti.

Solutie: x = 3, 4 kg, s = 0, 9 kg si n = 20, iar 1− α = 0, 95, implica: α = 0, 05; df = 19,iar din tabel gasim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:

x± t(19; 0, 025) · s√n

= 3, 4± 2, 09 · 0, 9√20

3, 4± 2, 09 · 0, 9

4, 472= 3, 4± 0, 46

Intervalul de ıncredere de 95% este (2, 94; 3, 86).

58

Page 59: Statistica - notite de curs

18 Inferenta relativa la varianta si estimarea variantei

Adesea se pun probleme care cer sa facem inferenta asupra variantei. De exemplu, ocompanie de produse racoritoare are o masina de ımbuteliat, care umple cu racoritoarebutelii de 0, 32 l= 32 cl. Cantitatea medie pusa ın fiecare butelie este importanta, darcantitatea medie corecta nu asigura ca masina lucreaza corect. Daca varianta este mare,vor fi multe butelii care sunt prea umplute si multe butelii care nu sunt bine umplute.De aceea, compania doreste sa controleze varianta σ2 a cantitatii x de racoritoare pusa ınfiecare butelie si sa mentina varianta la un nivel cat mai scazut posibil.

Vom prezenta ın aceasta sectiune o inferenta privind varianta unei populatii. Adesea ıncazul acestei inferente se vorbeste despre deviatia standard ın loc de varianta. Trebuie sasubliniem ca deviatia standard este radacina patrata a variantei; asadar a vorbi desprevarianta este comparabil cu a vorbi despre deviatie standard.Sa revenim la exemplul companiei de produse racoritoare. Sa ne imaginam ca aceastacompanie doreste sa detecteze cand variabilitatea cantitatii de racoritoare pusa ın fiecarebutelie scapa de sub control. O varianta de 0, 0004 este considerata acceptabila sicompania va regla masina de ımbuteliat daca varianta devine mai mare decat aceastavaloare. Decizia va fi luata folosind verificarea ipotezelor statistice. Ipoteza H0 este cavarianta are valoarea 0, 0004, iar ipoteza Ha este ca varianta depaseste valoarea 0, 0004:

H0 : σ2 = 0, 0004 (varianta este controlata)Ha : σ2 > 0, 0004 (varianta nu este controlata)

Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul χ2.Valoarea calculata a lui χ2 se va obtine folosind formula:

χ2 =n · s2

σ2

unde s2 este varianta esantionului, n este marimea esantionului, iar σ2 este valoareaspecificata ın ipoteza nula.

Daca se iau esantioane de marime n dintr-o populatie normala, avand varianta σ2, atuncicantitatea n ·s2/σ2 are o distributie care se numeste distributia χ2. Formula care definestedistributia χ2 nu o vom da aici, dar pentru a folosi distributia χ2, prezentam urmatoareleproprietati ale acesteia:

1. distributia χ2 are valori nenegative, este zero sau este pozitiva;

2. distributia χ2 nu este simetrica, este asimetrica la dreapta;

3. exista mai multe repartitii χ2. Ca si pentru distributiile t exista o distributie χ2

pentru fiecare grad de libertate. Inferenta pe care o discutam aici se refera la cazuldf = n− 1.

Valorile critice ale lui χ2 sunt date ın tabelul urmator:

59

Page 60: Statistica - notite de curs

df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.0052 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.63 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.94 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.95 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.86 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.67 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.38 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.09 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.610 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.211 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.812 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.313 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.814 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.315 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.816 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.317 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.718 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.219 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.620 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.021 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.422 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.823 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.224 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.625 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.926 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.327 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.728 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.029 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.330 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.740 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.850 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.560 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.070 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.080 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.090 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0

60

Page 61: Statistica - notite de curs

Figura 15:

Valorile critice vor fi identificate prin doua valori: grade de libertate si aria situata subcurba ın dreapta valorii critice. Astfel χ2(df, α) este simbolul folosit pentru identificareavalorii critice χ2 cu df grade de libertate si cu aria α sub grafic si ın dreapta, asa cumeste prezentat pe figura urmatoare:

Figura 16:

Exemplul 18.1. Folosind tabelul determinati χ2(20; 0, 05) si χ2(14; 0, 90).Din tabel se obtine: χ2(20; 0, 05) = 31, 4 si χ2(14; 0, 90) = 7, 79.

Remarca 18.1. Daca df > 2 valoarea medie a lui χ2 este df . Valoarea medie estelocalizata ın dreapta modului (locul ın care curba atinge valoarea maxima).

61

Page 62: Statistica - notite de curs

Figura 17:

Exemplul 18.2. Reluam cazul companiei de produse racoritoare care doresc sa controlezevarianta ca sa nu depaseasca 0, 0004. Un esantion de marime 28 cu o varianta de 0, 0010indica oare la nivelul de semnificatie 0, 05 ca procesul de ımbuteliere nu este sub control(referitor la varianta)?

Solutie:Etapa 1. H0 : σ2 = 0, 0004 (procesul este sub control)

Etapa 2. H0 : σ2 > 0, 0004 (procesul nu este sub control)

Etapa 3. α = 0, 05, n = 28, df = 27 si obtinem din tabel:

χ2(27; 0, 005) = 40, 1.Etapa 4.

χ2∗ =

n · s2

σ2=

28 · 0, 0010

0, 0004= 70

Etapa 5. Luarea deciziei.

Figura 18:

62

Page 63: Statistica - notite de curs

Concluzia: Procesul de ımbuteliere este sub control ın ceea ce priveste varianta.

Exemplul 18.3. Specificatiile unui anumit medicament indica ca fiecare comprimattrebuie sa contina 2,5 g de substanta activa. 100 de comprimate alese la ıntamplaredin productie sunt analizate. Ele contin ın media 2,6 g de substanta activa cu o deviatiastandard de s = 0, 4g.Se poate spune ca medicamentul respecta specificatiile (α = 0, 05)?

Etapa 1. Ipoteza H0 este ca medicamentul respecta specificatiile:

H0 : µ = 2, 5

Etapa 2. Ipoteza Ha este ca medicamentul nu respecta specificatiile:

H0 : µ 6= 2, 5

Etapa 3. Statistica folosita este media x, iar nivelul de semnificatie este α = 0, 05.Regiunea critica este:

Etapa 4. Testul statistic este:

z =x− µ

s√n

=2, 6− 2, 5

0, 4

10

=0, 1

0, 04= 2, 5

Valoarea lui z ın tabel este: z0,975 = 1, 96 < 2, 5.Etapa 5. Ipoteza H0 este respinsa, asadar nu putem spune ca medicamentul

respecta specificatiile.Abordarea probabilista a inferentei statistice asupra variantei, p-valoarea poate fi estimatapentru verificarea ipotezelor statistice folosind tabelul statistic χ2 de aceeasi maniera casi ın cazul testului Student.

Exemplul 18.4. Sa se determine p-valoarea ın cazul urmatoarelor ipoteze statistice:

H0 : σ2 = 150Ha : σ2 > 150

Se cunosc: df = 18 si χ2∗ = 32, 7.

Solutie: p = P (χ2 > 32, 7) ∈ (0, 010; 0, 025) (date citite din tabel).

Exemplul 18.5. Un parametru folosit ın determinarea utilitatii unui examen ca masuraa abilitatii studentilor este ”ımprastierea” rezultatelor. Un set de rezultate al unui testare valoare mica daca plaja notelor este mica. Din contra daca plaja notelor este mare,este o diferenta mare ıntre rezultatul cel mai bun si rezultatul cel mai slab, atunci testulare valoare mai mare. La un test la care nota maxima este de 100 de puncte s-a pretinsca o deviatie standard de 12 puncte este de dorit. Pentru a vedea daca un anume testde o ora a fost sau nu un test bun din acest punct de vedere un profesor verifica aceastaipoteza statistica la nivelul de semnificatie α = 0, 05 folosind rezultatele obtinute de clasa.Au fost 28 de rezultate si deviatia standard gasita a fost 10, 5. Constituie aceasta o probala nivelul de semnificatie α = 0, 05 ca examenul nu are deviatia standard specificata?

Solutie: n = 28, s = 10, 5 si α = 0, 05Etapa 1. H0 : σ = 12

63

Page 64: Statistica - notite de curs

Etapa 2. H0 : σ 6= 12

Etapa 3. α = 0, 05, df = 27 si obtinem valorile critice din tabel:

χ21(27; 0, 975) = 14, 6 si χ2

2(27; 0, 025) = 43, 2.

Etapa 4.

χ2∗ =

n · s2

σ2=

28 · (10, 5)2

(12)2=

3087

144= 21, 43

Etapa 5. Nu se poate respinge H0.Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0

64

Page 65: Statistica - notite de curs

19 Generalitati despre corelatie.

Corelatie liniara

In statistica adesea apar probleme de genul urmator: pentru aceeasi populatie avem douaseturi de date corespunzatoare la doua variabile distincte si se pune ıntrebarea daca ıntrecele doua variabile exista vreo legatura (relatie)? Daca da, care este aceasta relatie? Cumsunt aceste variabile corelate? Relatiile pe care le discutam aici nu sunt neaparat de tipcauza-efect. Ele sunt relatii matematice care permit anticiparea comportamentului uneivariabile ın functie de comportamentul celeilalte. Iata cateva exemple:

Exemplul 19.1.

- In general o persoana care creste ın ınaltime creste si ın greutate. Se pune ıntrebarea:exista vreo relatie ıntre ınaltime si greutate?

- Studentii ısi petrec timpul la universitate ınvatand sau dand examene. Se puneıntrebarea: studiind mai mult, obtii note mai mari?

- Doctorii care testeaza un nou medicament prescriu cantitati diferite si observaraspunsul pacientilor; se pune ıntrebarea: cantitatea de medicament prescrisadetermina oare timpul de ınsanatosire al pacientului?

Problemele din exemplul precedent cer analiza corelatiei dintre doua variabile.

In cazul ın care pentru o populatie avem doua seturi de date corespunzatoare la douavariabile distincte se formeaza perechile de date (x, y), ın care x este valoarea primeivariabile si y este valoarea celei de-a doua variabile. De exemplu, x este ınatimea si y estegreutatea.O pereche ordonata de date (x, y) se numeste data bidimensionala.

In mod traditional, variabila X (avand valorile x) se numeste variabila de intrare(variabila independenta), iar variabila Y (avand valorile y) se numeste variabila deiesire (variabila dependenta).

Variabila de intrare X este cea masurata sau controlata pentru a prezice variabila Y .

In cazul testarii medicamentului doctorii (masoara) controleaza cantitatea de medicamentprescrisa si deci aceasta cantitate x este valoarea variabilei de intrare (independenta) X.Timpul de recuperare y este valoarea variabilei de iesire (dependente) Y .

In cazul ınaltimii si greutatii oricare din variabile poate fi atat variabila de intrare cat sivariabila de iesire. Rezultatele analizei vor fi ınsa functie de alegerea facuta.

In cazul problemelor de analiza a corelatiei dintre doua variabile datele esantionului seprezinta sub forma unei diagrame de ımprastiere.

Definitia 19.1. O diagrama de ımprastiere sau nor de puncte este reprezentareagrafica a perechilor de date ıntr-un sistem de coordonate ortogonal. Valorile x ale variabileide intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de iesire Y suntreprezentate pe axa Oy.

65

Page 66: Statistica - notite de curs

Exemplul 19.2. Pentru un esantion de 15 studenti urmatorul tabel de date reprezintanumarul de ore de studiu x pentru un examen si nota y obtinuta la acel examen:

x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9

Diagrama de ımprastiere ın acest caz este:

Exemplul 19.3. Diagrama de ımprastiere ın cazul tabelului de date:

x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9

este:

Analiza de corelatie are ca obiectiv sa stabileasca legatura dintre cele doua variabile.

Vom prezenta cateva diagrame de ımprastiere pentru a ilustra corelatii posibile dintrevariabila de intrare X si variabila de iesire Y .

Definitia 19.2. Daca pentru valorile x crescande ale variabilei de intrare X nu exista odeplasare clara (bine definita) ale valorilor y ale variabilei Y , atunci zicem ca nu avemcorelatie sau ca nu exista legatura ıntre X si Y .

66

Page 67: Statistica - notite de curs

Diagrama de ımprastiere ın cazul ın care nu avem corelatie este urmatoarea:

Definitia 19.3. Daca pentru valorile x crescande ale variabilei de intrare X exista odeplasare clara (bine definita) ale valorilor y ale variabilei Y zicem ca avem o corelatie.Zicem ca avem o corelatie pozitiva daca y tinde sa creasca si avem o corelatienegativa daca y tinde sa descreasca odata cu cresterea lui x.

Precizia schimbarii lui y atunci cand x creste determina cat de puternica este corelatia.Diagramele de ımprastiere care urmeaza ilustreaza aceste idei:

Figura 19: Diagrama de ımprastiere ın cazul unei corelatii pozitive

67

Page 68: Statistica - notite de curs

Figura 20: Diagrama de ımprastiere ın cazul unei corelatii pozitive stranse

Figura 21: Diagrama de ımprastiere ın cazul unei corelatii negative

Figura 22: Diagrama de ımprastiere ın cazul unei corelatii negative stranse

Definitia 19.4. Daca perechile (x, y) tind sa urmeze o dreapta zicem ca avem o corelatieliniara.

Definitia 19.5. Daca toate perechile (x, y) se gasesc pe o dreapta (care nu este niciorizontala nici verticala) atunci zicem ca avem o corelatie liniara perfecta.

68

Page 69: Statistica - notite de curs

Figura 23: Diagrama de ımprastiere ın cazul unei corelatii pozitive liniare perfecte

Remarca 19.1. Daca toate perechile (x, y) se gasesc pe o dreapta orizontala sau verticalanu exista corelatie intre cele doua variabile. Aceasta ıntrucat schimbarea uneia nuafecteaza valoarea celeilalte variabile.

Remarca 19.2. Diagramele de ımprastiere nu sunt totdeauna de genul celor prezentatepana acum si sugereaza corelatii care sunt de alta natura.

Figura 24: Diagrama de ımprastiere ın cazul unei corelatii neliniare

Definitia 19.6. Coeficientul de corelatie liniara r masoara cat de puternica estecorelatia liniara dintre cele doua variabile. Reflecta consistenta efectului pe care-l areschimbarea valorii variabilei independente X asupra variabilei dependente Y .

Remarca 19.3. Valoarea coeficientului de corelatie liniara r permite sa se formulezeun raspuns la ıntrebarea: exista o corelatie liniara ıntre cele doua variabile considerate?Coeficientul de corelatie liniara r are valoarea ıntre −1 si +1. Valoarea r = +1 ınseamnao corelatie liniara pozitiva perfecta, iar valoarea r = −1 ınseamna o corelatie liniaranegativa perfecta.

Daca pentru x crescand rezulta o crestere generala a valorilor lui y, atunci r indica ocorelatie liniara pozitiva.

De exemplu, ın cazul copiilor daca x este varsta si y este ınaltimea, atunci ne asteptam car sa fie pozitiv, pentru ca ın mod natural, ınatimea copilului creste o data cu varsta. In

69

Page 70: Statistica - notite de curs

cazul automobilelor de serie, daca x este varsta, iar y este valoarea, atunci ne asteptamca r sa fie negativ pentru ca ın mod uzual valoarea automobilului descreste cu varsta lui.

Definitia 19.7. Coeficientul de corelatie liniara r ın cazul unui esantion este prindefinitie:

r =

∑(x− x) · (y − y)

n · sx · sy

ın care sx, sy sunt deviatiile standard ale variabilelor x, y, iar n este numarul de perechi(x, y).

Remarca 19.4. Pentru a calcula r de obicei se foloseste o formula alternativa echivalenta:

r =SS(x, y)√

SS(x) · SS(Y )

unde: SS(x) =∑

x2 − 1

n·(∑

x)2

, SS(y) =∑

y2 − 1

n·(∑

y)2

, SS(x, y) =

∑x · y − 1

n·(∑

x ·∑

y).

Exemplul 19.4. Sa se determine coeficientul de corelatie liniara r ın cazul unui esantionaleator de marime 10, daca tabelul de date este:

x 27 22 15 35 30 52 35 55 40 40y 30 26 25 42 38 40 32 54 50 43

Folosind aceste date avem:

SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0

de unde gasim:

r =919, 0√

(1396, 9) · (858, 0)= 0, 8394 ≈ 0, 84.

Remarca 19.5. Daca valoarea calculata r este apropiata de 0, atunci nu exista corelatieliniara.

Daca valoarea calculata r este aproape de +1 sau −1, atunci banuim ca ıntre cele douavariabile exista corelatie liniara.

Intre 0 si 1 exista o valoare numita punct de decizie care indica daca exista sau nu existacorelatie liniara. Un punct simetric exista si ıntre −1 si 0. Valoarea punctului de deciziedepinde de marimea esantionului.In tabelul urmator sunt trecute puncte de decizie pozitive pentru diferite marimi deesantionare cuprinse ıntre 5 si 100.

70

Page 71: Statistica - notite de curs

n punct de n punct de n punct de n punct dedecizie decizie decizie decizie

5 0,878 12 0,576 19 0,456 30 0,3016 0,811 13 0,553 20 0,444 40 0,3127 0,754 14 0,532 22 0,423 50 0,2798 0,707 15 0,514 24 0,404 60 0,2549 0,666 16 0,497 26 0,388 80 0,22010 0,632 17 0,482 28 0,374 100 0,19611 0,602 18 0,468Tabelul 1:Punctele de decizie pozitive pentru corelatie liniara

Valorile punctelor de decizie descresc daca n creste.

Daca r se gaseste ıntre punctul de decizie negativ si cel pozitiv nu avem argumente ca sasustinem ca ıntre cele doua variabile exista o corelatie liniara.

Daca r este mai mare decat punctul de decizie pozitiv sau mai mic decat punctul dedecizie negativ atunci ıntre cele doua variabile exista o corelatie liniara.

Existenta unei corelatii ıntre cele doua variabile nu ınseamna ca exista o relatiecauza efect. Astfel, de exemplu, daca X este alocatia pentru copii ın ultimii 10 ani siY este consumul de bauturi alcoolice ın ultimii 10 ani, un esantion de aceste date aratao corelatie pozitiva stransa fara ca alocatia pentru copii sa fie cauza vanzarii bauturiloralcoolice sau viceversa.

O metoda rapida de estimare a coeficientului de corelatie liniara r ın cazul unui esantioneste urmatoarea:

a) Se deseneaza o curba ınchisa ın jurul valorii multimii de perechi (x, y):

71

Page 72: Statistica - notite de curs

b) Se determina lungimea D a diametrului maxim:

c) Se determina lungimea diametrului minim d:

d) Valoarea r se estimeaza cu ±(

1− d

D

), ın care semnul se alege ın functie de

orientarea diametrului D:

Trebuie subliniat ca aceasta estimare este grosiera. Este foarte sensibila la ımprastiere.Cu toate acestea daca plaja de valori a lui X este aproximativ aceeasi ca plaja de valoria lui Y aproximatia este utila.

72

Page 73: Statistica - notite de curs

20 Analiza de corelatie liniara

In sectiunea 20 am vazut care este formula coeficientului de corelatie liniara r ıntre douavariabile X, Y menit sa masoare cat de stransa este relatia de dependenta liniara dintrecele doua variabile.

In cele ce urmeaza vom prezenta o analiza mai amanuntita a acestei formule. Considerampentru ilustratie urmatorul set de date bidimensionale:

x 2 3 6 8 11 12y 1 5 3 2 6 1

Diagrama de ımprastiere ın acest caz este:

Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.Punctul (x, y) este punctul (7, 3) si se numeste centroid al datelor:

73

Page 74: Statistica - notite de curs

Daca prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul dedate se ımparte ın patru submultimi. Fiecare data (x, y) se gaseste la o anumita distantade aceste linii; x − x este distanta cu semn de la (x, y) la paralela la axa Oy si y − yeste distanta cu semn de la (x, y) la paralela Ox. distantele cu semn sunt pozitive saunegative ın functie de pozitia lui (x, y) fata de (x, y).

O masura a dependentei liniare ar putea fi covarianta. Covarianta dintre X si Y estedefinita ca suma produselor distantelor cu semn x−x si y−y a tuturor datelor la centroidımpartita la n:

covar(x, y) =

n∑i=1

(xi − x) · (yi − y)

n

Covarianta ın cazul tabelului de date considerate este 0, 6.

Covarianta pozitiva ınseamna ca diagrama de dispersie este dominata de date care segasesc deasupra si ın dreapta centroidului sau dedesubt si ın stanga acestuia. Aceastaıntrucat produsele (x− x) · (y − y) ın puncte din aceste regiuni sunt pozitive.

Daca diagrama de dispersie este dominata de date care se gasesc deasupra si ın stanga saudedesubt si ın dreapta centroidului atunci covarianta este negativa pentru ca produsele(x− x) · (y − y) pentru puncte din aceste regiuni sunt negative.

Covarianta ınsa nu este convenabila pentru a masura cat este de stransa relatia dedependenta liniara ıntre doua variabile fiindca depinde de unitatile de masura ale datelor.Covarianta nu are o unitate de masura standardizata si ımprastierea datelor influenteazafoarte mult marimea covariantei.

Astfel de exemplu daca ınmultim datele din tabelul considerat anterior cu 10 obtinemtabelul de date:

x 20 30 60 80 110 120y 10 50 30 20 60 10

Covarianta ın cazul acestui tabel de date este 60, dar aceasta nu ınseamna nicidecum carelatia de dependenta liniara ıntre X, Y este mai stransa. Relatia de dependenta liniara

74

Page 75: Statistica - notite de curs

este aceeasi si doar datele sunt mai ımprastiate. Aceasta este problema cu covariantaatunci cand vrem sa masuram cu ajutorul ei dependenta liniara ıntre doua variabile.

Trebuie sa gasim o cale de eliminare a efectului ımprastierii datelor atunci cand masuramdependenta.

Daca standardizam X si Y ımpartind deviatia fiecareia de la media sa cu deviatiastandard:

x′ =x− x

sx

si y′ =y − y

sy

si calculam covarianta lui X ′ si Y ′, vom avea o covarianta care nu mai este influentata deımprastierea datelor. Exact acest lucru este realizat prin introducerea coeficientului decorelatie liniar r. Astfel coeficientul de corelatie liniar este:

r = covar(X ′, Y ′) =covar(X, Y )

sx · sy

Coeficientul de corelatie liniara standardizeaza masura dependentei si ne permite sa com-param cat de stransa este dependenta liniara a diferitelor seturi de date bidimensionale.Formula coeficientului de corelatie liniara adesea poarta denumirea de momentul produsPearson.

Valoarea coeficientului de corelatie liniara r ın cazul setului de date considerat la ınceputeste:

r =0, 6

(4, 099) · (2, 098)= 0, 07

Pentru ca determinarea coeficientului de corelatie liniara cu ajutorul formulei:

r =covarX, Y

sx · sy

este greoaie, ın locul ei se foloseste una practica:

r =SS(X,Y )√

SS(X) · SS(Y )

Aceasta din urma formula evita calculul separat al lui x, y, sx, sy precum si calcululdeviatiilor de la medie.

75

Page 76: Statistica - notite de curs

21 Inferenta privind coeficientul de corelatie liniara

Dupa ce coeficientul de corelatie liniara r a fost calculat pentru un esantion se pune ınmod natural ıntrebarea: valoarea lui r indica oare ca exista o dependenta liniara ıntrecele doua variabile ın cazul populatiei din care esantioanele au fost luate?

Pentru a raspunde la aceasta ıntrebare facem o verificare a ipotezelor statistice.Etapa 1. Formularea ipotezei nule H0:

”Cele doua variabile sunt liniar necorelate.”

Aceasta ınseamna ρ = 0, ρ fiind coeficientul de corelatie pentrupopulatie.

Etapa 2. Formularea ipotezei alternative.Aceasta poate fi unilaterala sau bilaterala. Cel mai frecvent estebilaterala ρ 6= 0. Cu toate acestea daca suspectam ca avem doar osingura corelatie pozitiva ori o singura corelatie negativa trebuie safolosim test unilateral. Ipoteza alternativa ın cazul testului unilateraleste: ρ > 0 sau ρ < 0.

Etapa 3. Regiunea critica pentru testul statistic este ın partea dreapta daca neasteptam la o corelatie pozitiva si este ın stanga daca ne asteptam la ocorelatie negativa.

Testul statistic folosit pentru testarea ipotezei nule este scorul standard si valoarea tes-tului statistic este valoarea lui r calculata din esantion. Valorile critice pentru r se gasescın urmatorul tabel la intersectia coloanei corespunzatoare valorii lui α si a liniei core-spunzatoare gradului de libertate df = n− 2:

76

Page 77: Statistica - notite de curs

Valorile critice pentru r daca ρ = 0

df|α 0,10 0,05 0,02 0,011 0,988 0,997 1,000 1,0002 0,900 0,950 0,980 0,9803 0,805 0,878 0,934 0,9594 0,729 0,811 0,882 0,9175 0,669 0,754 0,833 0,8746 0,662 0,707 0,789 0,8347 0,582 0,666 0,750 0,7988 0,549 0,632 0,716 0,7659 0,521 0,602 0,685 0,73510 0,497 0,576 0,658 0,70811 0,476 0,553 0,634 0,68412 0,458 0,532 0,612 0,66113 0,441 0,514 0,592 0,64114 0,426 0,497 0,574 0,62315 0,412 0,482 0,558 0,60616 0,400 0,468 0,542 0,59017 0,389 0,456 0,528 0,57518 0,378 0,444 0,516 0,56119 0,369 0,433 0,503 0,54920 0,360 0,423 0,492 0,53725 0,323 0,381 0,445 0,48730 0,296 0,349 0,409 0,44935 0,275 0,325 0,381 0,41840 0,257 0,304 0,358 0,39345 0,243 0,288 0,338 0,37250 0,231 0,273 0,322 0,35460 0,211 0,250 0,295 0,32570 0,195 0,232 0,274 0,30280 0,183 0,217 0,256 0,28390 0,173 0,205 0,242 0,267100 0,164 0,195 0,230 0,254

Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se foloseste ın verifi-carea ipotezelor statistice.

Etapa 4. Se determina r din esantion.

Etapa 5. Se determina daca r este ın regiunea critica sau nu.

Neacceptarea ipotezei nule ınseamna ca exista o proba a dependentei dintre cele douavariabile ale populatiei

Mentiune: Aceasta nu ınseamna ca am stabilit o relatie de tip cauza efect cidoar o relatie matematica care permite sa se prezica comportamentul variabilei

77

Page 78: Statistica - notite de curs

de iesire Y din comportamentul variabilei de intrare X.

Exemplul 21.1. In cazul tabelului de date:

x 2 3 6 8 11 12y 1 5 3 2 6 1

avem n = 6, iar r = 0, 07. Intrebarea este daca aceasta valoare a lui r difera de zero ınmod semnificativ daca nivelul de semnificatie este α = 0, 02?

Etapa 1. H0 : ρ = 0

Etapa 2. H0 : ρ 6= 0

Etapa 3. Avem α = 0, 02 si df = n − 2 = 6 − 2 = 4. Valorile critice din tabelsunt: −0, 882 si 0, 882.

Etapa 4. Valoarea calculata a lui r este r∗ = 0, 07

Etapa 5. Se accepta H0.

Concluzie: Nu am putut arata ca X, Y sunt corelate. Daca acceptam ipoteza nulaınseamna ca independenta liniara dintre cele doua variabile a fost aratata.

Ca si ın alte probleme, uneori se cere estimarea unui interval de ıncredere pentrucoeficientul de corelatie ρ. Este posibila estimarea coeficientului de corelatie ρ folosindun tabel care ne da centuri de ıncredere. Tabelul urmator reprezinta asemenea centuride ıncredere pentru intervale de ıncredere de 95%: Exemplul urmator arata cum trebuiecitit un asemenea tabel.

Exemplul 21.2. Pentru un esantion de 15 perechi de date o valoare calculata a lui r ester = 0, 35. Sa se determine intervalul de ıncredere 95% pentru coeficientul de corelatieliniar ρ a populatiei?

1) Se localizeaza 0, 35 pe axa orizontala (axa coeficientului de corelatie liniara) si seduce linia verticala.

78

Page 79: Statistica - notite de curs

2) Se determina intersectia liniei verticale cu centurile corespunzatoare marimiiesantionului (aceasta fiind 15) si se obtin doua puncte pe linia verticala.

3) Intervalul de ıncredere este intervalul determinat de ordonatele acestor puncte(−0, 20,−0, 72) (axa ordonatelor este axa coeficientului de corelatie a populatiei).

79

Page 80: Statistica - notite de curs

22 Regresie liniara

Daca valoarea coeficientului de corelatie liniara r indica o corelatie liniara stransa atunci sepune problema stabilirii unei relatii numerice exacte. Aceasta relatie exacta este obtinutaprin regresie liniara.

In general statisticianul cauta o ecuatie care exprima relatia dintre doua variabile. Ecuatiaaleasa este cea mai buna fitare a diagramei de dispersie. Ecuatiile gasite se numesc ecuatiide predictie, iar ın continuare sunt prezentate cateva asemenea ecuatii:

y = b0 + b1 · x - liniara

y = a + b · x + c · x2 - patratica

y = a · bx - exponentiala

y = a · logb x - logaritmica.

Obiectivul final este ca folosind ecuatii sa se faca predictii. In general valoarea exacta avariabilei Y nu este prezisa. Ne multumim daca predictia este suficient de apropiata.

Definitia 22.1. Regresia liniara stabileste dependenta liniara ın medie a lui y ın functiede x.

Vom descrie ın continuare cum se stabileste cea mai buna dependenta liniara pentru unset de date (x, y).Daca relatia de dependenta liniara pare potrivita, cea mai buna relatie liniara se stabilestecu metoda celor mai mici patrate.Sa presupunem ca y = b0 + b1 · x este cea mai buna relatie liniara. Metoda celor mai micipatrate cere ca b0 si b1 sa fie astfel ıncat

∑(y − y)2 sa fie minima.

Din teorema lui Fermat rezulta ca valorile minime ale functiei:

F (b0, b1) =∑

(y − b0 − b1 · x)2

se obtin pentru

b1 =

∑(x− x) · (y − y)∑

(x− x)2, b0 =

1

n·(∑

y − b1 ·∑

x)

b1 este panta dreptei, iar b0 este ordonata la origine.Pentru determinarea pantei b1 de obicei se foloseste formula echivalenta:

b1 =SS(x, y)

SS(x)

unde: SS(x) =∑

x2 − 1

n·(∑

x)2

si SS(x, y) =∑

x · y − 1

n·(∑

x ·∑

y).

Mentionam aici ca expresiile SS(x, y) si SS(x) apar si ın formula de calcul al coeficientuluide corelatie liniara. De aceea ın momentul calcularii lui r putem afla si valoarea panteib1.

80

Page 81: Statistica - notite de curs

Exemplul 22.1. In cazul unui esantion de 10 indivizi consideram urmatorul set de date.

x 27 22 15 35 30 52 35 55 40 40y 30 26 25 42 38 40 32 54 50 43

Pentru a determina cea mai buna relatie liniara y = b0 + b1 · x se calculeaza SS(x, y) siSS(x) si se obtine:

SS(x, y) = 919, 0 si SS(x) = 1396, 9

de unde panta b1 este:

b1 =919, 0

1396, 9= 0, 6599 ≈ 0, 66.

Pentru a determina ordonata ın origine b0 se foloseste formula de calcul a acesteia sirezulta:

b0 =1

10[380− 0, 65 · 351] = 14, 9077 ≈ 14, 9

Astfel cea mai buna relatie liniara este:

y = 14, 9 + 0, 66 · x

Remarca 22.1.

a) Panta b1 reprezinta schimbarea prezisa a variabilei y corespunzatoare unei crestericu o unitate a variabilei x.

b) Ordonata b0 reprezinta valoarea lui y ın x = 0. Doar daca x = 0 este ın domeniulde date putem spune ca b0 este valoarea prezisa a lui y pentru x = 0.

c) Cea mai buna relatie liniara este o dreapta ce trece prin punctul de coordonate(x, y). Acest fapt poate fi utilizat ca verificare atunci cand se traseaza graficul celeimai bune relatii liniare.

Exemplul 22.2. In cazul unui esantion aleator de 8 indivizi consideram urmatorul tabelde date

x 65 65 62 67 69 65 61 67y 105 125 11 120 140 135 95 130

Diagrama de ımprastiere a acestui set de date sugereaza o corelatie liniara.

81

Page 82: Statistica - notite de curs

Pentru a gasi cea mai buna relatie de dependenta liniara calculam SS(x, y) si SS(x) sigasim:

SS(x, y) = 230, 0 si SS(x) = 48, 875

De aici avem:

b1 =230, 0

48, 875= 4, 706 ≈ 4, 71.

b0 =1

n

[∑y − b1 ·

∑x]

= −186, 478 ≈ 186, 5

de unde:y = −186, 5 + 4, 71 · x

Remarca 22.2. O estimare ”grosiera” a celei mai bune relatii de dependenta liniara sepoate face ın felul urmator:

- ca si ın cazul aproximarii coeficientului de corelatie r se considera o curba ınchisaın jurul multimii de perechi (x, y);

- diametrul maxim al multimii este o aproximare a graficului de dependenta liniara;

- se scrie ecuatia de dependenta liniara ca ecuatia unei drepte ce trece prin douapuncte de pe acest diametru;

- ca si ın cazul estimarii lui r aceasta estimare este una grosiera si trebuie folosita caatare.

82

Page 83: Statistica - notite de curs

23 Analiza de regresie liniara

Modelul liniar folosit pentru a explica dependenta liniara a doua variabile referitoare laaceeasi populatie este definit de ecuatia:

y = β0 + β1 · x + ε

Aceasta ecuatie reprezinta relatia liniara dintre doua variabile x si y ıntr-o populatie. Inaceasta relatie:- β0 este ordonata la origine;- β1 este panta;- y este valoarea observata la o valoare data a lui x;- β0 + β · x este media lui y pentru valoarea data a lui xRemarcam ca eroarea ε depinde de x. Pentru valorile x1, x2, . . . , xn ale lui x modelul liniarse scrie:

yi = β0 + β1 · xi + εi, i = 1, 2, . . . , n

- ε este eroarea aleatoare a valorii observate y la o valoare data a lui x care reprezintadeviatia valorii observate y de la medie.

Dreapta de regresie liniara obtinuta y = b0 + b1 · x pe baza datelor (xi, yi), i = 1, 2, . . . , nne da b0 care este o estimare pentru β0 si b1 care este o estimare pentru β1. Atunci vomputea scrie yi = b0 + b · xi + ei. Erorile sunt estimate prin yi − yi care este diferentadintre valoarea observata yi si valoarea prezisa yi a lui y la o valoare data a lui x. Fiindcayi = b0 + b1 · xi avem ca:

ei = yi − yi

Erorile ei sunt cunoscute sub numele de reziduuri.Variabila aleatoare e are urmatoarele proprietati:

• e > 0 ⇐⇒ y > y;

• e < 0 ⇐⇒ y < y;

• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;aceasta este o consecinta a metodei celor mai mici patrate; si astfel media erorilor

experimentale este zero:n∑

i=1

ei = 0.

Notam cu σ2ε varianta erorilor aleatoare a datelor observate si ne propunem sa estimam

aceasta varianta.

Inainte ınsa sa trecem la estimarea variantei σ2ε sa analizam putin ce reprezinta eroarea

ε? ε reprezinta diferenta dintre valoarea observata y si valoarea medie a lui y pentru ovaloare data a lui x. Intrucat nu cunoastem valoarea medie a lui y, vom folosi ecuatia deregresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu y valoarea prezisade ecuatia de regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − y.

83

Page 84: Statistica - notite de curs

Daca pentru o valoare data x avem mai multe valori observate y acestea pot fi reprezentatepe verticala ın x pe axa Ox.

O distributie similara apare la fiecare valoare a lui x. Valoarea medie a datelor y observatedepinde de x si se estimeaza cu y.

Altfel spus, deviatia standard a distributiei datelor y de la medie este aceeasi pentru oricex:

84

Page 85: Statistica - notite de curs

Reamintim ca varianta s2 a unui set de date statistice x1, x2, . . . , xn a fost definita cuformula:

s2 =1

n

n∑i=1

(xi − x)2

Determinarea variantei setului de date y introduce o complicatie pentru ca media datelory difera de la un x la altul. Pentru fiecare x media este estimata prin valoarea prezisa y cecorespunde la x prin dreapta de regresie. Astfel varianta erorii ε se estimeaza cu formula:

s2ε =

1

n

n∑i=1

(yi − yi)2

care arata ca varianta erorii ε este varianta variabilei y ın jurul dreptei de regresie.Varianta erorii s2

ε poate fi scrisa sub forma:

s2ε =

1

n

∑(y − b0 − b1 · xi)

2 =1

n

[∑y2

i − b0 ·∑

y − b1 · xi · yi

]

si este o estimare a lui σ2ε

Exemplul 23.1. O persoana care se muta la Timisoara si se angajeaza la o companiedoreste sa stie ın cat timp poate sa ajunga dimineata cu masina de la locuinta la locul demunca. Pentru a gasi un raspuns la aceasta ıntrebare el ıntreaba un numar de 15 colegi lace distanta stau de locul de munca si ın cat timp ajung la serviciu si ıntocmeste urmatorultabel de date statistice:

coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15x - distanta

(ın km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20y - timpul(ın min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45

Pentru a gasi un raspuns la problema persoana ın cauza trebuie sa determine dreapta deregresie si varianta s2

e.

Folosind formulele de calcul el gaseste:

SS(x) = 2, 616− (184)2

15= 358, 9333

85

Page 86: Statistica - notite de curs

SS(x, y) = 5, 623− (184) · (403)

15= 679, 53333

b1 =358, 9333

679, 53333= 1, 893202 ≈ 1, 89

b0 =1

15[403− (1, 893202) · (184)] = 3, 643387 ≈ 3, 64

y = 3, 64 + 1, 89 · x.

Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru aajunge la serviciu ın functie de distanta x la care locuieste.

Pentru a gasi abaterea standard de la valoarea estimata el va trebui sa calculeze si variantas2

ε. Folosind formulele de calcul el gaseste: s2ε = 29, 17.

86

Page 87: Statistica - notite de curs

24 Inferenta referitoare la panta unei drepte de re-

gresie liniara

Dupa ce ecuatia dreptei de regresie liniara a fost determinata ne ıntrebam cand putemfolosi aceasta ecuatie pentru a prezice valorile variabilei y ın functie de x?

Raspunsul la ıntrebare ıl vom da parcurgand procedeul de verificare a ipotezelor statistice.Inainte de a face inferenta privind dreapta de regresie facem urmatoarele ipoteze:

- pentru fiecare x distributia datelor y observate este aproximativ normala;

- pentru fiecare x varianta distributiei datelor y observate este aceeasi.

Inainte sa trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelorstatistice) sa analizam distributia pantelor ce se obtin pentru esantioane aleatoare demarime n. Aceste pante b1 au o distributie aproape normala avand media β1 panta ıncazul populatiei si varianta σ2

b1data de:

σ2b1

=σ2

ε∑(x− x)2

Un estimator adecvat s2b1

a lui σ2b1

se obtine prin ınlocuirea lui σ2ε cu s2

e:

s2b1

=s2

e∑(x− x)2

Aceasta formula poate fi scrisa sub forma:

s2b1

=s2

e

SS(x)=

s2e∑

x− [(∑

x)2 /n]

Eroarea standard a regresiei (pantei) este σb1 si este estimata prin sb1 .

Putem trece acum la verificarea ipotezelor statistice:

Etapa 1. Formularea ipotezei H0. Ipoteza nula va fi β1 = 0. Daca β1 = 0atunci ecuatia liniara nu poate fi folosita pentru a prezice valoarea luiy aceasta ınseamna ca: y = y.

Etapa 2. Ipoteza alternativa poate fi unilaterala sau bilaterala. Daca banuialaeste ca panta este pozitiva atunci un test unilateral este potrivit:Ha : β1 > 0.

Etapa 3. Ca test statistic folosim testul t. Numarul gradelor de libertate pentrutest este df = n − 2. In cazul Exemplului 23.1 care se refera la timpulnecesar pentru a ajunge cu masina la servici df = 15−2 = 13. La nivelulde semnificatie α = 0, 05, valoarea critica a lui t este t(13; 0, 05) = 1, 77.

Formula de calcul folosit pentru valoarea testului statistic t pentruinferenta este:

t∗ =b1 − β1

sb1

87

Page 88: Statistica - notite de curs

Etapa 4. Avand ın vedere egalitatea s2b1

=s2

e

SS(X)ın cazul exemplului considerat

gasim ca valoarea testului statistic este:

t∗ =b1 − β1

sb1

=1, 89− 0√

0, 0813= 6, 629 ≈ 6, 63

Etapa 5. Decizie: ipoteza H0 se respinge pentru ca t∗ este ın regiunea critica.Concluzie: Panta dreptei de cea mai buna aproximatie este mai mareca zero. Probele statistice arata ca exista o relatie liniara ıntre distantalocuinta-serviciu si perioada de timp necesara pentru a ajunge cu masinala serviciu si aceasta perioada de timp este predictibila.

Panta β1 a dreptei de regresie liniara a populatiei poate fi estimata cu ajutorul inter-valului de ıncredere. Capetele acestui interval de ıncredere sunt date de formula:

b1 ± t(n− 2;α

2) · sb1

In cazul Exemplului 23.1 la nivelul de semnificatie α = 0, 05:

1, 89± 2, 16 ·√

0, 0813 = 1, 89± 0, 62

capetele intervalului de ıncredere sunt 1, 27 si 2, 51.

Deci intervalul de ıncredere pentru β1 este (1, 27; 2, 51) la nivelul de semnificatie 0, 05.

88

Page 89: Statistica - notite de curs

BIBLIOGRAFIE

[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston

[2] Andrei Tudorel, Stancu Andrei, Statistica - teorie si aplicatii, Editura All, 1995,Bucuresti

[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,1991,Paris

[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lectii de statistica descrip-tiva, Universitatea de Vest, 1998, Timisoara

[5] Bocsan Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,1995, Timisoara

[6] Yule G. Udny, Kendall, M.G., Introducere ın teoria statisticii, Editura Stiintifica,1969, Bucuresti

89


Recommended