+ All Categories
Home > Documents > Statistica Prin Matlab

Statistica Prin Matlab

Date post: 09-Aug-2015
Category:
Upload: milan-alexandru
View: 189 times
Download: 29 times
Share this document with a friend
206
Transcript
Page 1: Statistica Prin Matlab

Universitatea "Al. I. Cuza" Ia³i

Facultatea de Matematic

Statistic prin Matlab

- Note de curs -

[Iulian Stoleriu]

Page 2: Statistica Prin Matlab

ii

Page 3: Statistica Prin Matlab

Contents

1 Introducere în Statistic 3

1.1 Scurt istoric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Modelare Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Organizarea si descrierea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.4 Reprezentari grace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.4.3 Reprezentarea cu bare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.5 Reprezentare prin sectoare de disc (pie chart) . . . . . . . . . . . . . . . . . . . 16

2 Elemente de Teoria probabilit µilor 17

2.1 Experienµe aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2 Deniµia axiomatic a probabilit µii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3 Câmp de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Câmp de probabilitate geometric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

iii

Page 4: Statistica Prin Matlab

2.5 Probabilit µi condiµionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.6 Variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.7 Caracteristici funcµionale ale variabilelor aleatoare . . . . . . . . . . . . . . . . . . . . 25

2.8 Caracteristici numerice ale variabilelor aleatoare . . . . . . . . . . . . . . . . . . . . . . 28

2.9 Inegalit µi între momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.10 Standardizarea unei variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.11 Corelatia si coecientul de corelatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.12 Independenµa variabilelor aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.13 Exemple de repartiµii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.14 Exemple de repartiµii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.15 Transform ri funcµionale de variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . 42

2.16 Tipuri de convergenµ a sirurilor de variabile aleatoare . . . . . . . . . . . . . . . . . . 44

2.17 Teoreme limit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.18 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.19 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 Experienµe aleatoare în Matlab 53

3.1 Scurta introducere în Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 Generarea de numere (pseudo-)aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.2.1 Generarea de numere uniform repartizate intr-un interval, U(0, 1) . . . . . . . . 57

3.2.2 Generarea de numere repartizate normal, N (µ, σ) . . . . . . . . . . . . . . . . 58

3.2.3 Generarea de numere aleatoare de o repartitie data . . . . . . . . . . . . . . . . 58

3.2.4 Metoda functiei de repartitie inverse (Hincin-Smirnov) . . . . . . . . . . . . . . 59

3.2.5 Generarea de numere aleatoare intregi . . . . . . . . . . . . . . . . . . . . . . . 61

3.3 Repartitii uzuale in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

iv

Page 5: Statistica Prin Matlab

3.4 Alte comenzi utile în Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.5 Metoda Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.6 Integrarea folosind metoda Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.7 Experimente aleatoare în Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.7.1 Simularea arunc rii unei monede . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.7.2 Simularea arunc rii unui zar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.8 Probabilit µi geometrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.9 Repartitii probabilistice in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.10 Justicari grace ale teoremei limita centrala . . . . . . . . . . . . . . . . . . . . . . . 77

3.11 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4 Elemente de Statistic descriptiv 81

4.1 Masuri descriptive ale datelor negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.2 Masuri descriptive ale datelor grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.3 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.4 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5 Noµiuni de teoria selecµiei 91

5.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.2 Exemple de statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.3 Selectii aleatoare dintr-o colectivitate normala . . . . . . . . . . . . . . . . . . . . . . . 98

5.4 Selecµii în Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.5 Exerciµii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.6 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6 Noµiuni de teoria estimaµiei 113

v

Page 6: Statistica Prin Matlab

6.1 Punerea problemei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

6.2 Metoda verosimilit µii maxime (maximum likelihood estimator) . . . . . . . . . . . . . 120

6.3 Metoda momentelor (K. Pearson) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

6.4 Metoda celor mai mici p trate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

6.5 Metoda minimului lui χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.6 Metoda cu intervale de încredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.6.1 Interval de încredere pentru medie, cand dispersia este cunoscuta . . . . . . . . 128

6.6.2 Interval de încredere pentru medie, cand dispersia este necunoscuta . . . . . . . 132

6.6.3 Interval de încredere pentru diferenta mediilor . . . . . . . . . . . . . . . . . . . 134

6.6.4 Interval de încredere dispersie, cand media este cunoscuta . . . . . . . . . . . . 135

6.6.5 Interval de încredere dispersie, cand media este necunoscuta . . . . . . . . . . . 135

6.6.6 Interval de încredere pentru raportul dispersiilor . . . . . . . . . . . . . . . . . 136

6.6.7 Interval de incredere pentru selectii mari . . . . . . . . . . . . . . . . . . . . . . 137

6.7 Tabel cu intervale de incredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.8 Functii de estimatie in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

6.9 Paradox cu intervale de încredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

6.10 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

6.11 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

7 Vericarea ipotezelor statistice 155

7.1 Punerea problemei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

7.2 Tipuri de teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

7.3 Etapele unei testari parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

7.4 Testul cel mai puternic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

7.5 Testarea tipului de date din observatii . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

vi

Page 7: Statistica Prin Matlab

7.6 Teste parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

7.6.1 Testul Z pentru o selecµie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

7.6.2 Testul Z pentru dou selecµii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

7.6.3 Testul Z in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

7.6.4 Testul t pentru o selecµie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

7.6.5 Testul t pentru dou selecµii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.6.6 Testul t in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

7.6.7 Testul χ2 pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

7.6.8 Testul χ2 in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

7.6.9 Testul F pentru raportului dispersiilor . . . . . . . . . . . . . . . . . . . . . . . 180

7.6.10 Testul raportului verosimilitatilor . . . . . . . . . . . . . . . . . . . . . . . . . . 182

7.6.11 Tabel cu teste parametrice in Matlab . . . . . . . . . . . . . . . . . . . . . . . 183

7.7 Teste de concordanta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

7.7.1 Testul χ2 de concordanµ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

7.7.2 Testul de concordanta Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . 189

7.8 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

vii

Page 8: Statistica Prin Matlab

viii

Page 9: Statistica Prin Matlab

List of Figures

1.1 Reprezentarea cu puncte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2 Reprezentarile cu bare sau histograme. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3 Reprezentarile cu bare orizontale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4 Reprezentarea pe disc a frecventelor relative ale notelor din tabelul cu note . . . . . . 16

3.1 Reprezentarea cu histograme a datelor uniforme. . . . . . . . . . . . . . . . . . . . . . 58

3.2 Reprezentarea cu histograme a datelor normale. . . . . . . . . . . . . . . . . . . . . . . 59

3.3 Generare de numere aleatoare prin metoda functiei inverse. . . . . . . . . . . . . . . . 61

3.4 Simularea arunc rii unei monede corecte (a) ³i a unui zar corect (b) . . . . . . . . . . . 68

3.5 Simularea jocului de darts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.6 Reprezentarea functiilor de probabilitate si de repartitie pentru B(10, 0.5) . . . . . . . 74

3.7 Suma cumulata - miscare aleatoare (brownian ). . . . . . . . . . . . . . . . . . . . . . 77

3.8 B(n, p) si P(np) pentru n = 100, p = 0.15 . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.9 Vericare graca a teoremei limita centrala (varianta cu functiile de repartitie) . . . . 79

4.1 Cuantila de ordin α. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.2 Functia de repartitie empirica si functia de repartitie teoretica pentru distributia normala. 87

ix

Page 10: Statistica Prin Matlab

4.3 Reprezentare pentru numarul de accidente. . . . . . . . . . . . . . . . . . . . . . . . . 89

6.1 Intervalul de incredere pentru Exercitiu 6.27. . . . . . . . . . . . . . . . . . . . . . . . 132

6.2 50 de realizari ale intervalului de incredere pentru µ . . . . . . . . . . . . . . . . . . . 143

7.1 Regiune critica pentru test unilateral stanga. . . . . . . . . . . . . . . . . . . . . . . . 160

7.2 Regiune critica pentru test bilateral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

7.3 Regiune critica pentru test unilateral dreapta. . . . . . . . . . . . . . . . . . . . . . . . 161

7.4 Reprezentarea normala a datelor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

x

Page 11: Statistica Prin Matlab

List of Tables

1.1 Tabel cu frecvente pentru date discrete. . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.2 Tabel cu frecvente pentru date continue. . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 Tabel cu frecvente pentru rata somajului. . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4 Tabel stem-and-leaf reprezentand punctajele studentilor. . . . . . . . . . . . . . . . . . 13

3.1 Repartitii uzuale in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.2 Funcµii Matlab utile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.1 Functii Matlab specice pentru masuri descriptive. . . . . . . . . . . . . . . . . . . . 88

6.1 Tabel cu intervale de incredere. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.2 Estimatori punctuali uzuali pentru parametri. . . . . . . . . . . . . . . . . . . . . . . . 144

7.1 Posibilitati decizionale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

7.2 Decizii posibile. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

7.3 Erori decizionale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

7.4 Teste pentru valoarea medie a unei colectivitati. . . . . . . . . . . . . . . . . . . . . . . 172

7.5 Teste pentru egalitatea a doua medii. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

7.6 Tabel cu note. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

xi

Page 12: Statistica Prin Matlab

7.7 Teste pentru dispersie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

7.8 Teste pentru raportul dispersiilor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

7.9 Tabel cu teste parametrice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

7.10 Tabel cu numarul de puncte obtinute la aruncarea zarului. . . . . . . . . . . . . . . . . 185

7.11 Tabel cu numarul de goluri pe meci la FIFA WC 2006. . . . . . . . . . . . . . . . . . . 188

7.12 Tablou de distributie pentru P(2.25). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

7.13 Timpi de asteptare in statia de tramvai. . . . . . . . . . . . . . . . . . . . . . . . . . . 191

7.14 Probabilitati de asteptare in statia de tramvai. . . . . . . . . . . . . . . . . . . . . . . 192

7.15 Frecventa inaltimii barbatilor dintr-o anumita regiune. . . . . . . . . . . . . . . . . . . 193

7.16 Distributia copiilor intr-o familie cu 4 copii. . . . . . . . . . . . . . . . . . . . . . . . . 194

1

Page 13: Statistica Prin Matlab

2

Page 14: Statistica Prin Matlab

Chapter 1Introducere în Statistic

1.1 Scurt istoric

Statistica este o ramur a ³tiinµelor ce se preocup de procesul de colectare de date ³i informaµii,

de organizarea ³i interpretarea lor, în vederea explic rii unor fenomene reale. De regula, oamenii au

anumite intuitii despre realitatea ce ne inconjoara, pe care le doresc a conrmate intr-un mod cat

mai exact. De exemplu, daca intr-o anumita zona a tarii rata somajului este ridicata, este de asteptat

ca in acea zona calitatea vietii persoanelor de acolo sa nu e la standarde ridicate. Totusi, ne-am dori

sa m cat mai precisi in evaluarea legaturii dintre rata somajului si calitatea vietii, de aceea ne-am

dori sa construim un model matematic ce sa ne conrme intuitia. Un alt gen de problema: ardem de

nerabdare sa aam cine va noul presedinte, imediat ce sectiile de votare au inchis portile (exit-pole).

Chestionarea tuturor persoanelor ce au votat, colectarea si unicarea tuturor datelor intr-un timp

record nu este o masura deloc practica. In ambele probleme mentionate, observatiile si culegerea de

date au devenit prima treapta spre întelegerea fenomenului studiat. De cele mai multe ori, realitatea nu

poate complet descrisa de un astfel de model, dar scopul este de a oferi o aproximare cat mai dela si

cu costuri limitate. In ambele situatii mentionate apar erori in aproximare, erori care tin de intamplare.

De aceea, ne-am dori sa putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de

la colecµiile de date obµinute dintr-o colectivitate, Statistica introduce metode de predicµie iprognoz

pentru descrierea ³i analiza propriet µilor întregii colectivit µi. Aria de aplicabilitate a Statisticii este

foarte mare: ³tiinµe exacte sau sociale, umanistic sau afaceri.

Statistica ap rut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaµiile

3

Page 15: Statistica Prin Matlab

4

pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai bune administr ri.

Datorit originii sale, Statistica este considerat de unii ca ind o ³tiinµ de sine st t toare, ce utilizeaz

aparatul matematic, ³i nu este privit ca o subramur a Matematicii.

Din punct de vedere etimologic, cuvântului statistic i³i are originile în expresia latin statisticum

collegium (însemnând consiliul statului) ³i cuvântul italian statista, însemnând om de stat sau politician.

În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat pentru a analiza

datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la

colecµii ³i clasic ri de date.

Metodele statistice sunt ast zi aplicate într-o gam larg de discipline:

• în Agricultur , de exemplu, pentru a studia care culturi sunt mai potrivite pentru a cultivate

pe un anumit teren arabil;

• în Economie, pentru studiul rentabilit µii unor noi produse introduse pe piaµ , pentru corelarea

cererii cu oferta, sau pentru a analiza cum se schimb standardele de viaµ ;

• în Biologie, pentru clasicarea din punct de vedere ³tiinµic a unor specii de plante sau pentru

selectarea unor noi specii;

• în tiinµele educaµiei, pentru a g si cel mai ecient mod de lucru pentru elevi sau pentru a studia

impactul unor teste naµionale asupra diverselor caregorii de persoane ce lucreaz în înv µ mânt;

• în Meteorologie, pentru a prognoza vremea într-un anumit µinut pentru o perioada de timp, sau

pentru a studia efectele înc lzirii globale;

• în Medicin , pentru testarea unor noi medicamente sau vaccinuri;

• în psihologie, în vederea stabilirii gradului de corelaµie între timiditate ³i singur tate;

• în Politologie, pentru a verica daca un anumit partid politic mai are sprijinul populaµiei;

• în tiinµele sociale, pentru a studia impactul crizei economice asupra unor anumite clase sociale;

• etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai întâi

care este colectivitatea asupra c reia se dore³te studiul. Aceast colectivitate (sau populaµie) poate

populaµia unei µ ri, sau numai elevii dintr-o ³coal , sau totalitatea produselor agricole cultivate

Page 16: Statistica Prin Matlab

Introducere în Statistic 5

într-un anumit µinut, sau toate bunurile produse într-o uzin . Dac se dore³te studiul unei tr s turi

comune a tuturor membrilor colectivit µii, este de multe ori aproape imposibil de a observa aceast

tr s tur la ecare membru în parte, de aceea este mult mai practic de a strânge date doar despre

o submulµime a întregii populaµii ³i de a c uta metode eciente de a extrapola aceste observaµii la

toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecµii de date,

numit Statistic descriptiv . Aceast descriere a tras turilor unei colectivit cti poate f cut aât

numeric (media, dispersia, mediana, quantile, tendinµe etc), cât ³i grac (prin puncte, bare, histograme

etc). De asemenea, datele culese pot procesate într-un anumit fel, încât s putem trage concluzii

foarte precise despre anumite tr s turi ale întregii colectivit µi. Aceast ramur a Statisticii, care

trage concluzii despre caracteristici ale întregii colectivit µi, studiind doar o parte din ea, se nume³te

Statistic inferenµial . În contul Statisticii interenµiale putem trece luarea de decizii asupra unor

ipoteze statistice, descrierea gradului de corelare între diverse tipuri de date, estimarea caracteristicilor

numerice ale unor tr s turi comune întregii colectivit µi, descrierea leg turii între diverse caracteristici

etc.

Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a

Statisticii, cautand sa extraga informatii si sa le interpreteze din datele culese pe cale experimentala.

Aceasta utilizeaza Teoria probabilitatilor, dar si notiuni din alte ramuri ale Matematicii, cum ar :

Algebra liniara, Analiza matematica.

1.2 Modelare Statistica

De obicei, punctul de plecare este o problema din viata reala, e.g., care partid are o sustinere mai buna

din partea populatiei unei tari, daca un anumit medicament este relevant pentru boala pentru care a

fost creat, daca este vreo corelatie intre numarul de ore de lumina pe zi si depresie). Apoi, trebuie sa

decidem ce date avem nevoie sa colectam, pentru a putea da un raspuns la intrebarea ridicata si cum

le putem colecta. Modurile de colectare a datele pot diverse: putem face un sondaj de opinie, sau

prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metoda bine stabilita

de colectare a datelor si sa construim un model statistic potrivit pentru analiza acestora. In general,

date culese de noi pot potrivite intr-un model statistic prin care

Data observata = f(x, θ) + eroare de aproximare, (1.1)

Page 17: Statistica Prin Matlab

6

unde f este o functie ce verica anumite proprietati, x este vectorul ce contine variabilele masurate

si θ e un parametru, care poate determinat sau nedeterminat. Termenul de eroare apare deseori in

pratica, deoarece unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat

este testat, si eventual revizuit, astfel incat sa se potriveasca intr-o masura cat mai precisa datelor

culese.

Denim o populatie (colectivitate) statistica o multime de elemente ce poseda o trasatura comuna.

Aceasta poate nita sau innita, reala sau imaginara. Elementele ce constituie o colectivitate statis-

tica se vor numi unitati statistice sau indivizi.

Volumul unei colectivitati statistice este dat de numarul indivizilor ce o constituie.

Caracteristica (variabila) unei populatii statistice este o anumita proprietate urmarita la indivizii ei

in procesul prelucrarii statistice. Caracteristicile pot : cantitative (masurabile sau variabile) si cal-

itative (nemasurabile sau atribute). La randul lor, variabilele cantitative pot discrete (numarul de

sosiri ale unui tramvai in statie) sau continue (timpul de asteptare intre doua sosiri ale tramvaiului in

statie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii ind astfel caracter-

istici numerice ale colectivitatii. Suntem interesati in a masura una sau mai multe variabile relative

la o populatie, insa aceasta s-ar putea dovedi o munca extrem de costisitoare, atat din punctul de

vedere al timpului necesar, cat si din punctul de vedere al depozitarii datelor culese, in cazul in care

volumul colectivitatii este mare sau foarte mare (e.g., colectivitatea este populatia cu drept de vot

a unei tari si caracteristica urmarita este candidatul votat la alegerile prezidentiale). De aceea, este

foarte intemeiata alegerea unei selectii de date din intreaga populatie si sa urmarim ca pe baza datelor

selectate sa putem trage o concluzie in ceea ce priveste variabila colectivitatii.

O selectie (sau esantion) este o colectivitate partiala de elemente extrase (la intamplare sau nu) din

colectivitatea generala, in scopul cercetarii lor din punctul de vedere al unei caracteristici. Daca ex-

tragerea se face la intamplare, atunci spunem ca am facut o selectie intamplatoare. Numarul indivizilor

din selectia aleasa se va numi volumul selectiei. Daca se face o enumerare sau o listare a ecarui element

component al unei a populatii statistice, atunci spunem ca am facut un recens mânt. Selectia ar trebui

sa e reprezentativa pentru populatia din care face parte. Numit o selectie repetata (sau cu repetitie) o

selectie in urma careia individul ales a fost reintrodus din nou in colectivitate. Altfel, avem o selectie

nerepetata. Selectia nerepetata nu prezinta interes daca volumul colectivitatii este nit, deoarece in

acest caz probabilitatea ca un alt individ sa e ales intr-o extragere nu este aceeasi pentru toti indivizii

colectivitatii. Pe de alta parte, daca volumul intregii populatii statistic este mult mai mare decat cel

al esantionului extras, atunci putem presupune ca selectia efectuata este repetata, chiar daca in mod

Page 18: Statistica Prin Matlab

Introducere în Statistic 7

practic ea este peretata. Spre exemplu, daca dorim sa facem o prognoza a cine va noul presedinte

la alegerile din toamna, esantionul ales (de altfel, unul foarte mic comparativ cu volumul populatiei

cu drept de vot) se face, in general, fara repetitie, dar il putem considera a o selectie repetata, in

vederea aplicarii testelor statistice.

Selectiile aleatoare se pot realiza prin diverse metode, in functie de urmatorii factori: disponibilitatea

informatiilor necesare, costul operatiunii, nivelul de precizie al informatiilor etc. Mai jos prezentam

cateva metode de selectie.

• selectie simpla de un volum dat, prin care toti indivizii ce compun populatia au aceeasi sansa de a

alesi. Aceasta metoda mininimizeaza riscul de a partinitor sau favorabil unuia dintre indivizi.

Aceasta metoda are neajunsul ca, in anumite cazuri, nu reecta componenta intregii populatii.

Se aplica doar pentru colectivitati omogene din punctul de vedere al trasarurii studiate.

• selectie sistematica, ce presupune aranjarea populatiei studiate dupa o anumita schema ordonata

si selectand apoi elementele la intervale regulate. (e.g., alegerea a ecarui al 10-lea numar dintr-o

carte de telefon, primul numar ind ales la intamplare (simplu) dintre primele 10 din lista).

• selectie straticata, in care populatia este separata in categorii, iar alegerea se face la intamplare

din ecare categorie. Acest tip de selectie face ca ecare grup ce compune populatia sa poata

reprezentat in selectie. Alegerea ar poate facuta si in functie de marimea ecarui grup ce compune

colectivitatea totala (e.g., aleg din ecare judt un anumit numar de persoane, proportional cu

numarul de persoane din ecare judet).

• selectie cota, (care este un caz particular de selectie straticata) care se construieste prin selectarea

unui numar de elemente din ecare strat dupa o anumita cota sau proportional cu marimea

subgrupului din care face parte.

• selectie ciorchine, care este un esantion straticat construit prin selectarea de selectii din anumite

straturi (nu din toate).

• selectia de tip experienta, care tine cont de elementul temporal in selectie. (e.g., diversi timpi de

pe o encefalograma).

• si altele.

Dintre selectiile nerepetate amintim:

Page 19: Statistica Prin Matlab

8

• selectie de convenienta: de exemplu, alegem dintre persoanele care trec prin fata universitatii.

• selectie de judecata: cine face selectia decide cine ramane sau nu in selectie.

• selectie de cota: selectia ar trebui sa e o copie a intregii populatii, dar la o scara mult mai mica.

Asadar putem selecta proportional cu numarul persoanelor din ecare rasa, de ecare gen, origine

etnica etc) (e.g., persoanele din Parlament ar trebui sa e o copie reprezentativa a persoanelor

intregii tari, intr-o scara mult mai mica).

• si altele.

1.3 Organizarea si descrierea datelor

Presupunem ca avem o colectivitate statistica, careia i se urmareste o anumita caracteristica. (e.g.,

colectivitatea este multimea tuturor studentilor dintr-o universitate inrolati intr-un anumit timp, iar

caracteristica este numarul de credite obtinute de studenti in decursul acelui an). Vom numi date

informatiile obtinute in urma observatiei valorilor acestei caracteristici. Datele pot calitative sau

cantitative, dupa cum caracteristica (sau variabila) observata este calitativa sau, respectiv, cantitativa.

Aceste date poti date discrete, daca sunt obtinute in urma observarii unei caracteristici discrete (o

variabila aleatoare discreta), sau date continue, daca aceasta caracteristica este continua (o variabila

aleatoare de tip continuu). In cazul din exemplu, datele vor cantitative si discrete.

Primul pas in analiza datelor proaspat culese este de a le ordona si reprezenta grac, dar si de a calcula

anumite caracteristici numerice pentru acestea. Datele inainte de prelucrare, adica exact asa cum au

fost culese, se numesc date negrupate. De exemplu, numarul de apeluri la 112 in luna Iulie, specicat

zilnic, este:

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmareste a

se grupa datele, pentru o mai usoara gestionare. Imaginati-va ca enumeram toate voturile unei selectii

intamplatoare de 15000 de votanti, abia iesiti de la vot. Mai degraba, este util sa grupam datele dupa

numele candidatilor, precizand numarul de voturi ce l-a primit ecare.

Page 20: Statistica Prin Matlab

Introducere în Statistic 9

Gruparea datelor

Datele prezentate sub forma de distributie (tabel) de frecvente se numesc date grupate. Datele de se-

lectie obtinute pot date discrete sau date continue, dupa cum caracteristicile studiate sunt variabile

aleatoare discrete sau, respectiv, continue.

(1) Daca datele de selectie sunt discrete (e.g., x1, x2, . . . , xn) si au valorile distincte

x′1, x′2, . . . , x

′r, r ≤ n, atunci ele pot grupate intr-un asa-numit tabel de frecvente (vezi exemplul din

Figura 1.1) sau intr-un tablou de frecvente, dupa cum urmeaza:

data :

x′1 x′2 . . . x′r

f1 f2 . . . fr

unde fi este frecventa aparitiei valorii x′i, (i = 1, 2, . . . , r), si se va numi distributia empirica de selectie

a lui X.

Aceste frecvente pot absolute sau de relative. Un tabel de frecvente (sau o distributie de frecvente) con-

tine toate categoriile ce sunt observate din datele colectate si numarul de elemente ce apartine ecarei

categorii in parte, adica frecventa absoluta. O frecventa relativa se obtine prin impartirea frecventei

absolute a unei categorii la suma tuturor frecventelor din tabel. Astfel, suma tuturor frecventelor

relative este egala cu 1. Elementele unui tabel sunt, de regula: valori pentru variabile, frecvente sau

frecvente relative.

In tabelul 1.1, sunt prezentate notele studentilor din anul al III-lea la examenul de Statistica. Acesta

este exemplu de tabel ce reprezenta o caracteristica discreta.

Observaµia 1.1 O gluma povestita de matematicianul ungur György Pólya, despre cum NU ar trebui

interpretata frecventa relativa. Un individ suferind merge la medic. Medicul il examineaza indelung

si, balansand dezamagit capul, ii spune pacientului:

"Of... draga domnule pacient, am o veste foarte proasta si una buna. Mai intai va aduc la cunostinta

vestea proasta, daca nu e cu b nat. Suferiti de o boala groaznica. Statistic vorbind, din zece pacienti

ce contracteaza aceasta boala, doar unul scapa."

Pacientul, deja in culmea disperarii, este totusi consolat de doctor cu vestea cea buna:

"Dar dumneavoastra ati venit la mine si asta va face tare norocos", continua optimist doctorul. "Am

avut deja noua pacienti ce au avut aceeasi boala si toti au murit, asa ca veti supravietui."

Page 21: Statistica Prin Matlab

10

nota frecventa frecventa relativa

2 2 2.22%

3 4 4.44%

4 8 8.89%

5 15 16.67%

6 18 20.00%

7 17 18.89%

8 15 16.67%

9 7 7.78%

10 4 4.44%

Total 90 100%

Table 1.1: Tabel cu frecvente pentru date discrete.

(2) Daca X este de tip continuu, atunci se obisnuieste sa se faca o grupare a datelor de selectie in

clase. De exemplu, ni se dau urmatoarele date:

1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76 0.13

3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14 2.98 4.33 5.08 4.67

0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28 0.94 3.44 1.35 3.64 2.92 2.67 2.86

5.41 5.14 2.75 1.67 3.89 1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40

3.74 4.85 3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80

0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88 5.36 1.32

5.32 3.97 0.79 3.14 2.41 3.19 1.50 0.83 4.12 3.12

reprezentand timpi (in min.sec) de asteptare pentru primii 100 de clienti care au asteptat la un ghiseu

pana au fost serviti.

Putem grupa datele de tip continuu intr-un tablou de distributie de forma:

data :

[a0, a1) [a1, a2) . . . [ar−1, ar)

f1 f2 . . . fr

,

sau sub forma unui tabel de distributie (vezi tabelul 1.2):

Page 22: Statistica Prin Matlab

Introducere în Statistic 11

clasa frecventa valoare medie

[a0, a1) f1 x′1

[a1, a2) f2 x′2...

......

[ar−1, ar) fr x′r

Table 1.2: Tabel cu frecvente pentru date continue.

Asadar, putem grupa datele de tip continuu de mai sus in tablou de distributie: [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)

14 17 21 18 16 14

.

Uneori, tabelul de distributie pentru o caracteristica de tip continuu mai poate scris si sub forma:

data :

x′1 x′2 . . . x′r

f1 f2 . . . fr

unde

• x′i =ai−1 + ai

2este elementul de mijloc al clasei [ai−1, ai);

• fi este frecventa aparitiei valorilor din [ai−1, ai), (i = 1, 2, . . . , r)),r∑i=1

fi = n.

Asadar, daca ne sunt data o insiruire de date ale unei caracteristici discrete sau continue, atunci le

putem grupa imdiat in tabele sau tablouri de frecvente. Invers (avem tabelul sau tabloul de repartitie si

vrem sa enumeram datele) nu este posibil decat in cazul unei caracteristici de tip discret. De exemplu,

daca ni se da tabelul 1.3, ce reprezinta rata somajului intr-o anumita regiune a tarii pe categorii de

varste, nu am putea sti cu exactitate varsta exacta a persoanelor care au fost selectionate pentru studiu.

Observam ca acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare

de mijloc pentru o clasa, valoarea obtinuta prin media valorilor extreme ale clasei. In cazul tabelului

1.3, valorile de mijloc sunt scrise in coloana cu varsta medie. Frecventa cumulata a unei clase este suma

frecventelor tuturor claselor cu valori mai mici.

Page 23: Statistica Prin Matlab

12

varsta frecventa frecventa relativa frecventa cumulata varsta medie

[18, 25) 34 8.83% 8.83% 21.5

[25, 35) 76 19.74% 28.57% 30

[35, 45) 124 32.21% 60.78% 40

[45, 55) 87 22.60% 83.38% 50

[55, 65) 64 16.62% 100.00% 60

Total 385 100% - -

Table 1.3: Tabel cu frecvente pentru rata somajului.

Vom numi o serie de timp (sau serie dinamica ori cronologica) un tablou de forma

data :

x1 x2 . . . xn

t1 t2 . . . tn

,

unde valorile xi sunt variabile de raspuns, iar ti momente de timp (e.g., seria de raspunsuri pe care le

citeste un electrocardiograf).

1.4 Reprezentari grace

Un tabel de frecvente sau o distributie de frecvente (absolute sau relative) sunt de cele mai multe ori

baza unor reprezentari grace, pentru o mai buna vizualizare a datelor. Aceste reprezentari pot

facute in diferite moduri, dintre care amintim pe cele mai uzuale.

1.4.1 Reprezentare prin puncte

Este folosita pentru selectii de dimensiuni mici. Sunt reprezentate puncte asezate unul peste celalalt,

reprezentand numarul de aparitii ale unei valori pentru caracteristica data. Un astfel de grac este

reprezentat in Figura 1.1.

Page 24: Statistica Prin Matlab

Introducere în Statistic 13

5 6 7 8 9 100

0.2

0.4

0.6

Figure 1.1: Reprezentarea cu puncte.

1.4.2 Reprezentarea stem-and-leaf

Sa presupunem ca urmatoarele date sunt punctajele (din 100 de puncte) obtinute de cei 20 de elevi ai

unei grupe la o testare semestriala.

50 55 59 61 62 64 68 68 73 75 77 77 77 79 81 85 96 86 92 96

Tabelul 1.4 reprezinta aceste date sub forma stem-and-leaf (ramura-frunza). Se observa ca acest tabel

arata atat cum sunt repartizate datele, cat si forma repartitiei lor (a se privi gracul ca avand pe OY

drept axa absciselor si OX pe cea a ordonatelor). Asadar, 7|5 semnica un punctaj de 75.

steam leaf

9 2 6

8 1 5 6 6

7 3 5 7 7 7 9

6 1 2 4 8 8

5 0 5 9

Table 1.4: Tabel stem-and-leaf reprezentand punctajele studentilor.

Page 25: Statistica Prin Matlab

14

1.4.3 Reprezentarea cu bare

Este utila pentru reprezentarea variabilelor discrete cu un numar mic de valori diferite. Barele sunt

dreptunghiuri ce reprezinta frecventele si nu sunt unite intre ele. Fiecare dreptunghi reprezinta o

singura valoare. In Figura 1.21 sunt reprezentate datele din tabelul cu note.

Comenzile MATLAB uzuale pentru reprezentarea cu bare sunt:

bar(X, Y ); deseneaza vectorul Y vs. vectorul X

barh(X, Y ); deseneaza pe orizontale vectorul Y vs. vectorul X

bar(X, w); deseneaza vectorul X vs. 1:N (N este lungimea lui X); w = latimea barelor.

De exemplu, comanda care produce primul grac din Figura 1.2 este:

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

Figure 1.2: Reprezentarile cu bare sau histograme.

Comanda Matlab urmatoare produce gracul din Figura 1.3, corespunzator datelor din tabelul 1.4:

barh(5:9,[3 5 6 4 2],.5)

Page 26: Statistica Prin Matlab

Introducere în Statistic 15

1.4.4 Histograme

O histograma este o forma pictoriala a unui tabel de frecvente, foarte utila pentru selectii mari de

date de tip continuu. E un set de dreptunghiuri, ale caror numar este numarul de clase, latime este

intervalul clasei, iar inaltimea este asa incat aria ecarui dreptunghi reprezinta frecventa, asa incat aria

totala a tuturor dreptunghiurilor este egala cu numarul total de observatii. De exemplu, histograma

asociata tabelului cu varstele somerilor este cea reprezentata in Figura 1.22. Comenzile MATLAB

uzuale pentru crearea histogramelor sunt:

hist(X, n); unde X este un vector, n este numarul de histograme

hist(X, Y ); deseneaza distributia vectorului X, cu numarul de histograme dat de lungimea

vectorului Y .

Figure 1.3: Reprezentarile cu bare orizontale.

De exemplu, codul care produce gracul al doilea din Figura 1.2 este:

X = [7*rand(34,1)+18; 10*rand(76,1)+25; 10*rand(124,1) + 35; ...

10*rand(87,1)+45; 10*rand(64,1)+55]; % genereaza un vector X ca in tabelul 1.3

hist(X,5); % deseneaza 5 histograme

axis([15 70 0 130]) % fixeaza axele

Page 27: Statistica Prin Matlab

16

1.4.5 Reprezentare prin sectoare de disc (pie chart)

Se poate desena distributia unei caracteristici folosind sectoare de disc, ecare sector de disc reprezen-

tand cate o frecventa relativa. Aceasta varianta este utila in special la reprezentarea datelor calitative.

Comanda MATLAB pentru un pie chart pentru un vector X este pie(X). De exemplu, comanda care

produce Figura 1.4 este:

T = [10 11.11 15.56 25.55 22.22 15.56];

pie(T,'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10')

10%

11%

16%

26%

22%

16%

Nota 5Nota 6Nota 7Nota 8Nota 9Nota 10

Figure 1.4: Reprezentarea pe disc a frecventelor relative ale notelor din tabelul cu note

Page 28: Statistica Prin Matlab

Chapter 2Elemente de Teoria probabilit µilor

2.1 Experienµe aleatoare

Numim experienta aleatoare (sau experiment aleator) orice act cu rezultat incert, care poate repetat

in anumite conditii date. Opusul notiunii de experiment aleator este experimentul determinist, sem-

nicand un experiment ale carui rzultate sunt complet determinate de conditiile in care acesta se

desfasoara. Rezultatul unui experiment aleator depinde de anumite circumstante intamplatoare ce pot

aparea. Exemple de experiente aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de

viata a unui individ, observarea vremii de a doua zi, observarea numarului de apeluri telefonice recep-

tionate de o centrala telefonica intr-un timp dat. Aplicarea experientei asupra unei colectivitati date

se numeste proba. Rezultatul potential al unei experiente aleatoare se numeste eveniment aleator. De

exemplu: aparitia unei duble (6, 6) la aruncarea a doua zaruri, extragerea unei bile albe dintr-o urna.

Se numeste caz favorabil pentru evenimentul aleator un caz in care respectivul eveniment se realizeaza.

Un eveniment aleator poate avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz

favorabil se numeste eveniment elementar.

Fie Ω o mulµime nevid , pe care o vom numi multimea tuturor evenimentelor elementare. Un element

al lui Ω il vom nota cu ω. Vom numi evenimentul sigur, acel eveniment care se poate realiza in urma

oricarei experiente aleatoare. Evenimentul imposibil este acel eveniment ce nu se realizeaza in nicio

proba. Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin Ac vom nota evenimentul comple-

mentar lui A, care se realizeaza atunci cand A nu se realizeaza. Avem: Ac = Ω \A.

Pentru a putea cuantica sansele de realizare a unui eveniment aleator, s-a introdus notiunea de prob-

17

Page 29: Statistica Prin Matlab

18

abilitate. Probabilitatea poate denita in 3 moduri diferite: denitia clasica, denitia statistica sau

denitia axiomatica (Kolmogorov).

In ce priveste probabilitatea clasica, aceasta este denita doar pentru cazul in care experienta aleatoare

are un numar nit de cazuri egal posibile. In acest caz, probabilitatea de realizare a unui eveniment este

raportul dintre numarul cazurilor favorabile realizarii evenimentului si numarul cazurilor egal posibile

ale experimentului aleator.

Probabilitatea statistica exprima probabilitatea cu ajutorul frecventelor de realizare a unui eveniment

intr-un numar mare de experimente aleatoare realizate in aceleasi conditii.

Sa consideram o experienta aleatoare (e.g., aruncarea unui zar) al carei rezultat posibil este evenimen-

tul aleator A (e.g., aparitia fetei cu 6 puncte). Aceste experiment aleator il putem efectua de N ori in

conditii identice (spunem ca efctuam N probe ale experimentului), astfel incat rezultatul unei probe sa

nu inuenteze rezultatul alteia (probe independente). Sa notam cu νN frecventa absoluta de realizare

a lui A in cele N probe independente. RaportulνNN

se va numi frecventa relativa. Notam cu fN acest

raport, ce are urmatoarele proprietati:

(a) 0 ≤ fN ≤ 1;

(b) fN (Ω) = 1;

(c) fN (Ac) = 1− fN (A), ∀A;

(d) fN (A⋃B) = fN (A) + fN (B), daca A

⋂B = ∅.

Mai mult, exista limN→∞

fN (A) si aceasta este denita ca ind probabilitatea de realizare a evenimen-

tului A, notata P (A). Asadar, in cazul denitiei statistice a probabilitatii, aceasta este limita sirului

frecventelor relative de producere a respectivului eveniment cand numarul de probe tinde la innit

(vezi teorema lui Bernoulli din cursul urmator).

In cele ce urmeaza, vom deni notiunea de probabilitate din punct de vedere axiomatic. Aceasta ax-

iomatica a fost introduse de matematicianul rus A. N. Kolmogorov (1929) si are la baza teoria masurii.

2.2 Deniµia axiomatic a probabilit µii

Reamintim, Ω este o multime abstracta, nevida.

Page 30: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 19

Deniµia 2.1 Numim algebr sau câmp o colecµie F de submulµimi ale lui Ω astfel încât:

(a) ∅ ∈ F ;

(b) dac A ∈ F , atunci Ac ∈ F ; (Ac = Ω \A) (inchidere la complementariere)

(c) dac A, B ∈ F , atunci A⋃B ∈ F (inchidere la reuniune nita).

Propoziµia 2.2 (c) implic

(c') dac (Ai)i=1, n ∈ F , atuncin⋃i=1

Ai ∈ F . (2.1)

Deniµia 2.3 Numim σ−algebr sau σ−câmp (sau corp borelian) o colecµie F de submulµimi ale lui

Ω astfel încât (a), (b) din deniµia anterioar sunt satisf cute ³i, în plus, avem

(c') dac (An)n∈N ∈ F , atunci∞⋃n=1

An ∈ F ; (inchidere la reuniune numarabila) (2.2)

Observaµia 2.4 (1) Ω = R ³i F = A; A ⊂ R este o σ−algebr ;

(2) F = Ω, ∅ este o algebr ;

(3) Dac A ∈ Ω, F = A, Ac, Ω, ∅ este o algebr ;

(4) Ω = R ³i F = (a, b]; −∞ ≤ a < b <∞ este o algebr , dar nu ³i σ−algebr ;

(5) Dac Ω e o mulµime nevid ³i F este o σ−algebr pe Ω, atunci perechea (Ω, F) se nume³te spaµiu

m surabil.

Deniµia 2.5 Fie F o colecµie de submulµimi ale lui Ω. Numim σ−algebr generat de F cea mai

mic σ−algebr ce conµine F . O not m prin σ(F) ³i este, de fapt,

σ(F) =⋂A⊃F

A. (2.3)

Dac E e un spaµiu topologic, vom numi σ-algebr Borel, notat B(E), σ-algebra generat de familia

mulµimilor deschise din E, i.e. cea mai mic σ-algebr ce conµine deschi³ii lui E.

Dac E = Rd, atunci B(Rd) (sau Bd) este σ-algebra generat de cuburile deschise din Rd. O mulµime

A ∈ Bd se nume³te mulµime borelian .

Deniµia 2.6 O funcµie P : (Ω, F)→ R, care asociaza oricarui eveniment A ∈ F numarul real P (A),

cu proprietatile:

(a) P (A) ≥ 0, ∀A ∈ F ;

(b) P (Ω) = 1;

(c) P (A⋃B) = P (A) + P (B),∀A, B ∈ F , A

⋂B = ∅,

Page 31: Statistica Prin Matlab

20

se numeste probabilitate.

Aceasta este denitia axiomatica data de A. N. Kolmogorov. Un camp de evenimente (Ω, F) inzestrat

cu o probabilitate P se numeste camp de probabilitate in sens Kolmogorov si il vom nota cu (Ω, F , P ).

Observaµia 2.7 Daca in locul conditiei (c) avem:

(c)′ dac (An)n∈N ∈ F disjuncte dou câte dou (Ai⋂Aj = ∅, ∀i 6= j) ³i P (

⋃n∈N

An) ∈ F , atunci

P (⋃n∈N

An) =∑n∈N

P (An). (σ − aditivitate) (2.4)

atunci P se va numi probabilitate σ− aditiva pe corpul borelian (Ω, F), iar (Ω, F , P ) se va numi camp

borelian de probabilitate.

Observaµia 2.8 (1) Fie Ω o mulµime cu n elemente, F = P(Ω) ³i A ∈ Ω. Atunci

P (A) =card Acard Ω

(2.5)

dene³te o m sur de probabilitate pe F (probabilitatea in sens clasic).

(2) In cazul in care conditia (b) din denitia probabilitatii lipseste, atunci spunem ca P deneste o

masura pe spatiul masurabil (Ω, F ), iar tripletul (Ω, F , P ) se va numi spatiu cu masura. O probabil-

itate este astfel un caz particular al notiunii de masura, in cazul in care masura intregului spatiu este

P (Ω) = 1.

Spunem c o proprietate are loc a.s. (aproape sigur) dac are loc întotdeauna, cu excepµia unei mulµimi

A pentru care P (A) = 0. O astfel de multime se va numi multime P -nula.

2.3 Câmp de probabilitate

Principalul concept al teoriei probabilit µilor este spaµiu probabilistic sau câmp de probabilitate. In

cele ce urmeaza, cand ne vom referi la camp de probabilitate, vom intelege un triplet (Ω, F , P ), cu

urmatoarele proprietati:

(i) Ω este o mulµime abstract (mulµimea tuturor evenimentelor elementare ale unui experiment

stochastic);

(ii) F ⊂ P(Ω) este o σ-algebr , i.e. sunt îndeplinite urm toarele condiµii:

Page 32: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 21

(σ1) Ω ∈ F ;

(σ2) A ∈ F =⇒ Ac ∈ F ;

(σ3) ∀(An)n∈N ∈ F =⇒⋃n∈N

An ∈ F ;

(iii) P : F → R e o funcµie satisf cînd condiµiile:

(P1) P (Ω) = 1;

(P2) ∀A ∈ F , P (A) ≥ 0;

(P3) ∀(An)n∈N, An⋂Am = ∅,∀n 6= m, avem P (

⋃n∈N

An) =∑n∈N

P (An).

Terminologie:

(i) Elementele lui F se numesc evenimente iar ω ∈ Ω sunt elemente de prob .

(ii) O mulµime A ⊂ F , cu A− σ-algebr , o vom numi sub-σ-algebr a lui F .

(iii) ∀A ∈ F , P (A) se va numi probabilitatea lui A.

(iv) Dac P (A) = 0, atunci A se va numi mulµime P -nul .

(v) Daca P (A) = 1, atunci A este evenimentul sigur, sau spunem ca A se realizeaz aproape sigur(a.s.).

O familie (Ft)t≥0 cresc toare de sub-σ−algebre ale lui F se nume³te ltrare pe F .

Denim o baz stochastic ca ind un qvadruplu (Ω, F , P, (Ft)t≥0), unde (Ω, F , P ) este un cîmp de

probabilitate complet în raport cu P (i.e. F conµine mulµimile P−nule), iar (Ft)t≥0 este o ltrare pe

F .

Dat ind un ³ir (An)n∈N in Ω, denim

lim infn→∞

An =∞⋃n=1

⋂m≥n

Am ³i lim supn→∞

An =∞⋂n=1

⋃m≥n

Am. (2.6)

În general, lim infn→∞

An ⊆ lim supn→∞

An. În caz de egalitate vom spune c ³irul (An)n∈N are limit ³i vom

scrie

limn→∞

An = lim infn→∞

An = lim supn→∞

An. (2.7)

Observaµia 2.9 Din punct de vedere euristic, lim infn→∞

An reprezinta evenimentul care se realizeaza cand

toate An se realizeaza, mai putin un numar nit. Pe de alta parte, lim supn→∞

An inseamna realizarea unei

innitati de evenimente din sirul A1, A2, . . . .

Teorema 2.10 (Borel-Cantelli)

Fie (An)n∈N ∈ Ω, un sir de evenimente. Atunci:

Page 33: Statistica Prin Matlab

22

(i) Daca∞∑n=1

P (An) <∞, atunci P

(lim supn→∞

An

)= 0.

(ii) Daca∞∑n=1

P (An) =∞ si evenimentele Ann sunt independente, atunci

P

(lim supn→∞

An

)= 1.

2.4 Câmp de probabilitate geometric

S presupunem c am dispune de un procedeu prin care putem alege la întâmplare un punct dintr-un

interval [a, b]. În plus, vom presupune c acest procedeu ne asigur c nu exist porµiuni privilegiate

ale intervalului [a, b], i.e. oricare ar dou subintervale de aceea³i lungime, este la fel de probabil ca

punctul sa cad într-unul dintre intervale ca ³i celalalt. Dac am folosi de mai multe ori procedeul

pentru a alege un num r mare de puncte, acestea vor repartizate aproximativ uniform in [a, b],

i.e. nu vor exista puncte în vecinatatea c rora punctul ales sa cad mai des, ori de câte ori e ales.

De aici reiese c probabilitatea ca un punct sa cad într-un subinterval al lui [a, b] este dependent

de lungimea acelui subinterval ³i nu de poziµia sa în interiorul lui [a, b]. Este chiar proporµional cu

lungimea subintervalului.

Se poate observa analogia cu experienµa alegerii dintr-un num r de cazuri egal posibile.

Dac [a, b] e mulµimea cazurilor egal posibile ³i [c, d] ⊂ [a, b] este mulµimea cazurilor favorabile, atunci

probabilitatea ca punctul ales sa cad în [c, d] este

P (A) =masura ([c, d])masura ([a, b])

=d− cb− a

.

În particular, daca x ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval sa coincid

cu un punct dinainte stabilit este zero ³i, astfel, întrez rim posibilitatea teoretic ca un eveniment sa

aib probabilitatea nul , far ca el sa e evenimentul imposibil .

În mod cu totul analog, dac se ia la întâmplare un punct dintr-un domeniu planar D, astfel ca s

nu existe puncte sau porµiuni privilegiate, atunci probabilitatea ca punctul sa cad în subdomeniul

D′ ⊂ D este aria D′aria D .

În trei dimensiuni, probabilitatea similar este raportul a dou volume.

Page 34: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 23

2.5 Probabilit µi condiµionate

Fie spaµiul probabilistic (Ω, F , P ) ³i A, B ∈ F , cu P (B) > 0. Denim probabilitatea evenimentului A

condiµionat de realizarea evenimentului B, notat P (A|B) sau PB(A), prin:

PB(A) =P (A

⋂B)

P (B). (2.8)

Observaµia 2.11 PB(A) astfel denit va o probabilitate pe F , iar tripletul (Ω, F , PB) este un

camp de probabilitate.

Propoziµia 2.12 (a) (formula probabilit µilor totale) Fie (Bi)i∈I , (I ⊂ N) o partiµie a lui Ω, astfel

încît P (Bi) > 0, ∀i ∈ I. Atunci

P (A) =∑i∈I

P (Bi) · PBi(A), ∀A ∈ F . (2.9)

(b) (formula lui Bayes) În condiµiile de la (a) ³i, în plus, P (A) > 0, avem:

PA(Bi) =P (Bi) · PBi(A)∑

j∈IP (Bj) · PBJ (A)

, ∀i ∈ I. (2.10)

(c) Dac B1, B2, . . . , Bn ∈ F , astfel încît P (B1⋂B2⋂· · ·⋂Bn) > 0, atunci:

P (B1

⋂B2

⋂· · ·⋂Bn) = P (B1) · PB1(B2) · . . . · PB1

⋂···⋂Bn−1

(Bn). (2.11)

2.6 Variabile aleatoare

Euristic, o variabila aleatoare este o functie cu valori intamplatoare. In viata de zi cu zi intalnim

numeroase astfel de functii, e.g., numerele ce apar la extragerea loto, numarul clientilor deserviti la un

anumit ghiseu intr-o anumita perioada, timpul de asteptare a unei persoane intr-o statie de autobuz

pana la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfarsitul alfabetului

(X, Y, Z) sau ξ, η, ζ si altele.

Fie (Ω,F , P ) un cîmp de probabilitate ³i (E, E) un spaµiu m surabil.

O funcµie X : (Ω,F , P )→ (E, E) se nume³te variabil aleatoare (v.a.) dac

pentru orice B ∈ E , X−1(B) ∈ F (2.12)

Page 35: Statistica Prin Matlab

24

(i.e., spunem ca X este o funcµie F−masurabil ).

În particular, dac :

− (E, E) ≡ (R,B(R)), atunci X este o variabil aleatoare real ;

− (E, E) ≡ (Rd,B(Rd)), atunci X este vector aleator (sau v.a.) d-dimensional( );

− (E, E) ≡ (Rn×m,B(Rn×m), atunci X este o matrice aleatoare.

Deoarece multimile (−∞, x], x ∈ R genereaza B(R), pentru ca X : (Ω,F , P )→ R sa e o v.a. reala

este sucient ca

∀x ∈ R, ω ∈ Ω | X(ω) ≤ x ∈ F . (2.13)

Vom utiliza notatiile X ≤ x not= ω ∈ Ω | X(ω) ≤ x si, in general,

X ∈ B not= ω ∈ Ω | X(ω) ∈ B

Dac X : (Ω,F , P )→ Rd este o v.a., atunci

F(X) = X−1(B), B ∈ Bd

este o σ−algebr , denumit σ−algebr generat de v.a. X. Astfel, σ(X) este cea mai mic sub−σ−algebr

a lui F a³a încît X în raport cu care X este m surabil .

Dac (Xn)n∈N este un ³ir de v.a. reale astfel încît Xk(ω) → X(ω), ∀ω ∈ Ω, atunci X este tot o v.a.

real .

Fie Xi : (Ω,F , P ) → (E, E), (i ∈ I) o familie de v.a.. Denim σ−algebra generat de familia

Xi, i ∈ N, notat σ(Xi, i ∈ I), cea mai mic σ−algebr pentru care Xi, i ∈ I, sunt m surabile.

Variabilele aleatoare pot lua o multime cel mult numarabila de valori (si le numim v.a. discrete) sau o

multime continua de valori (un interval nita sau innit din R), si le vom numi (v.a. de tip continuu).

Exemple de v.a. discrete: numarul fetei aparut la aruncarea unui zar, numarul de sosiri ale unui

tramvai intr-o statie intr-un anumit interval, numarul de erori aparute pana la primul succes etc. Din

clasa v.a. de tip continuu amintim: timpul de asteptare la un ghiseu pana la servire, pretul unui activ

nanciar intr-o perioada bine determinata.

O v.a. discret X se poate scrie sub forma

X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N. (2.14)

Page 36: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 25

Aici χA este funcµia indicatoare a mulµimii A, iar Ak = X−1(xk). Observam cu usurinta can⋃i=1

Ai =

Ω, Ai⋂Aj = ∅, ∀i 6= j. Uneori, unei o v.a. discrete i se atribuie urmatorul tablou de repartitie:

X :

xi

pi

, (2.15)

unde pi = P (X = xi), i ∈ J ⊂ N,n∑i=1

pi = 1. Spre exemplu, tabloul de repartitie pentru v.a. ce

reprezinta numarul de puncte ce apare la aruncarea unui zar ideal este: 1 2 3 4 5 6

1/6 1/6 1/6 1/6 1/6 1/6

,

O v.a. X reala se nume³te de tip continuu dac ∃f : Rd → R m surabil Borel ce îndepline³te condiµiile:

(a) f(x) ≥ 0, a.s.

(b)∫

Rf(x) dx = 1

(c) PX(B) =∫Bf(x) dx, ∀B ∈ F .

Funcµia f se nume³te densitatea de repartiµie a lui X.

In continuare, vom deni cele mai importante caracteristici functionale si numerice ale unei variabile

aleatoare X : (Ω,F , P )→ (R,B(R)).

2.7 Caracteristici funcµionale ale variabilelor aleatoare

Repartiµia

Repartiµia lui X este o m sur de probabilitate pe Bd, PX : Bd → [0, 1], dat prin

PX(B) = P (X ∈ B), ∀B ∈ B. (2.16)

Repartiµia unei v.a. discrete este astfel:

PX(B) =∑k∈J

P (Ak)δxk(B), (2.17)

Page 37: Statistica Prin Matlab

26

unde

δa(B) =

1, dac a ∈ B

0, în rest

Funcµia de repartiµie (sau functia cumulata)

Numim funcµie de repartiµie atasata v.a reale X o funcµie F : R→ [0, 1], dat prin

F (x) = P (X ≤ x).

Astfel, F (x) = PX((−∞, x]), adica este repartitia multimii (−∞, x].

Termenul in engleza pentru functia de repartitie este cumulative distribution function.

Daca X = (X1, X2, . . . , Xd) : (Ω, F , P ) → Rd este un vector aleator, atunci functia de repartitie se

deneste ca ind F : Rd → [0, 1], dat prin

F ((x1, x2, . . . , xd)) = P (X1 ≤ x1;X2 ≤ x2; . . . , Xd ≤ xd).

Propriet µi ale funcµiei de repartiµie:

• este cresc toare (F (x) ≤ F (y), ∀x, y ∈ R, x ≤ y);

• este continu la dreapta ( limyx

F (y) = F (x), ∀x ∈ R);

• limx→−∞

F (x) = 0 ³i limx→∞

F (x) = 1.

In cazul unei variabile aleatoare discrete, cu tabloul de repartitie dat de (2.15), functia sa de repartitia

intr-un punct x este:

F (x) =∑

i;xi≤x

pi. (2.18)

Daca X este o variabila aleatoare continua si f este densitatea sa de repartitie, atunci functia de

repartitie este data de formula:

F (x) =

x∫−∞

f(t) dt, x ∈ R. (2.19)

Observaµia 2.13 Uneori, avem de calculat evenimentul P (X > x), pentru un x ∈ R dat. Numim

functie de repartitie complementara, functia Fc : R → [0, 1], data prin F(x) = P (X > x) = 1 −

F (x), ∀x ∈ R.

Page 38: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 27

Funcµia caracteristic

Numim funcµie caracteristic atasata v.a reale X o funcµie φX : R→ C, dat prin:

φX(t) =∑k∈J

ei t xk pk, daca X =∑k∈J

xk χAk , (X = discreta)

φX(t) =∫

Rei t xf(x) dx, daca X = variabila aleatoare continua.

Aici, i este numarul imaginar, (i2 = −1).

Propriet µi ale funcµiei caracteristice:

• |φX(t)| = 1, ∀t ∈ R;

• φaX(t) = φX(a t), ∀t ∈ R, a ∈ R;

• φaX+b(t) = φX(a t)eibt, ∀t ∈ R, a ∈ R;

• φX(−t) = φX(t), ∀t ∈ R;

• φX : R→ C este uniform continu ;

• ∀ti, tj ∈ R, ∀zi, zj ∈ C avemn∑

i, j=1

φX(ti − tj)zizj ≥ 0.

Funcµia de probabilitate (sau de frecvenµ )

Fie X o variabila aleatoare discreta, X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, Ai ∈ F , J ⊂ N. Numim funcµie

de probabilitate (de frecventa) atasata variabilei aleatoare discrete X o funcµie f : R→ R, denit prin

f(xi) = pi, unde pi = P (Ai), i ∈ J.

Functia de probabilitate (en., probability distribution function) pentru o variabila aleatoare discreta

este similara densitatii de repartitie pentru o variabila aleatoare continua. Intr-adevar, proprietatile

pe care le satisface functia de probabilitate sunt:

f(xi) ≥ 0, ∀i ∈ J,

n∑i=1

f(xi) = 1.

Page 39: Statistica Prin Matlab

28

2.8 Caracteristici numerice ale variabilelor aleatoare

1. Media

Deniµia 2.14 Daca X este o v.a. de tip discret, X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N, atunci

media aceste v.a. se deneste ca ind:

E(X) =∑i∈J

xiP (Ai). (2.20)

Deniµia 2.15 Daca X este o v.a. de tip continuu, cu densitatea de repartitie f : R → R, atunci

media acestei v.a., daca exista (!) (nu toate v.a. de tip continuu admit medie - vezi repartitia Cauchy),

se deneste astfel:

E(X) =∫

Rxf(x)dx, (daca aceasta integrala exista). (2.21)

Observaµia 2.16 Denitia mediei poate data intr-un cadru mult mai general, folosind integrala

Lebesque. Aceasta integrala este generalizarea integralei Riemann. Sumarizam mai jos, gradual si fara

demonstratiile aferente, constructia mediei unei v.a. reale.

Pas 1: O v.a. X cu X(ω) =n∑i=1

xiχAi(ω) se nume³te v.a. simpl . Pentru v.a. simpl X denim

media (notat cu E(X)) astfel:

E(X) not=∫

ΩX(ω) dP (ω) =

n∑i=1

xiP (Ai).

Pas 2: Dac X : Ω → R ³i X ≥ 0, atunci exista un sir Xn : Ω → R, (n ∈ N) de v.a. simple astfel

încît

0 ≤ X1(ω) ≤ · · · ≤ Xn(ω) ≤ X(ω), ∀ω ∈ Ω

³i

limn→∞

Xn(ω) = X(ω).

Denim

E(X) = limn→∞

E(Xn).

Pas 3: Fie X : Ω→ R o v.a.. Atunci X = X+ −X−, unde

X+(ω) = maxX(ω), 0, X−(ω) = max−X(ω), 0 = (−X)+(ω).

Page 40: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 29

În acest caz denim media lui X,

E(X) = E(X+)− E(X−),

ori de cîte ori m car una dintre E(X+) ³i E(X−) este nit . Cînd ambele sunt nite, atunci spunem

c X este o v.a. integrabil .

Dac X = X1 + iX2 : Ω→ C, denim media v.a. complexe X prin

E(X) = E(X1) + iE(X2),

ori de cîte ori ambele medii exist ³i sunt nite.

Dac X este un vector aleator, X = (X1, X2, . . . , Xd)T : Ω → Rd, atunci denim media lui X

prin

E(X) = (E(X1), E(X2), . . . , E(Xd))T .

Propoziµia 2.17 Fie X : Ω→ Rd o v.a. cu densitatea de repartitie f si o funcµie m surabil g : Rd →

R. Atunci

E(g(X)) =∫

Rdg(x)f(x) dx.

In particular, daca g : R→ R este functia identica, atunci:

E(X) =∫

ΩX(ω) dP (ω) =

∫Rxf(x) dx,

si astfel redescoperim denitia mediei unei v.a. de tip continuu din Denitia 2.15.

Relatia anterioara se mai numeste si formula de transport pentru integrala, deoarece integrala abstracta

pe multimea Ω este "transportata" intr-o integrala Riemann pe R.

2) Dispersia (sau varianµa) si abaterea standard:

Daca X este o variabila aleatoare si X = X − E(X) (numita abaterea lui X de la media sa), atunci

E(X) = 0. Asadar, nu putem masura gradul de impreastiere a valorilor lui X in jurul mediei sale doar

calculand X − E(X). Avem nevoie de o alta masura. Aceasta este dispersia variabilei aleatoare.

Deniµia 2.18 Daca X este o v.a. discreta, X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N, cu media

E(X) = m, denim dispersia lui X ca ind:

D2(X) =∑i∈J

(xi −m)2pi, unde pi = P (Ai), ∀i ∈ J. (2.22)

Page 41: Statistica Prin Matlab

30

Deniµia 2.19 Fie X : Ω → R o v.a. de tip continuu pentru care media poate denita (∃E(X) =

m ∈ R). Denim dispersia lui X (sau varianµa lui X) cantitatea

D2(X) = E[(X −m)2] =∫

R(x−m)2f(x) dx. (2.23)

Notaµiile consacrate pentru dispersie sunt D2(X) sau σ2.

Observaµia 2.20 Dispersia scrisa ca integrala abstracta (vezi propozitia anterioara) este:

σ2 =∫

Ω(X(ω)−m)2 dP (ω).

Abaterea standard este cantitatea σ =√σ2.

3) Momente

Pentru o v.a. X de tip discret, X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N,

cu E(X) = m si pi = P (Ai), i ∈ J , denim momentele:

αk(X) = E(Xk) =∑i∈J

xki pi (momente iniµiale de ordin k);

βk(X) = E(|X|k) =∑i∈J|xi|kpi (momente absolute de ordin k);

µk(X) = E((X −m)k) =∑i∈J

(xi −m)kpi (momente iniµiale centrate de ordin k);

γk(X) = E(|X −m|k) =∑i∈J|xi −m|kpi (momente absolute centrate de ordin k);

Pentru o v.a. X de tip continuu ce admite medie m = E(X) <∞, denim momentele:

αk(X) = E(Xk) =∫

Rxkf(x) dx =

∫ΩXkdP (momente iniµiale de ordin k);

βk(X) = E(|X|k) =∫

R|x|kf(x) dx =

∫Ω|X|kdP (momente absolute de ordin k);

µk(X) = E((X −m)k) =∫

R(x−m)kf(x) dx =

∫Ω

(X −m)kdP (momente iniµiale centrate);

γk(X) = E(|X −m|k) =∫

R|x−m|kf(x) dx =

∫Ω|X −m|kdP (momente absolute centrate);

Page 42: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 31

2.9 Inegalit µi între momente

(a) βr(X + Y ) ≤ cr(βr(X) + βr(Y )), unde cr = 1 pentru r ∈ (0, 1] ³i cr = 2r−1 pentru r > 1.

(b) (βr(X))1/r ≤ (βs(Y ))1/s, ∀0 ≤ r ≤ s; (Lyapunov)

(c) E|XY | ≤ (E|X|r)1/r(E|Y |s)1/s, ∀r, s > 1, r−1 + s−1 = 1; (Hölder);

(d) (E|X + Y |r)1/r ≤ (E|X|r)1/r + (E|Y |r)1/r; (Minkowski)

(e) Fie g : R→ R convex . Atunci avem g(E(X)) ≤ E(g(X)). (Jensen)

(f) Dac a > 0, p ∈ N∗, atunci avem:

P (|X| ≥ a) ≤ βp(X)ap

; (Markov)

În particular, pentru p = 2 si X e inlocuit cu variabila aleatoare (X −m), (m = E(X)), obµinem:

P (|X −m| ≥ a) ≤ σ2

a2. (Cebsev) (2.24)

Daca in inegalitatea lui Cebîsev luam ε = kσ, unde k ∈ N, atunci obtinem:

P (|X −m| ≥ kσ) ≤ 1k2, (2.25)

sau, echivalent:

P (|X −m| < kσ) ≥ 1− 1k2.

In cazul particular k = 3, obtinem inegalitatea celor 3σ:

P (|X −m| ≥ 3σ) ≤ 19≈ 0.1.

sau

P (m− 3σ < X < m+ 3σ) ≥ 89, (2.26)

semnicand ca o mare parte din valorile posibile pentru X se aa in intervalul [m− 3σ, m+ 3σ].

2.10 Standardizarea unei variabile aleatoare

Fie variabila aleatoare X, de medie m si dispersie σ2.

Page 43: Statistica Prin Matlab

32

Deniµia 2.21 Variabila aleatoare X =X −mσ

se numeste variabila aleatoare standardizata (sau

normata).

Proprietatile variabilei aleatoare standardizate:

E(X) = 0, D2(X) = 1.

2.11 Corelatia si coecientul de corelatie

Fie X, Y v.a. cu mediile, respectiv, mX , mY si dispersiile σ2X , respectiv, σ

2Y . Calculand dispersia

sumei X + Y , obtinem:

D2(X + Y ) = E[(X + Y − (mX +mY )2)]

= E[(X −mX)2] + E[(Y −mY )2] + 2E[(X −mX)(Y −mY )]

= D2(X) +D2(Y ) + 2E[(X −mX)(Y −mY )].

Deniµia 2.22 Media E[(X −mX)(Y −mY )] se numeste corelatia (sau covarianta) v.a. X si Y si o

notam cu cov(X, Y ).

Observaµia 2.23 (a) Continuand sirul anterior de egalitati, avem:

D2(X + Y ) = D2(X) +D2(Y ) + 2 cov(X, Y ). (2.27)

(b) cov(X, Y ) = E[(X −mX)(Y −mY )] = E(XY )−mXmY .

(c) Daca X si Y sunt v.a. independente (realizarile lui X nu depind de realizarile

lui Y ), atunci cov(X, Y ) = 0. Reciproca nu este intotdeauna adevarata.

Presupunem acum ca σ2X si σ2

Y sunt nite si nenule. Fie X =X −mX

σXsi Y =

Y −mY

σY.

Deniµia 2.24 Se numeste coecientul de corelatie al v.a. X si Y covarianta variabilelor standardizate

X si Y . Notam astfel:

ρ(X, Y ) = cov(X, Y ) =cov(x, Y )σXσY

. (2.28)

Observaµia 2.25 (a) Daca X si Y sunt independente (vezi sectiunea urmatoare), atunci

ρ(X, Y ) = 0.

Page 44: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 33

(b) − 1 ≤ ρ(X, Y ) ≤ 1, pentru orice X si Y .

(c) Daca Y = aX + b (a, b ∈ R), atunci

ρ(x, Y ) =

+1, daca a > 0;

−1, daca a < 0.

2.12 Independenµa variabilelor aleatoare

Conceptul de independenµ a v.a. sau a evenimentelor este foarte important din punctul de vedere al

calculului probabilit µilor evenimentelor compuse din evenimente mai simple.

Deniµia 2.26 Fie (Ω, F , P ) un cîmp de probabilitate, A ∈ F un eveniment arbitrar si B un eveni-

ment pentru care P (B) > 0. Evenimentele A si B sunt independente daca probabilitatea lui A este

independenta de realizarea evenimentului B, adica probabilitatea conditionata

P (A| B) = P (A), (2.29)

echivalent cuP (A

⋂B)

P (B)= P (A).

Putem rescrie ultima egalitate sub forma simetrica:

P (A⋂B) = P (A) · P (B). (2.30)

Deoarece in relatia (2.30) nu mai este nevoie de conditie suplimentara pentru P (B), este preferabil sa

denim independenta a doua evenimente arbitrare astfel:

Doua evenimente, A, B ∈ F se numesc independente (stochastic) daca relatia (2.30) are loc.

Deniµia 2.27 (i) Evenimentele A1, A2, . . . , An se numesc independente in ansamblu dac pentru

ecare submulµime i1, i2, . . . , ik a mulµimii 1, 2, . . . , n avem

P (Ai1⋂Ai1

⋂· · ·⋂Aik) = P (Ai1) · P (Ai2) · . . . · P (Aik). (2.31)

(ii) Spunem ca evenimentele A1, A2, . . . , An sunt independente doua cate doua dac pentru oricare

doua evenimente, Ai si Aj , din aceasta multime, avem

P (Ai⋂Aj) = P (Ai) · P (Aj)). (2.32)

Page 45: Statistica Prin Matlab

34

iii În general, evenimentele (Ai)i∈I ⊂ F , (I ⊂ N), se numesc independente dac

P (⋂j∈J

Aj) =∏j∈J

P (Aj), (2.33)

pentru orice J ⊂ I, J−nit .

Observaµia 2.28 Independenta doua cate doua a evenimentelor nu implica independenta in ansamblu.

Sa exemplicam considerand urmatoarea experienta.

Consideram aruncarea a doua monede ideale. Fie A evenimentul ca "fata ce apare la prima moneda

este stema", B evenimentul ca "fata ce apare la a doua moneda este stema", iar C evenimentul ca

"doar la o moneda din cele doua a aparut fata cu stema". Se observa cu usurinta ca evenimentele A,

B si C sunt independente doua cate doua, deoarece:

P (A⋂C) = P (A) · P (C) =

14

; P (B⋂C) = P (B) · P (C) =

14

; P (A⋂B) = P (A) · P (B) =

14.

Totodata, mai observam ca oricare doua dintre ele determina in mod unic pe al treilea. Asadar,

independenta doua cate doua nu implica independenta celor trei evenimente in ansamblu, fapt observat

si din relatia

0 = P (A⋂B⋂C) 6= P (A) · P (B) · P (C) =

18.

Deniµia 2.29 Dac Mi, i ∈ I ⊂ N, cu Mi ⊂ F , este o familie de σ−corpuri, atunci spunem

ca acestea sunt independente (stochastic) dac pentru orice submultime nita J ⊂ I ³i pentru orice

alegere de evenimente Aj ∈Mj , este indeplinita conditia

P (⋂j∈J

Aj) =∏j∈J

P (Aj). (2.34)

Deniµia 2.30 (1) Spunem ca v.a. (Xi)i∈I : (Ω,F)→ R, (I ⊂ N), sunt independente (in ansamblu)

dac σ−corpurile generate de Xi, σ(Xi)i∈I , formeaz o familie de σ−corpuri independente.

(2) Spunem ca v.a. (Xi)i∈I : (Ω,F) → R, (I ⊂ N), sunt independente doua cate doua dac oricare

ar doua variabile aleatoare din aceasta familie, acestea sunt independente in sensul denitiei de la

(1).

Observaµia 2.31 Denitia variabilelor aleatoare independente (in ansamblu) este echivalenta cu:

Pentru orice k ≥ 2 si orice alegere a multimilor boreliene B1, B2, . . . , Bk ∈ F , avem:

Page 46: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 35

P (X1 ∈ B1, X2 ∈ B2, . . . , Xk ∈ Bk) = P (X1 ∈ B1) · P (X2 ∈ B2) · . . . · P (Xk ∈ Bk), (2.35)

sau, cu alte cuvinte, evenimentele X1 ∈ B1, X2 ∈ B2, . . . , Xk ∈ Bk sunt independente in

ansamblu.

Exemplu 2.32 Sa consideram aruncarea unui zar. Aruncam zarul de doua ori si notam cu X1,

respectiv, X2, v.a. ce reprezinta numarul de puncte aparute la ecare aruncare. Evident, valorile

acestor v.a. sunt din multimea 1, 2, 3, 4, 5, 6. Asadar,

Xi : Ω→ 1, 2, 3, 4, 5, 6, i = 1, 2.

Avem:

P(X1 = i

⋂X2 = j

)= P (X1 = i, X2 = j) =

136

= P (X1 = i) · P (X2 = j), ∀i, j ∈ 1, 2, 3, 4, 5, 6,

aceasta insemnand ca variabilele aleatoare X1 si X2 sunt independente stochastic (aruncarile au fost

efectuate independent una de cealalta).

Teorema 2.33 Consider m familia de v.a. X1, X2, . . . , Xn, Xi : (Ω,F)→ R, i = 1, n.

Urm toarele armaµii sunt echivalente:

(i) X1, X2, . . . , Xn sunt v.a. independente stochastic;

(ii) P (X1 ∈ B1, X2 ∈ B2, . . . , Xn ∈ Bn) = P (X1 ∈ B1) · P (X2 ∈ B2) · . . . · P (Xn ∈ Bn), ∀Bi;

(iii) F(X1, X2,..., Xn)(x1, x2, . . . , xn) = FX1(x1) · FX2(x2) · . . . · FXn(xn), ∀x1, x2, . . . , xn ∈ R;

(iv) φ(X1, X2,..., Xn)(t) = φX1(t1) · φX2(t2) · . . . · φXn(tn), ∀t = (t1, t2, . . . , tn) ∈ Rn. (2.36)

Doua dintre dintre cele mai importante proprietati ale v.a. independente sunt urmatoarele:

Teorema 2.34 Daca X1, X2, . . . , Xn sunt v.a. reale, independente, astfel incat

E(|Xk|) <∞, ∀k = 1, 2, . . . , n,

atunci E(|X1 ·X2 · . . . ·Xn|) <∞ si:

E(X1 ·X2 · . . . ·Xn) = E(X1) · E(X2) · . . . · E(Xn). (2.37)

Page 47: Statistica Prin Matlab

36

Teorema 2.35 Daca X1, X2, . . . , Xn sunt v.a. reale, independente, astfel incat

D2(Xk) <∞, ∀k = 1, 2, . . . , n,

atunci D2(X1 +X2 + . . . +Xn) <∞ si:

D2(X1 +X2 + . . . +Xn) = D2(X1) +D2(X2) + . . . +D2(Xn). (2.38)

2.13 Exemple de repartiµii discrete

In dreptul ecarei repartitii, in paranteza, apare numeleMatlab, cu ajutorul caruia aceasta repartitie

este apelata.

(1) Repartiµia uniforma discreta, U(n) (unid)

Scriem ca X ∼ U(n), daca valorile lui X sunt 1, 2, . . . , n, cu probabilitatile

P (X = k) =1n, k = 1, 2, . . . , n.

E(X) = n+12 , D2(X) = n2−1

12 .

Exemplu: numarul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizata

U(6).

(1) Repartiµia Bernoulli, B(1, p) (bino)

Scriem X ∼ B(1, p). V.a. de tip Bernoulli poate lua doar dou valori, X = 1 (succes) sau X = 0

(insucces), cu probabilit µile P (1) = p; P (0) = 1− p.

E(X) = p; D2(X) = p(1− p).

Exemplu: aruncarea unei monede ideale poate modelata ca ind o v.a. Bernoulli.

(2) Repartiµia binomial , B(n, p): (bino)

ScriemX ∼ B(n, p) (schema bilei revenite) (n > 0, p ∈ (0, 1)), dac valorile luiX sunt 0, 1, . . . , n,

cu probabilitatile

P (X = k) = Cknpk(1− p)n−k, k = 0, 1, . . . , n.

Page 48: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 37

E(X) = np; D2(X) = np(1− p).

Dac (Xk)k=1,n ∼ B(1, p) ³i (Xk)k independente stochastic, atunci X =n∑k=1

Xk ∼ B(n, p).

(3) Repartiµia hipergeometric , H(n, a, b) (hyge)

X ∼ H(n, a, b) (schema bilei nerevenite) (n, a, b > 0) dac

P (X = k) =CkaC

n−kb

Cna+b

, ∀k ce satisface max(0, n− b) ≤ k ≤ min(a, n).

Observaµie: Dac (Xk)k=0,n ∼ B(1, n), cu p = aa+b (dependente stochastic), atunci

X =n∑i=1

Xi ∼ H(n, a, b).

EX =n∑i=0

E(Xi) = np; D2(X) = np(1− p)a+ b− na+ b− 1

.

(Nu mai putem scrie egalitate intre D2(X) sin∑i=0

D2(Xi), deoarece (Xi)i nu sunt independente stochas-

tic).

(4) Repartiµia Poisson, P(λ): (poiss)

Valorile sale reprezinta numarul evenimentelor spontane (cu intensitatea λ) realizate intr-un anumit

interval de timp.

Pentru un λ > 0, spunem c X ∼ P(λ) (legea evenimentelor rare) dac X ia valori naturale, cu

probabilitatile

P (X = k) = e−kλk

k!, ∀k ∈ N.

E(X) = λ; D2(x) = λ.

(5) Repartiµia geometric , Geo(p): (geo)

Valorile sale reprezinta numarul de insuccese avute pân la obµinerea primului succes,

stiind probabilitatea de obtinere a unui succes, p.

X ∼ Geo(p), (p ∈ (0, 1)) dac X ia valori in N, cu probabilitatile

P (X = k) = p(1− p)k, ∀k ∈ N, unde p ≥ 0.

Page 49: Statistica Prin Matlab

38

E(X) =1− pp

; D2(X) =1− pp2

.

Observaµia 2.36 Daca X ∼ Geo(p), atunci variabila aleatoare Y = X + 1 reprezinta asteptarea pana

la primul succes.

(6) Repartiµia binomial cu exponent negativ, BN(m, p) (nbin)

Valorile sale reprezinta numarul de insuccese obtinute inainte de a se realiza succesul de rang m.

In cazul particular m = 1, obtinem repartitia geometrica.

Pentru m ≥ 1, p ∈ (0, 1), spunem ca X ∼ BN(m, p) dac X ia valorile m, m + 1, m + 2, . . . , cu

probabilitatile

P (X = k) = Cm−1m+k−1p

m(1− p)k, ∀k ≥ m, p ≥ 0.

E(X) =m(1− p)

p; D2(X) =

m(1− p)p2

.

2.14 Exemple de repartiµii continue

(1) Repartiµia uniform , U(a, b) (unif)

V.a. X ∼ U(a, b) (a < b) dac funcµia sa de densitate este

f(x; a, b) =

1b−a , dac x ∈ (a, b)

0 , altfel.

E(X) =a+ b

2, D2(X) =

(b− a)2

12.

(2) Repartiµia normal , N (µ, σ) (norm)

Spunem c X ∼ N (µ, σ), dac X are densitatea:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

Page 50: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 39

E(X) = µ ³i D2(X) = σ2.

Se mai nume³te ³i repartiµia gaussian . În cazul µ = 0, σ2 = 1 densitatea de repartiµie devine:

f(x) =1√2πe−

x2

2 , x ∈ R. (2.39)

În acest caz spunem c X este repartiµia normal standard.

Dac Z ∼ N (0, 1), atunci X = σZ + µ ∼ N (µ, σ). În mod similar, dac X ∼ N (µ, σ), atunci

Z = X−µσ ∼ N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµie este tabelat ³i are o notaµie special ,

Θ(x). Ea e denit prin:

Θ(x) =1√2π

∫ x

−∞e−

y2

2 dy. (2.40)

În consecinµ , funcµia de repartiµie a lui X ∼ N (µ, σ2) este dat prin

F (x) = Θ(x− µσ

). (2.41)

(3) Repartiµia log-normal logN (µ, σ) (logn)

Este utila in Matematicile Financiare, reprezentand o distributie de preturi viitoare pentru un activ

nanciare.

Dac X ∼ N (µ, σ), atunci Y = eX este o v.a. nenegativ , avînd densitatea de repartiµie

f(x; µ, σ) =

1

xσ√

2πe−

(ln x−µ)2

2σ2 , dac x > 0

0 , dac xleq0

Media ³i dispersia sunt date de E(X) = eµ+σ2/2, D2(X) = e2µ+σ(eσ2 − 1)..

A³adar, Y ∼ logN (µ, σ) daca lnY ∼ N (µ, σ).

(4) Repartiµia exponenµial , exp(λ) (exp)

Valorile sale sunt timpi realizati intre doua valori spontane repartizate P(λ).

X ∼ exp(λ) (λ > 0) dac are densitatea de repartiµie

f(x; λ) =

λe−λx , dac x ≥ 0

0 , dac x < 0

Page 51: Statistica Prin Matlab

40

E(X) =1λ³i D2(X) =

1λ2

.

Repartiµia exponenµial are proprietatea a³a-numitei lipsa de memorie, i.e.:

P (X > x+ y|X > y) = P (X > x), ∀x, y ≥ 0.

Este unica distribuµie continu cu aceast proprietate. Distribuµia geometric satisface o variant dis-

cret a acestei propriet µi.(Vericati!)

(5) Repartiµia Gamma, Γ(a, λ) (gam)

O v.a. X ∼ Γ(a, λ), a, λ > 0, daca densitatea sa de repartitie este:

f(x; a, λ) =

λa

Γ(a)xa−1e−λx, daca x > 0,

0, daca x ≤ 0.

unde Γ este functia lui Euler,

Γ : (0, ∞)→ (0, ∞), Γ(a) =∫ ∞

0xa−1e−xdx.

E(X) =a

λ, D2(X) =

a

λ2.

Observaµia 2.37 (i) Γ(1, λ) ≡ exp(λ).

(ii) Daca v.a. Xkk=1,n ∼ exp(λ) sunt independente stochastic, atunci suma lorn∑k=1

Xk ∼ Γ(n, λ).

(6) Repartiµia Weibull, Wbl(k, λ) (wbl)

Aceasta repartitie este asemanatoare cu repartitia exponentiala (aceasta obtinandu-se in cazul par-

ticular k = 1) si poate modela repartitia marimii particulelor. Cand k = 3.4, distributia Weibull

este asemanatoare cu cea normala. Cand k → ∞, aceasta repartitie se apropie de functia lui Dirac.

X ∼Wbl(k, λ) (k > 0, λ > 0) dac are densitatea de repartiµie

f(x; k, λ) =

(xλ

)k−1e−( xλ)k , dac x ≥ 0

0 , dac x < 0

Page 52: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 41

E(X) = λΓ(

1 +1k

).

(7) Repartiµia χ2, χ2(n) (chi2)

O v.a. X ∼ χ2(n) (se citeste repartitia hi-patrat cu n grade de libertate) daca densitatea sa

de repartitie este:

f(x; n) =

1

Γ(n2

)2n2xn2−1e−

x2 , daca x > 0,

0, daca x ≤ 0.

unde Γ este functia lui Euler.

E(χ2) = n, D2(χ2) = 2n.

Observaµia 2.38 (a) Repartitia χ2(n) este, de fapt, repartitia Γ(n2 ,12).

(b) Daca v.a. independente Xk ∼ N (0, 1) pentru k = 1, 2, . . . , n, atunci (vezi Propozitia 5.30):

X21 +X2

2 + · · ·+X2n ∼ χ2(n).

(8) Repartiµia Student (W. S. Gosset), t(n) (t)

Spunem ca X ∼ t(n) (cu n grade de libertate) daca densitatea de repartitie este:

f(x; n) =Γ(n+1

2

)√nπ Γ

(n2

) (1 +x2

n

)−n+12

, x ∈ R.

E(X) = 0, D2(X) =n

n− 2.

(9) Repartiµia Fisher, F(m, n) (f)

Spunem ca X ∼ F(m, n) (cu m, n grade de libertate) daca densitatea de repartitie este:

f(x) =

(mn )

m2 Γ(m+n

2 )Γ(m2 )Γ(n2 ) x

m2−1(1 + m

n x)−m+n

2 , x > 0;

0 , x ≤ 0.

E(X) =n

n− 2, D2(X) =

2n2(n+m− 2)m(n− 2)2(n− 4)

.

Page 53: Statistica Prin Matlab

42

(10) Repartiµia Cauchy, C(λ, µ) (fara corespondent in MATLAB)

Spunem ca X ∼ C(λ, µ) daca densitatea de repartitie este:

f(x; λ, µ) =λ

π[(x− µ)2 + λ2], x ∈ R.

NU admite medie si dispersie!!!

2.15 Transform ri funcµionale de variabile aleatoare

Functii de o variabila aleatoare

Presupunem ca X este o variabila aleatoare continua, careia i se cunoaste densitatea de repartitie,

fX(x). Notam cu FX(x) functia sa de repartitie.

Fie g(x) este o functie masurabila (Borel). Atunci Y = g(X) deneste o alta variabila aleatoare. Dorim

sa gasim densitatea de repartitie pentru g(X). Sa notam cu DY = x ∈ R; g(x) ≤ y. Putem scrie:

Y ≤ y = g(X) ≤ y = ω ∈ Ω, X(ω) ∈ DY (not= X ∈ DY ).

Atunci,

FY (y) = P (X ∈ DY ),

=∫DY

fX(x) dx. (2.42)

Daca g(x) este bijectiva si x = h(y) not= g−1(y), atunci densitatea de repartitie a lui Y este data de:

fY (y) = fX(h(y))∣∣∣∣dh(y)dy

∣∣∣∣ . (2.43)

Exemplu 2.39 Consideram functia

g(x) = ax+ b, a 6= 0.

Daca fX(x) este densitatea de rapartitie a unei variabile aleatoare X, atunci densitatea de repartitie

a variabilei aleatoare Y = g(X) este

fY (y) =1|a|

fX

(y − ba

).

Page 54: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 43

Functii de doua variabile aleatoare:

Fie X, Y variabile aleatoare reale denite pe campul de probabilitate (Ω, F , P ).

Daca f(x) este densitatea de repartitie a lui X si g(y) este densitatea de repartitie a lui Y , iar X, Y

sunt independente stochastic, atunci

vectorul bidimensional V = (X, Y ) are densitatea de repartitie h(x, y) = f(x)g(y).

Invers, daca h(x, y) este densitatea de repartitie a vectorului bidimensional V = (X, Y ), atunci den-

sitatile de repartitie a lui X, respectiv Y , sunt:

f(x) =∫

Rh(x, y) dy si, respectiv, g(y) =

∫Rh(x, y) dx. (2.44)

Urmatoarea propozitie determima care este densitatea de repartitie a unei functii de un vector aleator

ce are densitatea de repartitie cunoscuta.

Propoziµia 2.40 Fie vectorul aleator V = (X1, X2) : Ω → R2, de tip continuu, cu densitatea de

repartitie cunoscuta, f(x), f : D2 ⊂ V (Ω) → R si e vectorul aleator W = (Y1, Y2) : Ω → R2, de tip

continuu, cu densitatea de repartitie necunoscuta g(x), g : D1 ⊂ W (Ω) → R, (D1, D2 -deschisi). Fie

functia τ : D1 → D2, bijctiva, de clasa C1. Atunci are loc:

g(y1, y2) = f(τ1(y1, y2), τ2(y1, y2))|J |, (2.45)

unde

x1 = τ1(y1, y2), x2 = τ2(y1, y2), |J | = D(x1, x2)D(y1, y2)

.

Observaµia 2.41 Putem apoi determina si densitatile de repartitie marginale pentru Y1 si Y2. Astfel,

aceste formule au ca aplicatii determinarea formulei densitatii de repartitie pentru suma, produsul,

diferenta sau catul a doua variabile aleatoare.

Exemplu 2.42 (repartitia raportului a doua variabile aleatoare)

Fie vectorul aleator (X1, X2), ce are densitatea de repartitie f(x1, x2) si e transformarea:y1 = x1/x2;

y2 = x2.

Page 55: Statistica Prin Matlab

44

Transformarea inversa este: x1 = y1 · y2 = τ1(y1, y2);

x2 = y2 = τ2(y1, y2).

Avem |J | = |y1|, si aam densitatea de repartitie a catului X1X2

,

fX1X2

(u) =

∞∫−∞

f(u v, v) |u| dv.

2.16 Tipuri de convergenµ a sirurilor de variabile aleatoare

Fix m (Ω, F , P ) un cîmp de probabilitate ³i Xn, X : Ω → R o variabila aleatoare cu media m si

dispersia σ2 nite.

Deniµia 2.43 Spunem ca:

(1) Xn converge aproape sigur la X (notat Xna.s.−→ X) dac

P ( limn→∞

Xn = X) = 1,

echivalent cu relatia

∃Ω0 ∈ F , P (Ω0) = 1, astfel încît limn→∞

Xn(ω) = X(ω), ∀ω ∈ Ω0.

(2) Xn converge in probabilitate la X (notat Xnprob−→ X), dac

∀ε > 0, limn→∞

P (ω : |Xn(ω)−X(ω)| ≥ ε) = 0.

(3) Xn converge in medie de ordin r la X (notat XnLr−→ X), dac

limn→∞

∫Ω|Xn(ω)−X(ω)|r dP (ω) = 0,

echivalent cu

limn→∞

∫R|xn − x|rf(x)dx = 0.

(4) Xn converge in repartitie la X (notatrep−→ X, sau Xn ⇒ X) dac

limn→∞

E(g(Xn)) = E(g(X)), ∀g : Rd → R, continu ³i m rginit .

Page 56: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 45

(5) Xn converge la X în sensul funcµiei de repartiµie dac

limn→∞

FXn(x) = FX(x), ∀x punct de continuitate pentru FX .

(6) Xn converge la X în sensul funcµiei caracteristice dac

limn→∞

φXn(t) = φX(t), ∀t ∈ Rd.

Teorema 2.44 (legaturi intre diverse tipuri de convergenta)

(a) Xna.s.−→ X implic Xn

prob−→ X.

(b) XnLr−→ X implic Xn

prob−→ X (din inegalitatea lui Markov).

(c) Xnprob−→ X implic Xn ⇒ X.

(d) Urm toarele tipuri de convergenµ sunt echivalente: în repartiµie, în funcµie de repartiµie ³i în

funcµie caracteristic .

2.17 Teoreme limit

Fie (Ω, F , P ) un camp de probabilitate siX : (Ω, F , P )→ R o v.a. ce inregistreaza rezultatele posibile

a unui anumit experiment aleator. Putem modela repetitia acestui experiment prin introducerea unui

³ir de v.a., (Xn)n∈N : (Ω, F , P )→ R. Ne-am dori ca acest sir sa detina aceeasi informatie (din punct

de vedere probabilistic) ca si X. In acest scop, introducem notiunea de variabile aleatoare identic

repartizate.

Deniµia 2.45 Variabilele aleatoare X1, X2, . . . , Xn, . . . se numesc identic repartizate daca functiile

corespunzatoare de repartitie satisfac sirul de egalitati:

FX1(x) = FX2(x) = . . . = FXn(x) = . . . , ∀x ∈ R. (2.46)

Daca, in plus, presupunem ca v.a. din sirul de mai sus sunt independente stochastic, atunci putem

privi acest sir de v.a. ca un model pentru repetari independente ale experimentului in aceleasi conditii.

Desi avem de-a face cu un sir de functii cu ce iau valori intamplatoare, suma unui numar sucient de

mare de variabile aleatoare isi pierde caracterul aleator.

Page 57: Statistica Prin Matlab

46

Teoremele limit clasice descriu comportarea asimptotic a sumei Sn =n∑k=1

Xk, potrivit normalizat .

Spunem ca sirul (Xn)n urmeaza legea slaba (respectiv, tare) a numerelor mari daca:

Sn − E(Sn)n

prob−→ 0, (respectiv,Sn − E(Sn)

n

a.s.−→ 0), (n→∞)

Teorema 2.46 (Cebîsev)

Dac v.a. (Xn)n∈N∗ satisfac condiµiile:

(i) toate Xn admit momente absolute de ordin 2 (i.e., β2(Xn) <∞);

(ii) limn→∞

1n2D2(Sn) = 0,

atunciSn − E(Sn)

n

prob−→ 0, (n→∞)

Demonstraµie. Conform inegalitatii lui Cebîsev aplicate variabilei aleatoareSnn, avem:

P ((∣∣∣∣Snn − E

(Snn

)∣∣∣∣ ≥ ε) ≤ 1ε2D2

(Snn

)=

1ε2

1n2D2(Sn)→ 0, cand n→∞.

Observaµia 2.47 In plus, daca Xn sunt identic repartizate, cu E(Xn) = m, ∀n ∈ N, atunci concluzia

anterioara devine:Snn

prob−→ m.

Astfel, teorema ne spune ca, desi variabilele aleatoare independente pot lua valori departate de medi-

ile lor, media aritmetica a unui numar sucient de mare de astfel de variabile alatoare ia valori in

vecinatatea lui m, cu o probabilitate foarte mare.

Teorema 2.48 Teorema lui Bernoulli)

Sa consideram o experienta in care probabilitatea de realizare a unui eveniment A este P (A) = p. Se

fac N experiente independente. Daca νN este numarul de realizari ale lui A din cele N experiente

atunci, pentru orice ε > 0, avem:

limn→∞

P(∣∣∣νNN− p∣∣∣ < ε

)= 1. (2.47)

Cu alte cuvinte, sirul frecventelor relative converge a.s. la probabilitatea p. Asta inseamna ca, daca se

efectueaza o selectie de volum mare N si se obtin νN cazuri favorabile, atunci putem arma ca, a.s.,

probabilitatea evenimentului cercetat este egala cu frecventa relativa.

Page 58: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 47

Demonstraµie. Vom asocia ecarei experiente i o variabila aleatoare Xi, astfel incat

Xi =

1, daca in experienta i evenimentul A s-a realizat;

0, daca experienta i evenimentul A nu s-a realizat.

Observam ca Xi ∼ B(1, p). Atunci, deoarece experimentele sunt independente, avem:

n∑i=1

Xi = νN ∼ B(n, p), E(νN ) = Np, D2(νN ) = Np(1− p).

Aplicand inegalitatea lui Cebîsev variabilei aleatoareνNN

, obtinem:

P(∣∣∣νNN− E

(νNN

)∣∣∣ < ε)≥ 1−

D2(νNN

)ε2

,

echivalent cu

P(∣∣∣νNN− p∣∣∣ < ε

)≥ 1− p(1− p)

Nε2,

de unde concluzia dorita.

Teorema 2.49 (Hincin) (legea slab a numerelor mari)

Dac Xn, n ≥ 1, sunt variabile aleatoare ce admit momente absolute de ordin 1, sunt independente

doua cate doua si identic repartizate, atunci sirul (Xn)n urmeaza legea slaba a numerelor mari.

Teorema 2.50 (Kolmogorov) (legea tare a numerelor mari)

Fie sirul de v.a. (Xn)n∈N∗ , independente, sunt identic repartizate si E(|X1|) <∞.

Fie E(Xn) = m, ∀n ∈ N∗. Atunci sirul (Xn)n satisface legea tare a numerelor mari, adica:

1n

n∑k=1

Xka.s−→ m, (n→∞). (2.48)

Observaµia 2.51 Concluzia legii slabe a numerelor mari se mai poate scrie si sub forma:

P

(limn→∞

X1 +X2 + · · ·+Xn

n= m

)= 1.

Teorema 2.52 (TLC) (teorema limit central )

Dac v.a. (Xn)n∈N sunt independente ³i identic repartizate, cu m ³i σ2 nite, atunci:

1σ√n

(n∑k=1

Xk − nm

)⇒ Y ∼ N (0, 1), pentru n→∞.

Page 59: Statistica Prin Matlab

48

Observaµia 2.53 (a) Teorema TLC ne spune ca, daca avem un sir de v.a. independente stochastic si

identic repartizate, atunci, pentru n sucient de mare, suma standardizata,

Sn =Sn − nmσ√n

(2.49)

este o v.a. de repartitie N (0, 1).

Sau, mai putem spune ca distributia v.a. X =1n

n∑k=1

Xk este aproximativ normal N (m,σ√n

).

(b) Notam cu

Znnot=

1σ√n

(n∑k=1

Xk − nm

).

Atunci, convergenµa din teorema limit central este echivalent cu

limn→∞

P (Zn ≤ x) = Θ(x), ∀x ∈ R, (2.50)

unde Θ(x) este denita in (2.40), sau

limn→∞

P

(a ≤ Sn − nm

σ√n≤ b)

=1√2π

∫ b

ae−x

2dx = Θ(b)−Θ(a). (2.51)

(b) Daca m = 0, σ2 = 1, atunci TLC devine

1√n

n∑k=1

Xk ⇒ Y ∼ N (0, 1), pentru n→∞.

(c) TLC ne permite s aproxim m sume de v.a. identic repartizate, avînd orice tip de repartitii (atît

timp cît variaµia lor e nit ), cu o v.a. normal . Un exemplu ar aproximarea repartiµiei normale cu

repartiµia binomial cînd numarul de încercari e foarte mare (vezi teorema lui de Moivre-Laplace de

mai jos).

Se pune problema: Cat de mare ar trebui sa e n, in practica, pentru ca teorema limita centrala sa e

aplicabila? Daca variabilele aleatoare Xkk sunt deja normal repartizate, atunci teorema aproximarea

sumei standardizate cu o variabila normala este, de fapt, o egalitate, ind adevarata pentru orice

n ∈ N∗. Daca Xkk nu sunt normal repartizate, atunci un numar n astfel incat n > 30 ar sucicient

pentru aproximarea cu repartitia normala desi, daca repartitia lui Xk este simetrica, aproximarea ar

putea buna si pentru un numar n mai mic de 30.

(d) Legea tare a numerelor mari e foarte util în metode de simulare tip Monte Carlo.

Teorema 2.54 (de Moivre - Laplace)

Fie X1, X2, . . . , Xn, . . . un sir de v.a. independente stochastic, identic repartizate B(1, p) si e Sn =

Page 60: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 49

X1 +X2 + · · ·+Xn. Atunci, pentru orice −∞ < a < b <∞, avem:

limn→∞

P

(a ≤ Sn − np√

npq≤ b)

=1√2π

∫ b

ae−x

2dx. (q = 1− p) (2.52)

Demonstraµie. Demonstratia rezulta imediat din (2.51), tinand cont ca

E(Sn) = np si D2(Sn) = npq.

Observaµia 2.55 Asadar, daca parametrul n este sucient de mare, atunci o variabila aleatoare bi-

nomiala poate aproximata cu una normala, cu media np si dispersia npq. In practica,

• aproximarea este una sucient de buna daca np > 5 si n(1− p) > 5;

• aceasta aproximare poate imbunatatita daca aplicam factori de corectie.

Astfel putem scrie:

P (X = k) =1√npq

Φ(k − np√npq

), (2.53)

sau, o varianta imbunatatita:

P (X = k) = P (k − 12< X < k +

12

)

= P

(k − 1

2 − np√npq

<X − np√npq

<k + 1

2 − np√npq

)

= Θ

(k + 1

2 − np√npq

)−Θ

(k − 1

2 − np√npq

).

unde Φ si Θ sunt denite in (2.39) si (2.40), respectiv. Termenul 12 din (2.54) este folosit ca o valoare

de ajustare cand se face aproximarea unei variabile aleatoare discrete cu una continua. Mai putem

scrie si:

P (X ≤ k) = Θ

(k + 1

2 − np√npq

), (2.54)

2.18 Exercitii rezolvate

Exerciµiu 2.56 O moneda ideala este aruncata de 100 de ori, iar X este variabila aleatoare ce reprez-

inta numarul de fete cu stema aparute.

Page 61: Statistica Prin Matlab

50

• (a) Care este probabilitatea de a obtine exact 52 de steme?

• (b) Sa se calculeze P (45 ≤ X ≤ 55). Folositi aproximarea cu o variabila aleatoare normala.

- (a) Avem de calculat P = P (X = 52). InsaX este o variabila aleatoare distribuita B(100, 0.5),

asadar rezultatul exact este:

P = C52100 · (0.5)52 · (0.5)48 = 0.0735.

Daca aproximam rezultatul folosind formula (2.54), obtinem:

P =1√

100 · 0.5 · 0.5Φ(

52− 50√100 · 0.5 · 0.5

)≈ 0.0737.

Cu varianta imbunatatita, obtinem:

P = Θ

(52 + 1

2 − 50√

25

)−Θ

(52− 1

2 − 50√

25

)≈ 0.0736.

(b) Notam cu FX functia de repartitie pentru variabila aleatoare binomiala X. Atunci,

P (45 ≤ X ≤ 55) = P (X ≤ 55)− P (X < 45)

= FX(55)− FX(44)

=55∑

k=45

Ck100 · (0.5)k · (0.5)100−k = 0.7287.

Daca folosim aproximarea cu repartitia normala, obtinem:

P (45 ≤ X ≤ 55) ≈ Θ

(55 + 1

2 − 50√

25

)−Θ

(45− 1

2 − 50√

25

)= 0.7287. √

InMatlab, aceste probabilitati pot calculate folosind codul din Exercitiul 3.11 din capitolul urmator.

Exerciµiu 2.57 (a) In magazinul de la coltul strazii intra in medie 20 de clienti pe ora. Stiind ca

numarul clientilor pe ora este o variabila aleatoare repartizata Poisson, sa se determine care este prob-

abilitatea ca intr-o anumita ora sa intre in magazin cel putin 15 clienti?

(b) Care este probabilitatea ca, intr-o anumita zi de lucru (de 10 ore), in magazin sa intre cel putin

200 de clienti? Calculati aceasta probabilitate in doua moduri: folosind functia de repartitie Poisson

si folosind aproximarea cu repartitia normala.

- (a) P1 = P (X ≥ 15) = 1− P (X < 14) = 1− FX(14) = 0.8951.

(b) P2 = P (10∑k=1

Xk ≥ 200) = 1− P (10∑k=1

Xk < 199) = 1− F∑Xk(199) = 0.5094,

Page 62: Statistica Prin Matlab

Elemente in Teoria probabilit µilor 51

unde10∑k=1

Xk ∼ P(200). Aproximand cu repartitia normala, gasim ca

P2 = 1−Θ(

199 + 0.5− 200√200

)= 1−Θ

(−0.5√

200

)= 0.5141.

InMatlab, aceste probabilitati pot calculate folosind codul din Exercitiul 3.16 din capitolul urmator.

Page 63: Statistica Prin Matlab

52

2.19 Exercitii propuse

Exerciµiu 2.1

Exerciµiu 2.2

Exerciµiu 2.3

Exerciµiu 2.4

Exerciµiu 2.5

Exerciµiu 2.6

Exerciµiu 2.7

Exerciµiu 2.8

Exerciµiu 2.9

Exerciµiu 2.10

Page 64: Statistica Prin Matlab

Chapter 3Experienµe aleatoare în Matlab

3.1 Scurta introducere în Matlab

MATLAB este un pachet de programe de înalta performanta, dedicat calculului numeric si reprezen-

tarilor grace în domeniul stiintei si ingineriei. Elementul de baza cu care opereaza Matlab-ul este

matricea (MATrix LABoratory). Matlab este un software standard în mediile universitare, precum si

în domeniul cercetarii si rezolvarii practice a problemelor legate de procesarea semnalelor, identicarea

sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici apli-

cate in diverse domenii etc. Cea mai importanta caracteristica a Matlab-ului este usurinta cu care

poate extins. La programele deja existente in Matlab, utilizatorul poate adauga propriile sale co-

duri, dezvoltând aplicatii specice domeniului în care lucreaza. Matlab-ul include aplicatii specice,

numite Toolbox-uri. Acestea sunt colectii extinse de functii Matlab (siere M) care dezvolta mediul

de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural,

Matlab-ul este realizat sub forma unui nucleu de baza, cu interpretor propriu, în jurul caruia sunt

construite toolbox-urile.

Prezentam mai jos o scurta introducere inMatlab a principalelor functii si comenzi folosite in aceasta

lucrare. Pentru o tratare mai detaliata, puteti consulta un manual de utilizare. De asemenea, tastand

demo, puteti urmari o demonstratie a principalelor facilitati din Matlab, cat si a pachetelor de functii

(toolbox) de care ati putea interesati. Dintre acestea, amintim Statistics Toolbox, care este o colectie

de functii folosite pentru analiza, modelarea si simularea datelor. Contine: analiza gracelor (GUI),

diverse repartitii probabilistice (beta, binomiala, Poisson, hi-patrat), generarea numerelor aleatoare,

53

Page 65: Statistica Prin Matlab

54

analiza regresionala, descrieri statistice.

• Comenzile Matlab pot scrise in siere cu extensia .m, ce urmeaza apoi a compilate. Un

sier-M consta dintr-o succesiune de instructiuni, cu posibilitatea apelarii altor siere-M precum

si a apelarii recursive. De asemenea, Matlab poate folosit ca pe un mediu computational

interactiv, caz in care ecare linie este prelucrata imediat. Odata introduse expresiile, acestea

pot vizualizate sau evaluate imediat. De exemplu, introducand la linia de comanda

>> a = sqrt((sqrt(5)+1)/2)

Matlab deneste o variabila de memorie a, careia ii atribuie valoarea

a =

1.2720

• Variabilele sunt denite cu ajutorul operatorului de atribuire, =, si pot utilizate fara a declara

de ce tip sunt. Valoarea unei variabile poate : o constanta, un sir de caractere, poate reiesi din

calculul unei expresii sau al unei functii.

• Pentru a gasi informatii imediate despre vreo functie predenita, comanda help va vine in ajutor.

De exemplu,

>> help length

aseaza urmatoarele:

LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent

to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.

See also numel.

• Comanda help poate utilizata doar daca se cunoaste exact numele functiei. Altfel, folosirea

comenzii lookfor este recomandata. De exemplu,

lookfor length

si gasim:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.

VARARGOUT Variable length output argument list.

LENGTH Length of vector.

• Matlab este un mediu computational orientat pe lucru cu vectori si matrice. O linie de

Page 66: Statistica Prin Matlab

Experienµe aleatoare în Matlab 55

cod v = [1,3,5,7,9] (sau v = [1 3 5 7 9]) deneste un vector linie ce are componentele

1, 3, 5, 7, 9. Aceasta poate realizata si folosind comanda v = 1:2:9 adica aseaza numerele

de la 1 la 9, cu pasul 2. Pentru un vector coloana, folosim punct-virgula intre elemente, adica

v = [1;3;5;7;9]. O alta varianta de a deni un vector este v = linspace(x1,x2,n), adica v

este un vector linie cu n componente, la intervale egale intre x1 si x2.

• Denirea matricelor se poate face prin introducerea explicita a elementelor sale sau prin instruc-

tiuni si functii. La denirea explicita, trebuie tinut cont de urmatoarele: elementele matricei sunt

cuprinse intre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spatii libere sau

virgule, liniile se separa prin semnul punct-virgula. De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

deneste matricea

A =

1 2 3

4 5 6

• Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele de

coloana j) sau A(i,:) (elementele de linia i);

• Functia Matlab ones(m,n) deneste o matrice m × n, avand toate componentele egale cu 1.

Functia zeros(m,n) deneste o matrice zero m × n. Functia eye(n) deneste matricea unitate

de ordin n.

• Dupa cum vom vedea mai jos, Matlab permite denirea unor functii foarte complicate prin

scrierea unui cod. Daca functia ce o avem de denit este una simpla, atunci avem varianta

utilizarii comenzii inline. Spre exemplu, denim functia f(x, y) = e5x sin 3y:

>> f = inline('exp(5*x).*sin(3*y)')

f =

Inline function:

f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f(7, π) prin

>> f(7,pi)

0.5827

• Un program Matlab poate scris sub forma sierelor script sau a sierelor de tip functie.

Ambele tipuri de siere sunt scrise in format ASCII. Aceste tipuri de siere permit crearea unor

Page 67: Statistica Prin Matlab

56

noi functii, care le pot completa pe cele deja existente. Un sier script este un sier extern care

contine o secvena de comenzi MATLAB. Prin apelarea numelui sierului, se executa secventa

Matlab continuta in acesta. Dupa executia completa a unui sier script, variabilele cu care

acesta a operat raman in zona de memorie a aplicatiei. Fisierele script sunt folosite pentru

rezolvarea unor probleme care cer comenzi succesive atat de lungi, incat ar putea deveni greoaie

pentru lucrul in mod interactiv, adica in modul linie de comanda.

Fisierele functie

Matlab creaza cadrul propice extinderii functiilor sale, prin posibilitatea crearii de noi siere. Astfel,

daca prima linie a sierului .m contine cuvantul function, atunci sierul respectiv este declarat ca

ind sier functie. Variabilele denite si manipulate in interiorul sierului functie sunt localizate la

nivelul acesteia. Prin urmare, la terminarea executiei unei functii, in memoria calculatorului nu raman

decat variabilele de iesire ale acesteia. Forma generala a primei linii a unui sier este:

function[param_iesire] = nume_functie(param_intrare)

unde:

• function este este cuvantul care declara sierul ca sier functie;

• nume_functie este numele functiei, care este totuna cu numele sub care se salveaza sierul;

• param_iesire sunt parametrii de iesire;

• param_intrare sunt parametrii de intrare.

Comenzile si functiile care sunt utilizate de noua functie sunt înregistrate intr-un sier cu extensia .m.

Exerciµiu 3.1 Fisierul medie.m calculeaza media aritmetica a sumei patratelor componentelor unui

vector X (alternativ, aceast lucru poate realizat prin comanda mean(X.^2)):

function m2 = medie(X)

n = length(X); m2 = sum(X.^2)/n;

Page 68: Statistica Prin Matlab

Experienµe aleatoare în Matlab 57

3.2 Generarea de numere (pseudo-)aleatoare

Numerele generate de Matlab sunt rezultatul compilarii unui program deja existent in Matlab,

asadar el vor pseudo-aleatoare. Putem face abstractie de modul programat de generare ale acestor

numere, si sa consideram ca acestea sunt numere aleatoare.

3.2.1 Generarea de numere uniform repartizate intr-un interval, U(0, 1)

Functia rand

• Functia rand genereaza un numar aleator repartizat uniform in [0, 1].

De exemplu, comanda

X = (rand < 0.5);

simuleaza aruncarea unei monede ideale. Mai putem spune ca numarul X astfel generat este un

numar aleator repartizat B(1, 0.5).

• De asemenea, numarul

Y = sum(rand(10,1) < 0.5)

urmeaza repartitia B(10, 0.5) (simularea a 10 aruncari ale unei monede ideale).

• rand(m, n) genereaza o matrice aleatoare cu m× n componente repartizate U(0, 1).

• Comanda a+ (b− a) ∗ rand genereaza un numar pseudo-aleator repartizat uniform in [a, b].

! Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegem numere

aleatoare care au aceea³i ³ans de a oriunde în (a, b), ³i nu numere la intervale egale.

Figura 3.1 reprezinta cu histograme date uniform distribuite in intervalul [−2, 3], produse de comanda

Matlab:

hist(5*rand(1e4,1)-2,100)

Page 69: Statistica Prin Matlab

58

Figure 3.1: Reprezentarea cu histograme a datelor uniforme.

3.2.2 Generarea de numere repartizate normal, N (µ, σ)

Functia randn

• Functia randn genereaza un numar aleator repartizat normal N (0, 1).

• randn(m, n) genereaza o matrice aleatoare cu m× n componente repartizate N (0, 1).

• Comanda m + σ ∗ randn genereaza un numar aleator repartizat normal N (m, σ). De exemplu,

codul urmator produce Figura 3.2:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); %% date distribuite N(5,1.1)

hist(y,x)

3.2.3 Generarea de numere aleatoare de o repartitie data

Comenzile Matlab

legernd(<param>, m, n)

Page 70: Statistica Prin Matlab

Experienµe aleatoare în Matlab 59

0 2 4 6 8 100

50

100

150

200

250

Figure 3.2: Reprezentarea cu histograme a datelor normale.

si

random('lege', <param>, m, n).

Oricare dintre cele doua comenzi genereaza o matrice aleatoare, cu m linii si n coloane, avand compo-

nente numere aleatoare ce urmeaza repartitia lege. In loc de lege putem scrie oricare dintre expresiile

din tabelul din Figura 3.1. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaza o matrice aleatoare cu 100× 10 componente repartizate N (5, 0.2).

random ('poiss',0.01, 200, 50);

genereaza o matrice aleatoare cu 200× 50 componente repartizate Poiss(0.01).

3.2.4 Metoda functiei de repartitie inverse (Hincin-Smirnov)

Propoziµia 3.2 Fie X este o variabila aleatoare de o repartitie data, pentru care functia sa de repar-

titie, F (x), este continua si strict crescatoate, in orice punct in care aceasta nu este 0 sau 1. Fie U

Page 71: Statistica Prin Matlab

60

o variabila aleatoare repartizata U(0, 1). Atunci, variabila aleatoare Y = F−1(U) urmeaza aceeasi

repartitie ca si X.

Demonstraµie. Notez cu FY functia de repartitie pentru Y . Aratam ca FY este tocmai functia de

repartitie a lui X. Avem succesiv:

FY (x) = P (Y ≤ x) = P (F−1(U) ≤ x)

= P (U ≤ F (x)) = F (x), ∀x ∈ [0, 1].

Putem astfel conclude ca:

Propoziµia 3.3 Fie X o variabila aleatoare ca in propozitia precedenta. Daca U1, U2, . . . , Un sunt

variabile aleatoare independentic stochastic si identic repartizate U(0, 1), atunci F−1(U1), F−1(U2),

. . . , F−1(Un) formeaza o selectie intamplatoare de numere ce urmeaza repartitia lui X.

Exerciµiu 3.4 Fie variabila aleatoare X ∼ exp(λ), pentru care stim ca functia sa de repartitie este

F : R −→ [0, 1] si F−1 este:

F−1(u) =

−λ ln(1− u) , u ∈ (0, 1);

0 , altfel.

Atunci, daca u1, u2, . . . , un sunt numere aleatoare uniform repartizate in [0, 1], avem ca F−1(u1),

F−1(u2), . . . , F−1(un) formeaza o selectie intamplatoare de numere repartizat exp(λ).

In Figura 3.3 am reprezentat grac o doua selectii de volum 100 de numere aleatoare repartizate

exp(5); una generata prin metoda functiei de repartitie inverse, cealalta generata de functia Matlab

predenita exprnd. Functia Matlab care genereaza gura este prezentata mai jos.

Apelarea functiei se face prin tastarea in fereastra de lucru in Matlab a comezii expsel(5).

function expsel(lambda) % functia expsel.m

Y = sort(-lambda*log(1-rand(100,1))); % generez 100 de numere si le ordonez

plot(Y); hold on % desenez selectia si retin figura

Z = sort(exprnd(lambda, 100,1)); % generez 100 de numere cu exprnd

Page 72: Statistica Prin Matlab

Experienµe aleatoare în Matlab 61

plot(Z,'r*') % desenez Z cu rosu

legend('metoda functiei inverse','generare cu exprnd')

Figure 3.3: Generare de numere aleatoare prin metoda functiei inverse.

3.2.5 Generarea de numere aleatoare intregi

Functiile floor, ceil, round, fix

Sunt functii folosite pentru generarea de numere aleatoare intregi. De exemplu, functia floor(x) este

partea intreaga a lui x. Astfel, comenzile

floor(11*rand(20,1));

ceil(11*rand(20,1));

genereaza ecare cate 20 de numere intregi intre 0 si 10, distribuite uniform discret. Diferenta dintre

cele doua functii este ca floor(x) face rotunjirea la numarul intreg aat la stanga lui x, pe cand

ceil(x) face rotunjirea la numarul intreg aat la dreapta lui x.

Functiile round(x) si fix(x) rotunjesc numarul real x la cel mai apropiat numar intreg, in directia lui

Page 73: Statistica Prin Matlab

62

±∞, respectiv, in directia lui zero.

3.3 Repartitii uzuale in Matlab

repartitii probabilistice discrete repartitii probabilistice continue

norm: repartitia normala N (µ, σ)

bino: repartitia binomiala B(n, p) unif: repartitia uniforma continua U(a, b)

nbin: repartitia binomiala negativa BN(n, p) exp: repartitia exponentiala exp(λ)

poiss: repartitia Poisson P(λ) gam: repartitia gamma Γ(a, λ)

unid: repartitia uniforma discreta U(n) beta: repartitia β(m,n)

geo: repartitia geometrica Geo(p) logn: repartitia lognormala logN (µ, σ)

hyge: repartitia hipergeometrica H(n, a, b) chi2: repartitia χ2(n)

t: repartitia student t(n)

f: repartitia F(m, n)

Table 3.1: Repartitii uzuale in Matlab

Page 74: Statistica Prin Matlab

Experienµe aleatoare în Matlab 63

3.4 Alte comenzi utile în Matlab

help rand help specic pentru functia rand;

lookfor normal cauta intrarile in Matlab pentru normal;

X=[2 4 6 5 2 7 10] vector linie cu 7 elemente;

X=[3; 1; 6.5 ;0 ;77] vector coloana cu 5 elemente;

X = -10:2:10 vector ce contine numerele intregi de la −10 la 10, din 2 in 2;

length(X) lungimea vectorului X;

t=0:0.01:3*pi deneste o diviziune a [0, 3π] cu diviziunea 0.01;

X.^2 ridica toate componentele vectorului X la puterea a doua;

X.*Y produsul a doi vectori;

cumsum(X) suma cumulat a elementelor vectorului X;

cumprod(X) produsul cumulativ al elementelor vectorului X;

min(X) realizeaza minimum dintre componentele lui X;

max(X) realizeaza maximum dintre componentele lu X;

sort(X) ordoneaza componentele lui X in ordine crescatoare;

erf(X) functia eroare;

exp(x) calculeaza exponentiala ex;

log(x) calculeaza logaritmul natural ln(x);

sqrt(x) calculeaza radicalul ordinului doi dintr-un numar;

factorial(n) n!

A = ones(m,n) A e matrice m× n, cu toate elementele 1;

B = zeros(m,n) matrice m× n zero;

I = eye(n) matrice unitate, n× n;

A = [3/2 1 3 10; 6 5 8 11; 3 6 9 12] matrice 3× 3;

size(A) dimensiunea matricei A;

det(A) determinantul matricei A;

inv(A) inversa matricei A;

A' transpusa matricei A;

A(:,7) coloana a 7-a a matricei A;

A(1:20,1) scoate primele 20 de linii ale lui A;

nchoosek(n,k) combin ri de n luate cate k;

1e5 105;

exp(1) e;

Page 75: Statistica Prin Matlab

64

plot(X(1:5),'*m') deseneaza primele 5 componente ale lui X, cu * magenta;

plot(t,X,'-') deseneaza gracul lui X versus t, cu linie continua;

plot3(X,Y,Z) deseneaza un grac in 3-D;

stairs(X) deseneaza o functie scara;

bar(X) sau barh(X) reprezentarea prin bare;

hist(X) reprezentarea prin histograme;

hist3(x,y,z) reprezentarea prin histograme 3-D;

semilogx si semilogy logaritmeaza valorile de pe abscisa, resp., ordonata;

hold on retine gracul pentru a realiza o noua gura;

clf sterge gura;

clear all sterge toate variabilele denite;

title('Graficul functiei') adauga titlu gurii;

find gaseste indicii elementelor nenule ale unui vector;

Table 3.2: Funcµii Matlab utile

Matlab-ul include aplicatii specice, numite Toolbox-uri. Acestea sunt colectii extinse de functii

Matlab (siere-m) care dezvolta mediul de programare de la o versiune la alta pentru a rezolva

probleme din domenii variate. Statistics Toolbox reprezinta o colectie de functii folosite pentru analiza,

modelarea si simularea datelor si contine: generarea de numere aleatoare; distributii, analiza graca

interactiva (GUI), analiza regresionala, descrieri statistice, teste statistice.

3.5 Metoda Monte Carlo

Metoda Monte Carlo este o metod de simulare statistic , ce produce soluµii aproximative pentru o

mare varietate de probleme matematice prin efectuarea de experimenµe statistice pe un computer. Se

poate aplica atât problemelor cu deterministe, cât ³i celor probabilistice ³i este folositoare în obµinerea

de soluµii numerice pentru probleme care sunt prea dicile în a rezolvate analitic. Este o metod

folosit de secole, dar a c p tat statutul de metod numeric din anii 1940. În 1946, Stanislaw Ulam

(polonez n scut în Lvov) a devenit primul matematician care a dat un nume acestui procedeu, iar

numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile

de noroc, în special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De

asemenea, Nicolas Metropolis a adus contribuµii importante metodei.

Page 76: Statistica Prin Matlab

Experienµe aleatoare în Matlab 65

Are la baz generarea de numere aleatoare convenabile ³i observarea faptului c o parte dintre acestea

veric o proprietate sau anumite propriet µi. În general, orice metod care are la baza generarea de

numere aleatoare în vederea determin rii rezultatului unui calcul este numit o metod Monte Carlo.

Orice eveniment zic care poate v zut ca un proces stochastic este un candidat în a modelat prin

methoda MC.

3.6 Integrarea folosind metoda Monte Carlo

S spunem c dorim s folosim metode Monte Carlo pentru evaluarea integralei

I =∫ b

af(x) dx. (3.1)

În general, pentru a evalua numeric integrala, metoda Monte Carlo nu este prima alegere, însa este

foarte util în cazul în care integrala este dicil (sau imposibil) de evaluat. Aceast metoda devine mai

ecient decât alte metode de aproximare când dimensiunea spaµiului e mare.

Dac dorim aplicarea metodei MC, atunci avem de ales una din urm toarele variante:

(1) Încadr m gracul funcµiei f într-un dreptunghi

D = [a, b]× [c, d],

unde c < inf[a, b]

f ³i d > sup[a, b]

f . Evalu m integrala folosindu-ne de calculul probabilit µii evenimentului A,

c un punct ales la întamplare în interiorul dreptunghiului D s se ae sub gracul funcµiei f(x). Facem

urm toarea experienµ aleatoare: alegem în mod uniform (comanda rand ne ofer aceasta posibilitate

în Matlab) un punct din interiorul dreptunghiului ³i test m dac acest punct se a sub gracul lui

f(x). Repet m experienµa de un num r N (mare) de ori ³i contabiliz m num rul de apariµii f(N) ale

punctului sub grac. Pentru un num r mare de experienµe, probabilitatea c utat va aproximat de

frecvenµa relativ a realiz rii evenimentului, adic

P (A) ' f(N)N

Aceast metod nu e foarte ecient , deoarece N trebuie sa e, într-adev r, foarte mare pentru a avea

o precizie bun .

(2) Din teorema de medie avem ca exista un numar E(f) ∈ (a, b) a.i.

I = (b− a)E(f).

Page 77: Statistica Prin Matlab

66

Putem evalua E(f) prin

E(f) ' 1N

N∑k=1

f(xk), (3.2)

unde xk sunt numere aleatoare uniform distribuite în intervalul (a, b). Deci aproximarea integralei

este:

I ' b− aN

N∑k=1

f(xk), (3.3)

(3) Putem rescrie integrala în forma

I = (b− a)∫ b

af(x)h(x) dx, (3.4)

unde

f(x) =

1b−a , daca x ∈ [a, b],

0 , altfel.

Funcµia h(x) denit mai sus este densitatea de repartiµie a unei v.a. X ∼ U [a, b], iar relaµia (3.4) se

rescrie

I = (b− a)E(f(X)). (3.5)

Folosind legea slab a numerelor mari, putem aproxima I prin:

I ' b− aN

N∑k=1

f(Xk), (3.6)

unde Xk sunt v.a. distribuite U [a, b].

Putem generaliza metoda pentru a calcula integrale de tipul∫Vf(x) dx, unde V ⊂ Rn.

Exerciµiu 3.5 Utilizând metoda Monte Carlo, s se evalueze integrala

I =

5∫−2

e−x2dx

-

x = 7*rand(1e6,1)-2; % genereaza 106 numere aleatoare U(−2, 5)

g = exp(-x.^2); % g(x) = e−x2

I = mean(g) % media

106∑i=1

g(xi)

Page 78: Statistica Prin Matlab

Experienµe aleatoare în Matlab 67

sau, restrâns,

estimate = mean(exp(-((7*rand(10^6,1)-2).^2))) % I ≈ 0.2525 √

Exerciµiu 3.6 Evaluând integrala

I =

1∫0

ex dx

prin metoda Monte Carlo s se estimeze valoarea num rului transcendent e. (e = I + 1).

- estimate = mean(exp(rand(10^6,1))+1) % e ≈ 2.7183 √

3.7 Experimente aleatoare în Matlab

Putem simula diverse experiente aleatoare folosind comenzile din Matlab. De exemplu, simularea

aruncarii unei monede ideale sau a unui zar ideal. Pentru aceasta vom utiliza functia

rand

ce genereaza un numar (pseudo-)aleator uniform in intervalul [0, 1] (i.e., orice punct din acest interval

are aceeasi sansa de a apare la rularea comenzii.

3.7.1 Simularea arunc rii unei monede

• Comanda

X = (rand < 0.5);

simuleaza aruncarea unei monede ideale. Vom mai spunem ca numarul X astfel generat este un

numar aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, in cazul in care o urna are

bile albe si negre in numar egal si extragem o bila la intamplare)

• De asemenea, numarul

Y = sum (rand(10,1)<0.5)

urmeaza repartitia B(10, 0.5) (simularea a 10 aruncari ale unei monede ideale).

Page 79: Statistica Prin Matlab

68

Exerciµiu 3.7 S se scrie o functie MATLAB care sa simuleze aruncarea repetata a unei monede

corecte. Sa se determine probabilitatea ca la aruncarea monedei s obµinem fata cu stema si sa deseneze

o gura care sa justice grac convergenta sirului frecventelor relative la aceasta probabilitate.

function moneda(N,p); % functia moneda.m

x = rand(1, N); % aruncam moneda

V = (x < p); % valoarea de adevar a lui (x<p)

Sn = cumsum(V); % suma cumulata

x = 1:N; % vectorul nr de aruncari

Fn = Sn./Ar; % frecventa relativa a stemei

semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); % reprezinta grafic Fn

axis([0 N 0 1]); % axele

title('moneda') % numele figurii

xlabel('aruncari');ylabel('probabilitatea') % numele axelor

101

102

103

104

105

0

1/4

0.5

3/4

1

aruncari

prob

abili

tate

a

moneda

101

102

103

104

105

0

1/6

0.5

5/6

1

aruncari

prob

abili

tate

a

zar

Figure 3.4: Simularea arunc rii unei monede corecte (a) ³i a unui zar corect (b)

Fisierul moneda.m simuleaza aruncarea unei monede de un numar N de ori, atunci cand probabilitatea

de a obtine fata cu stema este p. O rulare a functiei, e.g. moneda(1e5,0.5), produce gracul din Figura

3.4(a). De asemenea, se poate simula si aruncarea unei monede masluite, daca alegem ca parametrul

p al functiei sa e diferit de 0.5.

Page 80: Statistica Prin Matlab

Experienµe aleatoare în Matlab 69

3.7.2 Simularea arunc rii unui zar

La aruncarea unui zar ideal, avem 6 cazuri posibile, si anume, aparitia unei fete cu 1, 2, 3, 4, 5 sau 6

puncte. Pentru a simula acest experiment, modicam in mod convenabil problema. Vom considera ca

punctele din intervalul [0, 1] formeaza multimea tuturor cazurilor posibile si impartim intervalul [0, 1]

in 6 subintervale de lungimi egale:(0,

16

), (16,

26

), (26,

36

), (36,

46

), (46,

56

), (56, 1).

corespunzatoare, respectiv, celor sase fete, sa zicem in ordinea crescatoare a punctelor de pe ele. Vom

vedea mai tarziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete inchise, deschise

sau mixte nu are efect practic asupra calculului probabilitatii dorite. Acum, daca dorim sa simulam in

Matlab aparitia fetei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numar "la

intamplare" din intervalul [0, 1] si vericam daca acesta se aa in intervalul (26 ,

36). Asadar, comanda

Matlab

(rand < 3/6 & rand > 2/6)

simuleaza aruncarea unui zar ideal. Ca o observatie, deoarece cele 6 fete sunt identice, putem simplica

aceasta comanda si scrie

(rand < 1/6).

Exerciµiu 3.8 S se simuleze în MATLAB aruncarea repetata a unui zar corect. Sa se determine

probabilitatea ca la aruncarea zarului s obµinem faµa cu trei puncte si sa deseneze o gura care sa

justice grac convergenta sirului frecventelor relative la aceasta probabilitate (vezi Figura 3.4(b)).

function dice(N); % functia dice.m

u = rand(1, n); % probabilitatea aparitiei fetei ∴

Z1 = (u < 3/6 & u > 2/6); % aparitia fetei ∴

freq = cumsum(Z1)./(1:n); % frecventa relativa

subplot(1,2,2); % activeaza fereastra din stanga

semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:');

axis([0 n 0 1]); % axele

title('zar') % numele figurii

xlabel('aruncari');ylabel('probabilitatea')

Fisierul dice.m simuleaza aruncarea unui zar corect de un numar N de ori. O rulare a functiei, e.g.

dice(1e5) produce gracul din Figura 3.4(b).

Page 81: Statistica Prin Matlab

70

3.8 Probabilit µi geometrice

Exerciµiu 3.9 (aproximarea lui π folosind jocul de darts)

În ce const jocul? S presupunem c suntem la nivelul încep tor. Avem de aruncat o s geat ascuµit ,

ce poate penetra cu u³urinµ lemnul, spre o tabl p trat din lemn, în interiorul c ruia se a desenat

un cerc circumscris p tratului. Dac s geata se înnge în interiorul discului atunci aµi câ³tigat un

punct, dac nu - nu câ³tigaµi nimic. Repet m jocul de un num r N de ori ³i contabiliz m la sfâr³it

num rul de puncte acumulate, s zicem c acest num r este νN .

S presupunem c sunteµi un juc tor slab de darts (asta implic faptul c orice punct de pe tabl are

aceea³i ³ans de a µintit), dar nu a³a de slab încât s nu nimeriµi tabla. Cu alte cuvinte, presupunem

c de ecare data când aruncaµi s geata, ea se înnge în tabl .

Se cere s se aproximeze valoarea lui π pe baza jocului de mai sus ³i s se scrie un program în Matlab

care s simuleze experimentul.

S not m cu A evenimentul ca s geata s se înng chiar în interiorul discului. În cazul în care num rul

de arunc ri N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat de

limita ³irului frecvenµelor relative, adic limn→∞

νNN

.

Pe de alt parte, P (A) = aria discaria perete

= π4 . A³adar, putem aproxima π prin

π ' 4νNN

(pentru N 1). (3.7)

FunctiaMatlab care aproximeaza pe π este prezentata mai jos. Metoda care a stat la baza aproxim rii

lui π este o metoda Monte Carlo, a carei suport teoretic este prezentat in paragraful .

function Pi = Buffon(N) % numar de aruncari

theta = linspace(0,2*pi,N); % genereaza vectorul theta

x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi

X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar

plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele

S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese

Prob = S/N; % frecventa relativa

approxpi =4*Prob; % aproximarea lui pi

axis([0 1 0 1]); % deseneaza axele

title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);

Page 82: Statistica Prin Matlab

Experienµe aleatoare în Matlab 71

Figure 3.5: Simularea jocului de darts.

Astfel, o simpla rulare a functiei, Buffon(2000), ne genereaza Figura 3.5.

3.9 Repartitii probabilistice in Matlab

Functiile de probabilitate, f(x) (pentru variabile aleatoare discrete), si densitatea de repartitie, f(x)

(pentru variabile aleatoare continue), se introduc in MATLAB cu ajutorul comenzii pdf, astfel:

pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>).

Functia de repartitie, F (x), a unei variabile aleatoare se poate introduce in MATLAB cu ajutorul

comenzii cdf, astfel:

cdf('LEGE', x, <param>); sau LEGEcdf(x, <param>).

Inversa functiei de repartitie pentru repartitii continue, F−1(y), se introduce cu comanda icdf, astfel:

icdf('LEGE', y, <param>) sau LEGEinv(y, <param>).

In comenzile de mai sus, LEGE poate oricare dintre legile de repartitie din tabelul 3.1, x este un

scalar sau vector pentru care se calculeaza f(x) sau F (x), y este un scalar sau vector pentru care

Page 83: Statistica Prin Matlab

72

se calculeaza F−1(y) iar <param> este un scalar sau un vector ce reprezinta parametrul (parametrii)

repartitiei considerate.

Observaµia 3.10 Fie X o variabila aleatoare si F (x, θ) functia sa de repartitie, θ ind parametrul

repartitiei. Pentru un x ∈ R, relatia matematica

P (X ≤ x) = F (x)

o putem scrie astfel in Matlab:

cdf('numele repartitiei lui X',x,θ). (3.8)

Problema poate aparea la evaluarea inMatlab a probabilitatii P (X < x). Daca repartitia considerata

este una continua, atunci corespondentul in Matlab este tot (3.8), deoarece in acest caz

P (X ≤ x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, daca X ∼ N (5, 2), atunci

P (X < 4) = cdf('norm', 4, 5, 2).

Daca X este de tip discret, atunci

P (X < x) =

P (X ≤ [x]) , x nu e intreg

P (X ≤ m− 1) , x = m ∈ Z,

unde [x] este partea intreaga a lui x.

De exemplu, daca X ∼ B(10, 0.3), atunci

P (X < 5) = P (X ≤ 4)

= cdf('bino', 4, 10, 0.3) = 0.8497.

Exerciµiu 3.11 O moneda ideala este aruncata de 100 de ori, iar X este variabila aleatoare ce reprez-

inta numarul de fete cu stema aparute.

• (a) Care este probabilitatea de a obtine exact 52 de steme?

• (b) Sa se calculeze P (45 ≤ X ≤ 55). Folositi aproximarea cu o variabila aleatoare normala.

Page 84: Statistica Prin Matlab

Experienµe aleatoare în Matlab 73

CodulMatlab urmator calculeaza probabilitatile cerute, calculate analitic in Exercitiul 2.56 din capi-

tolul precedent.

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 % solutia exacta

P1 = 1/5*normpdf(2/5) % solutia aproximativa 1

P1 = normcdf(2.5/5) - normcdf(1.5/5) % solutia aproximativa 2

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta

P2 = normcdf(5.5/5) - normcdf(-5.5/5) % solutia aproximativa

Exerciµiu 3.12 Cineva a inregistrat zilnic timpul intre doua sosiri succesive ale tramvaiului intr-o

anumita statie, si a gasit ca, in medie, aceste este de 20 de minute. Se stie ca acest timp este distribuit

exponential. Daca o persoana a ajuns in statie exact cand tramvaiul pleca, aati care sunt sansele ca

ea sa astepte cel putin 15 minute pana vine urmatorul tramvai.

- Notam cu T timpul de asteptare in statie intre doua sosiri succesive ale tramvaiului si cu FT

functia sa de repartitie. Stim ca T ∼ exp(λ), unde λ = 20. Asadar, avem de calculat P (T ≥ 15), care

este:

P (T ≥ 15) = 1− P (T < 15) = 1− FT (15),

si aceasta este

1 - cdf('exp',15, 20) = 0.4724,

ceea ce implica 47.24% sanse. √

Exerciµiu 3.13 Urmatoarea functieMatlab (prin comanda fF(10,0.5)) reprezinta grac (vezi Figura

3.6) functia de probabilitate (prin puncte si bare) si functia de repartitie ale legii de probabilitate bi-

nomiale.

function fF(n,p);

x=0:n;

FP=pdf('bino', x, n ,p); subplot(1,3,1); plot(x, FP, '*')

axis([-0.5 n+0.5 0 0.32])

title('Functia de probabilitate')

subplot(1,3,2), bar (x, FP); axis ([-0.5 n+0.5 0 0.32])

title('Functia de probabilitate')

Page 85: Statistica Prin Matlab

74

FR=cdf('bino', x, n ,p); subplot(1,3,3); stairs(x, FR)

title('Functia de repartitie');axis ([0 n 0 1])

0 5 100

0.1

0.2

0.3

Functia de probabilitate

0 2 4 6 8 100

0.1

0.2

0.3

Functia de probabilitate

0 5 100

0.25

0.5

0.75

1Functia de repartitie

Figure 3.6: Reprezentarea functiilor de probabilitate si de repartitie pentru B(10, 0.5)

Exerciµiu 3.14 Sa presupunem ca X este o v.a. continua ce reprezinta inaltimea (in cm) barbatilor

dintr-o tara. Se stie ca P (X ≤ 170) = 0.1. Stiind ca X este normal distribuita, cu media m = 175, sa

se determine dispersia lui X.

- Fie v.a.

Y =X − 175

σ.

Deoarece X ∼ N (175, σ), gasim ca Y ∼ N (0, 1). Din conditia P (X ≤ 170) = 0.1, obtinem:

P (Y ≤ − 5σ

) = 0.1,

de unde

− 5σ

= icdf('norm',0.1,0,1) = −1.28,

de unde σ ≈ 3.91, asadar σ2 ≈ 15.3. √

Exerciµiu 3.15 Presupunem ca inaltimea unei persoane este o v.a. X repartizata normal. Media de

inaltime a jucatorilor unei echipe de baschet masculin este 195 cm, cu deviatia standard 5 cm. Inaltimea

usii de la vestiarul echipei este de 2 metri.

Page 86: Statistica Prin Matlab

Experienµe aleatoare în Matlab 75

(a) Determinati procentul dintre jucatorii echipei care sunt prea inalti pentru a trece de aceasta usa

fara sa se aplece. (Presupunem ca se apleaca doar daca inaltimea lor este mai mare de 2m).

(b) Sa se determine probabilitatea ca inaltimile jucatorilor sa e intre 190 cm si 210 cm.

- (a) Probabilitatea ca jucatorii sa e "prea inalti" este:

P1 = P (X > 200) = 1− P (x ≤ 200) = 1− FX(200) ≈ 0.1587.

Procentul cautat este r = P1 · 100 ≈ 15.87%.

(b) Calculam

P2 = P (190 < X < 210) = FX(210)− FX(190) ≈ 0.84.

P1 = 1 - normcdf(200, 195,5))*100

P2 = normcdf(210, 195,5) - normcdf(190, 195,5) √

Exerciµiu 3.16 (a) In magazinul de la coltul strazii intra in medie 20 de clienti pe ora. Stiind ca

numarul clientilor pe ora este o variabila aleatoare repartizata Poisson, sa se determine care este prob-

abilitatea ca intr-o anumita ora sa intre in magazin cel putin 15 clienti?

(b) Care este probabilitatea ca, intr-o anumita zi de lucru (de 10 ore), in magazin sa intre cel putin

200 de clienti? Calculati aceasta probabilitate in doua moduri: folosind functia de repartitie Poisson

si folosind aproximarea cu repartitia normala.

- Solutiile analitice au fost prezentate in capitolul anterior, in Exercitiul 2.57. Prezentam aici

codul Matlab pentru calculul probabilitatilor cerute.

P1 = 1 - poisscdf(14,20);

P2 = 1 - poisscdf(199,200);

sau,

P2 = 1 - normcdf(-0.5/sqrt(200)) √

Exerciµiu 3.17 (a) Simulati in MATLAB o variabila aleatoare discreta X ce poate lua doar doua

valori, X = 1, cu P (X = 1) = p si X = −1, cu P (X = −1) = 1− p, (p ∈ (0, 1)).

Page 87: Statistica Prin Matlab

76

(b) Consideram urm torul joc: se arunc o moned corect de N ori ³i dac apare stema câ³tig m

1 RON , iar dac apare banul, pierdem 1 RON . S se reprezinte v.a. care reprezint câ³tigul S(n)

cumulat la ecare aruncare. De asemenea, s se contabilizeze de câte ori s-a întors balanµa la 0.

- (a) Stabilim un p ∈ [0, 1]. Cu comanda rand, generam un numar aleator dupa repartitia

U(0, 1). Atunci, comanda MATLAB

(rand < p)

ne aseaza valoarea de adevar a propozitiei rand < p. Asadar, MATLAB aseaza 1 daca rand < p

(probabilitatea ca aceasta sa se intample este p) si aseaza 0 daca rand > p (probabilitatea evenimen-

tului este 1− p). Prin urmare, pentru a simula variabila aleatoare Bernoulli ceruta folosim codul:

p = input('p = '); % introduc probabilitatea p

X = 2*(rand < p)-1; % variabila aleatoare X

(b) Procedam astfel: mai intai initializez un vector ce are toate componentele egale cu −1. Arunc o

moneda de N ori. Daca apare evenimentul favorabil, atunci pentru aruncarea (componenta) respec-

tiva schimbam valoarea −1 (pierdere) in +1 (castig). La nal, fac suma cumulata la ecare pas si

o reprezint grac (vezi gura 3.7). Pentru a contabiliza numarul de zerouri ale vectorului Castig,

calculam lungimea vectorului ce are drept componente rangurile pentru care vctorul Castig este 0.

Codul MATLAB este urmatorul:

N = input('N = '); % numar de repetitii ale jocului

S = -1*ones(N,1); % un vector cu toate componentele egale cu -1

u = rand(N,1); % un vector cu N numere U(0, 1)

S(u < 0.5) = 1; % aruncare favorabila => schimb componenta -1 cu 1

Castig = cumsum(S); % suma cumulata la fiecare moment

plot(1:N, Castig, '*') % deseneaza graficul

Z=length(find(Castig == 0)) % numarul de componente nule √

Exerciµiu 3.18 Sa se simuleze in MATLAB o variabila aleatoare ale carei valori reprezinta numarul

de esecuri avute pana la aparitia pentru prima oara a fetei cu 3 puncte la aruncarea unui zar ideal.

Care este probabilitatea de a obtine aceasta fata din cel mult 3 aruncari?

Page 88: Statistica Prin Matlab

Experienµe aleatoare în Matlab 77

0 1 2 3 4 5 6 7 8 9 10

x 104

−100

−50

0

50

100

150

200

aruncari

S(n

)

Figure 3.7: Suma cumulata - miscare aleatoare (brownian ).

- Fie X v.a. cautata. Aceasta urmeaza repartitia Geo(1/6). Probabilitatea de a obtine fata

asteptata din cel mult 3 aruncari este totuna cu probabilitatea de a obtine cel mult 2 esecuri pana la

aparitia acestei fete.

X = geornd(1/6)

P = geocdf(2,1/6) √

3.10 Justicari grace ale teoremei limita centrala

Exerciµiu 3.19 In Figura 3.8 am reprezentat grac (cu bare) functiile de probabilitate pentru reparti-

tiile binomiala si Poisson, atunci cand numarul de extrageri in schema binomiala este un numar mare.

Observam ca pentru un numar n sucient de mare, cele doua grace se suprapun. Aceasta este o

demonstratie graca a urmatoarei convergente:

limn→∞p→0

λ=np

Ckn pk qn−k =

e−λλk

k!. (3.9)

Vericati aceasta limita folosing metode analitice!

Mai mult, forma gracului din Figura 3.8 aminteste de clopotul lui Gauss, justicand grac cum ca

functiile de probabilitate pentru binomiala (albastru) si Poisson (rosu) tind la densitatea de repartitie

Page 89: Statistica Prin Matlab

78

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12

Figure 3.8: B(n, p) si P(np) pentru n = 100, p = 0.15

pentru repartitia normala.

n = input('n='); p = input('p=');

lambda = n*p;

a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda));

%% a si b sunt valorile din problema celor 3 sigma

x=a:b;

fB=binopdf(x,n,p); fP=poisspdf(x,lambda);

bar(x',[fB',fP'])

Exerciµiu 3.20 In Figura 3.9, am reprezintat cu albastru functia de repartitie pentru Sn (Sn ∼

B(n, p)), pentru n = 0.3 si patru valori ale lui n, n ∈ 20, 50, 200, 10000, iar cu linie rosie, functia

de repartitie pentru o variabila aleatoare repartizata N (0, 1). Din cele cele 4 grace, observam cum

gracul functiei de repartitie pentru Sn se apropie de gracul functiei de repartitie pentru N (0, 1),

cand n este sucient de mare (pentru n = 10000 se suprapun gracele). Codul MATLAB ce genereaza

gracul din Figura 3.9 este:

clear all; clf; % reseteaza var. de memorie si figura

n = [20,50,200,10000]; p = 0.3;

for i=1:4

Page 90: Statistica Prin Matlab

Experienµe aleatoare în Matlab 79

x = -4:0.01:4; y = n(i)*p + x*sqrt(n(i)*p*(1-p));

f = cdf('bino', y, n(i), p); % functia de repartitie pentru B(n, p)

subplot(2,2,i);

plot(x,f,'b'); hold on;

stairs(x,normcdf(x, 0, 1),'r'); % functia de repartitie pentru N (0, 1)

title(['n = ',num2str(n(i))])

axis([-4.05 4.05 -0.05 1.05])

end

−4 −2 0 2 4

0

0.2

0.4

0.6

0.8

1

n = 20

−4 −2 0 2 4

0

0.2

0.4

0.6

0.8

1

n = 50

−4 −2 0 2 4

0

0.2

0.4

0.6

0.8

1

n = 200

−4 −2 0 2 4

0

0.2

0.4

0.6

0.8

1

n = 10000

Figure 3.9: Vericare graca a teoremei limita centrala (varianta cu functiile de repartitie)

Page 91: Statistica Prin Matlab

80

3.11 Exercitii propuse

Exerciµiu 3.1 Generati inMatlab un set de 6 numere aleatoare alese (uniform discret) din multimea

1, 2, . . . , 49.

Exerciµiu 3.2

Exerciµiu 3.3

Exerciµiu 3.4

Exerciµiu 3.5

Exerciµiu 3.6

Exerciµiu 3.7

Exerciµiu 3.8

Exerciµiu 3.9

Exerciµiu 3.10

Page 92: Statistica Prin Matlab

Chapter 4Elemente de Statistic descriptiv

Sa consideram o populatie statistica de volum N si o caracteristica a ei, X, ce are functia de repartitie

F . Asupra acestei caracteristici, facem n observatii, in urma carora culegem un set de date statistice.

Dupa cum am vazut mai inainte, datele statistice pot negrupate (asa cum au fost culese in urma ob-

servarilor) si grupate (descrise prin tabele de frecvente). In continuare, vom deni cele mai importante

masuri descriptive pentru aceste date.

4.1 Masuri descriptive ale datelor negrupate

Consideram un set de date statistice negrupate (de volum n), x1, x2, . . . , xn

(xi ∈ R, i = 1, 2 . . . , n), ce corespund celor n observatii asupra variabilei X.

(1) Valoarea medie empirica

Aceasta este o masura a tendintei centrale a datelor. Pentru o selectie x1, x2, . . . , xn, denim:

x =1n

n∑i=1

xi,

ca ind media (empirica) de selectie. Daca x1, x2, . . . , xN sunt toate cele N observatii (recens mânt)

81

Page 93: Statistica Prin Matlab

82

asupra caracteristicii populatiei, atunci marimea

µ =1N

N∑i=1

xi

se numeste media (empirica a) populatiei. Vom vedea mai tarziu ca, pentru a estima media µ a intregii

populatii statistice, nu este necesar sa avem toate valorile x1, x2, . . . , xN, ci doar o selectie a ei, si

vom putea folosi x ca un estimator pentru µ.

Pentru ecare i, cantitatea di = xi − x se numeste deviatia fata de medie. Aceasta nu poate denita

ca o masura a gradului de imprastiere a datelor, deoarece

n∑i=1

(xi − x) = 0.

(2) Dispersia empirica

Aceasta este o masura a imprastierii datelor in jurul valorii medii. Pentru o selectie x1, x2, . . . , xn,

denim dispersia (empirica) de selectie:

s2∗ =

1n− 1

n∑i=1

(xi − x)2

(=

1n− 1

[n∑i=1

x2i − n(x)2]

).

Pentru intreaga populatie de volum N , dispersia populatiei este denita prin masura

σ2 =1N

N∑i=1

(xi − µ)2.

Observaµia 4.1 Cantitatea s2 =1n

n∑i=1

(xi − x)2 este tot o masura a dispersiei (empirice) de selectie.

Vom vedea mai tarziu ca alegerea lui s2∗ in dauna lui s2 este mai potrivita intr-un anume sens. Ambele

valori, s2 si s2∗, pot folosite ca estimatori ai dispersiei populatiei, σ2.

(3) Deviatia standard empirica

Este tot o masura a imprastierii datelor in jurul valorii medii. Pentru o selectie x1, x2, . . . , xn,

denim deviatia standard (empirica) de selectie:

s∗ =

√√√√ 1n− 1

n∑i=1

(xi − x)2.

Page 94: Statistica Prin Matlab

Elemente de Statistic descriptiv 83

Pentru intreaga populatie de volum N , deviatia standard a populatiei este denita prin masura

σ =

√√√√ 1N

N∑i=1

(xi − µ)2.

(4) Scorul Z

Este numarul deviatiilor standard pe care o anumita observatie, x, le are sub sau deasupra mediei.

Pentru o selectie x1, x2, . . . , xn, scorul Z este denit astfel:

z =x− xs∗

.

Pentru o populatie, scorul Z este:

z =x− µσ

.

Exerciµiu 4.2 Testam media notelor obtinute de studentii din ultimul an al unei universitati. Sa

presupunem ca pentru aceste note avem media de selectie x = 7.24 si deviatia standard s = 0.7. Media

ta este 8.45. Care iti este pozitia mediei tale, raportat la mediile colegilor tai? (i.e., cate deviatii

standard, s, dedesubtul sau deasupra mediei de selectie te situezi?)

- Calculam scorul Z. Avem:

z =x− xσ

=8.50− 7.24

0.7= 1.8 deviatii standard deasupra mediei de selectie. √

(5) Covarianta empirica

Daca avem n perechi de observatii, (x1, y1), (x2, y2), . . . (xn, yn), denim covarianta empirica de se-

lectie:

covsel =1

n− 1

n∑i=1

(xi − x)(yi − y).

Covarianta empirica pentru intreaga populatie este:

covpop =1N

N∑i=1

(xi − µx)(yi − µy).

Page 95: Statistica Prin Matlab

84

(6) Coecientul de corelatie empiric

r =covselsxsy

, coecient de corelatie de selectie,

r =covpopσxσy

, coecient de corelatie pentru populatie.

(7) Coecientul de asimetrie, (en., skewness), este al treilea moment standardizat,

γ1 =µ3

σ3.

Daca avem o repartitie simetrica, atunci γ1 = 0.

Daca γ1 > 0, atunci asimetrie la dreapta, γ1 < 0, avem asimetrie la stanga.

(8) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis),

K =µ4

σ4− 3.

Este o masura a boltirii distributiei (al patrulea moment standardizat). Termenul (−3) apare pentru

ca indicele kurtosis al distributiei normale sa e egal cu 0. Un indice K > 0 semnica faptul ca, in

vecinatatea modului, curba densitatii de repartitie are o boltire (ascutire) mai mare decat clopotul lui

Gauss. Pentru K < 0, in acea vecinatate curba densitatii de repartitie este mai plata decat curba lui

Gauss.

(9) Cuantila de ordin α

Deniµia 4.3 Se numeste cuantila de ordin α valoarea xα astfel incat:

F (xα) = P (X ≤ xα) = α. (4.1)

Observaµia 4.4 Cuantilele sunt masuri de pozitie, ce masoara locatia unei anumite observatii fata de

restul datelor. Asa cum se poate observa din Figura 4.1, valoarea xα este acel numar real pentru care

aria hasurata este chiar α.

In cazul in care X este o variabila aleatoare discreta, atunci (4.1) nu poate asigurata pentru orice α.

Insa, daca exista o solutie a acestei ecuatiei F (x) = α, atunci exisita o innitate de solutii: intervalul

Page 96: Statistica Prin Matlab

Elemente de Statistic descriptiv 85

ce separa doua valori posibile.

Figure 4.1: Cuantila de ordin α.

Cazuri particulare de cuantile: mediana (α = 1/2), cuartile (α = i/4, i = 1, 4), decile (α = j/10, i =

1, 10), percentile (α = k/100, k = 1, 100), promile (α = l/1000, l = 1, 1000).

• mediana: Presupunem ca observatiile sunt ordonate, x1 < x2 < · · · < xn. Pentru aceasta ordine,

denim valoarea mediana:

x0.5 =

x(n+1)/2, daca n = impar;

(xn/2 + xn/2+1)/2, daca n = par;

• cuartila inferioara este x0.25, astfel incat P (X ≤ x0.5) = 1/4;

• cuartila superioara este x0.75, astfel incat P (X ≤ x0.75) = 3/4;

• distanta intercuartilica, x0.75 − x0.25;

(10) Modul (valoarea cea mai probabila a caracteristicii)

Este acea valoare x∗ pentru care f(x∗) este maxim. O repartitie poate avea mai multe module (e.g.,

la aruncarea unui zar toate cele sase fete au aceeasi probabilitate de aparitie, deci toate sunt module.)

Page 97: Statistica Prin Matlab

86

(11) Functia de repartitie empirica

Se numeste functie de repartitie empirica asociata unei variabile aleatoareX si unei selectii x1, x2, . . . , xn,

functia F ∗n : R −→ R, denita prin

F ∗n(x) =cardi; xi ≤ x

n. (4.2)

Propozitia de mai jos arata ca functia de repartitie empirica aproximeaza functia de repartitie teoretica

(vezi Figura 4.2).

Propoziµia 4.5 Fie Ω o colectivitate statistica si X o caracteristica studiata. Notez cu F (x) functia

de repartitie a lui X. Pentru o selectie de valori ale lui X, x1, x2, . . . , xn, construim functia de

repartitie empirica, F ∗n(x). Atunci:

F ∗n(x)prob−→ F (x), cand n→∞, ∀x ∈ R.

Demonstraµie. Notez cu A evenimentul X ≤ x si cu p = P (A). Se fac n repetitii ale acestui

eveniment si frecventa relativa a realizarii evenimentului A este

νnn

=cardi; xi ≤ x

n= F ∗n(x).

Astfel, concluzia propozitiei este o consecinta imediata a Teoremei lui Bernoulli 2.48.

4.2 Masuri descriptive ale datelor grupate

Consideram un set de date statistice grupate (de volum n), ce corespund celor n observatii asupra

variabilei X. Datele grupate sunt in genul celor prezentate in Figurile 1.1 si 1.3.

Pentru o selectie cu valorile de mijloc x1, x2, . . . , xn si frecventele absolute corespunzatoare, f1,

f2, . . . , fn,cun∑i=1

fi = n, denim:

xf =1n

n∑i=1

xifi, media de selectie, (media ponderata)

Page 98: Statistica Prin Matlab

Elemente de Statistic descriptiv 87

Figure 4.2: Functia de repartitie empirica si functia de repartitie teoretica pentru distributia normala.

s2∗ =

1n− 1

n∑i=1

fi(xi − xf )2 =1

n− 1

(n∑i=1

x2i fi − n x2

f

), dispersia empirica,

s∗ =√s2∗, deviatia standard empirica.

In MATLAB, functiile specice pentru aceste masuri sunt:

Observaµia 4.6 Sa consideram urmatoarea problema. La brutaria din colt a fost adusa o masina noua

de fabricat paine. Aceasta masina de paine ar trebui sa fabrice paini care sa aiba in medie m = 400

de grame. Pentru a testa daca masina respectiva indeplineste norma de gramaj, am pus deoparte (la

intamplare) n paini produse intr-o zi lucratoare, in scopul de a le cantari. Spunem astfel ca am facut

o selectie de volum n din multimea painilor produse in acea zi. Dorim sa decidem daca, intr-adevar,

masina este setata la parametrii potriviti. In urma cantaririi celor n paini, obtinem datele (empirice):

x1, x2, . . . , xn (in grame). Calculam media masei acestora si obtinem:

x =1n

n∑i=1

xi.

Intuitiv, ar de asteptat ca acest x sa aproximeze (intr-un anumit sens) masa medie (teoretica) a

painilor produse de aceasta masina. Pentru a putea obtine aceasta aproximare, am avea nevoie de

Page 99: Statistica Prin Matlab

88

mean(x) media valorilor elementelor lui x;

harmmean(x) media armonica a elementelor lui x;

quantile(x,alpha) cuantila de ordin α;

iqr(x) distanta intercuantilica, x0.75 − x0.25;

median(x) valoarea mediana a lui x;

std(x), var(x) deviatia standard si dispersia valorilor lui x;

range(x) range-ul lui x;

mode(x) modul lui x;

max(x), min(x) maximum si minimum pentru elementele lui x;

skewness(x) skewness pentru elementele lui x;

kurtosis(x) kurtosis pentru elementele lui x;

prctile(x,p) pth percentilele lui x;

cdfplot(x) reprezinta grac functia de repartitie empirica a lui x;

cov(x,y) covarianta dintre x si y;

corrcoef(x,y) coecientul de corelatie pentru valorile lui x si y;

LEGEstat(<param>) aseaza media si dispersia pentru LEGE(<param>);

Table 4.1: Functii Matlab specice pentru masuri descriptive.

un criteriu care sa ne spuna ca x ≈ m. Mai mult, am dori sa m convinsi ca aceasta aproximare nu

depinde de esantionul de paini ales, adica, daca am ales alte paini si facut media maselor lor, am

obtinut din nou o valoarea foarte apropiata de m. Pentru a construi un astfel de criteriu, avem nevoie

de un cadru teoretic mai abstract pentru modelarea datelor statistice. Acest cadru il vom construi mai

jos.

4.3 Exercitii rezolvate

Exerciµiu 4.7 O companie de asigurari a inregistrat numarul de accidente pe luna ce au avut loc

intr-un anumit sat, in decurs de un an (52 de saptamani). Acestea sunt, in ordine:

Page 100: Statistica Prin Matlab

Elemente de Statistic descriptiv 89

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,

4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2.

(a) Sa se scrie un tabel de frecvente care sa contina numarul de accidente, frecventele absolute si cele

relative.

(b) Gasiti media empirica, mediana si deviatia standard empirica.

(c) Reprezentati prin bare rezultatele din tabelul de frecvente.

(d) Gasiti si reprezentati grac (cdfplot) functia de repartitie empirica a numarului de accidente.

- Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];

m = mean(Y); s = std(Y); Me = median(Y);

subplot(1,2,1); bar(0:4,[7,9,14,12,10])

subplot(1,2,2); cdfplot(Y) √

Figure 4.3: Reprezentare pentru numarul de accidente.

Page 101: Statistica Prin Matlab

90

4.4 Exercitii propuse

Exerciµiu 4.1

Exerciµiu 4.2

Exerciµiu 4.3

Exerciµiu 4.4

Exerciµiu 4.5

Exerciµiu 4.6

Exerciµiu 4.7

Exerciµiu 4.8

Exerciµiu 4.9

Exerciµiu 4.10

Page 102: Statistica Prin Matlab

Chapter 5Noµiuni de teoria selecµiei

5.1 Introducere

Deniµia 5.1 Numim colectivitate statistica (sau populatie) o multime nevida Ω de elemente care este

cercetata din punct de vedere a uneia sau mai multor caracteristici. Elementele colectivitatii le vom

numi indivizi (sau unitati statistice). Vom nota cu ω o unitate statistica. Daca populatia este nita,

atunci numarul n al unitatilor statistice ce o compun (i.e., card(Ω)) il vom numi volumul colectivitatii

(sau volumul populatiei).

Consideram o populatie (colectivitate statistica) Ω. Studiem populatia Ω din punctul de vedere al unei

caracteristici a sale, X. Aceasta caracteristica este o anumita proprietate urmarita la indivizii ei in

procesul prelucrarii statistice si o vom asimila cu o variabila aleatoare denita pe Ω. Problema esentiala

a statisticii matematice este de a stabilii legea de probabilitate pe care o urmeaza caracteristica X.

Pentru a gasi aceasta lege (repartitie), este necesar de un numar reprezentativ de selectii repetate

din colectivitatea Ω, pe care le vom studia si vom gasi apoi, prin inferenta, o lege care sa reprezinte

variabila X.

Deniµia 5.2 Vom numi selectie (sau sondaj) o subcolectivitate a colectivitatii cercetate Ω. Numarul

elementelor selectiei poarta numele de volumul selectiei (sondajului). Selectiile pot repetate sau

nerepetate. O selectie se numeste repetata (sau bernoulliana) daca dupa examinarea individului acesta

se reintroduce in colectivitate, in caz contrar avem o selectie nerepetata. In practica, volumul colec-

91

Page 103: Statistica Prin Matlab

92

tivitatii Ω este mult mai mare decat volumul selectiei. In aceste cazuri, selectia nerepetata poate

considerata ca ind selectie repetata. Selectiile pe care le vom considera in continuare sunt numai

selectii repetate din colectivitatea statistica.

Dorim acum sa introducem un cadru matematic abstract pentru aceste selectii repetate.

Consideram spatiul masurabil (Ω, F), unde F este un corp borelian de parti ale lui Ω. Caracteristica X

urmarita poate reprezentata de o variabila aleatoare denita pe (Ω, F). Dorim sa denim matematic

o selectie repetata de volum n. Euristic, ideea este urmatoarea: a efectua n sondaje repetate dintr-o

multime Ω, este echivalent cu a considera o singura selectie dintr-o populatie de genul "Ω multiplicat

de n ori". Construim astfel:

Ω(n) = Ω× Ω× · · · × Ω, F (n) = F × F × · · · × F ,

produs cartezian de n ori. Un element al lui Ω(n) va

ω(n) = (ω1, ω2, . . . , ωn),

numita selectie repetata de volum n. Astfel, cuplul (Ω(n), F (n)) se va numi spatiul selectiilor repetate

de volum n. Fie variabilele aleatoare

Xi : Ω(n) → R, Xi(ω(n)) = X(ωi), ∀i = 1, n.

Acestea sunt variabile aleatoare denite pe (Ω(n), F (n)), sunt independente stochastic (deoarece X(ωi)i=1, n

sunt independente) si sunt identic repartizate, cu functia de repartitie comuna FX (se verica usor ca

FXi = FX , ∀i = 1, n). Vom numi Xi, i = 1, n, variabile aleatoare de selectie repetata de volum n.

Vom numi vector de selectie repetata de volum n, vectorul Y , astfel incat:

Y : Ω(n) → R, Y (ω(n)) = (X1(ω(n)), X2(ω(n)), . . . , Xn(ω(n))).

Pentru un ω(n) xat, componentele vectorului Y (ω(n)) se numesc valori de selectie repetata de volum

n. Vom nota cu

Ln = Y (Ω(n)) ⊂ Rn,

si-l vom numi spatiul valorilor de selectie repetata de volum n. Elementele lui Ln le vom nota prin

x = (x1, x2, . . . , xn),

(xi = Xi(ω(n)), pentru ω(n) xat, i = 1, 2, . . . , n).

Page 104: Statistica Prin Matlab

Teoria selecµiei 93

Deniµia 5.3 Vom numi statistica (sau functie de selectie) variabila aleatoare

Sn(X) = g(X1, X2, . . . , Xn),

unde g este o functie g : Rn → R masurabila (i.e., ∀B ∈ B(R), g−1(B) ∈ B(Rn)).

Notatii: In literatura, statistica se noteaza cu una dintre urmatoarele:

Sn(X), S(X, ω(n)), S(X, n), S(X1, X2, . . . , Xn).

Valoarea numerica

Sn(x) = g(x1, x2, . . . , xn)

se numeste valoarea functiei de selectie pentru un ω(n) xat.

Observaµia 5.4 Asadar, o statistica este o functie de variabilele aleatoare de selectie. Prin intermeniul

statisticilor putem trage concluzii despre populatia Ω, din care a provenit esantionul ω(n). Teoria

probabilitatilor ne ofera procedee de determinare atat a repartitiei exacte a lui Sn(X), cat si a repartitiei

asimptotice a lui Sn(X). Repartitia exacta este cea ce poate determinata pentru orice volum al

selectiei, n. Este indispensabila in conditiile in care volumul selectiei este redus, n ≤ 30. Repartitia

asimptotica este repartitia limita a Sn(X) cand n → ∞, iar utilizarea acesteia conduce la rezultate

bune doar pentru n > 30.

De cele mai multe ori, o functie de selectie (statistica) este utilizata in urmatoarele cazuri:

• in probleme de estimare punctuala a parametrilor;

• in obtinerea intervalelor de incredere pentru un parametru necunoscut;

• ca o statistica test pentru vericarea ipotezelor statistice.

5.2 Exemple de statistici

Fie (Ω, F) o colectivitate statistica si X o caracteristica cercetata a sa. Sa notam cu f(x) si F (x)

densitatea de repartitie, respectiv, functia de repartitie pentru X. Acestea pot cunoscute sau ne-

cunosctute a priori si le vom numi functii teoretice (respectiv, densitate de repartitie teoretica si functie

Page 105: Statistica Prin Matlab

94

de repartitie teoretica). Daca se cunoaste f(x), atunci putem determina µ = E(X) si σ2 = D2(X),

daca acestea exista, si le vom numi medie teoretica si dispersie teoretica.

In cazul in care una sau mai multe caracteristici teoretice corespunzatoare lui X nu ne sunt a priori

cunoscute, vom cauta sa le determina prin inferenta, adica prin extragerea unor selectii de date din

colectivitate, calculand caracteristicile respective pentru selectiile considerate si apoi extrapoland (in

anumite conditii si dupa anumite criterii) la intreaga colectivitate.

Sa consideram ω(n) o selectie repetata de volum n din colectivitatea data si Xi, i = 1, n, variabilele

aleatoare de selectie. Cu ajutorul acestora, putem construi diverse functii de selectie.

Media de selectie (mean)

Deniµia 5.5 Numim medie de selectie (repetata de volum n), statistica

X(ω(n)) =1n

n∑i=1

Xi(ω(n)), ω(n) ∈ Ω(n). (5.1)

Pentru un ω(n) xat, sa notam cu x1, x2, . . . , xn valorile de selectie corespunzatoare variabilelor

aleatoare de selectie X1, X2, . . . , Xn. Atunci valoarea mediei de selectie pentru un ω(n) xat este:

x =1n

n∑i=1

xi (media de selectie empirica).

Propriet µi 5.6

E(X) = E(X), D2(X) =D2(X)n

; (5.2)

1n

n∑i=1

Xia.s.−→ E(X), cand n→∞. (5.3)

Observaµia 5.7 (1) In capitolele urmatoare vom scrie relatia (5.4) sub forma restransa:

X =1n

n∑i=1

Xi. (5.4)

Pentru simplitatea formulelor, de acum inainte vom face abstractie de dependenta de ω(n) in formule,

care se va subintelege.

(2) Propozitia 5.22 precizeaza care este repartitia mediei de selectie pentru variabile aleatoare de

selectie dintr-o colectivitate normala, iar Propozitia 5.24 precizeaza care este repartitia asimptotica a

mediei de selectie pentru variabile de selectie intr-o colectivitate oarecare.

Page 106: Statistica Prin Matlab

Teoria selecµiei 95

Momente de selectie

Deniµia 5.8 Numim moment de selectie (repetata de volum n) de ordin k, (k ∈ N∗), statistica

αk(X1, X2, . . . , Xn) =1n

n∑i=1

Xki .

Valoarea momentului de selectie de ordin k pentru un ω(n) xat este:

αk(x1, x2, . . . , xn) =1n

n∑i=1

xki (moment de selectie empiric de ordin k).

In cazul particular k = 1, avem:

α1(X1, X2, . . . , Xn) = X.

Propriet µi 5.9 Pentru oricare k xat, k ∈ N∗, avem:

E(αk(X1, X2, . . . , Xn)) = E(Xk) = αk(X), (momente initiale teoretice pentru X)

D2(αk(X1, X2, . . . , Xn)) =D2(Xk)

n,

1n

n∑i=1

Xki

a.s.−→ αk(X), cand n→∞.

Momente de selectie centrate

Deniµia 5.10 Numim moment de selectie centrat de ordin k, statistica

µk(X1, X2, . . . , Xn) =1n

n∑i=1

[Xi −X]k.

Valoarea momentului de selectie de ordin k pentru un ω(n) xat este:

µk(x1, x2, . . . , xn) =1n

n∑i=1

[xi − x]k (moment de selectie centrat empiric de ordin k).

Propriet µi 5.11 Pentru oricare k xat, k ∈ N∗, avem:

E(µk(X1, X2, . . . , Xn)) = E([X − µ]k) = µk(X), (momente centrate teoretice pentru X)

1n

n∑i=1

(Xi −X)k a.s.−→ µk(X), cand n→∞.

Page 107: Statistica Prin Matlab

96

Dispersie de selectie (var)

Deniµia 5.12 Numim dispersie de selectie (repetata de volum n), statistica

d2(X1, X2, . . . , Xn) = µ2(X1, X2, . . . , Xn).

Pentru simplitate, o vom nota cu d2(X), iar valoarea acesteia pentru un ω(n) xat este:

d2(x) =1n

n∑i=1

[xi − x]2 (dispersie de selectie empirica).

De cele mai multe ori, in locul lui d2(X) se utilizeaza statistica d2∗(X), denita prin:

d2∗(X) =

1n− 1

n∑i=1

[Xi −X]2.

Aceasta se mai numeste si dispersie de selectie modicata, iar valoarea ei pentru un ω(n) xat este:

d2∗(x) =

1n− 1

n∑i=1

[xi − x]2 (dispersie de selectie empirica).

Motivatia pentru considerarea statisticii d2∗(X) este data de proprietatile din Propozitia urmatoare:

Propriet µi 5.13 Dispersiile de selectie verica urmatoarele relatii:

E(d2(X)) =n− 1n

D2(X), E(d2∗(X)) = D2(X) (5.5)

d2∗(X)

prob−→ D2(X), cand n→∞. (5.6)

Observaµia 5.14 (i) Dupa cum vom vedea in capitolul urmator, primele doua relatii arata ca sta-

tistica d2∗(X) este un estimator nedeplasat pentru dispersia teoretica, pe cand d2(X) este estimator

deplasat.

(ii) Daca media teoretica a colectivitatii este cunoscuta a priori, E(X) = µ ∈ R, atunci dispersia de

selectie d2(X) devine:

d2(X) =1n

n∑i=1

[Xi − µ]2.

Propozitia 5.28 precizeaza care este repartitia acestei statistici.

Page 108: Statistica Prin Matlab

Teoria selecµiei 97

Functia de repartitie de selectie (cdfplot)

Deniµia 5.15 Fie X1, X2, . . . , Xn variabile aleatoare de selectie repetata de volum n. Numim func-

tie de repartitie de selectie (repetata de volum n), functia

F ∗n : R× Ω(n) → R, F ∗n(x, ω(n)) =n(x)n

, ∀ (x, ω(n)) ∈ R× Ω(n),

unde n(x) = card i, Xi(ω(n)) ≤ x reprezinta numarul de elemente din selectie mai mici sau

egale cu x.

Relatia din denitie poate scrisa si sub forma:

F ∗n(x) =1n

n∑i=1

χ(−∞, x](Xi), ∀x ∈ R,

unde χA este functia indicatoare a multimii A.

Pentru un x ∈ R xat, F ∗n(ω(n)) este o variabila aleatoare distribuita binomial B(n, F (x)).

Pentru ecare ω(n) ∈ Ω(n) xat, F ∗n(x) ia valorile:

F ∗n(x) =card i, xi ≤ x

n,

(i.e., este functia de repartitie empirica denita in 4.2).

Propriet µi 5.16 Functia de repartitie de selectie satisface urmatoarele relatii:

E(F ∗n(x)) = F (x), ∀x ∈ R;

D2(F ∗n(x)) =1n

[F (x)(1− F (x))], ∀x ∈ R;

In Statistica, exista o serie de criterii care permit sa se aprecieze apropierea lui F ∗n(x) de F (x). Mai

jos, amintim doar cateva dintre ele.

Propriet µi 5.17 Functia de repartitie de selectie satisface convergenta

F ∗n(x) a.s.−−−→n→∞

F (x), x xat in R.

- Rezultatul este o consecinta directa a legii tari a numerelor mari. √

Page 109: Statistica Prin Matlab

98

Propriet µi 5.18 Functia de repartitie de selectie satisface convergenta

√n(F ∗n(x)− F (x)) ∼ N ( 0, F (x)(1− F (x)) ), x xat in R.

- Rezultatul este o consecinta directa a Propozitiei 5.16 si a Teoremei limita centrala. √

Teorema 5.19 (Glivenko-Cantelli) Fie X o caracteristica, F (x) functia sa de repartitie si F ∗n(x) func-

tia de repartitie empirica corespunzatoare unei selectii de volum n. Atunci F ∗n(x) converge uniform la

F (x), adica:

supx∈R|F ∗n(x)− F (x)| −−−→

n→∞0, cu probabilitatea 1.

Teorema 5.20 (Kolmogorov) Fie caracteristica X de tip continuu, care are functia de repartitie teo-

retica F si e functia de repartitie de selectie F ∗n . Daca notam cu

dn = supx∈R|F ∗n(x)− F (x)|,

atunci avem:

limn→∞

P (√n · dn < x) = K(x) =

∞∑k=−∞

(−1)ke−2 k2 x2, x > 0. (5.7)

Observaµia 5.21 Functia K denita prin (5.7) se numeste functia lui Kolmogorov si are valorile

tabelate. O vom utiliza mai tarziu in Teoria deciziei (testul Kolmogorov).

5.3 Selectii aleatoare dintr-o colectivitate normala

Sa consideram Ω o colectivitate statistica si X o caracteristica a sa, ce urmeaza a studiata din

punct de vedere statistic. Fie X1, X2, . . . , Xn variabile aleatoare de selectie repetata de volum

n. In cele mai multe cazuri practice, X urmeaza o repartitie normala (gaussiana). De regula, daca

volumul populatiei este mic (n ≤ 30), atunci lucram doar populatii normale, iar pentru n > 30 putem

considera orice tip de repartitie pntru colectivitate. Mai jos prezentam cateva rezultate mai importante

referitoare la selectia dintr-o colectivitate gaussiana.

Propoziµia 5.22 (repartitia mediei de selectie pentru o selectie gaussiana)

Daca Xi ∼ N (µ, σ), ∀i = 1, 2, . . . , n, atunci statistica X satisface:

X ∼ N(µ,

σ√n

). (n ∈ N∗)

Page 110: Statistica Prin Matlab

Teoria selecµiei 99

Demonstraµie. Vom folosi metoda functiei caracteristice. Pentru o variabila aleatoare N (µ, σ) functia

caracteristica este:

φ(t) = ei µ t−12σ2t2 . (5.8)

Din relatia (2.36) si tinand cont de relatia

φaX(t) = φX(at),

obtinem ca functia caracteristica a lui X este:

φX (t) =n∏k=1

ei µtn− σ2t2

2n2 = ei µ t− 1

2

(σ√n

)2t2,

adica X urmeaza legea de repartitie N (µ, σ√n

).

O consecinta directa a acestei propozitii este urmatoarea:

Propoziµia 5.23 Daca Xi ∼ N (µ, σ), ∀i = 1, 2, . . . , n sunt variabile aleatoare de selectie, atunci

Z =X − µσ√n

∼ N (0, 1).

Propoziµia 5.24 (repartitia mediei de selectie pentru o selectie oarecare)

Daca X1, X2, . . . , Xn variabile aleatoare de selectie repetata de volum n, ce urmeaza o repartitie

data, atunci pentru un volum n sucient de mare, statistica X satisface:

X ∼ N(µ,

σ√n

). (n > 30)

Demonstraµie. Acest rezultat este o consecinta imediata a concluziei teoremei limita centrala. [Ex-

ercitiu!]

Observaµia 5.25 Daca n este sucient de mare, atunci concluzia Propozitiei 5.23 ramane valabila si in

cazul in care avem o selectie repetata de volum n dintr-o colectivitate statistica nu neaparat gaussiana.

Propoziµia 5.26 Daca ξi ∼ N (µi, σi) sunt variabile aleatoare independente stochastic si ai ∈ R,

i = 1, 2, . . . , n, atunci variabila aleatoare ξ =n∑i=1

aiξi satisface proprietatea:

ξ ∼ N

n∑i=1

aiµi,

√√√√ n∑i=1

a2iσ

2i

.

Page 111: Statistica Prin Matlab

100

Demonstraµie. Demonstratia este bazata pe metoda functiei caracteristice. [Exercitiu!]

Propoziµia 5.27 Fie ξi ∼ N (µi, σi) variabile aleatoare independente stochastic si ai ∈ R, i =

1, 2, . . . , n. Pentru ecare caracteristica ξi consideram cate o selectie repetata de volum ni, pe

care o vom nota cu ξi. Atunci statistica Y = a1ξ1 + a2ξ2 + . . . + anξn satisface proprietatea:

Y ∼ N

n∑i=1

aiµi,

√√√√ n∑i=1

a2i

σ2i

ni

.

Demonstraµie. Deoarece ξi ∼ N (µi, σi), din Propozitia 5.22 obtinem ca media de selectie corespunza-

toare, ξi, satisface:

ξi ∼ N(µi,

σi√ni

).

Aplicand acum Propozitia 5.26 variabilelor aleatoare independente ξ1, ξ2, . . . , ξn, obtinem concluzia

dorita.

Urmatoarea propozitie este un caz particular al Propozitiei 5.27.

Propoziµia 5.28 (repartitia diferentei mediilor de selectie pentru colectivitati gaussiene)

Consideram o selectie de volum n1 dintr-o populatie normala N (µ1, σ1) si o selectie de volum n2 dintr-

o colectivitate N (µ2, σ2), cele doua selectii ind alese independent una de cealalta. Notam cu ξ1 si,

respectiv, ξ2 mediile de selectie corespunzatoare selectiilor alese. Atunci statistica

ξ1 − ξ2 ∼ N

µ1 − µ2,

√σ2

1

n1+σ2

2

n2

.

Demonstraµie. Aplicam rezultatul Propozitiei 5.27 pentru cazul particular in care avem doar doua

variabile aleatoare, ξ1 si ξ2, iar a1 = 1, a2 = −1.

Observaµia 5.29 (1) Concluzia propozitiei anterioare se mai poate scrie astfel:

Z =(ξ1 − ξ2)− (µ1 − µ2)√

σ21n1

+ σ22n2

∼ N (0, 1).

(2) Sa presupunem ca avem doua populatii statistice normale, Ω1 si Ω2, iar ξ este o caracteristica

comuna a celor doua populatii, ce urmeaza a studiata. (De exemplu, populatiile statistice sa e

Page 112: Statistica Prin Matlab

Teoria selecµiei 101

multimea pieselor produse de doua strunguri intr-o zi de lucru, iar caracteristica comuna sa e masa

lor). Sa mai presupunem ca deviatiile standard ale caracteristicilor considerata sunt cunoscute. (i.,e.,

deviatiile sunt date deja in cartea tehnica a celor doua strunguri) Pentru ecare dintre cele doua

colectivitati, consideram cate o selectie repetata, de volume n1, respectiv, n2. (Adica, vom selecta

n1 dintre piesele produse de strungul intai si n2 piese produse de cel de-al doilea strung). Sa notam

cu ξ1, respectiv, ξ2 mediile de selectie corespunzatoare. Propozitia anterioara precizeaza care este

repartitia diferentei standardizate ale celor doua medii de selectie. Aceasta ne va deosebit de utila,

spre exemplu, in vericarea ipotezei ca masele medii ale pieselor produse de cele doua strunguri coincid

(vezi capitolul Teoria deciziei).

Propoziµia 5.30 Fie X1, X2, . . . , Xn variabile aleatoare independente stochastic, astfel incat Xi ∼

N (0, 1), i = 1, 2, . . . , n. Atunci variabila aleatoare

H2 =n∑i=1

X2k ∼ χ2(n).

Demonstraµie. Pentru a demonstra propozitia, folosim metoda functiei caracteristice. Pentru aceasta,

avem nevoie de functia caracteristica pentru X2, unde X ∼ N (0, 1).

Sa notam cu f(x) functia densitate de repartitie pentru X, data de relatia (2.39) cu µ = 0. Notam cu

G(y) functia de repartitie pentru X2 si cu g(y) densitatea sa de repartitie. Avem:

G(y) = P (X2 ≤ y) =

0 , y ≤ 0;

P (−√y ≤ X ≤ √y) , y > 0,

de unde

g(y) = G′(y) =

0 , y ≤ 0;

12√y [f(√y) + f(−√y)] , y > 0,

=

0 , y ≤ 0;

1√yf(√y) , y > 0.

Functia caracteristica pentru X2 va :

φX2(t) = E(ei tX

2)

=1√2π

∫ ∞0

y−12 e−

y2 dy

= (1− 2it)−12 .

Page 113: Statistica Prin Matlab

102

Deoarece variabilele aleatoare Xii sunt independente stochastic, putem aplica relatia (2.36) si obtinem:

φH2(t) = E(eit∑ni=1X

2i ) =

n∏i=1

E(eitX

2i

)=

n∏i=1

φX2i(t) = (1− 2it)−

n2 ,

si aceasta este functia caracteristica pentru o v.a. χ2(n).

Observaµia 5.31 O consecinta imediata a acestei propozitii este ca, daca X ∼ N (0, 1), atunci X2 ∼

χ2(1).

Urmatoarea propozitie este tot o consecinta directa a Propozitiei 5.30.

Propoziµia 5.32 (repartitia dispersiei de selectie cand media colectivitatii este cunoscuta)

Fie X1, X2, . . . , Xn variabile aleatoare independente stochastic, astfel incat Xi ∼ N (µ, σ), i =

1, 2, . . . , n. Atunci variabila aleatoare

H2 =1σ2

n∑i=1

(Xi − µ)2 ∼ χ2(n).

Demonstraµie. Pentru ecare i = 1, 2, . . . , n, consider variabilele aleatoare

Yi =Xi − µσ

.

Conform Propozitiei 5.23, avem Yi ∼ N (0, 1), ∀i = 1, n. Aplicam rezultatul propozitiei 5.30 pentru

variabilele aleatoare Y1, Y2, . . . , Yn si obtinem concluzia dorita.

Lema 5.33 Daca X si Y sunt variabile aleatoare independente stochastic, cu X ∼ χ2(n) si X + Y ∼

χ2(n+m), atunci Y ∼ χ2(m).

Demonstraµie. Demonstratia se bazeaza pe metoda functiei caracteristice, folosind faptul ca

φX(t) · φY (t) = φX+Y (t), ∀t ∈ R.

Page 114: Statistica Prin Matlab

Teoria selecµiei 103

Lema 5.34 Fie X caracteristica unei colectivitati statistice, X media de selectie repetata de volum n

si d2∗(X) dispersia de selectie repetata. Atunci, statisticileX si n−1

σ2 d2∗(X) sunt independente stochastic.

Propoziµia 5.35 Fie X ∼ N (µ, σ) caracteristica unei populatii statistice si e X1, X2, . . . , Xn

variabile aleatoare de selectie repetata de volum n. Atunci statistica

χ2 =1σ2

n∑i=1

(Xi −X)2 ∼ χ2(n− 1).

Demonstraµie. Putem scrie:

1σ2

n∑i=1

(Xi − µ)2 =1σ2

n∑i=1

(Xi −X)2 +n

σ2(X − µ)2 (5.9)

sau,n∑i=1

Z2i =

n− 1σ2

d2∗(X) + Z

2, (5.10)

unde:

Zi =Xi − µσ

∼ N (0, 1) si Z =X − µ

σ√n

∼ N (0, 1).

Utilizand Propozitia 5.32, observam ca membrul stang al egalitatii (5.9) este o variabila aleatoare

repartizata χ2(n). Folosind Observatia 5.31, concluzionam ca al doilea termen din membrul drept este

repartizat χ2(1). Utilizand faptul ca X si n−1σ2 d2

∗(X) sunt independente stochastic, gasim ca variabilele

aleatoare Z2si n−1

σ2 d2∗(X) sunt independente stochastic. Facem apel acum la Lema 5.33, si ajungem

la concluzia propozitiei.

Observaµia 5.36 Concluzia propozitiei 5.35 se poate rescrie astfel:

n− 1σ2

d2∗(X) ∼ χ2(n− 1), (5.11)

unde d2∗(X) este dispersia de selectie.

Lema 5.37 Daca X si Y sunt variabile aleatoare independente stochastic, cu X ∼ N (0, 1) si Y ∼

χ2(n), atunci statistica

T =X√Yn

∼ t (n).

Page 115: Statistica Prin Matlab

104

Demonstraµie. Fie f(x) si g(y) densitatile de repartitie pentru X, respectiv, Y . Avem:

f(x) =1√2πe−

x2

2 , x ∈ R,

g(y) =

yn2−1 e−

y2

2n2 Γ(n2 )

, y > 0;

0 , y ≤ 0.

Din independenta, gasim ca densitatea de repartitie a vectorului (X, Y ) este:

h(x, y) = f(x)g(y) =yn2−1 e−

x2+y2

2n+1

2√π Γ(n2

) , (x, y) ∈ R× (0, ∞).

Consideram o transformare a acestui vector,

τ :

t = x√

yn

v = y,

in vectorul (T, Y ). Densitatea de repartitie a acestui vector este (vezi Propozitia 2.40):

k(t, v) =vn2−1 e−

v2

(1+ t2

n)

2n+1

2√π Γ(n2

) √ v

n, (t, v) ∈ R× (0, ∞).

Densitatea de repartitie marginala pentru T este:

k1(t) =∫ ∞

0k(t, v) dv

=Γ(n+1

2

)√nπ Γ

(n2

) (1 +t2

n

)−n+12

, t ∈ R,

adica tocmai densitatea de repartitie a unei variabile aleatoare t(n).

Propoziµia 5.38 Daca X1, X2, . . . , Xn sunt variabile aleatoare de selectie repetata de volum n, ce

urmeaza repartitia unei caracteristici X ∼ N (µ, σ) a unei colectivitati statistice, atunci statistica

t =X − µd∗(X)√n− 1

∼ t(n− 1).

(t(n− 1) este repartitia Student cu (n− 1) grade de libertate, iar d∗(X) =√d2∗(X) ).

Page 116: Statistica Prin Matlab

Teoria selecµiei 105

Demonstraµie. Aplicam lema anterioara pentru variabilele aleatoare

X =X − µ

σ√n

∼ N (0, 1) si Y =n− 1σ2

d2∗(X) ∼ χ2(n− 1).

Observaµia 5.39 Aceasta propozitie va folosita in teoria deciziei, in problema testarii mediei teo-

retice cand dispersia teoretica este necunoscuta a priori.

Urmatoarea propozitie este un caz particular al Propozitiei 5.38:

Propoziµia 5.40 Daca variabilele aleatoare X0, X1, . . . , Xn sunt independente stochastic, identic

repartizate N (0, 1), atunci variabila aleatoare

T =X0√

X21+X2

2+ ...+X2n

n

∼ t (n).

Demonstraµie. Concluzia rezulta prin aplicarea Propozitiei 5.30 si Lemei 5.37.

Propoziµia 5.41 (repartitia diferentei mediilor de selectie cand dispersiile sunt necunoscute, egale)

Consideram o selectie de volum n1 dintr-o populatie normala N (µ1, σ1) si o selectie de volum n2 dintr-

o colectivitate N (µ2, σ2), cele doua selectii ind alese independent una de cealalta. Notam cu ξ1, ξ2 si

d2∗1, d

2∗2 mediile de selectie si dispersiile de selectie corespunzatoare selectiilor alese. Atunci statistica

T =(ξ1 − ξ2)− (µ1 − µ2)√

(n1 − 1)d2∗1 + (n2 − 1)d2

∗2

√n1 + n2 − 2

1n1

+ 1n2

∼ t (n1 + n2 − 2).

Demonstraµie.

Propoziµia 5.42 Daca X ∼ χ2(m) si Y ∼ χ2(n) sunt variabile aleatoare independente, atunci vari-

abila aleatoare

F =n

m

X

Y∼ F(m, n).

Page 117: Statistica Prin Matlab

106

Demonstraµie. Fie f(x) si g(y) densitatile de repartitie pentru X si, respectiv, Y . Avem:

f(x) =

xm2 −1 e−

x2

2m2 Γ(m2 )

, x > 0;

0 , x ≤ 0.

g(y) =

yn2−1 e−

y2

2n2 Γ(n2 )

, y > 0;

0 , y ≤ 0.

Din independenta celor doua variabile aleatoare, gasim ca densitatea de repartitie a vectorului (X, Y )

este:

h(x, y) = f(x)g(y) =xm2−1y

n2−1 e−

x+y2

2m+n

2 Γ(m2

)Γ(n2

) , (x, y) ∈ (0, ∞)× (0, ∞).

Consideram o transformare a acestui vector,

τ :

t = n

mxy

v = y,

in vectorul (F, Y ). Densitatea de repartitie a acestui vector este (vezi Propozitia 2.40):

k(u, v) =

(mn

)m2 u

m2−1v

m+n2−1 e−

v2

(1+mnu)

2m+n

2 Γ(m2

)Γ(n2

) , (t, v) ∈ (0, ∞)× (0, ∞).

Densitatea de repartitie marginala pentru F este:

k1(u) =∫ ∞

0k(u, v) dv

=

(mn

)m2 Γ(m+n

2

)Γ(m2

)Γ(n2

) um2−1(

1 +m

nu)−m+n

2, u > 0,

adica tocmai densitatea de repartitie a unei variabile aleatoare F(m, n).

Propoziµia 5.43 Daca X1, X2, . . . , Xm+n sunt variabile aleatoare independente, identic reparti-

zate N (0, 1), atunci variabila aleatoare

F =n

m

X21 +X2

2 + . . . +X2m

X2m+1 +X2

m+2 + . . . +X2m+n

∼ F(m, n).

Demonstraµie. Demonstratia rezulta imediat prin aplicarea rezultatelor propozitiilor 5.30 si 5.42.

Page 118: Statistica Prin Matlab

Teoria selecµiei 107

Propoziµia 5.44 (repartitia raportului dispersiilor pentru colectivitati gaussiene)

Fie X1 ∼ N (µ1, σ1) si X2 ∼ N (µ2, σ2) caracteristicile a doua populatii statistice, Ω1 si Ω2. Din

ecare populatie extragem cate o selectie repetata, de volume n1, respectiv, n2, si consideram d2∗1(X1)

si d2∗2(X2) dispersiile de selectie corespunzatoare celor doua selectii repetate. Atunci statistica

F =σ2

2

σ21

d2∗1d2∗2∼ F(n1 − 1, n2 − 1).

Demonstraµie. Rescriem F in forma echivalenta:

F =n2 − 1n1 − 1

χ21

χ22

,

unde

χ21 =

1σ2

1

n1∑i=1

(X1 i −X1)2, χ22 =

1σ2

2

n2∑j=1

(X2 j −X2)2,

X1 ii=1, n1si X2 ii=1, n2

sunt variabile de selectie repetata de volume n1, respectiv, n2, ce urmeaza

repartitia variabilelor aleatoare X1, respectiv, X2. X1 si X2 sunt mediile de selectie corespunzatoare.

Folosind concluzia Propozitiei 5.35, avem ca

χ21 ∼ χ(n1 − 1), χ2

2 ∼ χ(n2 − 1).

Concluzia acestei propozitii urmeaza in urma aplicarii rezultatului Propozitiei 5.43.

Propoziµia 5.45 (repartitia raportului dispersiilor pentru colectivitati gaussiene)

Suntem in conditiile Propozitiei 5.44, cu mentiunea ca mediile teoretice µ1 si µ2 sunt cunoscute a

priori. Atunci

F1 =σ2

2

σ21

d21

d22

∼ F(n1, n2),

unde d21 si d2

2 sunt date de:

χ21 =

1n1

n1∑i=1

(X1 i − µ1)2 ∼ χ(n1), χ22 =

1n2

n2∑j=1

(X2 j − µ2)2 ∼ χ(n2).

Demonstraµie. Demonstratia este similara cu cea de mai inainte. Se folosesc rezultatele Propozitiilor

5.32 si 5.43. [Exercitiu!]

Page 119: Statistica Prin Matlab

108

5.4 Selecµii în Matlab

Utilizand functiile

legernd(< param >, m, n) (5.12)

si

random(′lege′, < param >,m, n), (5.13)

introduse în Capitolul 1, putem genera variabile aleatoare de selectie de un volum dat, n. Pentru

aceasta, va trebui ca m = n in (5.12) si (5.13). Astfel, comanda

random('norm',100,6, 50,50)

genereaza o matrice patratica, de dimensiune 50. Putem privi aceasta matrice aleatoare astfel: ecare

coloana a sa corespunde unei variabile aleatoare de selectie de volum 50, careia ii precizam cele 50 de

valori ale sale obtinute la o observatie. In total, avem 50 de coloane, corespunzand celor 50 de variabile

aleatoare de selectie. Asadar, am generat astfel 50 de variabile aleatoare de selectie de volum 50, ce

urmeaza repartitia N (100, 6).

Page 120: Statistica Prin Matlab

Teoria selecµiei 109

5.5 Exerciµii rezolvate

Exerciµiu 5.46 Sa consideram ca masa medie a unor batoane de ciocolata produse de o masina este

o caracteristica X ∼ N (100, 0.65). In vederea vericarii parametrilor masinii, dintre sutele de mii de

batoane produse in acea zi s-au ales la intamplare 1000 dintre acestea.

• Calculati masa medie si deviatia standard ale mediei de selectie, X.

• Calculati P (98 < X < 102).

• Un baton este declarata rebut daca masa sa medie este sub 98 de grame sau peste 102 de grame.

Calculati procentul de rebuturi avute.

- Din teorie, stim ca media de selectieX urmeaza repartitiaN (100, 0.65/√

1000) (vezi Propozitia

5.22). Asadar,

µX = 100, σX ≈ 0.02.

Probabilitatea P1 = P (98 < X < 102) este

P1 = P (X < 102)− P (X ≥ 98) = FX(102)− FX(98) ≈ 1.

Probabilitatea de a avea un rebut este:

P2 = P(X < 98

⋃X > 102

)= P (X < 98) + P (X > 102)

= FX(98) + 1− FX(102),

de unde, procentul de rebuturi este

r = P2 · 100% ≈ 0.2091%,

adica aproximativ 2 rebuturi la 1000 de batoane. √

In Matlab, acestea pot calculate astfel:

mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei

X = normrnd(mu, sigma, n,n); % am generat selectia de volum n

Page 121: Statistica Prin Matlab

110

Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie

m = mean(Xbar); s = std(Xbar); % media si deviatia standard

P1 = normcdf(102, mu, S) - normdf(98, mu, S);

P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma);

rebut = P2*100;

Exerciµiu 5.47 Numarul tranzactiilor la bursa din New York este, in medie, de 90000 pe saptamana,

cu deviatia standard 7000. Sa presupunem ca urmarim numarul tranzactiilor bursiere intr-un an intreg

(52 de saptamani). Notam cu X media de selectie pentru numarul tranzactiilor bursiere pe intregul

an urmarit. Calculati care este probabilitatea evenimentului X < 95000. Cate tranzactii s-au facut

(in medie) in acel an?

- P = P (X < 95000) = F (95000),

unde FX este functia de repartitie pentru X, iar

X ∼ N(

95000,7000√

52

).

In Matlab scriem astfel:

P = normcdf(9.5e4,9e4,7e3/sqrt(52)) % probabilitatea

N = 52*90000 = 4 680 000 % nr. de tranzactii √

Exerciµiu 5.48 Masa (in grame) a unui anumit tip de franzele produse de o masina intr-o brutarie

este o variabila aleatoare N (400, 10). Pentru a controla daca masina respecta standardele cantitative,

s-au cantarit la intamplare 50 dintre franzelele produse de respectiva masina intr-o zi.

(a) Folosind Matlab, sa se genereze o astfel de selectie aleatoare si sa se determine media de selectie

empirica si deviatia standard empirica pentru aceasta selectie. (x si s)

(b) Painile care au masa sub 380g sau peste 420g nu sunt conforme cu standardul CTC. Sa se gaseasca

proportia de paini care nu respecta standardul masei.

- (b) Numarul de rebuturi este r = P · 100, unde P este probabilitatea ca painile sa nu e in

conformitate cu standardul CTC este:

P = P (X < 380⋃X > 420) = P (X ≤ 380) + 1− P (X ≤ 420) = FX(380) + 1− FX(420).

Page 122: Statistica Prin Matlab

Teoria selecµiei 111

X = normrnd(400,10, 50,1); % selectia intamplatoare

m = mean(X); s = std(X);

r = (normcdf(380,400,10)+1-normcdf(420,400,10))*100 %%% = 4.5% √

Exerciµiu 5.49 In vederea studierii unei caracteristici X ce are densitatea de repartitie

f(x) =

2x, x ∈ (0, 1);

0 6∈(0, 1).

s-a efectuat o selectie repetata de volum n = 100. Se cere sa sa determine probabilitatea P (X) < 0.65,

unde X este media de selectie.

- Se observa cu usurinta ca f(x) indeplineste conditiile unei functii de repartitie, adica este

masurabila, nenegativa si ∫Rf(x) dx =

∫ 1

02x dx = 1.

Pentru a calcula probabilitatea ceruta, avem nevoie de E(X) si D2(X). Avem:

E(X) =∫

Rx f(x) dx =

∫ 1

02x2 dx =

23,

D2(X) = E(X2)− (E(X))2 =∫

Rx2 f(x) dx− 4

9=

118.

Asadar, repartitia mediei de selectie X este

X ∼ N(

23,

1√18 ·√

100

).

Putem acum calcula probabilitatea ceruta. Ea este:

P (X < 0.65) = FX(0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398. √

Page 123: Statistica Prin Matlab

112

5.6 Exercitii propuse

Exerciµiu 5.1

Exerciµiu 5.2

Exerciµiu 5.3

Exerciµiu 5.4

Exerciµiu 5.5

Exerciµiu 5.6

Exerciµiu 5.7

Exerciµiu 5.8

Exerciµiu 5.9

Page 124: Statistica Prin Matlab

Chapter 6Noµiuni de teoria estimaµiei

6.1 Punerea problemei

Sa presupunem ca ni se da un set de observatii aleatoare x1, x2, . . . , xn asupra unei caracteristici X

a unei populatii statistice. Functia de probabilitate (respectiv densitatea de repartitie) a caracteristicii

poate

• complet specicata, de exemplu, X ∼ U(0, 1);

• specicata, dar cu parametru(i) necunoscut(i). De exemplu, X ∼ P(λ) sau X ∼ N (µ, σ);

• necunoscuta, caz in care se poate pune problema de a estimata.

In mod evident, in primul caz de mai sus nu avem nimic de estimat. Daca functia de probabilitate

(densitatea de repartitie) este deja cunoscuta, dar cel putin unul dintre parametrii sai este necunoscut

a priori, se pune problema sa estimam valoarea parametrilor de care aceasta depinde. Vom spune astfel

ca avem o problema de estimare parametrica. In acest capitol, ne vom ocupa de estimarea parametrilor

unei repartitii date.

Sa presupunem ca avem caracteristica X care urmeaza repartitia obtinuta din functia de probabilitate

(sau densitate de repartitie) f(x, θ), unde θ este un parametru necunoscut. In general, acest paramtru

poate un vector (θ ∈ Θ ⊂ Rp), ai carui componente sunt parametrii repartitiei lui X. Mai sus, f

este functia de probabilitate daca variabila aleatoare X este de tip discret, iar f este densitatea de

repartitie a lui X, daca este o variabila aleatoare de tip continuu.

113

Page 125: Statistica Prin Matlab

114

Scopul teoria estimatiei este de a evalua parametrii de care depinde f , folosind datele de selectie si

bazandu-ne pe rezultatele teoretice prezentate in capitolele anterioare.

Fie X1, X2, . . . , Xn variabile aleatoare de selectie repetata de volum n, ce urmeaza repartitia lui X.

Presupunem totodata ca X admite medie si notam cu µ = E(X) si σ2 = D2(X).

Deniµia 6.1 (1) Se numeste functie de estimatie (punctuala) sau estimator al lui θ, o functie de

selectie (statistica)

θ = θ(X1, X2, . . . , Xn),

cu ajutorul careia dorim sa il aproximam pe θ. In acest caz, ne-am dori sa stim in ce sens si cat de

bine este aceasta aproximatie.

(2) O statistica θ este un estimator nedeplasat (en., biased estimator) pentru θ daca

E(θ) = θ.

Altfel, spunem ca θ este un estimator deplasat pentru θ, iar deplasarea (distorsiunea) se deneste astfel:

b(θ, θ) = E(θ)− θ.

Astfel, b(θ, θ) este o masura a erorii pe care o facem in estimarea lui θ prin θ.

Exerciµiu 6.2 (1) Dispersia de selectie modicata

d2∗(X) =

1n− 1

n∑i=1

[Xi −X]2

este un estimator nedeplasat pentru dispersia teoretica D2(X), iar dispersia de selectie

d2(X) =1n

n∑i=1

[Xi −X]2

este un estimator deplasat pentru D2(X), deplasarea ind

b(s2, σ2) = −σ2

n. [Exercitiu!]

(3) Daca x1, x2, . . . , xn sunt date observate, atunci θ(x1, x2, . . . , xn) se numeste estimatie a lui

θ. Asadar, o estimatie pentru un parametru necunoscut este valoarea estimatorului pentru selectia

Page 126: Statistica Prin Matlab

Teoria estimaµiei 115

observata. Prin abuz de notatie, vom nota atat estimatorul cat si estimatia cu θ si vom face diferenta

intre ele prin precizarea variabilelor de care depind.

(4) Numim eroare in medie patratica a unui estimator θ pentru θ (en., mean squared error) cantitatea

MSE(θ, θ) = E([θ − θ

]2).

Observaµia 6.3 Putem scrie:

E([θ − θ

]2)

= E([θ − E(θ) + E(θ)− θ0

]2)

= D2(θ) + 2E([θ − θ] · [E(θ)− θ

])+ E

([E(θ)− θ

]2)

= D2(θ) + (b(θ, θ))2.

Asadar, MSE pentru un estimator nedeplasat este D2(θ).

(5) Fie θ1 si θ2 doi estimatori pentru θ. Atunci, valoarea

MSE(θ1, θ)

MSE(θ2, θ)

se numeste ecienta relativa (en., relative eciency) a lui θ1 in raport cu θ2. Vom spune ca un estimator

θ1 este mai ecient decat hte2 daca MSE(θ1, θ) ≤ MSE(θ2, θ) pentru toate valorile posibile ale lui θ ∈ Θ

si MSE(θ1, θ) < MSE(θ2, θ) pentru macar un θ.

(6) Un estimator θ pentru θ, θ ∈ Θ, se numeste estimator nedeplasat uniform de dispersie minima

(en., Uniformly Minimum Variance Unbiased Estimate - UMVUE) daca pentru orice θ ∈ Θ si orice alt

estimator nedeplasat pentru θ, θ∗, avem

D2(θ) ≤ D2(θ∗).

(7) Estimatorul θ pentru θ este un estimator consistent daca

θ(X1, X2, . . . , Xn)prob−→ θ, cand n −→∞.

In acest caz, valoarea numerica a estimatorului, θ(x1, x2, . . . , xn), se numeste estimatie consistenta

pentru θ.

Page 127: Statistica Prin Matlab

116

(8) Estimatorul θ pentru θ este un estimator absolut corect daca

(i) E(θ) = θ;

(ii) limn→∞

D2(θ) = 0.

In acest caz, valoarea numerica a estimatorului, θ(x1, x2, . . . , xn), se numeste estimatie absolut corecta

pentru θ.

(9) Estimatorul θ pentru θ este un estimator corect daca

(i) limn→∞

E(θ) = θ;

(ii) limn→∞

D2(θ) = 0.

In acest caz, valoarea numerica a estimatorului, θ(x1, x2, . . . , xn), se numeste estimatie corecta pentru

θ.

Exerciµiu 6.4 Statistica d2∗(X) este un estimator absolut corect pentru σ2 = D2(X), iar statistica

d2(X) este un estimator corect, dar nu absolut corect, pentru D2(X). [Exercitiu!]

Propoziµia 6.5 Daca θ este un estimator absolut corect pentru θ, atunci estimatorul este consistent.

Demonstraµie. Utilizam inegalitatea lui Cebâsev in forma:

P (|θ − θ| < ε) ≥ 1− D2(θ)ε2

, ∀ε > 0. (6.1)

Tinand cont ca limn→∞

D2(θ) = 0 obtinem concluzia dorita.

Demonstraµie. Avem:

E(d2∗(X)) = E

(1

n− 1

n∑i=1

[Xi −X]2)

= D2(X)

si

D2(d2∗(X)) =

µ4

n− n− 3n(n− 1)

µ22 → 0, cand n→∞.

Page 128: Statistica Prin Matlab

Teoria estimaµiei 117

Observaµia 6.6 Fie θ un estimator pentru θ. Patratul acestui estimator, θ2 nu este, in general,

estimatorul pentru θ2.

De exemplu, sa presupunem ca X ∼ N (0, 1) si avem urmatoarele 20 de observatii asupra lui X:

0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056

0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944

0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030

Un estimator absolut corect pentru media teoretica a lui X, µX = 0, este X.

(pentru selectia data, X = 0.0521). Variabila aleatoare X2 urmeaza repartitia χ2(1) si are media

µX2 = 1 (vezi repartitia χ2). Un estimator absolut corect pentru µX2 este X2. Pe de alta parte,

pentru selectia data avem ca X2 ≈ 1.4 iar(X)2 = 0.027.

Asadar, in general X2 6=(X)2.

Observaµia 6.7 Pentru un anumit parametru pot exista mai multi estimatori absolut corecti. De

exemplu, pentru parametrul λ din repartitia Poisson P(λ) exista urmatorii estimatori:

X si d2∗(X).

Se pune problema: Cum alegem pe cel mai bun estimator si pe ce criteriu? Daca utilizam inegalitatea

lui Cebâsev in forma (6.1), atunci ar resc ca "cel mai bun estimator" sa e cel de dispersie minima.

(10) Numim cantitate de informatie relativa la parametrul θ continuta in selectia corespunzatoare de

volum n (informatie Fisher) expresia:

In(θ) = n · E

([∂ ln f(X, θ)

∂θ

]2). (6.2)

Teorema 6.8 (Rao-Cramer)

Consider caracteristica X cu functia de probabilitate f(x, θ), cu θ ∈ (a, b) si pentru care exista ∂f∂θ .

Fie θ = θ(X1, X2, . . . , Xn), un estimator absolut corect pentru θ. Atunci,

D2(θ) ≥ 1In(θ)

. (6.3)

Page 129: Statistica Prin Matlab

118

(11) Numim ecienta unui estimator absolut corect θ pentru θ, valoarea:

e(θ) =I−1n (θ)

D2(θ). (6.4)

(12) Un estimator absolut corect θ pentru θ se numeste estimator ecient daca e(θ) = 1, adica

D2(θ) = In(θ).

Exerciµiu 6.9 Media de selectie X pentru o selectie dintr-o colectivitate normala este un estimator

ecient pentru media teoretica E(X). [Exercitiu!]

(13) Un estimator corect θ pentru θ se numeste estimator sucient (exhaustiv) daca functia de prob-

abilitate (densitate de repartitie) se poate scrie in forma:

f(x, θ) = g(x)h(θ(x), θ), (6.5)

unde h : R→ R+ si g : Rn → R+ este masurabila si nu depinde de θ. Functiile g si h nu sunt unice.

Observaµia 6.10 Orice estimator ecient pentru un parametru θ este si estimator sucient pentru θ.

[Exercitiu!]

(14) Se numeste functie de verosimilitate, statistica

L(X1, X2, . . . , Xn; θ) =n∏k=1

f(Xk, θ).

Pentru Xk = xk, k = 1, n, functia L(x1, x2, . . . , xn; θ) este densitatea de repartitie pentru vectorul

aleator V = (X1, X2, . . . , Xn).

Putem scrie informatia Fisher in functie de verosimilitate astfel:

In(θ) = E

([∂ lnL(X1, X2, . . . , Xn; θ)

∂θ

]2). (6.6)

Exemplu 6.11 Fie Xi ∼ B(1, p), i = 1, n si

θ = nX =n∑i=1

Xi numarul de succese in n incercari.

Page 130: Statistica Prin Matlab

Teoria estimaµiei 119

Sa se arate ca θ este un estimator sucient pentru p.

- Avem succesiv:

f(x, p) =n∏i=1

pxi(1− p)1−xi

= p

n∑i=1

xi

(1− p)n−

n∑i=1

xi

= g(x) · h(θ(x), p),

unde g(x) ≡ 1 si h(θ(x), p) = pθ(x)(1− p)n−θ(x). √

Exerciµiu 6.12 La un control de calitate se verica masa tabletelor de ciocolata produse de o anumita

masina. Pentru a se realiza acest control s-a efectuat o selectie de 50 tablete si s-a obtinut ca masa X

al ciocolatelor are urmatoarele dimensiuni (in grame):

Masa 99.98 99.99 100.00 100.01 100.02

Frecventa 9 10 13 11 7

Sa se determine:

(i) o estimatie absolut corecta pentru masa medie a tabletelor produse;

(ii) o estimatie corecta si una absolut corecta pentru dispersia valorilor masei fata de medie.

Metode de estimare punctuala a parametrilor:

• metoda verosimilitatii maxime;

• metoda momentelor;

• metoda minimului lui χ2;

• metoda celor mai mici patrate;

• metoda intervalelor de incredere.

Page 131: Statistica Prin Matlab

120

6.2 Metoda verosimilit µii maxime (maximum likelihood estimator)

Fie caracteristica X studiata, care are functia de probabilitate f(x; θ) (unde θ = (θ1, θ2, . . . , θp) sunt

parametri necunoscuti). Dorim sa gasim estimatori (estimatii) punctuale ale parametrilor necunoscuti

prin alta metoda decat metoda de mai sus. Efectuam n observatii asupra caracteristicii, adica alegem

o selectie de date,

x1, x2, . . . , xn.

Fie X1, X2, . . . , Xn variabilele aleatoare de selectie repetata de volum n.

Deniµia 6.13 (1) Numim estimator de verosimilitate maxima pentru θ statistica

θ = θ(X1, X2, . . . , Xn), pentru care se obtine maximumul functiei de verosimilitate,

L(X1, X2, . . . , Xn; θ) =n∏k=1

f(Xk, θ).

(2) Valoarea unei astfel de statistici pentru un ω(n) xat se numeste estimatie de verosimilitate maxima

pentru θ.

Observaµia 6.14 Aceasta metoda estimeaza "valoarea cea mai verosimila" pentru parametrul θ.

Nu este necesar ca∂L∂θ

sa existe pentru ca estimatorul de verosimilitate maxima sa e calculat. Daca

aceasta exista, atunci acest estimator se obtine ca asolutie a sistemului de ecuatii:

∂L(X1, X2, . . . , Xn; θ)∂θk

= 0, k = 1, 2, . . . , p, (6.7)

care este echivalent cu urmatorul sistem:

∂ lnL(X1, X2, . . . , Xn; θ)∂θk

=n∑i=1

∂ ln f(Xi; θ)∂θk

= 0, k = 1, 2, . . . , p. (6.8)

Exerciµiu 6.15 Estimati prin metoda verosimilitatii maxime parametrii unei caracteristiciX ∼ N (µ, σ).

- Legea de probabilitate pentru X ∼ N (µ, σ) este

f(x, µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

Page 132: Statistica Prin Matlab

Teoria estimaµiei 121

Alegem o selectie repetata de volum n, pe care o vom nota (XK)k=1, n.

Parametrii caracteristicii X sunt θ = (µ, σ) si functia de verosimilitate asociata selectiei este

L(X1, X2, . . . , Xn; µ, σ) =∏k=1

f(Xk, µ, σ)

=1

σn(2π)n2

e

−n∑k=1

(Xk − µ)2

2σ2

.

Astfel,

lnL(X1, X2, . . . , Xn; µ, σ) = ln(

1σn(2π)

n2

)− 1

2σ2

n∑k=1

(Xk − µ)2.

Asadar, pentru a gasi estimatorii de verosimilitate maxima pentru µ si σ, avem de rezolvat sistemul:∂L∂µ

=1σ2

n∑k=1

(Xk − µ) = 0;

∂L∂σ

= −nσ

+1σ3

n∑k=1

(Xk − µ)2 = 0.

Se observa cu usurinta ca solutia sistemului ce convine (tinem cont ca σ > 0) este

µ =1n

n∑k=1

Xk = X, σ =

√√√√ 1n

n∑k=1

(Xk −X)2 = d(X). (6.9)

Vericam acum daca valorile gasite sunt valori de maxim. Pentru aceasta, matricea hessiana calculata

pentru valorile obtinute trebuie sa e negativ denita. Mai intai, calculam matricea hessiana. Aceasta

este:

H(µ, σ) =∂2L∂µ∂σ

=

− n

σ2− 2σ3

n∑k=1

(Xk − µ)

− 2σ3

n∑k=1

(Xk − µ)n

σ2

(1− 3

nσ2

n∑k=1

(Xk − µ)2

) .

Acum calculam H(µ, σ).

H(µ, σ) =∂2L∂µ∂σ

=

− n

σ20

0 −2nσ2

,

care este o matrice negativ denita, deoarece valorile sale proprii, adica radacinile polinomului carac-

teristic

det(H(µ, σ)− λ I2) = 0,

sunt

λ1 = − n

σ2< 0 si λ2 = −2n

σ2< 0.

Page 133: Statistica Prin Matlab

122

Deci, estimatorii µ si σ obtinuti prin metoda verosimilitatii maxime sunt

µ = X si σ = d(X). √

Observaµia 6.16 De remarcat faptul ca estimatorul pntru σ obtinut prin metoda verosimilitatii

maxime nu este unul absolut corect, ci doar corect.

6.3 Metoda momentelor (K. Pearson)

In anumite cazuri, este dicil de calculat valorile critice pentru functia de verosimilitate. De ex-

emplu, repartitia Γ(a, λ) Fie caracteristica X care are functia de probabilitate f(x; θ) (unde θ =

(θ1, θ2, . . . , θp) sunt parametri necunoscuti) ce admite momente pana la ordinul p (adica, αp = E(Xp) <

∞). Dorim sa gasim estimatori (estimatii) punctuale ale parametrilor necunoscuti. Pentru aceasta,

efectuam observatii asupra caracteristicii, adica alegem o selectie de date,

x1, x2, . . . , xn.

Fie X1, X2, . . . , Xn variabilele aleatoare de selectie repetata de volum n. Metoda momentelor consta

in estimarea parametrilor necunoscuti din conditiile ca momentele initiale de selectie sa e egale cu

momentele initiale teoretice respective, ale lui X. Aceasta inseamna ca avem de rezolvat un sistem de

ecuatii in care necunoscutele sunt parametrii ce urmeaza a estimati.

Deniµia 6.17 Numim estimator (punctual) pentru θ obtinut prin metoda momentelor solutia

θ = (θ1, θ2, . . . , θp), (aici θk = θk(X1, X2, . . . , Xn), k = 1, p), a sistemului:

α1(X1, X2, . . . , Xn) = α1(X), (6.10)

α2(X1, X2, . . . , Xn) = α2(X),

...

αp(X1, X2, . . . , Xn) = αp(X),

unde αk(X1, X2, . . . , Xn) sunt momentele de selectie de ordin k pentru X,

α1(X1, X2, . . . , Xn) =1n

n∑i=1

Xki ,

Page 134: Statistica Prin Matlab

Teoria estimaµiei 123

si αk(X) sunt momentele teoretice pentru X (care depind de θ), adica:

αk = E(Xk), k = 1, 2, . . . , p.

O estimatie (punctuala) pentru θ va o realizare a estimatorului θ = (θ1, θ2, . . . , θp), cu θk =

θk(x1, x2, . . . , xn), k = 1, p).

Observaµia 6.18 Aceasta metoda este fundamentata teoretic pe faptul ca momentele de selectie sunt

estimatori absolut corecti pentru momentele teoretice corespunzatoare. Metoda nu poate aplicata

repartitiilor care nu admit medie (e.g., repartitia Cauchy).

Exerciµiu 6.19 Fie X ∼ U(a, b) caracteristica unei populatii, unde a < b sunt numere reale. Sa se

determine prin metoda momentelor estimatori pentru capetele intervalului.

- Daca X ∼ U(a, b), atunci

E(X) =a+ b

2, D2(X) =

(b− a)2

12,

de unde

E(X2) = D2(X) + [E(X)]2 =a2 + ab+ b2

3.

Sistemul (6.10) se scrie astfel in acest caz:

α1(X1, X2, . . . , Xn) = E(X) (6.11)

α2(X1, X2, . . . , Xn) = E(X2),

unde

α1 =1n

n∑i=1

Xi, α2 =1n

n∑i=1

X2i .

Inlocuind in relatiile (6.11), avem de gasit solutia (a, b) a urmatorului sistem:

a+ b = 2α1

a · b = 4α21 − 3α2.

Aceasta este:

a = α1 −√

3√α2 − α2

1; b = α1 +√

3√α2 − α2

1.

Page 135: Statistica Prin Matlab

124

Facand calculele si tinand cont ca α1X, obtinem estimatorii pentru a si, respectiv, b:

a = X −√

3 s; b = X +√

3 s,

unde

X =1n

n∑i=1

Xi si s =

√√√√ 1n

n∑i=1

(Xi −X)2.

Estimatiile punctuale pentru a si b sunt:

a =1n

n∑i=1

xi −

√√√√ 3n

n∑i=1

(xi − x)2

b =1n

n∑i=1

xi +

√√√√ 3n

n∑i=1

(xi − x)2 √

6.4 Metoda celor mai mici p trate

Este o metoda de estimare a parametrilor in cazul modelelor liniare, cand variabilele aleatoare Yi, i =

1, n, depind liniar de parametrii necunoscuti. Fie θ = (θ1, θ2, . . . , θp) vectorul ce contine parametrii

necunoscuti si Yi depind de acestia dupa urmatorul sistem:

Yi =p∑j=1

xijθj + εi, i = 1, 2, . . . , n, (6.12)

sau, scris sub forma matriceala:

Y = X · θ + ε, X = (xij) ∈ Rm×p.

Variabilele aleatoare εi sunt erori, despre care presupunem ca:

E(εi) = 0

D2(εi) = σ2, i = 1, 2, . . . , n;

cov (εi, εj) = 0, ∀i 6= j. (6.13)

Metoda celor mai mici patrate consta in determinarea parametrilor θi astfel incat suma patratelor

erorilor sa e minima, adica

minθ

n∑i=1

ε2i = minθ

n∑i=1

Yi − p∑j=1

xijθj

2

.

Page 136: Statistica Prin Matlab

Teoria estimaµiei 125

Astfel, un estimator θ = (θ1, θ2, . . . , θp) prin metoda celor mai mici patrate este solutia sistemului:

∂θj

n∑i=1

Yi − p∑j=1

xijθj

2

= 0, j = 1, 2, . . . , p,

echivalent,n∑i=1

p∑j=1

xikxijθj =n∑i=1

xikYi, k = 1, 2, . . . , p.

Ultimul sistem poate scris sub forma matriceala:

X′ ·X · θ = X′ ·Y,

de unde gasim ca estimatorul θ este

θ = (X′ ·X)−1 ·X′ ·Y.

Exerciµiu 6.20 Fie X o caracteristica ce admite medie, µ = E(X) si consideram variabilele aleatoare

de selectie repetata de volum n, X1, X2, . . . , Xn. Notam cu σ2 = D2(X). Estimatorul prin metoda

celor mai mici patrate pentru media teoretica µ este solutia problemei de minimizare

minµ

n∑i=1

(Xi − µ)2, (6.14)

si este µ = X.

- Putem scrie

Xi = µ+ εi, i = 1, 2, . . . , n, (6.15)

cu εi satisfacand conditiile (6.13). Solutia problemei (6.14) este solutia ecuatiei

∂µ

n∑i=1

(Xi − µ)2 = 0,

adica

θ =1n

n∑i=1

Xi.√

6.5 Metoda minimului lui χ2

Consideram caracteristica X ce urmeaza a studiata, ce are legea de probabilitate data de f(x, θ),

unde θ = (θ1, θ2, . . . , θp) ∈ Θ ⊂ Rp sunt parametri necunoscuti. Fie X1, X2, . . . , Xn variabilele

Page 137: Statistica Prin Matlab

126

aleatoare de selectie repetata de volum n. Pentru a obtine un estimator θ pentru θ procedam dupa

cum urmeaza.

Descompunem multimea valorilor lui X, X(Ω), in clase, astfel:

X(Ω) =k⋃i=1

Oi, Oi⋂Oj = ∅, ∀i 6= j.

Construiesc evenimentele

Ai = ω(n) ∈ Ω(n); X(ωi) ∈ Oi, i = 1, 2, . . . , k.

Se observa cu usurinta ca

Ω(n) =k⋃i=1

Ai, Ai⋂Aj = ∅, ∀i 6= j.

Notam cu

pi(θ) = P (n)(Ai), i = 1, 2, . . . , k,

i.e., probabilitatea ca un individ luat la intamplare sa apartina clasei Oi. Atunci,

k∑i=1

pi(θ) = 1.

Mai facem urmatoarele notatii:

ni este frecventa absoluta a evenimentului Ai in orice selectie repetata de volum n;

Ni sunt variabilele aleatoare de selectie corespunzatoare lui ni (i = 1, k).

Observaµia 6.21 Vectorul aleatorN = (N1, N2, . . . , Nk) urmeaza o repartitie multinomiala de parametri

pi(θ), i = 1, k.

Deniµia 6.22 Statistica θ se numeste estimator obtinut prin metoda minimului lui χ2 pentru θ daca

θ este solutie a problemei de minim

min

k∑i=1

[Ni − n · pi(θ)]2

n · pi(θ)

.

Propoziµia 6.23 Statistica

k∑i=1

[Ni − n · pi(θ)]2

n · pi(θ)∼ χ2(k − p− 1).

Page 138: Statistica Prin Matlab

Teoria estimaµiei 127

6.6 Metoda cu intervale de încredere

Sa consideram o caracteristica X a carei lege de probabilitate este data de f(x, θ), cu θ parametru

necunoscut. Pentru a estima valoarea reala a lui θ, efectuam n observatii, obtinand selectia:

x1, x2, . . . , xn.

Dupa cum am vazut anterior, putem gasi o estimatie punctuala a parametrului, θ(x1, x2, . . . , xn).

Estimatia punctuala nu ne precizeaza cat de aproape se gaseste estimatia θ(x1, x2, . . . , xn) fata de

valoarea reala a parametrului θ. De exemplu, daca dorim sa estimam masa medie a unor produse

alimentare fabricate de o anumita masina, atunci putem gasi un estimator punctual (e.g., media de

selectie) care sa ne indice ca aceasta este de 500 de grame. Ideal ar daca aceasta informatie ar

prezentata sub forma: masa medie este 500g±10g.

Putem obtine astfel de informatii daca vom construi un interval in care, cu o probabilitate destul de

mare, sa gasim valoarea reala a lui θ.

Sa consideram o selectie repetate de volum n, X1, X2, . . . , Xn, ce urmeaza repartitia lui X. Dorim sa

gasim un interval aleator care sa acopere cu o probabilitate mare (e.g., 0.95, 0.98 sau 0.99) valoarea

posibila a parametrului necunoscut.

Deniµia 6.24 Fie α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02 sau 0.05). Numim

interval de incredere (e.n., condence interval) pentru parametrul θ cu probabilitatea de incredere

1− α, un interval aleator (θ, θ), astfel incat

P (θ < θ < θ) = 1− α, (6.16)

unde θ(X1, X2, . . . , Xn) si θ(X1, X2, . . . , Xn) sunt statistici.

Pentru o observatie ω(n) xata, capetele intervalului (aleator) de incredere vor functii de valorile de

selectie. De exemplu, pentru datele observate, x1, x2, . . . , xn, intervalul(θ(x1, x2, . . . , xn), θ(x1, x2, . . . , xn)

)se numeste valoare a intervalului de incredere pentru θ.

Valoarea α se numeste nivel de semnicatie sau probabilitate de risc.

Observaµia 6.25 Pentru a determina un interval de incredere, metoda de lucru este dupa cum

urmeaza:

Page 139: Statistica Prin Matlab

128

se va considera functie de selectie S(X1, X2, . . . , Xn; θ), convenabil aleasa, care sa urmeze o lege

cunoscuta si independenta de θ. Sa notam cu g(s) aceasta repartitie. Se determina apoi valorile s1 si

s2 (care depind de α), astfel incat

P (s1 < S < s2) =

s2∫s1

g(s) ds = 1− α. (6.17)

Cum statistica S depinde de θ, din (6.17) obtinem un interval aleator (θ, θ) ce satisface (6.16).

Intervalul de incredere variaza de la o selectie la alta.

Cu cat α este mai mic (de regula, α = 0.01 sau 0.02 sau 0.05), cu atat sansa (care este (1−α) · 100%)

ca valoarea reala a parametrului θ sa se gaseasca in intervalul gasit este mai mare. Desi sansele 99%

sau 99.99% par a foarte apropiate si a da rezultate asemanatoare, sunt cazuri in care ecare sutime

conteaza. De exemplu, sa presupunem ca intr-un an calendaristic un eveniment are sansa de 99% de

a se realiza, in orice zi a anului, independent de celelalte zile. Atunci, sansa ca acest eveniment sa se

realizeze in ecare zi a anului in tot decursului acestui an este de 0.99365 ≈ 2.55%. Daca sansa de

realizare in ecare zi ar fost de 99.99%, atunci rezultatul ar fost ≈ 96.42%, ceea ce inseamna o

diferenta foarte mare generata de o diferenta initiala foarte mica.

Intervalul de incredere pentru valoarea reala a unui parametru nu este unic. Daca ni se dau conditii

suplimentare (e.g., xarea unui capat), atunci putem obtine intervale innite la un capat si nite la

celalalt capat.

Vom cauta in continuare intervale de incredere pentru parametrii unor caracteristici normale.

6.6.1 Interval de încredere pentru medie, cand dispersia este cunoscuta

Fie X ∼ N (µ, σ) caracteristica uneo populatii statistice, unde µ este necunoscut si σ este cunoscut.

Pentru a construi un interval de incredere pentru media teoretica µ, efectuam o selectie repetata de

volum n si xam nivelul de incredere 1− α ≈ 1, α ∈ (0, 1). Alegem urmatoarea statistica:

Z =X − µσ√n

∼ N (0, 1) (conform Propozitiei 5.23). (6.18)

Putem determina un interval numeric (z1, z2) astfel incat

P (z1 < Z < z2) = Θ(z2)−Θ(z1) = 1− α, (6.19)

Page 140: Statistica Prin Matlab

Teoria estimaµiei 129

unde Θ : R+ → R+ este functia lui Laplace,

Θ(x) =1√2π

∫ x

−∞e−

y2

2 dy. (6.20)

De indata ce intervalul (z1, z2) este determinat, putem scrie:

P (z1 <X − µσ√n

< z2) = 1− α,

echivalent cu

P

(X − z2

σ√n< µ < X − z1

σ√n

)= 1− α,

de unde intervalul de incredere pentru µ cu nivelul de semnicatie (1− α) este

(µ, µ) =(X − z2

σ√n, X − z1

σ√n

).

Mai ramane de stabilit cum determinam valorile z1 si z2.

Distingem trei cazuri:

(1) Daca nu se cunoaste o alta informatie suplimentara despre µ, atunci alegem (z1, z2) ca ind

interval de lungime minima pentru α xat. Aceasta se obtine cand z1 = −z2 (vezi Observatia

6.26), de unde:

Θ(z2)−Θ(−z2) = 1− α.

Tinand cont ca Θ(−z) = 1−Θ(z), ultima relatie se reduce la

Θ(z2) = 1− α

2,

de unde gasim pe z2 ca ind cuantila de ordin 1− α2 , si anume z1−α

2.

Asadar,

z1 = −z1−α2, z2 = z1−α

2,

si intervalul de incredere pentru media teoretica µ cand σ este cunoscut este:

(µ, µ) =(X − z1−α

2

σ√n, X + z1−α

2

σ√n

). (6.21)

(2) Daca pentru media teoretica nu se precizeaza o limita superioara, atunci in (6.19) aleg intervalul

aleator (z1, z2) de forma (−∞, z2). Inlocuind in (6.19) obtinem:

P (−∞ < Z < z2) = Θ(z2)−Θ(−∞)︸ ︷︷ ︸= 0

= 1− α,

Page 141: Statistica Prin Matlab

130

de unde z2 = z1−α. In acest caz, intervalul de incredere este:

(µ, ∞) =(X − z1−α

σ√n, ∞

).

(3) Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci in (6.19) aleg intervalul

aleator (z1, z2) de forma (z1, ∞). Inlocuind in (6.19) obtinem:

P (z1 < Z <∞) = Θ(∞)︸ ︷︷ ︸= 1

−Θ(z1) = 1− α,

de unde z1 = zα = −z1−α. In acest caz, intervalul de incredere este:

(−∞, µ) =(−∞, X + z1−α

σ√n

).

Observaµia 6.26 In cazul (1) de mai sus, am ales intervalul aleator de lungime minima, unde aceasta

lungime este

l =σ√n

(z2 − z1).

Pentru a gasi acest interval, avem de rezolvat problema:min

σ√n

(z2 − z1)

z2∫z1

g(z) dz = 1− α.

Pentru a o rezolva, folosim metoda multiplicatorilor lui Lagrange. Fie functia

L(z1, z2; λ) =σ√n

(z2 − z1) + λ ·[∫ z2

z1

g(z) dz = 1− α]. (6.22)

Dorim sa aam z1 si z2 ce realizeaza minL(z1, z2; λ). Acestea sunt solutiile sistemului:∂L

∂z1= 0

∂L

∂z2= 0,

adica − σ√

n− λg(z1) = 0

σ√n− λg(z1) = 0,

cu solutiile z1 = z2 (ce nu convine) si z1 = −z2.

Page 142: Statistica Prin Matlab

Teoria estimaµiei 131

Exerciµiu 6.27 O masina de inghetata umple cupe cu inghetata. Se doreste ca inghetata din cupe

sa aiba masa de µ = 250g. Desigur, este practic imposibil sa umplem ecare cupa cu exact 250g de

inghetata. Presupunem ca masa continutului din cupa este o variabila aleatoare repartizata normal,

cu masa necunoscuta si dispersia cunoscuta, σ = 3g. Pentru a verica daca masina este ajustata bine,

se aleg la intamplare 30 de inghetate si se cantareste continutul ecareia. Obtinem astfel o selectie

repetata, x1, x2, . . . , x30 dupa cum urmeaza:

257 249 251 251 252 251 251 249 248 248 251 253 248 245 251

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253

Se stie ca un estimator absolut corect pentru masa medie este media de selectie, X = 250.0667.

Se cere sa se gaseasca un interval de incredere pentru µ, cu nivelul de condenta 0.99.

- Dupa cum am vazut mai sus, un interval de incredere pentru µ este:

(µ, µ) =(x− z1−α

2

σ√n, x+ z1−α

2

σ√n

).

Urmatorul cod Matlab furnizeaza un interval de incredere bazat pe datele de selectie observate.

n=30; sigma=3; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];

z = icdf('norm',1-alpha/2,0,1); %% cuantila de ordin 1-alpha/2 pentru normala

m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); %% capetele intervalului

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); %% afiseaza intervalul dupa modul dorit

Ruland codul, obtinem intervalul de incredere pentru µ cand σ este cunoscut:

(µ, µ) = (248.659, 251.478). √

Observaµia 6.28 Exista functii predenite in Matlab ce furnizeaza estimatori punctuali si inter-

vale de incredere. A se compara rezultatul din acest exercitiu cu cel din Exercitiile 6.29 (estimare a

intervalului de incredere cand σ nu este cunoscut) sau 6.33 (intervale furnizate de functii Matlab

predenite).

Page 143: Statistica Prin Matlab

132

Figure 6.1: Intervalul de incredere pentru Exercitiu 6.27.

6.6.2 Interval de încredere pentru medie, cand dispersia este necunoscuta

Ne aam in conditiile din sectiunea precedenta, mai putin faptul ca σ este cunoscut. Daca acesta

este necunoscut, atunci el va trebui estimat. Stim deja ca o estimatie absolut corecta pentru σ este

statistica d∗(X), data prin

d∗(X) =

√√√√ 1n− 1

n∑i=1

(Xi −X)2.

Pentru a estima media teoretica necunoscuta µ printr-un interval de incredere, alegem statistica

T =X − µd∗(X)√

n

∼ t(n− 1), (conform Propozitiei 5.38). (6.23)

In mod analog cu cazul precedent, gasim intervalul de incredere in functie de cele trei cazuri amintite

mai sus:

(1) Daca nu se cunoaste o alta informatie suplimentara despre µ, atunci intervalul de incredere pentru

media teoretica µ cand σ este necunoscut este:

(µ, µ) =(X − t1−α

2;n−1

d∗(X)√n

, X + t1−α2

;n−1d∗(X)√

n

). (6.24)

Page 144: Statistica Prin Matlab

Teoria estimaµiei 133

(2) Daca pentru media teoretica nu se precizeaza o limita superioara, atunci intervalul de incredere

este:

(µ, ∞) =(X − t1−α;n−1

d∗(X)√n

, ∞).

(3) Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci intervalul de incredere

este:

(−∞, µ) =(−∞, X − tα;n−1

d∗(X)√n

).

Aici, prin tα;n−1 am notat cuantila de ordin α pentru repartitia t cu (n− 1) grade de libertate.

Exerciµiu 6.29 Sa se gaseasca un interval de incredere pentru masa medie din Exercitiul 6.27, in

cazul in care abaterea standard σ nu mai este cunoscut.

- Dupa cum am vazut mai sus, un interval de incredere pentru µ este:

(µ, µ) =(x− t1−α

2;n−1

d∗(X)√n

, x+ t1−α2

;n−1d∗(X)√

n

).

Urmatorul cod Matlab furnizeaza un interval de incredere bazat pe datele de selectie observate.

n=30; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];

dev = std(X); %% deviatia standard de selectie

t = icdf('t',1-alpha/2,n-1); %% cuantila de ordin 1-alpha/2 pentru t(n-1)

m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); %% capetele intervalului

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); %% afiseaza intervalul dupa modul dorit

Ruland codul, obtinem intervalul de incredere pentru µ cand σ este cunoscut:

(µ, µ) = (248.572, 251.561). √

Observaµia 6.30 (1) A se compara rezultatul din acest exercitiu cu cel din Exercitiile 6.27 (estimare

a intervalului de incredere cand σ este cunoscut) sau Exercitiul 6.33 (intervale furnizate de functii

Matlab predenite).

(ii) Cand n este mare, atunci va o diferenta mica intre valorile z1−α2si t1−α

2;n−1.

Page 145: Statistica Prin Matlab

134

6.6.3 Interval de încredere pentru diferenta mediilor

Fie X1 si X2 caracteristicile a doua populatii normale, N (µ1, σ1), respectiv, N (µ1, σ1), pentru care nu

se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum n1, notata prin

(X1k)k=1, n1, ce urmeaza repartitia lui X1, si din a doua populatie alegem o selectie repetata de volum

n2, notata prin (X2k)k=1, n2, ce urmeaza repartitia lui X2. Fixam pragul de semnicatie α. Pentru a

gasi un interval de incredere pentru diferenta mediilor, vom specica doar statisticile care stau la baza

gasirii intervalului, in urmatoarele trei cazuri:

• dispersiile σ21 si σ2

2 sunt cunoscute a priori. In acest scop, aleg statistica

Z =(X1 −X2)− (µ1 − µ2)√

σ21

n1+σ2

2

n2

∼ N (0, 1). (conform Propozitiei 5.27). (6.25)

Intervalul de incredere pentru diferenta mediilor este:X1 −X2 − z1−α2

√σ2

1

n1+σ2

2

n2, X1 −X2 + z1−α

2

√σ2

1

n1+σ2

2

n2

.

• dispersiile σ21 = σ2

2 = σ2 si necunoscute. Pentru a gasi un interval de incredere pentru diferenta

mediilor, alegem statistica (vezi Propozitia 5.41):

T =(X1 −X2)− (µ1 − µ2)√

(n1 − 1)d2∗(X1) + (n2 − 1)d2

∗(X2)

√n1 + n2 − 2

1n1

+ 1n2

∼ t (n1 + n2 − 2), (6.26)

unde

d2∗(X1) =

1n1 − 1

n1∑i=1

(X1k −X1)2, si d2∗(X2) =

1n2 − 1

n2∑i=1

(X2k −X2)2.

• dispersiile σ21 6= σ2

2, necunoscute. Pentru a gasi un interval de incredere pentru diferenta mediilor,

alegem statistica

T =(X1 −X2)− (µ1 − µ2)√

d2∗(X1)n1

+d2∗(X2)n2

∼ t(N), (utilizand Propozitia 5.40), (6.27)

unde

N =

(d2∗(X1)n1

+d2∗(X2)n2

)2

(d2∗(X1)n1

)2 1n1 − 1

+(d2∗(X2)n2

)2 1n2 − 1

− 2. (6.28)

Page 146: Statistica Prin Matlab

Teoria estimaµiei 135

6.6.4 Interval de încredere dispersie, cand media este cunoscuta

Fie X ∼ N (µ, σ) o caracteristica a unei populatii studiate, pentru care cunoastem media teoretica µ

dar nu si dispersia σ2. Dorim sa estimam dispersia prin construirea unui interval de incredere. Alegem

o selectie repetata X1, X2, . . . , Xn ce urmeaza repartitia lui X. Fixam pragul de semnicatie α.

Intervalul de incredere pentru dispersie se construieste cu ajutorul statisticii

n

σ2d2(X) =

1σ2

n∑i=1

(Xi − µ)2 ∼ χ2(n), (conform Propozitiei 5.32).

Determin intervalul aleator din conditia:

P(χ2

1 <n

σ2d2(X) < χ2

2

)= Gn(χ2

2)−Gn(χ21) = 1− α,

unde aici Gn(x) reprezinta functia de repartitie teoretica pentru repartitia χ2 cu n grad de libertate.

In functie de faptul daca avem sau nu informatii suplimentare despre dispersie (analog ca in sectiunea

6.6.1), gasim ca intervalul de incredere pentru σ2 este:

(1) nu avem informatii suplimentare despre dispersie:

(σ2, σ2) =

(nd2(X)χ2

1−α2

;n

,n d2(X)χ2α2

;n

); (6.29)

(2) ni se spune ca dispersia este nemarginita superior:

(σ2, σ2) =(nd2(X)χ2α;n

, +∞)

; (6.30)

(3) ni se spune ca dispersia este nemarginita inferior:

(σ2, σ2) =

(−∞, n d2(X)

χ21−α;n

), (6.31)

unde prin χ2α;n am notat cuantila de ordin α pentru repartitia χ2 cu n grade de libertate.

6.6.5 Interval de încredere dispersie, cand media este necunoscuta

Fie X ∼ N (µ, σ) o caracteristica a unei populatii studiate, pentru care nu cunoastem media sau

dispersia. De exemplu, X reprezinta timpul de producere a unei reactii chimice. Dorim sa estimam

dispersia prin construirea unui interval de incredere. Alegem o selectie repetata X1, X2, . . . , Xn ce

Page 147: Statistica Prin Matlab

136

urmeaza repartitia lui X. Fixam pragul de semnicatie α.

Intervalul de incredere pentru dispersie se construieste cu ajutorul statisticii

n− 1σ2

d2∗(X) =

1σ2

n∑i=1

(Xi −X)2 ∼ χ2(n− 1), (conform Propozitiei 5.35).

Determin intervalul aleator din conditia:

P

(χ2

1 <n− 1σ2

d2∗(X) < χ2

2

)= Gn−1(χ2

2)−Gn−1(χ21) = 1− α,

unde Gn−1(x) reprezinta functia de repartitie teoretica pentru repartitia χ2 cu (n−1) grad de libertate.

In functie de faptul daca avem sau nu informatii suplimentare despre dispersie (analog ca in sectiunea

6.6.1), gasim ca intervalul de incredere pentru σ2 este:

(1) nu avem informatii suplimentare despre dispersie:

(σ2, σ2) =

((n− 1)d2

∗(X)χ2

1−α2

;n−1

,(n− 1)d2

∗(X)χ2α2

;n−1

), (6.32)

unde prin χ2α;n−1 am notat cuantila de ordin α pentru repartitia χ2 cu (n−1) grade de libertate.

(2) ni se spune ca dispersia este nemarginita superior:

(σ2, σ2) =

((n− 1)d2

∗(X)χ2α;n−1

, +∞

); (6.33)

(3) ni se spune ca dispersia este nemarginita inferior:

(σ2, σ2) =

(−∞, (n− 1)d2

∗(X)χ2

1−α;n−1

). (6.34)

6.6.6 Interval de încredere pentru raportul dispersiilor

Fie X1 si X2 caracteristicile a doua populatii normale, N (µ1, σ1), respectiv, N (µ2, σ2), pentru care

nu se cunosc mediile si dispersiile teoretice. Alegem din prima populatie o selectie repetata de volum

n1 ce urmeaza repartitia lui X1, si din a doua populatie alegem o selectie repetata de volum n2 ce

urmeaza repartitia lui X2. Fixam pragul de semnicatie α. Pentru a gasi un interval de incredere

pentru raportul dispersiilor,σ2

1/σ2

2

consideram statistica

F =σ2

2

σ21

d2∗1d2∗2∼ F(n1 − 1, n2 − 1), (conform Propozitiei 5.44). (6.35)

Page 148: Statistica Prin Matlab

Teoria estimaµiei 137

Determinam apoi un interval aleator (f1, f2) astfel incat

P (f1 < F < f2) = Fn1−1, n2−1(f2)− Fn1−1, n2−1(f1) = 1− α,

unde Fn,m este functia de repartitie pentru repartitia Fisher cu (n, m) grade de libertate. Aleg:

f1 = fn1−1, n2−1; α2

si f2 = fn1−1, n2−1; 1−α2,

unde fn,m;α reprezinta cuantila de ordin α pentru repartitia Fisher cu (n, m) grade de libertate.

Intervalul de incredere pentru raportul dispersiilor, σ21/σ

22 este:(

d2∗1d2∗2fn1−1, n2−1; α

2,

d2∗1d2∗2fn1−1, n2−1; 1−α

2

). (6.36)

6.6.7 Interval de incredere pentru selectii mari

Sa presupunem acum ca trasatura X studiata la o populatie statistica nu este de tip normal. Sa notam

cu f(x, θ) legea sa de repartitie, unde θ este un parametru real necunoscut. Pentru a-l estima printr-un

interval de incredere, vom considera o selectie repetata, (Xk)k=1, n, de volum n (n > 30) relativa la

caracteristica X.

Propoziµia 6.31 Presupunem ca variabilele aleatoare

Yk =∂ ln f(Xk, θ)

∂θ, k = 1, 2, . . . , n,

admit dispersie (adica, exista d2 not= D2(Yk), ∀k = 1, n).

Atunci, statistica

1d√n

n∑k=1

Yk ∼ N (0, 1), cand n→∞. (6.37)

Demonstraµie. Deoarece (Xk)k sunt independente stochastic si identic repartizate, urmeaza ca si vari-

abilele aleatoare (Yk)k sunt independente stochastic si identic repartizate. Utilizand Teorema limita

centrala, pentru un n sucient de mare, putem scrie:

1d√n

(n∑k=1

Yk − E(Yk)

)∼ N (0, 1).

Page 149: Statistica Prin Matlab

138

Dar

E(Yk) = E(∂ ln f(Xk, θ)

∂θ

)=

∫R

∂ ln f(x, θ)∂θ

f(x, θ) dx

=∂

∂θ

(∫Rf(x, θ) dx

)=

∂θ(1) = 0,

de unde rezulta concluzia propozitiei.

Daca xam un nivel de incredere α, putem gasi un interval de incredere pentru parametrul θ. Mai

intai cautam un interval aleator (−z, z) = (−z1−α2, z1−α

2), astfel incat:

P

(−z < 1

d√n

n∑k=1

Yk < z

)= 1− α,

de unde gasim intervalul de incredere pentru valoarea lui θ,

(θ1(X1, X2, . . . , Xn), θ2(X1, X2, . . . , Xn)).

Exerciµiu 6.32 Fie X ∼ P(λ) o caracteristica a unei populatii. Dorim sa determinam un interval de

incredere pentru parametrul λ, cu nivelul de semnicatie α.

- Legea de probabilitate pentru X este data de f(x, λ) = e−λλx

x!, x ∈ N. Stim ca E(X) =

D2(X) = λ. Consideram (Xk)k=1, n, n ≥ 30, v.a. de selectie de volum n. Atunci, variabilele aleatoare

Yk sunt date de:

Yk =∂ ln f(Xk, θ)

∂θ=

1λXk − 1, k = 1, 2, . . . , n.

Evident,

E(Yk) =1λ

E(Xk)− 1 = 0.

Calculam dispersia lui Yk.

D2(Yk) =1λ2D2(Xk) =

1λ, k = 1, 2, . . . , n,

de unde d = 1√λ. Gasim astfel ca statistica

1d√n

n∑k=1

Yk =1√nλ

(n∑k=1

Xk − λ

)=√n

λ

(X − λ

)∼ N (0, 1).

Page 150: Statistica Prin Matlab

Teoria estimaµiei 139

Putem astfel construi un interval de incredere pentru λ. Utilizand aceasta statistica, vom cauta un z

astfel incat sa avem:

P

(−z <

√n

λ

(X − λ

)< s

)= Θ(z)−Θ(−z) = 1− α,

sau,

P (λ1 < λ < λ2) = 1− α.

Deci, intervalul de incredere este (λ1, λ2), unde λ1 si λ2 sunt solutiile ecuatiei:

λ2 − (2x+s2

n)λ+ x2 = 0.

Page 151: Statistica Prin Matlab

140

6.7 Tabel cu intervale de incredere

Intervale de incredere pentru parametrii repartitiei normale, la un nivel de semnicatie α.

Parametru Alti parametri Interval de incredere cu nivelul de semnicatie α

µ

(X − z1−α

2

σ√n, X + z1−α

2

σ√n

)σ2 (

X − z1−ασ√n, +∞

)cunoscut

(−∞, X + z1−α

σ√n

)

µ

(X − t1−α

2; n−1

d∗(X)√n, X + t1−α

2; n−1

d∗(X)√n

)σ2 (

X − t1−α; n−1d∗(X)√

n, +∞

)necunoscut

(−∞, X − tα; n−1

d∗(X)√n

)

µ1 − µ2 σ21, σ

22

X1 −X2 − z1−α2

√σ2

1

n1+σ2

2

n2, X1 −X2 + z1−α

2

√σ2

1

n1+σ2

2

n2

cunoscuti

µ1 − µ2 σ21 6= σ2

2

X1 −X2 − t1−α2

; N

√d2∗1n1

+d2∗2n2, X1 −X2 + t1−α

2; N

√d2∗1n1

+d2∗2n2

necunoscuti

σ2 µ

(nd2(X)χ2

1−α2

;n

,n d2(X)χ2α2

;n

)cunoscut

σ2 µ

((n− 1)d2

∗(X)χ2

1−α2

;n−1

,(n− 1)d2

∗(X)χ2α2

;n−1

)necunoscut

σ21/σ2

2µ1, µ2

(d2∗1d2∗2fn1−1, n2−1; α

2,

d2∗1d2∗2fn1−1, n2−1; 1−α

2

)necunoscuti

Table 6.1: Tabel cu intervale de incredere.

Page 152: Statistica Prin Matlab

Teoria estimaµiei 141

6.8 Functii de estimatie in Matlab

Estimarea parametrilor prin metoda verosimilitatii maxime poate realizata in Matlab folosind

functia mle. Formatul general al functiei este:

[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)

unde:

• p este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaza a estimat punctual;

• pCI este variabila de memorie pentru intervalul (intervalele) de incredere ce va estimat;

• X este un vector ce contine datele ce urmeaza a analizate;

• distribution este parte din formatul comenzii iar lege poate oricare dintre legile din tabelul

3.1;

• nume_i/val_i sunt perechi optionale de argumente/valori, dintre care amintim:

alpha reprezinta nivelul de condenta pentru intervalul de incredere. Valoarea implicita

in Matlab este α = 0.005;

ntrials (utilizata doar pentru repartitia binomiala, reprezinta numarul de repetitii ale

experimentului.

Daca urmarim sa estimam parametrii unei caracteristici gaussiene, atunci putem folosi comanda sim-

plicata:

[p, pCI] = mle(X)

fara a mai preciza legea de distributie.

De exemplu, sa luam drept obiect de lucru datele din tabelul 1.3. Aceastea sunt reprezentate prin bare

in Figura 1.22. O estimare a parametrilor µ si σ prin metoda verosimilitatii maxime este

X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55]

[p, pCI] = mle(X)

si obtinem estimarile:

p =

41.9716 12.0228 % estimari punctuale pentru µ si σ

Page 153: Statistica Prin Matlab

142

pCI = % intervale de incredere

40.7653 11.2439

43.1779 12.9547

unde, prima coloana reprezinta estimarea punctuala si un interval de incredere pentru µ, iar a doua

coloana estimarea punctuala si un interval de incredere pentru σ.

Estimari punctuale si cu intervale de incredere mai putem obtine si utilizand functia

LEGEfit(X,alpha)

unde, in locul cuvantului LEGE punem o lege de probabilitate ca in tabelul 3.1, X reprezinta observatiile

si alpha este nivelul de condenta. (Exemple: normfit, binofit, poissfit, expfit etc).

Exerciµiu 6.33 Suntem, din nou, in cadrul Exercitiului 6.27, cu mentiunea ca dispersia nu este cunos-

cuta a priori (vezi Exercitiul 6.29). Dorim sa obtinem o extimatie printr-un interval de incredere pentru

µ cand σ nu este cunoscuta. Folosind functia de mai sus, obtinem chiar mai mult decat ne propunem,

si anume: estimatii punctiale pentru µ si σ si interval de incredere pentru ambele. Ruland functia,

adica

[m,s,mCI,sCI]=normfit(X,0.01)

Observam ca valorile furnizate pentru intervalul de incredere pentru µ, (mCI), sunt exact aceleasi ca

cele obtinute in Exercitiul 6.29.

m = mCI =

250.0667 248.572

251.561

s = sCI =

2.9704 2.2111

4.4159

Observaµia 6.34 Sa presupunem acum ca facem 50 de selectii repetate de volum 30 (adica alegem in

50 de zile o selectie de 30 de inghetate) si aam intervalele de incredere (toate cu nivelul de condenta

Page 154: Statistica Prin Matlab

Teoria estimaµiei 143

α = 0.01) pentru masa medie a continutului. Figura 6.2 reprezinta grac cele 50 de intervale.

Figure 6.2: 50 de realizari ale intervalului de incredere pentru µ

Dupa cum se observa din gura, se poate intampla ca un interval de incredere generat sa nu contina

valoarea pe care acesta ar trebui sa o estimeaze. Aceasta nu contrazice teoria, deoarece probabilitatea

cu care valoarea estimata este acoperita de intervalul de incredere este

P(µ < µ < µ

)= 1− α = 0.99,

deci exista sanse de a gresi in estimare, in cazul de fata de 1%.

Page 155: Statistica Prin Matlab

144

Repartitia Estimator uzual Functia Matlab

binomiala B(n, p) p =X

ncsbinpar

Poisson B(λ) λ = X cspoipar

exponentiala exp(λ) λ =1X

csexpar

Gamma Γ(a, λ) a =X

2

1n

n∑k=1

X2k −X

2

csgampar

λ =X

1n

n∑k=1

X2k −X

2

normala N (µ, σ) µ = X mean

σ = d∗(X) var

Table 6.2: Estimatori punctuali uzuali pentru parametri.

6.9 Paradox cu intervale de încredere

Sa presupunem ca X ∼ N (µ, σ) este o caracteristica a unei populatii statistice, Xkk=1, n o selectie

repetata efectuata asupra lui X si X media de selectie.

In Sectiunea 6.6.1, am gasit ca un interval de incredere pentru media µ, cand dispersia σ2 este cunos-

cuta, este dat de:

(µ, µ) =(X − z1−α

2

σ√n, X + z1−α

2

σ√n

). (6.38)

Sa xam σ = 1 si sa consideram nivelul de semnicatie este α = 0.01. Pentru acest α, cuantila

corespunzatoare este z1−α2≈ 2.58.

Asadar, pentru orice n xat din N∗, probabilitatea evenimentului

An =X − 2.58√

n< µ < X +

2.58√n

este 1− α = 0.99 ≈ 1.

Sa consideram evenimentele An, pentru ecare n ∈ N∗.

Deoarece P (An) = 0.99, deducem ca∞∑n=1

P (An) = ∞. Atunci, utilizand Teorema Borel-Cantelli

Page 156: Statistica Prin Matlab

Teoria estimaµiei 145

(Teorema 2.10), obtinem ca

P

(lim supn→∞

An

)= P

∞⋂n=1

⋃m≥n

Am

= 1,

Pe de alta parte, probabilitatea ca inegalitatea

X − 2.58√n

< µ < X +2.58√n

sa aiba loc pentru orice n ∈ N∗ este 0, adica:

P

( ∞⋂n=1

An

)= 0. (6.39)

Page 157: Statistica Prin Matlab

146

6.10 Exercitii rezolvate

Exerciµiu 6.35 Se considera caracteristica X ce are densitatea de repartitie

f(x, θ) =

1θ e−xθ , x > 0;

0, x ≤ 0.

(i) Gasiti un estimator pentru parametrul necunoscut θ > 0 (folosind, la alegere, metoda momentelor

sau metoda verosimilitatii maxime);

(ii) Calculati media si dispersia estimatorului. Este estimatorul deplasat?

√ (i) (a) Metoda momentelor: Deoarece avem doar un parametru, anume θ, metoda momentelor

revine la:

X = E(X).

Dar, media v.a. X este:

E(X) =∫

Rx f(x) dx =

∫ ∞0

x e−xθ dx = −

∫ ∞0

x(e−

)′dx =

∫ ∞0

e−xθ dx = θ.

Asadar, estimatorul pentru θ este

θ = X =n∑k=1

Xk, (unde, (Xk)k − variabilele aleatoare de selectie).

Metoda verosimilitatii maxime: Functia de verosimilitate este:

L(x, θ) =n∏k=1

1θe−

xkθ =

1θne

−1θ

n∑k=1

xk

=1θne−nx/θ.

∂ lnL(x, θ)∂θ

=∂

∂θ

(−n ln θ − 1

θx

)= −n

θ+n

θ2x.

Ecuatia ∂ lnL(x, θ)∂θ = 0 implica

θ =1n

n∑k=1

xk = x.

Se verica apoi ca

∂2 lnL(x, θ)∂θ2

|θ=θ = − n

x2 < 0,

Page 158: Statistica Prin Matlab

Teoria estimaµiei 147

si astfel, θ este punct de maxim si X este estimator de verosimilitate maxima pentru θ.

(ii) Avem:

E(θ) = E(X) = E(X) = θ, =⇒ estimator nedeplasat.

D2(θ) = D2(X) =1n2D2(X) =

θ2

n2.

Observatie: X ∼ exp(1θ ), de unde E(X) = θ, D2(X) = θ2. √

Exerciµiu 6.36 Fie X o caracteristica ce reprezinta timpul de producere a unei reactii chimice, ma-

surat in secunde. Presupunem ca X ∼ N (m,σ2). Consideram o selectie repetata de volum n = 11, cu

valorile de selectie

4.21, 4.03, 3.99, 4.05, 3.89, 3.98, 4.01, 3.92, 4.23, 3.85, 4.20.

(i) Sa se determine un interval de incredere pentru σ2 si unul pentru σ, cu nivelul de semnicatie

α = 0.05.

(ii) Se cunoaste timpul mediu de reactie, µ = 4. Sa se determine un interval de incredere pentru σ2 si

unul pentru σ, cu nivelul de semnicatie α = 0.05.

- (i) Deoarece media nu este cunoscuta si nu avem alta informatie despre dispersie, folosim

formula (6.32). Codul Matlab este urmatorul:

x = [4.21; 4.03; 3.99; 4.05; 3.89; 3.98; 4.01; 3.92; 4.23; 3.85; 4.20];

n = 11; alpha = 0.05; s2 = var(x);

h1 = icdf('chi2',1-alpha/2,n-1); h2 = icdf('chi2',alpha/2,n-1);

S1 = (n-1)*s2/h1; S2 = (n-1)*s2/h2;

s1 = sqrt(S1); s2 = sqrt(S2);

fprintf(' int. de incredere pt dispersie: (S1,S2) = (%6.3f,%6.3f)',S1,S2);

fprintf('int. de incredere pt deviatia standard: (s1,s2) = (%6.3f,%6.3f)\n',s1,s2);

Obtinem valorile:

interval de incredere pt dispersie: (S1,S2) = ( 0.008, 0.052)

interval de incredere pt deviatia standard: (s1,s2) = ( 0.091, 0.229)

Putem verica rezultatele folosind functia Matlab normfit. Comanda

Page 159: Statistica Prin Matlab

148

[m,sigma,muCI,sigmaCI]=normfit(x,0.05)

returneaza estimatiile punctuale pentru µ si σ si intervale de incredere pentru acestea:

m = mCI = sigma = sigmaCI =

4.0327 3.9451 0.1305 0.0912

4.1204 0.2290

Se observa ca valorile furnizate de aceasta functie pentru sigmaCI sunt cele gasite anterior.

(ii) Deoarece media µ este cunoscuta, intervalul de incredere este dat de (6.29). CodulMatlab pentru

calculul acestui interval este:

x = [4.21; 4.03; 3.99; 4.05; 3.89; 3.98; 4.01; 3.92; 4.23; 3.85; 4.20];

n = 11; alpha = 0.05; s2 = sum((x-4).^2)/11;

h1 = icdf('chi2',1-alpha/2,n); h2 = icdf('chi2',alpha/2,n);

S1 = n*s2/h1; S2 = n*s2/h2;

s1 = sqrt(S1); s2 = sqrt(S2);

fprintf(' int. de incredere pt dispersie: (S1,S2) = (%6.3f,%6.3f)\n',S1,S2);

fprintf('int. de incredere pt deviatia standard: (s1,s2) = (%6.3f,%6.3f)\n',s1,s2);

Ruland codul, obtinem rezultatele cerute:

interval de incredere pt dispersie: (S1,S2)=( 0.008, 0.048)

interval de incredere pt deviatia standard: (s1,s2)=( 0.091, 0.218) √

Exerciµiu 6.37 Ana dactilograaza un articol de 60 de pagini. La recitirea articolului, Ana a de-

scoperit pe ecare pagina de articol urmatoarele numere de greseli:

7 6 5 9 10 4 4 8 5 8 6 4 5 6 6 5 12 16 9 5

8 7 7 4 11 6 6 5 4 6 13 8 6 9 7 8 5 4 3 6

8 4 7 10 10 6 7 9 12 8 5 7 6 7 14 8 8 4 3 10

Sa presupunem ca numarul de greseli aparute pe ecare pagina dactilograata de Ana este o variabila

aleatoare repartizata Poisson.

(1) Sa se estimeze numarul mediu de greseli facute de Ana pe ecare pagina dactilograata;

Page 160: Statistica Prin Matlab

Teoria estimaµiei 149

(2) Sa se estimeze numarul mediu de greseli facute de Ana la dactilograerea unei carti de 280 de

pagini, presupunand ca ar lucra in exact aceleasi conditii si cu aceeasi indemanare.

(3) Cu ce probabilitate, Ana va avea mai putin de 2000 de greseli pentru toata cartea?

-

Sa presupunem ca Y este vectorul ce are drept componente numerele din enunt. Daca X este variabila

aleatoare ale carei valori reprezinta numarul de greseli aparute la o pagina dactilograata si X ∼ P(n),

atunci E(X) = D2(X) = n.

Daca notam cu Xk, k = 1, 280, variabilele aleatoare ale caror valori reprezinta numarul de greseli de

dactilograe facute pe ecare pagina a cartii (respectiv), atunci

280∑k=1

Xk ∼ P(280 · n),

deoarece Xk sunt v.a. independente stochastic si identic repartizate.

Probabilitatea este

P = P (280∑k=1

Xk ≤ 2000) = F (2000),

unde F (x) este functia de repartitie pentru280∑k=1

Xk, adica a unei v.a. repartizata P(280 · n).

Estimam parametrul repartitiei Poisson folosind comanda mle din Matlab. Codul ce rezolva prob-

lema este urmatorul

[n,nCI] = mle(Y,'distribution','exp','alpha',0.1) % pentru (1)

N = 280*n;

Ruland codul, obtinem rezultatele:

n =

7.1000 % estimarea punctuala a lui n

nCI = % intervalul de incredere

5.8130

8.9024

Asadar, sa convenim ca Ana face in medie n = 7 greseli pentru ecare pagina dactilograata. Atunci,

pentru toata cartea va face in medie N = 7 · 280 = 1960 greseli.

Page 161: Statistica Prin Matlab

150

Probabilitatea este:

P = poisscdf(2000,N)

adica P ≈ 0.82.

Observaµia 6.38 Deoarece E(X) = D2(X) = n, inseamna ca numarul n putea estimat in acest caz

si cu media valorilor lui Y , adica Y (mean(Y) in Matlab) sau cu dispersia empirica pentru Y , adica

var(Y) in Matlab.

Exerciµiu 6.39 Sa presupunem ca aruncam o moneda despre care nu stim daca este sau nu corecta

(adica, probabilitatea de aparitie a fetei cu stema nu este neaparat 0.5). Fie X variabila aleatoare ce

reprezinta numarul de aparitii ale fetei cu stema la aruncarea repetata a unei monede. Notam cu p

probabilitatea evenimentului ca la o singura aruncare a monedei apare stema. Realizam 80 de aruncari

ale acelei monede si obtinem valorile (1 inseamna ca fata cu stema a aparut, 0 daca nu a aparut):

0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0

1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0

(1) Sa se gaseasca un estimator absolut corect pentru p si a se studieze ecienta acestuia.

(2) Sa se gaseasca estimatii punctuale si intervale incredere pentru p, folosind functiile mle si binofit

din Matlab.

- (1) Repartitia lui X este Bernoulli, B(1, p). Astfel,

E(X) = p, D2(X) = p(1− p).

Consideram variabilele de selectie repetata de volum, (Xk)k=1n.

Un estimator absolut corect pentru medie este X, deoarece

E(X) = E(X) si D2(X) =p(1− p)n2

−−−−→n→∞

0.

Asadar, pentru selectia data, valoarea x =n∑k=1

xk = 0.5125.

(2) Utilizand functiile Matlab astfel:

[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)

Page 162: Statistica Prin Matlab

Teoria estimaµiei 151

cu rezultatul:

p = pCI =

0.5125 0.3981

0.6259

sau, folosind comanda binofit,

[p,pCI]=binofit(sum(Y),length(Y),0.05)

cu rezultatul:

p = pCI =

0.5125 0.3981

0.6259 √

Page 163: Statistica Prin Matlab

152

6.11 Exercitii propuse

Exerciµiu 6.1 Consideram statistica

µ =n∑k=1

wkXk. (6.40)

Daca dorim ca µ sa e estimator nedeplasat pentru µ, atunci imediat obtinem

n∑k=1

wk = 1.

Avem ca

D2(µ) = E

([n∑k=1

wk(Xk − µ)

])= σ2

n∑k=1

w2k.

Aratati ca X este UMVUE in clasa tuturor estimatorilor liniari de forma 6.40.

Exerciµiu 6.2 Aratati ca momentul de selectie de ordin k este estimator absolut corect pentru αk(X).

Exerciµiu 6.3 Aratati ca momentul de selectie centrat de ordin k este estimator absolut corect pentru

µk(X). In particular, momentul de selectie centrat de ordin 2 este estimator absolut corect pentru

dispersia teoretica D2(X).

Exerciµiu 6.4 Sa se arate ca media de selectie X constituie un estimator absolut corect si ecient al

parametrului λ din repartitia Poisson P(λ).

Exerciµiu 6.5 Aratati ca n ·X este un estimator sucient pentru parametrul λ din repartitia Poisson,

P(λ).

Exerciµiu 6.6 Aratati ca n · (1 − X) este un estimator sucient pentru parametrul b din repartitia

Bernoulli, B(n, p).

Exerciµiu 6.7 Aratati ca informatia Fisher I1(µ) pentru o caracteristica N (µ, σ) este

I1(µ) =1σ2.

(deci, cantitatea de informatie creste cu descresterea lui σ.)

Page 164: Statistica Prin Matlab

Teoria estimaµiei 153

Exerciµiu 6.8 Estimati prin metoda verosimilitatii maxime parametrul p al unei caracteristici X ∼

B(n, p).

Exerciµiu 6.9 Fie selectia

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

Sa se estimeze absolut corect dispersia populatiei din care provine aceasta selectie.

Exerciµiu 6.10 Estimati prin metoda momentelor parametrii unei caracteristici X ∼ N (µ, σ).

Exerciµiu 6.11

Page 165: Statistica Prin Matlab

154

Page 166: Statistica Prin Matlab

Chapter 7Vericarea ipotezelor statistice

7.1 Punerea problemei

In acest capitol sunt incluse cateva notiuni introductive si procedee generale ce tin de decizii statis-

tice. Testarea ipotezelor statistice este o metoda prin care se iau decizii statistice, utilizand datele

experimentale culese. Testele prezentate mai jos au la baza notiuni din teoria probabilitatilor. Aceste

teste permit ca, plecand de la un anumit sau anumite seturi de date culese experimental sa se poate

valida anumite estimari de parametri ai unei repartitii sau chiar prezicerea formei legilor de repartitie

ale caracteristicilor considerate.

Presupunem ca X este caracteristica studiata a unei populatii statistice, si ca legea sa de probabilitate

este data de f(x, θ), unde θ ∈ Θ ⊂ Rp. Dupa cum precizam in capitolul anterior, aceasta functie

poate specicata (adica ii cunoastem forma, dar nu si parametrul θ), caz in care putem face anumite

ipoteze asupra acestui parametru, sau f(x, θ) este necunoscuta, caz in care putem face ipoteze asupra

formei sale.

Sa presupunem ca (xk)k=1, n sunt datele observate relativ la caracteristica X.

Deniµia 7.1 (1) Numim ipoteza statistica o presupunere relativa la valorile parametrilor ce apar in

legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.

(2) O ipoteza neparametrica este o presupunere relativa la forma functionala a lui f(x, θ). De exemplu,

o ipoteza de genul X ∼ Normala.

(3) Numim ipoteza parametrica o presupunere facuta asupra valorii parametrilor unei repartitii. Daca

155

Page 167: Statistica Prin Matlab

156

multimea la care se presupune ca apartine parametrul necunoscut este formata dintr-un singur element,

avem de-a face cu o ipoteza parametrica simpla. Altfel, avem o ipoteza parametrica compusa.

(4) O ipoteza nula este acea ipoteza pe care o intuim a cea mai apropiata de realitate si o pre-

supunem a priori a adevarata. Cu alte cuvinte, ipoteza nula este ceea ce doresti sa crezi, in cazul

in care nu exista suciente evidente care sa sugereze contrariul. Cel mai bun exemplu de ipoteza nula

este urmatoarea: "presupus nevinovat, pana se gasesc dovezi care sa dovedeasca altfel". O ipoteza

alternativa este orice alta ipoteza admisibila cu care poate confruntata ipoteza nula.

De exemplu, in Exemplul 6.27, putem presupune ca ipoteza (parametrica) nula este

(H0) µ = 250 grame,

iar o ipoteza alternativa (bilaterala) poate

(H1) µ 6= 250 grame.

In general, pentru teste parametrice consideram

θ ∈ A = A0

⋃A1, A0

⋂A1 = ∅

si spunem ca

(H0) θ ∈ A0 este ipoteza nula,

iar

(H1) θ ∈ A1 este ipoteza alternativa.

(5) A testa o ipoteza statistica inseamna a lua una dintre deciziile:

(i) ipoteza nula se respinge

(ii) ipoteza nula se admite (sau, nu sunt motive de respingere a ei)

(6) In Statistica, un rezultat se numeste semnicant din punct de vedere statistic daca este improbabil

ca el sa se realizat datorita sansei. Intre doua valori exista o diferenta semnicativa daca exista su-

ciente dovezi statistice pentru a dovedi diferenta, si nu datorita faptului ca diferenta este mare. Numim

nivel de semnicatie probabilitatea de a respinge ipoteza nula cand, de fapt, aceasta este adevarata.

In general, α = 0.01, 0.02, 0.05 etc.

Page 168: Statistica Prin Matlab

Teoria deciziei 157

Vom numi regiune critica multimea tuturor valorilor care cauzeaza respingerea ipotezei nule. Matem-

atic, o submultime U ⊂ R se numeste regiune critica cu un nivel de semnicatie α ∈ (0, 1) daca

P ((x1, x2, . . . , xn) ∈ U | H0 admis) = α.

Daca putem scrie regiunea critica sub forma

U = (x1, x2, . . . , xn) ∈ Rn | S(x1, x2, . . . , xn) ≥ c,

atunci valoarea c se numeste valoare critica iat S(x1, x2, . . . , xn) se numeste statistica test sau criteriu.

Construirea unui test statistic revine la construirea unei astfel de multimi critice. Folosind datele

observate si U determinat ca mai sus, putem avea doua cazuri:

(i) (x1, x2, . . . , xn) 6∈ U , ceea ce implica faptul ca (H0) este acceptata (pana la o alta testare);

(ii) (x1, x2, . . . , xn) ∈ U , ceea ce implica faptul ca (H0) este respinsa (adica (H1) este acceptata);

In urma unor astfel de decizii pot aparea doua tipuri de erori:

• eroarea de speta (I) (riscul furnizorului sau false positive) − este eroarea care se poate comite

respingand o ipoteza (in realitate) adevarata. Se mai numeste si risc de genul (I). Probabilitatea

aceaste erori este nivelul de semnicatie, adica:

α = P ((x1, x2, . . . , xn) ∈ U | H0 admis).

• eroarea de speta a (II)-a (riscul beneciarului sau false negative) − este eroarea care se poate

comite acceptand o ipoteza (in realitate) falsa. Se mai numeste si risc de genul al (II)-lea.

Probabilitatea aceaste erori este

β = P ((x1, x2, . . . , xn) 6∈ U | H1 admis).

In general, riscul de genul (I) este mai grav decat riscul de genul al (II)-lea daca vericam calitatea

unui articol de imbracaminte, iar riscul de genul al (II)-lea este mai grav decat riscul de genul (I) daca

vericam concentratia unui medicament.

Fie X o caracteristica ce are legea de probabilitate f(x; θ), θ ∈ Θ ⊂ R si (x1, x2, . . . , xn) valori de

selectie de volum n.

Page 169: Statistica Prin Matlab

158

Deniµia 7.2 Vom numi puterea unui test probabilitatea respingerii unei ipoteze false (sau, probabili-

tiatea de a nu comite eroarea de speta a II-a). Notam prin

π = 1− β = P ((x1, x2, . . . , xn) ∈ U | H0 − fals) . (7.1)

Deniµia 7.3 Denumim valoare P (e.n., P-value) probabilitatea de a obtine un rezultat cel putin la

fel de extrem ca cel observat, presupunand ca ipoteza nula este adevarata. Valoarea P este cea mai

mica valoare a nivelului de semnicatie α pentru care ipoteza (H0) va trebui sa e respinsa, bazandu-ne

pe observatiile culese. De exemplu, daca valoarea P este Pv = 0.04 atunci, bazandu-ne pe observatiile

culese, vom respinge ipoteza (H0) la un nivel de semnicatie α = 0.05 sau α = 0.1, dar nu o putem

respinge la un nivel de semnicatie α = 0.02. Mai multe valori P pot obtinute pentru un test

statistic. Asadar, decizia poate facuta prin observarea valorii P : daca aceasta este mai mica decat

nivelul de semnicatie α, atunci ipoteza nula este respinsa, iar daca P−value este mai mare decat α,

atunci ipoteza nula nu poate respinsa. Cu cat valoarea P este mai mica, cu atat mai semnicativ

este rezultatul testului.

Exerciµiu 7.4 Un exemplu simplu de test este testul de sarcina. Acest test este, de fapt, o procedura

statistica ce ne da dreptul sa decidem daca exista sau nu suciente evidente sa concluzionam ca o

sarcina este prezenta. Ipoteza nula ar lipsa sarcinii. Majoritatea oamenilor in acest caz vor cadea de

acord cum ca un false negative este mai grav decat un false positive.

Exerciµiu 7.5 Sa presupunem ca suntem intr-o sala de judecata si ca judecatorul trebuie sa decida

daca un inculpat este sau nu vinovat. Are astfel de testat urmatoarele ipoteze:(H0) inculpatul este nevinovat;

(H1) inculpatul este vinovat.

Posibilele stari (asupra carora nu avem control) sunt:

[1] inculpatul este nevinovat (H0 este adevarata si H1 este falsa);

[2] inculpatul este vinovat (H0 este falsa si H1 este adevarata)

Page 170: Statistica Prin Matlab

Teoria deciziei 159

Deciziile posibile (asupra carora avem control − putem lua o decizie corecta sau una falsa) sunt:

[i] H0 se respinge (dovezi suciente pentru a incrimina inculpatul);

[ii] H0 nu se respinge (dovezi insuciente pentru a incrimina inculpatul);

In realitate, avem urmatoarele posibilitati, sumarizate in tabelul 7.1:

Situatie reala

Decizii H0 - adevarata H0 - falsa

Respinge H0 [1]&[i] [2]&[i]

Accepta H0 [1]&[ii] [2]&[ii]

Table 7.1: Posibilitati decizionale.

Traducerile in romaneste ale acestora se gasesc in tabelul 7.2.

Situatie reala

Decizii H0 - adevarata H0 - falsa

Respinge H0 inchide o persoana nevinovata inchide o persoana vinovata

Accepta H0 elibereaza o persoana nevinovata elibereaza o persoana vinovata

Table 7.2: Decizii posibile.

Erorile posibile ce pot aparea sunt cele din tabelul 7.3.

Page 171: Statistica Prin Matlab

160

Situatie reala

Decizii H0 - adevarata H0 - falsa

Respinge H0 α judecata corecta

Accepta H0 judecata corecta β

Table 7.3: Erori decizionale.

7.2 Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativa (H1). Avem astfel:

• test unilateral stanga, atunci cand ipoteza alternativa este de tipul (H1) : θ < θ0;

Figure 7.1: Regiune critica pentru test unilateral stanga.

• test bilateral, atunci cand ipoteza alternativa este de tipul (H1) : θ 6= θ0;

• test unilateral dreapta, atunci cand ipoteza alternativa este de tipul (H1) : θ > θ0;

Asadar, pentru a construi un test statistic vom avea nevoi de o regiune critica. Pentru a construi

aceasta regiune critica vom utiliza metoda intervalelor de incredere. Daca valoarea observata se aa

in regiunea critica (adica in afara intervalului de incredere), atunci respingem ipoteza nula.

Page 172: Statistica Prin Matlab

Teoria deciziei 161

Figure 7.2: Regiune critica pentru test bilateral.

Figure 7.3: Regiune critica pentru test unilateral dreapta.

7.3 Etapele unei testari parametrice

• Colectam o selectie intamplatoare x1, x2, . . . , xn. Fie (X1, X2, . . . , Xn) variabile aleatoare de

selectie;

• Alegem o statistica (criteriu) S(X1, X2, . . . , Xn) care, dupa acceptarea ipotezei (H0), aceasta

are o repartitie cunoscuta, independenta de parametrul testat;

• Alegem un prag de semnicatie 1− α ≈ 1;

• Gasim regiunea critica U , care este complementara intervalului de incredere;

Page 173: Statistica Prin Matlab

162

• Calculam valoarea statisticii S(X1, X2, . . . , Xn) pentru selectia considerata. Notam aceasta

valoare cu S0;

• Luam decizia:

Daca S0 ∈ U , atunci ipoteza nula, (H0), se respinge;

Daca S0 6 ∈ U , atunci ipoteza nula, (H0), se admite (mai bine zis, nu avem motive sa o

respingem si o admitem pana la efectuarea eventuala a unui test mai puternic).

7.4 Testul cel mai puternic

Sa presupunem ca X este caracteristica unei colectivitati statistice ce urmeaza o lege de probabilitate

f(x; θ), si avem de testat ipoteza nula (H0) vs. ipoteza alternativa (H1), cu probabilitatea de risc α.

Deniµia 7.6 Se spune ca testul bazat pe regiunea critica U∗ este cel mai puternic test in raport cu

toate testele bazate pe regiunea critica U , la nivelul de semnicatie α, daca sunt indeplinite urmatoarele

conditii:

(a) P ((x1, x2, . . . , xn) ∈ U∗ | (H0) se admite) = α;

(b) πU∗ ≥ πU .

(adica, dintre toate testele de nivel de semnicatie α xat, cel mai puternit test este cel pentru care

puterea testului este maxima). Regiunea U∗ se numeste regiunea critica cea mai buna.

Observaµia 7.7 Nu intotdeauna exista un cel mai puternic test.

In cazul ipotezelor simple, Lema Neyman-Pearson ne confera un cel mai bun test. In cazul general, nu

se poate construi un astfel de criteriu.

Lema 7.8 (Neyman-Pearson) Presupunem ca avem de testat ipoteza nula (H0) de mai sus, vs. ipoteza

alternativa

(H1) : θ = θ1,

Page 174: Statistica Prin Matlab

Teoria deciziei 163

la nivelul de semnicatie α. Notam cu L(x; θ) = L(x1, x2, . . . , xn; θ) functia de verosimilitate si e

S(x) =L(x; θ1)L(x; θ0)

.

Atunci regiunea U denita prin

U = x ∈ Rn | S(x) ≥ c,

cu c astfel incat P (x ∈ U | (H0) − adevarata) = α, este cea mai buna regiune critica la nivelul de

semnicatie α.

Exerciµiu 7.9 Fie x1, x2, . . . , xn valori de selectie pentru o caracteristica X ∼ N (µ, σ), unde µ este

cunoscut. Dorim sa testam ipoteza nula:

(H0) : σ = σ0

versus ipoteza alternativa simpla

(H1) : σ = σ1.

Functia de verosimilitate asociata selectiei este:

L(x1, x2, . . . , xn; σ) =1

σn(2π)n2

e

− 12σ2

n∑k=1

(xk − µ)2

.

Calculand S(x), obtinem:

S(x) =L(x; σ1)L(x; σ0)

=(σ0

σ1

)ne

− 12

(1

σ21− 1

σ20

) n∑k=1

(xk − µ)2

.

Utilizand Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde den∑i=1

(xi − µ)2.

De asemenea, observam ca daca σ1 > σ0, then S(x) este o functie crescatoare den∑i=1

(xi − µ)2. Asadar,

vom respinge ipoteza (H0) dacan∑i=1

(xi − µ)2 este sucient de mare.

7.5 Testarea tipului de date din observatii

Pentru a putea efectua un test statistic in mod corect, este necesar sa stim care este tipul (tipurile)

de date pe care le avem la dispoziti. Pentru anumite teste statistice (e.g., testul Z sau testul t, datele

Page 175: Statistica Prin Matlab

164

testate trebuie sa e normal distribuite si independente. De multe ori, chiar si ipoteza ca datele sa e

normal repartizate trebuie vericata. De aceea, se pune problema realizarii unei legaturi intre functia

de repartitia empirica si cea teoretica (teste de concordanta). Vom discuta mai pe larg aceste teste de

concordanta in sectiunea 7.7.

In Matlab sunt deja implementate unele functii ce testeaza daca datele sunt normal repartizate.

Functia normplot(X) reprezinta grac datele din vectorul X versus o repartitie normala. Scopul acestei

functii este de a determina grac daca datele din observate sunt normal distribuite. Daca aceste date

sunt selectate dintr-o repartitie normala, atunci acest grac va liniar, daca nu, atunci va un grac

curbat. De exemplu, sa reprezentem cu normplot vectorii X si Y de mai jos. Gracele sunt cele din

Figura 7.4.

X = normrnd(100,2,200,1);

subplot(1,2,1); normplot(X)

Y = exprnd(5,200,1);

subplot(1,2,2); normplot(Y)

Figure 7.4: Reprezentarea normala a datelor.

Observam ca primul grac este aproape liniar, pe cand al doilea nu este. Putem astfel sa concluzionam

ca datele date de X sunt normal repartizate (fapt conrmat si de modul cum le-am generat), iar datele

din Y nu sunt normal repartizate.

Functia chi2gof determina in urma unui test χ2 daca datele observate sunt normal repartizate, la un

Page 176: Statistica Prin Matlab

Teoria deciziei 165

nivel de semnicatie α = 0.05. Astfel, comanda

h = chi2gof(x)

ne va furniza rezultatul h = 1, daca datele nu sunt normal repartizate, sau h = 0, daca nu putem

respinge ipoteza ca datele observate sunt normal distribuite. Aplicand testul pentru X si Y de mai

sus, obtinem h = 0, respectiv, h = 1.

7.6 Teste parametrice

7.6.1 Testul Z pentru o selecµie

Testul Z bilateral

Fie caracteristicaX ce urmeaza legea normalaN (µ, σ) cu µ necunoscut si σ > 0 cunoscut. Presupunem

ca avem deja culese datele de selectie (observatiile) asupra lui X:

x1, x2, . . . , xn.

Dorim sa vericam ipoteza nula

(H0) : µ = µ0

vs. ipoteza alternativa

(H1) : µ 6= µ0,

cu probabilitatea de risc α. Pentru a efectua acest test, consideram statistica (vezi 6.6.1)

Z =X − µσ√n

. (7.2)

Daca ipoteza (H0) se admite, atunci Z ∼ N (0, 1), (conform Propozitiei 5.23). Cautam un interval

(z1, z2) astfel incat

P (z1 < Z < z2) = 1− α. (7.3)

Gasim ca acest interval este intervalul de incredere obtinut in Sectiunea 6.6.1, adica:(−z1−α

2, z1−α

2

),

unde zα este cuantila de ordin α pentru repartitia N (0, 1).

Denim regiunea critica pentru ipoteza nula (relativ la valorile statisticii Z) ca ind acea regiune care

Page 177: Statistica Prin Matlab

166

respinge ipoteza (H0) daca media µ apartine acelui interval. Stim ca un interval de incredere pentru

µ va contine valoarea reala µ0 cu o probabilitate destul de mare, 1− α. Este de asteptat ca regiunea

critica sa e complementara acestui interval, adica

U =z ∈ R; z 6∈

(−z1−α

2, z1−α

2

)= z; |z| > z1−α

2, (7.4)

unde u =1n

n∑k=1

uk. Astfel, U este acea regiune in care:

X > µ0 + z1−α2

σ√n

si X < µ0 − z1−α2

σ√n.

Notam cu z0 valoarea statisticii Z pentru observatia considerata.

Decizia nala se face astfel:

• daca z0 ∈(−z1−α

2, z1−α

2

), (echivalent, z0 6 ∈ U), atunci admitem (H0) (pentru ca nu sunt

suciente dovezi sa o respingem).

• daca z0 6 ∈(−z1−α

2, z1−α

2

), (echivalent, z0 ∈ U), atunci respingem (H0) (exista suciente

dovezi sa o respingem).

Etapele testul Z bilateral

(1) Se dau: x1, x2, . . . , xn, µ0, σ, α;

(2) Determinam valoarea z1−α2astfel incat

Φ(z1−α

2

)= z1−α

2.

(3) Calculez valoarea

z0 =x− µ0

σ√n

.

(4) Daca:

(i) |z0| < z1−α2, atunci (H0) este admisa (nu poate respinsa);

(ii) |z0| ≥ z1−α2, atunci (H0) este respinsa (adica (H1) este admisa);

Testul Z unilateral

Page 178: Statistica Prin Matlab

Teoria deciziei 167

In conditiile din sectiunea anterioara, dorim sa vericam ipoteza nula

(H0) : µ = µ0

vs. ipoteza alternativa

(H1)s : µ < µ0, (unilateral stanga)

sau ipoteza alternativa

(H1)d : µ > µ0, (unilateral dreapta)

cu probabilitatea de risc α.

Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunzatoare. Acestea vor

chiar intervalele de incredere pentru conditiile din ipotezele alternative (obtinute in Sectiunea 6.6.1).

Cu alte cuvinte, o regiune critica pentru ipoteza nula (ceea ce semnica o regiune in care, daca ne aam,

atunci respingem ipoteza nula la pragul de semnicatie α) este o regiune in care realizarea ipotezei

alternative este favorizata. Daca ipoteza nula este vericata vs. ipoteza alternativa (H1)s, atunci

regiunea critica va regiunea acelor posibile valori ale statisticii Z pentru care (H1)s se realizeaza cu

probabilitatea 1− α ≈ 1, adica:

U = (−∞, z1−α). (7.5)

Intr-adevar, se observa cu usurinta ca:

P (z ∈ U) = P (−∞ < Z < z1−α) = Φ(z1−α) = 1− α.

In mod similar, daca avem ipoteza alternativa (H1)d, atunci alegem regiunea critica:

U = (−z1−α, +∞). (7.6)

La fel ca mai sus, testarea este (in ambele cazuri):

• daca z0 =x− µ0

σ√n

6∈ U , atunci admitem (H0).

• daca z0 =x− µ0

σ√n

∈ U , atunci respingem (H0).

Observaµia 7.10 Testul Z, bilateral sau unilateral, poate aplicat cu succes si pentru populatii

non-normale, daca volumul selectiei observate este n ≥ 30.

Page 179: Statistica Prin Matlab

168

7.6.2 Testul Z pentru dou selecµii

Fie X1 si X2 caracteristicile (independente) a doua populatii normale, N (µ1, σ1), respectiv, N (µ2, σ2),

pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum

n1, x1 = x1 1, x1 2, . . . , x1n1, ce urmeaza repartitia lui X1, iar din a doua populatie alegem o selec-

tie repetata de volum n2, x2 = x2 1, x2 2, . . . , x2n2, ce urmeaza repartitia lui X2. Fie (X1i)i=1, n1,

(X2j)j=1, n2variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semni-

catie α. Dorim sa testam ipoteza nula ca mediile sunt egale

(H0) : µ1 = µ2

vs. ipoteza alternativa

(H1) : µ1 6= µ2,

Pentru a testa aceasta ipoteza, alegem statistica

Z =(X1 −X2)− (µ1 − µ2)√

σ21

n1+σ2

2

n2

. (7.7)

Daca (H0) este admisa (adica admitem ca µ1 = µ2), atunci (vezi (6.27)):

Z ∼ N (0, 1). (conform Propozitiei 5.28). (7.8)

Fie z =(u1 − u2)√σ21n1

+ σ22n2

. Regiunea critica pentru ipoteza nula, exprimata in valori ale statisticii Z este:

U =z; z 6∈

(−z1−α

2, z1−α

2

).

• Daca valoarea statisticii Z pentru selectiile date nu se aa in U , atunci admitem (H0).

• Daca valoarea statisticii Z pentru selectiile date se aa in U , atunci respingem (H0).

Etapele testul Z pentru doua selecµii

(1) Se dau: x1 1, x1 2, . . . , x1n1, x2 1, x2 2, . . . , x2n2, µ0, α;

(2) Determinam valoarea z1−α2astfel incat, functia lui Laplace,

Φ(z1−α

2

)= z1−α

2.

Page 180: Statistica Prin Matlab

Teoria deciziei 169

(3) Calculez valoarea

z0 =x1 − x2√σ21n1

+ σ22n2

.

(4) Daca:

(i) |z0| < z1−α2, atunci µ1 = µ2;

(ii) |z0| ≥ z1−α2, atunci µ1 6= µ2.

Observaµia 7.11 (1) In cazul in care σ1, σ2 sunt necunoscute, atunci utilizam testul t pentru doua

selectii, prezentat mai jos.

(2) Regiunile critice pentru testele unilaterale sunt prezentate in tabelul 7.5.

7.6.3 Testul Z in Matlab

Testul Z pentru o selectie poate simulat in Matlab utilizand comanda

[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)

unde:

• h este rezultatul testului. Daca h = 1, atunci ipoteza nula se respinge, daca h = 0, atunci ipoteza

nula nu poate respinsa pe baza observatiilor facute (adica, se admite, pana la un test mai

puternic);

• p este valoarea P (P− value);

• ci este un interval de incredere pentru µ, la nivelul de semnicatie α;

• zval este valoarea statisticii Z pentru observatia considerata;

• X este un vector sau o matrice, continand observatiile culese. Daca X este matrice, atunci mai

multe teste Z sunt efectuate, de-alungul ecarei coloane a lui X;

• m0 = µ0, valoarea testata;

• sigma este deviatia standard teoretica a lui X, a priori cunoscuta;

• alpha este nivelul de semnicatie;

Page 181: Statistica Prin Matlab

170

• tail poate unul dintre urmatoarele siruri de caractere:

'both', pentru un test bilateral (poate sa nu e specicata, se subantelege implicit);

'left', pentru un test unilateral stanga (µ < µ0);

'right', pentru un test unilateral dreapta (µ > µ0);

Observaµia 7.12 (1) Pentru efectuarea testului, nu este neaparat necesar sa asam toate cele 4

variabile din membrul stang. Putem asa doar 3, 2, sau o variabila, dupa preferinte, dar doar in

ordinea precizata. De exemplu, comanda

h = ztest(X,m0,sigma,alpha,tail)

ne va furniza doar rezultatul testului, fara a asa alte variabile.

(2) Nu exista o functie in Matlab care sa efectueze testul Z pentru doua selectii.

7.6.4 Testul t pentru o selecµie

Fie caracteristica X ce urmeaza legea normala N (µ, σ) cu µ necunoscut si σ > 0 necunoscut. Consid-

eram datele de selectie (observatiile) asupra lui X:

x1, x2, . . . , xn.

Vrem sa vericam ipoteza nula

(H0) : µ = µ0

vs. ipoteza alternativa

(H1) : µ 6= µ0,

cu probabilitatea de risc α. Pentru a efectua acest test, consideram statistica (vezi 6.6.1)

T =X − µd∗(X)√

n

. (7.9)

Daca ipoteza (H0) se admite (adica µ ia valoarea µ0), atunci T ∼ t(n−1), (conform Propozitiei 5.38).

Cautam un interval (t1, t2) astfel incat

P (t1 < T < t2) = 1− α. (7.10)

Page 182: Statistica Prin Matlab

Teoria deciziei 171

si gasim ca acest interval este intervalul de incredere obtinut in Sectiunea 6.6.2, adica:(−t1−α

2; n−1, t1−α

2; n−1

),

unde tα; n reprezinta cuantila de ordin α pentru repartitia t(n).

Regiunea critica este complementara intervalului de incredere.

Decizia:

• daca t0 =x− µ0

d∗(X)√n

∈(−t1−α

2; n−1, t1−α

2; n−1

)(echivalent, t0 6∈ U), atunci admitem (H0).

• daca t0 =x− µ0

d∗(X)√n

6∈(−t1−α

2; n−1, t1−α

2; n−1

)(echivalent, t0 ∈ U), atunci respingem (H0).

Etapele testul t bilateral

(1) Se dau: x1, x2, . . . , xn, µ0, α;

(2) Determinam valoarea t1−α2

; n−1 astfel incat functia de repartitie pentru t(n− 1),

Fn−1

(t1−α

2; n−1

)= t1−α

2; n−1.

(3) Calculez valoarea

t0 =x− µ0

d∗(X)√n

, aici, d∗(X) =

√√√√ 1n− 1

n∑k=1

(xi − x)2.

(4) Daca:

(i) |t0| < t1−α2

; n−1, atunci (H0) este admisa (nu poate respinsa);

(ii) |t0| ≥ t1−α2

; n−1, atunci (H0) este respinsa (adica (H1) este admisa);

Testul t unilateral

In conditiile de mai sus, dorim sa vericam ipoteza nula

(H0) : µ = µ0

vs. ipoteza alternativa

(H1)s : µ < µ0, (unilateral stanga)

Page 183: Statistica Prin Matlab

172

sau ipoteza alternativa

(H1)d : µ > µ0, (unilateral dreapta)

cu probabilitatea de risc α.

Pentru a realiza testele, avem nevoie de regiuni critice corespunzatoare.

Regiunea critica pentru ipoteza nula va trebui sa e multimea valorilor favorabile realizarii ipotezei

alternative, adica este acel interval ce contine doar valori ale statisticii T ce vor duce la respingerea

ipotezei nule si acceptarea ipotezei altrnative. Asadar, daca alegem ipoteza alternativa (H1)s, atunci

regiunea critica pentru ipoteza nula va multimea valorilor favorabile realizarii ipotezei alternative

(H1)s, adica intervalul:

U = (−∞, t1−α; n−1). (7.11)

Daca alegem ipoteza alternativa (H1)d, atunci regiunea critica pentru ipoteza nula va :

U = (tα; n−1, +∞). (7.12)

La fel ca mai sus, testarea este (in ambele cazuri):

• daca t0 =x− µ0

d∗(X)√n

6∈ U , atunci admitem (H0).

• daca t0 =x− µ0

d∗(X)√n

∈ U , atunci respingem (H0).

Alti parametri(H0) : µ = µ0

Tipul testului(H1) Regiunea critica

σ µ 6= µ0

(−∞, −z1−α

2

)⋃(z1−α

2, +∞

)Testul Z bilateral

cunoscut µ < µ0 (−∞, z1−α) Testul Z unilateral stanga

µ > µ0 (−z1−α, +∞) Testul Z unilateral dreapta

σ µ 6= µ0

(−∞, −t1−α

2; n−1

)⋃(t1−α

2; n−1, +∞

)Testul t bilateral

necunoscut µ < µ0 (−∞, t1−α; n−1) Testul t unilateral stanga

µ > µ0 (−t1−α; n−1, +∞) Testul t unilateral dreapta

Table 7.4: Teste pentru valoarea medie a unei colectivitati.

Page 184: Statistica Prin Matlab

Teoria deciziei 173

7.6.5 Testul t pentru dou selecµii

Fie X1 si X2 caracteristicile (independente) a doua populatii normale, N (µ1, σ1), respectiv, N (µ2, σ2),

pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum

n1, x1 = x1 1, x1 2, . . . , x1n1, ce urmeaza repartitia lui X1, iar din a doua populatie alegem o selec-

tie repetata de volum n2, x2 = x2 1, x2 2, . . . , x2n2, ce urmeaza repartitia lui X2. Fie (X1i)i=1, n1,

(X2j)j=1, n2variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semni-

catie α. Dorim sa testam ipoteza nula ca mediile sunt egale

(H0) : µ1 = µ2

vs. ipoteza alternativa

(H1) : µ1 6= µ2,

Sa presupunem ca σ1 6= σ2 sunt necunoscute. Pentru a testa aceasta ipoteza, alegem statistica

T =(X1 −X2)− (µ1 − µ2)√

d2∗1n1

+d2∗2n2

. (7.13)

Daca (H0) este admisa (adica admitem ca µ1 = µ2), atunci (vezi relatia (6.27)):

T ∼ t(N), (7.14)

cuN ca in relatia (6.28). Regiunea critica este complementara intervalului de incredere pentru diferenta

mediilor, adica:

U = R \(−t1−α

2; N , t1−α

2; N

).

Etapele testul t pentru dou selecµii

(1) Se dau: x1 1, x1 2, . . . , x1n1, x2 1, x2 2, . . . , x2n2, µ0, α;

(2) Determinam valoarea t1−α2

; N astfel incat functia de repartitie pentru t(N),

FN

(t1−α

2; N

)= t1−α

2; N .

(3) Calculez valoarea

t0 =x1 − x2√d2∗1n1

+ d2∗2n2

.

Page 185: Statistica Prin Matlab

174

(4) Daca:

(i) |t0| < t1−α2

; N , atunci µ1 = µ2;

(ii) |t0| ≥ t1−α2

; N , atunci µ1 6= µ2.

Observaµia 7.13 (1) In cazul in care σ1 = σ2 si necunoscute, atunci utilizam statistica data de (6.26),

cu ajutorul careia construim regiunea critica si apoi decidem care ipoteza se respinge.

(2) In cazul in care dispersiile sunt cunoscute, atunci se utilizeaza testul Z pentru diferenta mediilor,

care urmeaza pasii testului t pentru diferenta mediilor, cu diferenta ca statistica ce se considera este

data de (6.25) care, dupa acceptarea ipotezei nule, urmeaza repartitia N (µ, σ).

Alti parametri(H0) : µ1 = µ2

Tipul testului(H1) Regiunea critica

σ1, σ2 µ1 6= µ2 |X1 −X2| > z1−α2

√σ21n1

+ σ22n2

Testul Z bilateral

cunoscute µ1 < µ2 X1 −X2 < z1−α

√σ21n1

+ σ22n2

Testul Z unilateral stanga

µ1 > µ2 X1 −X2 > −z1−α

√σ21n1

+ σ22n2

Testul Z unilateral dreapta

σ1 6= σ2 µ1 6= µ2 |X1 −X2| > t1−α2

;N

√d2∗(X1)n1

+ d2∗(X2)n2

Testul t bilateral

necunoscute µ1 < µ2 X1 −X2 < t1−α;N

√d2∗(X1)n1

+ d2∗(X2)n2

Testul t unilateral stanga

µ1 > µ2 X1 −X2 > −t1−α;N

√d2∗(X1)n1

+ d2∗(X2)n2

Testul t unilateral dreapta

Table 7.5: Teste pentru egalitatea a doua medii.

7.6.6 Testul t in Matlab

Pentru o selecµie

Testul t poate simulat in Matlab utilizand comanda generala

[h, p, ci, stats] = ttest(X,m0,alpha,tail)

unde:

• h, p, ci, m0, alpha, tail sunt la fel ca in functia ztest (Sectiunea 7.6.3);

• variabila stats inmagazineaza urmatoarele date:

Page 186: Statistica Prin Matlab

Teoria deciziei 175

tstat - este valoarea statisticii T pentru observatia considerata;

df - numarul gradelor de libertate ale testului;

sd - deviatia standard de selectie;

Exerciµiu 7.14 Dorim sa testam daca o anumita moneda este corecta, adica sansele ecarei fete de

a apare la orice aruncare sunt 50%− 50%. Aruncam moneda in caza de 100 de ori si obtinem fata cu

stema de exact 59 de ori. Pe baza acestei experiente, cautam sa testam ipoteza nula

(H0) : zarul este corect

vs. ipoteza alternativa

(H1) : zarul este m sluit,

la un prag de semnicatie α = 0.05.

- Fie X variabila aleatoare ce reprezinta fata ce apare la o singura aruncare a monedei. Sa

spunem caX = 1, daca apare fata cu stema siX = 0, daca apare fata cu banul. Teoretic,X ∼ B(1, 0.5),

de unde E(X) = D2(X) = 0.5.

Prin ipoteza, ni se da o selectie de volum n = 100 si scriem observatiile facute intr-un vector x ce

contine 59 de valori 1 si 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selectie.

Rescriem ipotezele (H0) si (H1) astfel:

(H0) : µ = 0.5

(H1) : µ 6= 0.5.

Daca X1, X2, . . . , Xn sunt variabilele aleatoare de selectie, atunci alegem statistica

T =X − µd∗(X)√

n

.

Daca ipoteza (H0) se admite, atunci µ este xat, µ = 0.5, si statistica T ∼ t(n− 1). Valoarea acestei

statistici pentru selectia data este:

t0 =x− µd∗(X)√

n

= 1.8207.

Page 187: Statistica Prin Matlab

176

Din t1−α2

; n−1 = t0.975; 99 = 1.9842, rezulta ca |t0| < t1−α2

; n−1, si decidem ca ipoteza (H0) este admisa

(nu poate respinsa la nivelul de semnicatie α).

Codul Matlab pentru calculul analitic de mai sus este urmatorul:

n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)];

t0 = (mean(x) - mu)/(std(x)/sqrt(n));

tc = tinv(1-alpha/2, n-1); % cuantila

if (abs(t0) < tc)

disp('moneda este corecta')

else disp('moneda este masluita')

end

Ruland codul, obtinem rezultatul:

moneda este corecta

In loc sa folosim codul de mai sus, am putea folosi functia ttest din Matlab, dupa cum urmeaza:

[h, p, ci, stats] = ttest(X,0.5,0.05,'both')

si obtinem

h = p = ci = stats =

0 0.0717 0.4919 tstat: 1.8207

0.6881 df: 99

sd: 0.4943

Observaµia 7.15 (1) Deoarece P−valoarea este p = 0.0717, deducem ca la un prag de semnicatie

α = 0.08, ipoteza nula ar fost respinsa.

(2) Daca dintre cele 100 de observari aveam o aparitie in plus a stemei, atunci ipoteza nula ar

respinsa, adica moneda ar catalogata masluita.

Pentru dou selecµii

Page 188: Statistica Prin Matlab

Teoria deciziei 177

Testul t pentru egalitatea a doua medii poate simulat in Matlab utilizand comanda

[h, p, ci] = ttest2(X,Y,alpha,tail)

unde

• h, p, ci, alpha si tail sunt la fel ca in Sectiunea 7.6.3;

• X si Y sunt vectori sau o matrice, continand observatiile culese. Daca ele sunt matrice, atunci

mai multe teste Z sunt efectuate, de-alungul ecarei coloane;

Exerciµiu 7.16 Caracteristicile X1 si X2 reprezinta notele obtinute de studentii de la Master MF ′08,

respectiv, MF ′09 la examenul de Statistica Aplicata. Conducerea universitatii recomanda ca aceste

note sa urmeze repartitia normala si examinatorul se conformeaza dorintei de sus. Presupunem ca

X1 ∼ N (µ1, σ1) si X2 ∼ N (µ2, σ2), cu σ1 6= σ2, necunoscute a priori. Pentru a verica modul cum

s-au prezentat studentii la acest examen in doi ani consecutivi, selectam aleator notele a 25 de studenti

din prima grupa si 30 de note din a doua grupa. Am gasit urmatoarele distributii de frecvente ale

notelor:

Nota obtinutaFrecventa absoluta

Grupa MF ′08 Grupa MF ′09

5 3 5

6 4 6

7 9 8

8 7 6

9 2 3

10 0 2

Table 7.6: Tabel cu note.

(i) Vericati daca ambele seturi de date provin dintr-o repartitie normala;

(ii) Gasiti un interval de incredere pentru diferenta mediilor, la nivelul de semnicatie α = 0.05;

(ii) Sa se testeze (cu α = 0.01) ipoteza nula

(H0) : µ1 = µ2, (in medie, studentii sunt la fel de buni)

Page 189: Statistica Prin Matlab

178

versus ipoteza alternativa

(H1) : µ1 < µ2, (in medie, studentii au note din ce in ce mai mari)

- (i) h = chi2gof(u); k = chi2gof(v);

(ii) Un interval de incredere la acest nivel de semnicatie se obtine apeland functia Matlab

[h,p,ci,stats]=ttest2(u,v,0.05,'both')

si este:

(-0.7455, 0.6922)

Altfel, se calculeaza intervalul de incredere (vezi Tabelul 6.1)

x1 − x2 − t1−α2

; N

√d2∗1n1

+d2∗2n2, x1 − x2 + t1−α

2; N

√d2∗1n1

+d2∗2n2

Codul Matlab:

n1=25; n2=30; alpha = 0.05;

u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)]

v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)];

d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2;

t = tinv(1-alpha/2,N);

m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2);

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);

(iii) [h,p,ci,stats] = ttest2(u,v,0.01,'right')

In urma rularii codului, obtinem:

h = p = ci = stats =

0 0.5295 -0.8864 tstat: -0.0744

Inf df: 53

sd: 1.3234 √

Page 190: Statistica Prin Matlab

Teoria deciziei 179

7.6.7 Testul χ2 pentru dispersie

Fie caracteristica X ce urmeaza legea normala N (µ, σ) cu µ si σ > 0 necunoscute. Consideram datele

de selectie (observatiile) asupra lui X:

x1, x2, . . . , xn.

Vrem sa vericam ipoteza nula

(H0) : σ2 = σ20

vs. ipoteza alternativa

(H1) : σ2 6= σ20,

cu probabilitatea de risc α. Pentru a efectua acest test, consideram statistica (vezi Sectiunea 6.6.5)

χ2 =n− 1σ2

d2∗(X), (7.15)

care, dupa acceptarea ipotezei (H0) (adica σ2 ia valoarea σ20), atunci χ2 ∼ χ2(n − 1), (conform

Propozitiei (5.35). Intervalului de incredere pentru σ2 (obtinut in Sectiunea 6.6.5) este(χ2α2

;n−1, χ21−α

2;n−1

),

unde χ2α;n−1 este cuantila de ordin α pentru repartitia χ2(n).

Regiunea critica U va complementara acestui intervalul de incredere.

Sa notam prin χ20 valoarea statisticii χ

2 pentru selectia data. Atunci, regula de decizie este urmatoarea:

• daca χ20 ∈

(χ2α2

;n−1, χ21−α

2;n−1

), atunci admitem (H0) (i.e., σ2 = σ2

0);

• daca χ20 6∈

(χ2α2

;n−1, χ21−α

2;n−1

), atunci respingem (H0) (i.e., σ2 6= σ2

0).

Observaµia 7.17 Se pot considera, dupa caz, si ipotezele alternative unilaterale

(H1)s : σ2 < σ20 si (H1)d : σ2 > σ2

0.

Regiunile critice (pe baza carora se pot face decizii) pentru acestea se gasesc in Tabelul 7.7.

(H0) : σ2 = σ20

Tipul testului(H1) Regiunea critica

µ σ2 6= σ20

(−∞, χ2

α2

;n−1

)⋃(χ2

1−α2

;n−1, +∞)

Testul χ2 bilateral

necunoscut σ2 < σ20

(−∞, χ2

1−α;n−1

)Testul χ2 unilateral stanga

σ2 > σ20

(χ2α;n−1, +∞

)Testul χ2 unilateral dreapta

Page 191: Statistica Prin Matlab

180

Table 7.7: Teste pentru dispersie.

Exerciµiu 7.1 Se cerceteaza caracteristica X, ce reprezinta diametrul pieselor (in mm) produse de un

strung. Stim ca X urmeaza legea normala N (µ, σ). Alegem o selectie de volum n = 11, si obtinem

distributia empirica: 10.50 10.55 10.60 10.65

2 3 5 1

.

Sa se testeze (cu α = 0.01) ipoteza nula

(H0) : σ2 = 0.003,

versus ipoteza alternativa

(H1) : σ2 6= 0.003.

- √

7.6.8 Testul χ2 in Matlab

Testul χ2 poate simulat in Matlab utilizand comanda

[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:

• h, p, ci, m0, alpha, stats, tail sunt la fel ca in functia ttest (Sectiunea 7.6.6);

• var este valoarea testata a dispersiei;

7.6.9 Testul F pentru raportului dispersiilor

Fie X1 si X2 caracteristicile (independente) a doua populatii normale, N (µ1, σ1), respectiv, N (µ2, σ2),

pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum

n1, x1 = x1 1, x1 2, . . . , x1n1, ce urmeaza repartitia lui X1, iar din a doua populatie alegem o selec-

tie repetata de volum n2, x2 = x2 1, x2 2, . . . , x2n2, ce urmeaza repartitia lui X2. Fie (X1i)i=1, n1,

Page 192: Statistica Prin Matlab

Teoria deciziei 181

(X2j)j=1, n2variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semni-

catie α. Dorim sa testam ipoteza nula ca dispersiile sunt egale

(H0) : σ21 = σ2

2

vs. ipoteza alternativa

(H1) : σ21 6= σ2

2.

Pentru a testa aceasta ipoteza, alegem statistica

F =σ2

2

σ21

d2∗(X1)d2∗(X2)

. (7.16)

Daca (H0) este admisa (adica σ21 = σ2

2), atunci:

F ∼ F(n1 − 1, n2 − 1) (repartitia Fisher). (7.17)

Intervalul de incredere pentru raportul dispersiilor este(fα

2; n1−1, n2−1, f1−α

2; n1−1, n2−1

)si se determina a.i.

P(fα

2; n1−1, n2−1 ≤ F ≤ f1−α

2; n1−1, n2−1

)= 1− α

Extremitatile intervalului se determina din relatiile

Fn1−1;n2−1

(fα

2; n1−1, n2−1

)=α

2si Fn1−1;n2−1

(f1−α

2; n1−1, n2−1

)= 1− α

2.

(fα; n1−1, n2−1 este cuantila de ordin α pentru repartitia Fisher F(n1 − 1, n2 − 1)).

Regiunea critica U este complementara intervalului de incredere pentru raportul dispersiilor.

Notam prin F0 valoarea lui F pentru observatiile date, x1 si x2. Avem:

F0 =σ2

2

σ21

d2∗(x1)d2∗(x2)

.

Regula de decizie este:

• daca F0 ∈(fα

2; n1−1, n2−1, f1−α

2; n1−1, n2−1

), atunci admitem (H0) (i.e., σ1 = σ2);

• daca F0 6∈(fα

2; n1−1, n2−1, f1−α

2; n1−1, n2−1

), atunci respingem (H0) (i.e., σ1 6= σ2).

Observaµia 7.18 Se pot considera, dupa caz, si ipotezele alternative unilaterale

(H1)s : σ21 < σ2

2, si (H1)d : σ21 > σ2

2.

Regiunile critice (pe baza carora se pot face decizii) pentru acestea se gasesc in Tabelul 7.8.

Page 193: Statistica Prin Matlab

182

(H0) : σ21 = σ2

2Tipul testului

(H1) Regiunea critica

µ1, µ2 σ21 6= σ2

2

(−∞, fα

2; n1−1, n2−1

)⋃(f1−α

2; n1−1, n2−1, +∞

)Testul F bilateral

necunoscute σ21 < σ2

2 (−∞, f1−α; n1−1, n2−1) Testul F unilateral stanga

σ21 > σ2

2 (−f1−α; n1−1, n2−1, +∞) Testul F unilateral dreapta

Table 7.8: Teste pentru raportul dispersiilor.

Testul F în Matlab

Testul raportului dispersiilor poate simulat in Matlab utilizand comanda

[h, p, ci, stats] = vartest2(X,Y,alpha,tail)

unde variabilele sunt la fel ca in functia ttest2 (Sectiunea 7.6.6).

7.6.10 Testul raportului verosimilitatilor

Testul raportului verosimilitatilor (en., likelihood-ratio test) este un test statistic ce va decide intre

doua ipoteze, bazandu-se pe raportul verosimilitatilor.

Sa presupunem ca X este caracteristica unei colectivitati statistice ce urmeaza o lege de probabilitate

f(x; θ), cu θ parametru necunoscut si e A0 ⊂ A multimi masurabile. Dorim sa testam ipoteza nula

(H0) : θ ∈ A0,

vs. ipoteza alternativa

(H1) : θ ∈ A \A0,

la un nivel de semnicatie α. De notat ca distributia f(x, θ) este complet specicata in ambele

ipoteze.

Consideram o selectie repetata de volum n asupra caracteristicii X si e X1, X2, . . . , Xn v.a. de

selectie. Construim statistica:

Λ = Λ(X1, X2, . . . , Xn; θ) =supθ∈A0

L(X1, X2, . . . , Xn; θ)

supθ∈A

L(X1, X2, . . . , Xn; θ).

Page 194: Statistica Prin Matlab

Teoria deciziei 183

Evident, Λ ∈ (0, 1). Uneori, forma de mai sus pentru Λ este fractia inversata. Sub forma de aici,

raportul verosimilitatilor este mare daca ipoteza nula este mai buna decat ipoteza alternativa iar testul

raportului verosimilitatilor respinge ipoteza nula daca Λ depaseste o anumita valoare. Denim regiunea

critica U astfel incat

P (Λ ≤ λα; H0 − admis) = α.

(Valoarea λα reprezinta cuantila de ordin α pentru statistica Λ.)

Regula de decizie este urmatoarea:

• Daca λ < λα, atunci ipoteza (H0) se respinge;

• Daca λ > λα, atunci ipoteza (H0) se admite (sau, nu poate respinsa la acest nuvel de semni-

catie);

7.6.11 Tabel cu teste parametrice in Matlab

Nume test Statistica DescriereFuncµia

Matlab

testul ZZ =

X − µσ√n

∼ N (0, 1)Test pentru µ, cand σ cunoscut

ztest(o selecµie) X ∼ N (µ, σ), sau X oarecare (n ≥ 30)

testul Z (X1 −X2)− (µ1 − µ2)√σ21n1

+ σ22n2

∼ N (0, 1) Test pt µ1 − µ2, cand σ1, σ2 cunoscute−

(2 selecµii) X1, X2 ∼ N (µ, σ), independente

testul t X − µd∗(X)√

n

∼ t(n− 1)Test pentru µ, cand σ necunoscut

ttest(o selecµie) X ∼ N (µ, σ), sau X oarecare (n ≥ 30)

testul t (X1 −X2)− (µ1 − µ2)√d2∗(X1)n1

+ d2∗(X2)n2

∼ t(N) Test pt µ1 − µ2, cand σ1 6= σ2 necunoscutettest2

(2 selecµii) X1, X2 ∼ N (µ, σ), independente

testul χ2n− 1σ2

d2∗(X) ∼ χ2(n− 1)

Test pentru σ2, cand µ necunoscutvartest

(o selecµie) X ∼ N (µ, σ), sau X oarecare (n ≥ 30)

testul F σ22

σ21

d2∗1d2∗2∼ Fn1−1, n2−1

Test pt σ1/σ2, µ1, µ2− necunoscutevartest2

(2 selecµii) X1, X2 ∼ N (µ, σ), independente

Table 7.9: Tabel cu teste parametrice.

Page 195: Statistica Prin Matlab

184

7.7 Teste de concordanta

7.7.1 Testul χ2 de concordanµ

Acest test de concordanta poate utilizat ca un criteriu de vericare a ipotezei potrivit careia un

ansamblu de observatii urmeaza o repartitie data. Se aplica la vericarea normalitatii, a exponen-

tialitatii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit si testul χ2 al lui

Pearson sau testul χ2 al celei mai bune potriviri (en., goodness of t test).

Cazul neparametric

Consideram caracteristica X ce urmeaza a studiata, ce are legea de probabilitate data de f(x, θ),

unde θ ∈ Θ ⊂ R este un parametru. Se testeaza concordanta legii empirice cu legea teoretica f(x, θ).

Etapele testului χ2 de concordanta sunt:

• Descompunem multimea observatiilor asupra lui X (adica, X(Ω)) in clase, astfel:

X(Ω) =k⋃i=1

Oi, Oi⋂Oj = ∅, ∀i 6= j.

Se inregistreaza numerele ni de observatii ce apartin ecarei clase Oi. Evident,k∑i=1

ni = n.

Se doreste ca ni ≥ 5, pentru ca testul sa e concludent. In cazul in care numarul de aparitii

intr-o anumita clasa nu depaseste 5, atunci se vor cumula doua sau mai multe clase, astfel incat

in noua clasa sa e respectata conditia. In acest caz, trebuie tinut cont de modicarea numarului

de clase, iar numarul k trebuie modicat corespunzator (il inlocuim cu noul numar, notat aici

tot cu k).

• Formulam ipoteza nula

(H0) : pi = p0i , (i = 1, 2, . . . , k),

unde pi este probabilitatea unei observatii de a apartine clasei i si p0i sunt valori specicate. Daca

p0i nu sunt cunoscute, atunci ele vor trebui estimate mai intai (vezi cazul parametric de mai jos).

• Alegem statistica

χ2 =k∑i=1

(ni − n · pi)2

n · pi. (7.18)

Page 196: Statistica Prin Matlab

Teoria deciziei 185

(Valorile ni reprezinta numarul de valori observate in clasa i iar n pi este numarul estimat de

valori ale repartitiei cercetate ce ar cadea in clasa i. Astfel, ecare dintre termenii (ni−n·pi)2n·pi poate

privit ca ind o eroare relativa de aproximare a valorilor asteptate ale repartitiei cu valorile

observate.)

Statistica χ2 urmeaza repartitia χ2(k − 1). Uneori, statistica χ =√χ2 se numeste discrepanta.

• Alegem nivelul de semnicatie α, de regula, foarte apropiat de zero.

• Alegem regiunea critica pentru χ2 ca ind regiunea pentru care valoarea acestei statistici pentru

observatiile date satisface

χ20 > χ2

1−α; k−1,

unde χ21−α; k−1 este cuantila de ordin 1− α pentru repartitia χ2(k − 1.

• Daca ne aam in regiunea critica, atunci ipoteza nula (H0) se respinge la nivelul de semnicatie

α. Altfel, nu sunt dovezi statistice suciente sa se respinga.

Exerciµiu 7.19 Se arunca un zar de 60 de ori si se obtin rezultatele din Tabelul 7.10. Sa se decida,

la nivelul de semnicatie α = 0.02, daca zarul este corect sau fals.

Faµa Frecvenµa absoluta

1 15

2 7

3 4

4 11

5 6

6 17

Table 7.10: Tabel cu numarul de puncte obtinute la aruncarea zarului.

- Aplicam testul χ2 de concordanta, cazul neparametric. Clasele sunt i, i = 1, 6. Ipoteza nula

este

(H0) : pi =16, (i = 1, 2, . . . , 6),

Page 197: Statistica Prin Matlab

186

cu ipoteza alternativa:

(H1) : Exista un j, cu pj 6=16, (j ∈ 1, 2, . . . , 6).

Calculez valoarea statisticii χ2 data de (7.18) pentru observatiile date:

χ20 =

(15− 10)2

10+

(7− 10)2

10+

(4− 10)2

10+

(11− 10)2

10+

(6− 10)2

10+

(17− 10)2

10= 13.6.

Repartitia statisticii χ2 data de (7.18) este χ2 cu k − 1 = 5 grade de libertate. Regiunea critica este:

U = (χ20.98; 5; +∞) = (13.3882, +∞).

Deoarece χ20 se aa in regiunea critica, ipoteza nula se respinge la nivelul de semnicatie α = 0.02,

asadar zarul este fals. √

Observaµia 7.20 Daca nivelul de semnicatie este ales α = 0.01, atunci χ20.99; 5 = 15.0863, ceea ce

determina acceptarea ipotezei nule (adica zarul este corect) la acest nivel.

Codul Matlab:

k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6);

chi2 = sum((f-60*p).^2)./(60*p));

val = chi2inv(1-alpha,k-1);

H=(chi2 > val)

Cazul parametric

Acest caz apare atunci cand probabilitatile pi nu sunt a priori cunoscute si trebuie estimate. Fiecare

estimare ne va costa un grad de libertate. Sa presupunem ca legea de probabilitate a lui X de mai

sus este f(x, θ), unde θ = (θ1, θ2, . . . , θp) ∈ Θ ⊂ Rp sunt parametri necunoscuti. Folosim obsrvatiile

culese asupra lui X sa aproximam acesti parametri (de exemplu, prin metoda verosimilitatii maxime).

Ipoteza nula va aici:

(H0) : pi = pi, (i = 1, 2, . . . , k),

unde pi este probabilitatea unei observatii de a apartine clasei i si pi sunt valorile estimate. Odata

parametrii estimati, etapele testului in cazul parametric sunt cele de mai sus, cu deosebirea ca statis-

tica χ2 data prin (7.18) urmeaza repartitia χ2 cu (k − p− 1) grade de libertate. (se pierd p grade de

Page 198: Statistica Prin Matlab

Teoria deciziei 187

libertate din cauza folosirii observatiilor date pentru estimarea celor p parametri necunoscuti).

Etapele aplicarii testului χ2 de concordanta (parametric)

• Se dau α, x1, x2, . . . , xn, F (x; θ1, θ2, . . . , θp);

• Determinam intervalul (0, χ21−α; k−p−1), unde χ

21−α; k−p−1 este cuantila de ordin 1 − α pentru

repartitia χ2 cu (k − p− 1);

• Determinam estimarile de verosimilitate maxima θ1, θ2, . . . , θp;

• Determinam distributia empirica de selectie (tabloul de frecvente), X :

x′i

ni

i=1, n

,n∑i=1

ni = n;

• Se calculeaza pi = F (ai; θ1, θ2, . . . , θp)− F (ai−1; θ1, θ2, . . . , θp);

• Se calculeaza χ20 =

k∑i=1

(ni − n pi)2

n pi;

• Daca χ20 < χ2

1−α; k−p−1, atunci acceptam (H0), altfel o respingem.

Exerciµiu 7.21 La campionatul mondial de fotbal din 2006 au fost jucate in total 64 de meciuri,

numarul de goluri inscrise intr-un meci avand tabelul de distributie 7.11. Determinati (folosind un

nivel de semnicatie α = 0.05) daca numarul de goluri pe meci urmeaza o distributie Poisson.

- Aplicam testul χ2 neparametric. Fie X variabila ce reprezinta numarul de goluri inscrise pe

meci. Atunci, X ia una dintre valorile 0, 1, 2, 3, 4, 5, 6, cu frecventele respective din tabel. In totat

au fost inscrise 144 de goluri, deci numarul de goluri pe meci este estimat de media de goluri pe meci,

λ = x = 14464 = 2.25.

Avem astfel de testat ipoteza nula:

(H0) X urmeaza o lege Poisson P(λ).

vs. ipoteza alternativa

(H1) X nu urmeaza o lege Poisson P(λ).

Page 199: Statistica Prin Matlab

188

Nr. de goluri pe meci Nr. de meciuri

0 8

1 13

2 18

3 11

4 10

5 2

6 2

Table 7.11: Tabel cu numarul de goluri pe meci la FIFA WC 2006.

Din punct de vedere teoretic, daca X este o variabila aleatoare Poisson, atunci multimea tuturor

valorilor sale este multimea numerelor naturale, N. Daca admitem ipoteza (H0) (adica X ∼ P(2.25),

atunci pi = pi(λ) si tabloul de distributie a valorilor variabilei este: Deoarece pentru ultimele doua

Clasa ni pi n pin1 − n pin pi

0 8 0.1054 6.7456 0.2333

1 13 0.2371 15.1775 0.3124

2 18 0.2668 17.0747 0.0501

3 11 0.2001 12.8060 0.2547

4 10 0.1126 7.2034 1.0857

5 2 0.0506 3.2415 −

≥ 6 2 0.0274 1.7514 −

≥ 5 4 0.0780 4.9926 0.1973

Table 7.12: Tablou de distributie pentru P(2.25).

clase din tabelul 7.12, X = 5 si X ≥ 5, numerele n pi nu depasesc 5, le stergem din tabel si le unim

intr-o singura clasa, in care X ≥ 5, cu n pi = 4.9926 ≈ 5.

Ipoteza nula (H0) se poate rescrie astfel:

(H0) : p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p≥5 = 0.0780.

Page 200: Statistica Prin Matlab

Teoria deciziei 189

Ipoteza alternativa este

(H1) ipoteza (H0) nu este adevarata.

Calculam acum valoarea statisticii 7.18 pentru observatiile date:

χ20 =

(8− 6.7456)2

6.7456+

(13− 15.1775)2

15.1775+

(18− 17.0747)2

17.0747+

(11− 12.8060)2

12.8060+ . . .

+(10− 7.2034)2

7.2034+

(4− 4.9926)2

4.9926= 2.1336.

Deoarece avem 6 clase si am estimat parametrul λ numarul gradelor de libertate este 6 − 1 − 1 = 4.

Cuantila de referinta (valoarea critica) este χ20.95; 4 = 9.4877. Regiunea critica pentru χ2 este intervalul

(χ20.95; 4, +∞). Deoarece χ2

0 < χ20.95; 4, urmeaza ca ipoteza nula (H0) nu poate respinsa la nivelul de

semnicatie α. Asadar, este rezonabil sa armam ca numarul de goluri marcate urmeaza o repartitie

Poisson. √

Observaµia 7.22 Daca ipoteza nula este respinsa, atunci motivul poate acela ca unele valori ale

valorilor asteptate au deviat prea mult de la valorile asteptate. In acest caz, este interesant de ob-

servat care valori sunt extreme, cauzand respingerea ipotezei nule. Putem deni astfel reziduurile

standardizate:

ri =Oi − n pi√n pi (1− pi)

=Oi − Ei√Ei (1− pi)

,

unde prin Oi am notat valorile observate si prin Ei valorile asteptate. Daca ipoteza nula ar adevarata,

atunci ri ∼ N (0, 1). In general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere

observate extreme.

7.7.2 Testul de concordanta Kolmogorov-Smirnov

Acest test este un test de contingenta utilizat in compararea unor observatii date cu o repartitie

cunoscuta (testul K-S cu o selectie) sau in compararea a doua selectii (testul K-S pentru doua selectii).

De fapt, este cuanticat distanta dintre functia de repartitie empirica a selectiei si functia de repartitie

pentru repartitia testata, sau distanta intre doua functii de repartitie empirice. Testul Kolmogorov-

Smirnov cu doua selectii este unul dintre cele mai utile teste de contingenta pentru compararea a doua

selectii. In ecare caz, repartitiile considerate in ipoteza nula sunt repartitii de tip continuu.

Testul Kolmogorov-Smirnov este bazat pe rezultatul Teoremei 5.20.

Page 201: Statistica Prin Matlab

190

Testul K-S pentru o selectie

Acest test este mai puternic decat testul χ2, in cazul in care ipotezele testului sunt satisfacute.

Sa presupunem ca ne sunt date un set de date statistice si urmarim sa stabilim repartitia acestor date.

Mai intai, cautam sa stabilim ipoteza nula, de exemplu:

(H0) repartitia empirica a setului de date urmeaza o repartitie data, X,

ce are functia de repartitie teoretica F (x).

versus ipoteza alternativa (H1) care arma ca ipoteza (H0) nu este adevarata.

Studiind functia empirica de repartitie a acestui set de date, Kolmogorov a gasit ca (vezi relatia (5.7))

distanta dn = supx∈R|F ∗n(x)− F (x)| satisface relatia

limn→∞

P (√ndn < λ) = K(λ),

unde K(λ) =∞∑

k=−∞este functia lui Kolmogorov (tabelata). Daca ipoteza (H0) este adevarata, atunci

diferentele dn nu vor depasi anumite valori, dα;n. Este resc, asadar, sa consideram regiunea critica

(acolo unde (H0) nu are loc) ca ind acea regiune unde

P (dn > dα;n| (H0)− adevarata) = α,

unde α este nivelul de semnicatie. Dar, pentru orice n xat, sucient de mare, avem ca:

P (dn ≤ dα;n| (H0)− adevarata) = 1− P (dn > dα;n| (H0)− adevarata) = 1− α,

de unde alegem dα;n = λ1−α;n (cuantila de ordin 1− α pentru functia lui Kolmogorov).

Principiul de decizie este urmatorul:

• Daca dn satisface inegalitatea√ndn < λ1−α;n, atunci admitem ipoteza (H0);

• Daca dn satisface inegalitatea√ndn > λ1−α;n, atunci respingem ipoteza (H0);

Etapele aplicarii testului lui Kolmogorov-Smirnov pentru o selectie:

• Se dau α, F (x) si tabloul de frecvente X :

x′i

ni

i=1, n

, cun∑i=1

ni = n;

• Calculam λ1−α;n astfel incat K(λ1−α;n) = 1− α;

Page 202: Statistica Prin Matlab

Teoria deciziei 191

• Se calculeaza dn = supi=1, n

|F ∗n(ai)− F (ai)|, x′i = ai−1+ai2 ;

• Daca dn satisface inegalitatea√ndn < λ1−α;n, atunci admitem ipoteza (H0), altfel o respingem.

Exerciµiu 7.23 Intr-o anumita zi de lucru, urmarim timpii de asteptare intr-o statie de tramvai,

pana la incheierea zilei de lucru (adica, pana trece ultimul tramvai). Fie X caracteristica ce reprezinta

numarul de minute asteptate in statie, pana soseste tramvaiul. Rezultatele observatiilor sunt sumarizate

in Tabelul 7.13.

Se cere sa se cerceteze (α = 0.5) daca timpii de asteptare sunt repartizati exponential

Durata 0− 2 2− 5 5− 10 10− 15 15− 20 20− 30

ni 35 25 17 14 6 3

Table 7.13: Timpi de asteptare in statia de tramvai.

- Solutia 1 Folosim testul χ2 de concordanta, parametric. Avem de testat ipoteza nula

(H0) F (x) ∼= F0(x) = 1− e−λx, x > 0

vs. ipoteza alternativa

(H1) ipoteza (H0) este falsa.

Deoarece parametrul λ este necunoscut, va trebui estimat pe baza selectiei date, prin metoda verosimil-

itatii maxime. Functia de verosimilitate pentru exp(λ) este

L(x1, x2, . . . , xn; λ) =n∏k=1

λe−λx = λne

−λn∑i=1

xi

= λne−λnx

Punctele critice pentru L(λ) sunt date de ecuatia

∂ lnL∂λ

= 0 =⇒ ∂

∂λ(n lnλ− λnx) =⇒ λ =

1x.

Se observa cu usurinta ca∂2 lnL∂λ2

|λ=λ = −nx2 < 0,

de unde concluzionam ca λ este punct de maxim pentru functia de verosimilitate.

Pentru i = 1, 2, . . . , 6, calculez probabilitatile

p(0)i = P (X ∈ (ai−1, ai] | F = F0) = F0(ai; λ)− F0(ai−1; λ)

Page 203: Statistica Prin Matlab

192

Durata (0, 2] (2, 5] (5, 10] (10, 15] (15, 20] (20, +∞)

p(0)i 0.2917 0.2861 0.244 0.103 0.0435 0.0318

Table 7.14: Probabilitati de asteptare in statia de tramvai.

Completam tabelul de frecvente, Tabelul 7.14. Numarul gradelor de libertate este k − p − 1 = 4.

Calculam valoarea χ20.95; 4 = 9.4877 si, de asemenea,

χ20 =

k∑i=1

(ni − n p(0)i )2

n p(0)i

= 1.1887.

Deoarece χ20 < χ2

0.95; 4, ipoteza (H0) nu poate respinsa la acest nivel de semnicatie. Codul Matlab

este urmatorul:

x = [ones(35,1);2.5*ones(25,1);7.5*ones(17,1);12.5*ones(14,1);...

17.5*ones(6,1);25*ones(3,1)];

l = 1/mean(x); % estimatorul

F = inline('1-exp(-l*t)'); % functia de repartitie

p1 = F(l,2)-F(l,0); p2 = F(l,5)-F(l,2); p3 = F(l,10)-F(l,5);

p4 = F(l,15)-F(l,10);p5 = F(l,20)-F(l,15); p6 = F(l,1e6)-F(l,20);

n = [35, 25, 17, 14, 6, 3]; p = [p1, p2, p3, p4, p5, p6];

chi2 = (n-100*p).^2/(100*p); cuant = chi2inv(0.95,4);

if (chi2 < cuant)

disp('ipoteza (H0) se admite');

else

disp('ipoteza (H0) se respinge');

end

Solutia 2 Folosim testul Kolmogorov-Smirnov ... √

Exerciµiu 7.24 (de vericare a normalitatii) Se considera caracteristica X ce reprezinta inaltimea

barbatilor (in centimetri) dintr-o anumita regiune a unei tari. S-a facut o selectie de volum n = 200,

iar datele de selectie au fost grupate in Tabelul 7.15.

Se cere sa se verice normalitatea lui X

a) utilizand testul de concordanta χ2, cu nivelul de semnicatie α = 0.05;

Page 204: Statistica Prin Matlab

Teoria deciziei 193

b) utilizand testul de concordanta Kolmogorov-Smirnov, cu nivelul de semnicatie α = 0.05.

Clasa (−∞, 165] (165, 170] (170, 175] (175, 180] (180, 185] (185, 190] (190, 195] (195, 200] (200, +∞]

ni 12 23 31 43 35 27 17 9 3

Table 7.15: Frecventa inaltimii barbatilor dintr-o anumita regiune.

Teste de concordanµ în Matlab

Am vazut deja ca functia chi2gof(x) testeaza (folosind testul χ2) daca vectorul x provine dintr-o

repartitie normala, cu media si dispersia estimate folosind x.

[ h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)

[h, p, ksstat, cv] = kstest(x, F, alpha, type)

Page 205: Statistica Prin Matlab

194

7.8 Exercitii propuse

Exerciµiu 7.2 Intr-un oras A, 325 de locuitori din 1500 interogati declara ca nu detin un computer.

Intr-un alt oras, B, 412 din 1800 declara acelasi lucru. Sa se testeze daca proportia de locuitori care nu

detin un computer este aceeasi în ambele orase. (α = 0.05) Facem presupunerea ca numarul cetatenilor

dintr-un oras ce nu detin nu computer are o repartitie uniforma continua.

Exerciµiu 7.3 Intr-un spital s-a inregistrat de-alungul timpului sexul copiilor a 564 mame care au

cate 4 copii. Rezultatele sunt cele din Tabelul 7.16. Testati ipoteza ca in ecare familie probabilitatea

Numar de copii Frecventa

4 fete 38

3 fete si un baiat 138

2 fete si 2 baieti 213

o fata si 3 baieti 141

4 baieti 34

Table 7.16: Distributia copiilor intr-o familie cu 4 copii.

de a apare la nastere a un baiat este aceeasi cu cea de a apare o fata.

Exerciµiu 7.4 Caracteristica X reprezinta cheltuielile lunare pentru convorbirile telefonice ale unei

familii. In urma unui sondaj la care au participat 100 de familii, am obtinut datele (repartitia de

frecvente): [50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)

6 11 13 18 20 14 11 7

.

(i) Sa se verice, cu nivelul de semnicatie α = 0.02, ipoteza ca media acestor cheltuieli lunare pentru

o singura familie este de 140RON , stiind ca abaterea standard este 35RON .

(ii) Sa se verice aceeasi ipoteza, in cazul in care abaterea standard nu este cunoscuta a priori.

Page 206: Statistica Prin Matlab

Bibliography

[1] Petru Blaga, Statistica. . . prin Matlab, Presa universitara clujeana, Cluj-Napoca, 2002.

[2] Virgil Craiu, Teoria probabilitatilor cu exemple si probleme, Editura Fundatiei "Romania de

Maine", Bucuresti, 1997.

[3] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-

ROM), Duxbury Press, 2006, ISBN: 0534404731.

[4] David Freedman, Robert Pisani, Roger Purves, Statistics, W. W. Norton & Company, Inc., 4th

edition, 2007, ISBN: 0393929728

[5] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, Pren-

tice Hall, 6th edition, 2004, ISBN: 0130085073.

[6] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic enciclopedie de

statistic , Editura stiintica si enciclopedica, Bucuresti, 1985.

[7] Gheorghe Mihoc, N. Micu, Teoria probabilitatilor si statistica matematica, Bucuresti, 1980.

[8] Elena Nenciu, Lectii de statistica matematica, Universitatea A.I.Cuza, Iasi, 1976.

[9] Octavian Petru³, Probabilitati si Statistica matematica - Computer Applications, Ia³i, 2000.

[10] Dan Stefanoiu, Ghid de utilizare MATLAB, Editura Transilvania, Brasov, 1994.

1


Recommended