+ All Categories
Home > Documents > Statistic A- Suport de Curs

Statistic A- Suport de Curs

Date post: 10-Apr-2018
Category:
Upload: tabuncic-victor
View: 221 times
Download: 0 times
Share this document with a friend
91
Conf. dr. Virgil Stoica Statistică aplicată în ştiinţele politice Introducere De ce avem nevoie de statistică? În ultimele decenii, se poate observa o creştere a utilizării metodelor statistice în toate ştiinţele sociale. Există mai multe motive pentru acest lucru. Cercetarea în ştiinţele sociale a căpătat o orientare tot mai cantitativă. Revoluţia produsă de calculatoarele personale la sfârşitul secolului XX a făcut ca atât cercet ătorii cât şi indivizii obi şnui ţ i să aibă acces la o cantitate foarte mare de informaţ ii. În plus, calculatoarele au făcut ca metodele statistice să fie mai uşor de folosit. Utilizarea tot mai frecvent ă a statisticii este evidentă pentru cineva care urmăreşte conţinutul articolelor unor jurnale ştiinţifice prestigioase (American Political Science Review, American Journal of Political Science sau American Sociological Review). Anunţurile de angajări pentru specialişti în ştiinţele sociale enumeră statistica printre cunoştinţele absolut necesare. Din aceste motive, un student care se pregăteşte în domeniul ştiinţelor sociale trebuie să fie familiarizat măcar cu noţiuni de bază de statistică. Strângerea informaţiilor se află în centrul oricărei ştiinţe. Ştiinţele sociale utilizează o largă varietate de tehnici de culegere a informaţiilor care să fie utilizate în analiza statistică: experimente, anchete de diferite tipuri, analiza de conţinut a unor documente, etc. În plus, sunt analizate informaţii produse pentru alte scopuri, cum ar fi rapoarte ale poliţiei, date din recensăminte sau informaţii medicale. Un cercetător foloseşte metodele statistice pentru: - pr oiec ta rea unei c er ce t ă ri, - desc ri er ea , rez umarea ş i ex pl or ar ea da te lor, - produc erea d e inf erenţ e (pr edicţ ii sa u gene rali zări p ornin d de l a un set de date). În secolul XXI, nu doar un analist politic, ci orice persoană cu funcţie de conducere are acces la o mare cantitate de informaţii. Problema majoră constă în modul în care este utilizată această cantitate enormă de informaţii pentru a lua cele mai bune decizii. Din această perspectivă orice persoană care are o funcţie de răspundere ar trebui să înţeleagă statistica din umătoarele motive: 1. pentr u a şti cum s ă prezinte şi să des crie in forma ţiile într- un mod cor espunză tor 1
Transcript
Page 1: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 1/91

Conf. dr. Virgil Stoica

Statistică aplicată în ştiinţele politice

Introducere

De ce avem nevoie de statistică?

În ultimele decenii, se poate observa o creştere a utilizării metodelor statistice în toate ştiinţele

sociale. Există mai multe motive pentru acest lucru. Cercetarea în ştiinţele sociale a căpătat o orientare tot

mai cantitativă. Revoluţia produsă de calculatoarele personale la sfârşitul secolului XX a făcut ca atât

cercetătorii cât şi indivizii obişnuiţi să aibă acces la o cantitate foarte mare de informaţii. În plus,calculatoarele au făcut ca metodele statistice să fie mai uşor de folosit. Utilizarea tot mai frecventă a

statisticii este evidentă pentru cineva care urmăreşte conţinutul articolelor unor jurnale ştiinţifice prestigioase

(American Political Science Review, American Journal of Political Science sau American Sociological

Review). Anunţurile de angajări pentru specialişti în ştiinţele sociale enumeră statistica printre cunoştinţele

absolut necesare. Din aceste motive, un student care se pregăteşte în domeniul ştiinţelor sociale trebuie să fie

familiarizat măcar cu noţiuni de bază de statistică.

Strângerea informaţiilor se află în centrul oricărei ştiinţe. Ştiinţele sociale utilizează o largă varietate

de tehnici de culegere a informaţiilor care să fie utilizate în analiza statistică: experimente, anchete de

diferite tipuri, analiza de conţinut a unor documente, etc. În plus, sunt analizate informaţii produse pentru

alte scopuri, cum ar fi rapoarte ale poliţiei, date din recensăminte sau informaţii medicale. Un cercetător 

foloseşte metodele statistice pentru:

- proiectarea unei cercetări,

- descrierea, rezumarea şi explorarea datelor,

- producerea de inferenţe (predicţii sau generalizări pornind de la un set de date).

În secolul XXI, nu doar un analist politic, ci orice persoană cu funcţie de conducere are acces la omare cantitate de informaţii. Problema majoră constă în modul în care este utilizată această cantitate enormă

de informaţii pentru a lua cele mai bune decizii. Din această perspectivă orice persoană care are o funcţie de

răspundere ar trebui să înţeleagă statistica din umătoarele motive:

1. pentru a şti cum să prezinte şi să descrie informaţiile într-un mod corespunzător 

1

Page 2: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 2/91

2. pentru a şti cum să tragă concluzii despre o populaţie pornind doar de la informaţiile obţinute de

la un eşantion

3. pentru a şti cum să îmbunătăţescă procesul de producţie

4. pentru a şti cum să obţină previziuni de încredere

Metodele statistice sunt utilizate nu doar în cercetările sociale ci şi în domeniul afacerilor, incontabilitate, finanţe, magement şi marketing. De aceea, acest curs va oferi exemple nu doar din ştiinţele

sociale ci şi din alte domenii în care statistica este absolut necesară şi în special din management.

Dezvoltarea statisticii moderne

Există trei motive principale care au dus la dezvoltarea statisticii: nevoia guvernelor de a colecta

informaţii despre cetăţenii lor, dezvoltarea matematicii şi a teoriei probabilităţii şi evoluţia calculului

electronic.

Culegerea informaţiilor despre cetăţeni este o activitate specifică oricărei civilizaţii. În Egiptul antic,

in cetăţile-stat greceşti sau în Imperiul Roman, astfel de informaţii erau utilizate în special pentru impozitare

şi pentru recrutarea militară. În evul mediu, biserica ţinea registre despre căsătorii, naşteri şi decese. În epoca

modernă (SUA, 1790) a apărut ideea recensământului populaţiei la fiecare 10 ani. Nevoia de informaţii la

nivelul unui stat a fost strâns legată de dezvoltarea statisticii descriptive, metodă care se concentrează pe

colectarea, prezentarea şi caracterizarea unui set de date, cu scopul de a descrie diferitele trăsături ale acelui

set de informaţii.

În paralel cu această evoluţie s-a desfăşurat şi dezvoltarea matematicii despreteoria probabilităţilor. Aceasta a pornit de la studierea jocurilor de noroc în perioada

Renaşterii, bazele teoriei probabilităţilor fiind puse la mijlocul secolului al XVII-lea

de corespondenţa dintre matematicianul Pascal şi jucătorul Chevalier de Mere.

Îmbunătăţirile aduse de matematicieni ca Bernoulli, DeMoivre şi Gauss au pregătit

apariţia statisticii inferenţiale. Aceasta face posibilă estimarea caracteristicilor unei

 populaţii doar pe informaţiile culese de la un eşantion. Statisticieni precum Pearson,

Fisher, Gosset, Neyman, Wald şi Tukey au dezvoltat statistica inferenţială care este

astăzi larg răspândită în orice domeniu. Nevoia unor astfel de metode a provenit din

nevoia de eşantionare. Cu cât o populaţie devine mai mare, cu atât este mai dificil şi

mai costisitor să se strângă informaţii despre ea, luată ca întreg. Deciziile despre

caracteristicile populaţiei trebuie luate pe baza informaţiilor culese de la un eşantion.

Teoria probabilităţii prezintă şansele ca anumite informaţii extrase din eşantion să

reflecte în mod corect caracterisiticile întregii populaţii.

2

Populaţie – totalitatea itemilor sau elementelor luate în consideraţieParametru – o măsură caredescriecaracteristicile unei populaţiiEşantion – o porţiune dintr-o populaţie, care este

selectaă pentruanalizăInformaţiestatistică – omăsură calculată pe baza unui eşantion,care este utilizată pentru a descrie sau pentru a estimaîntreaga populaţie

Page 3: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 3/91

Aceste dezvoltări au fost puternic susţinute de evoluţia calculatoarelor, care asigură astăzi posibilităţi

de calcul la care primii statisticieni nici măcar nu visau. Începând cu anii ’60 şi ’70 au început să apară

 programe de statistică. În anii ’80 au apărut programele statistice utilizate şi astăzi, cum ar fi SAS, SPSS sau

Minitab. Alte programe, utilizate iniţial în scopuri diferite (Microsoft Exel), au căpătat abilităţi statistice.

Disponibilitatea actuală a softului statististic a dus la o răspândire fără precedent a utilizării metodelor statistice în cercetare, în afaceri sau în luare deciziilor.

1. Măsurare şi eşantionare

1.1. Tipuri de variabile

Metodele statistice asigură o modalitate de a gestiona variabilitatea. Variaţia apare între oameni, între

şcoli, între oraşe, între diverse obiecte care ar putea să constituie obiectul nostru de interes în viaţa de zi cu

zi. De exemplu, variaţia apare de la o persoană la alta în funcţie de caracteristici precum venitul, inteligenţa,

 preferinţa politică, credinţa religioasă, statusul marital, etc. Natura şi mărimea variabilităţii au consecinţe

importante atât pentru statistica descriptivă, cât şi pentru cea inferenţială.

O variabilă este o caracteristică ce poate varia între subiecţii unui eşantion sau a unei populaţii.

Fiecare subiect are anumite valori pentru o variabilă, însă subiecţi diferiţi pot avea valori diferite. Exemple

de variabile: gen (cu valorile masculin şi feminin), vârsta (cu valorile 0, 1, 2, 3, etc), religia (cu valorile:

ortodox, catolic, protestant, mozaic, musulman, etc), numărul de copii în familie (0, 1, 2, etc), preferinţa politică (PNL, PD, PSD, PRM, PPCD, etc)

Modul de analiză a unei variabile depinde de modul în care acea variabilă este măsurată. Variabilele

numerice, cum ar fi venitul, trebuie tratate în mod diferit de variabilele care sunt măsurate prin intermediul

unor etichete, cum ar fi preferinţa pentru un anumit partid. Dacă în primul caz putem discuta despre medie

ca o măsură a venitului, în al doilea caz, acest lucru este absurd. Mai departe vor fi introduse două metode de

clasificare a variabileleor.

Variabile calitative şi variabile cantitative

Informaţiile sunt numite calitative atunci când pentru măsurarea lor se foloseşte un set de categorii

care nu sunt ordonate în nici un fel. Exemple de date calitative: statusul marital (necăsătorit, căsătorit,

divorţat, văduv), localitatea de reşedinţă, apartenenţa religioasă, preferinţa politică, etc. Pentru variabilele

calitative, categoriile diferă între ele prin calitate şi nu prin cantitate sau magnitudine.

Atunci când posibilele valori ale unei variabile diferă diferă în magnitudine, variabila este numită

cantitativă. Fiecare valoare posibilă a unei variabile cantitative este mai mare sau mai mică decât orice altă

3

Page 4: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 4/91

valoare posibilă. Astfel de comparaţii sunt cu putinţă pentru variabile măsurate pe o scală numerică.

Exemple de variabile cantitative: venitul anual, numărul de ani de educaţie, numărul de fraţi, de câte o ori o

 persoană a fost condamnată, etc.

Setul de categorii pentru o variabilă calitativă este numit scală nominală, iar setul de valori numerice

 pentru o variabilă cantitativă se numeşte scală interval. Scalele interval au o anumită distanţă sau un anumit„interval” între fiecare pereche de niveluri. Venitul lunar este măsurat pe o astfel de scală interval; intervalul

dintre 2000 si 3000 RON, de exemplu, este de 1000 RON. Astfel se pot face comparaţii între niveluri

diferite ale venitului, comparaţii care nu au nici un sens pentru o scală nominală. Într-un anumit sens există

şi un al treilea tip de scală, situată între scala nominală şi cea interval. Este vorba despre o scală categorică,

având o ordine naturală a valorilor, dar fără a putea identifica distanţa dintre valori. Aceasta este scala

ordinală. De exemplu: poziţia în spectrul politic (stânga, centru-stânga, centru, centru-dreapta, dreapta),

opinia faţă de mărimea cheltuielilor cu protecţia socială (prea mici, normale, prea mari), etc.

Principalul motiv pentru care se face distincţia dintre datele cantitative şi cele calitative este că, aşa

cum s-a mai spus, pentru fiecare tip de date se aplică metode statistice diferite.

Variabile discrete şi variabile continue

O altă modalitate de a clasifica variabilele ţine cont numărul de valori cuprinse în scala de măsurare.

O variabilă este numită discretă dacă ea poate lua doar un număr finit de valori şi este numită continuă dacă

 poate lua ca valori un număr infinit de numere reale.

Exemple de variabile discrete: numărul de copii ai fiecărei familii, numărul de infracţiuni într-un an,

numărul de vizite la medic în ultimul an, etc. Oricare dintre variabilele anterioare numite „numărul de...”este o variabilă discretă, întrucât poate lua doar valori din mulţimea {0, 1, 2, 3, 4, …}.

Exemple de variabile continue: înălţimea, greutatea, vârsta, venitul, etc. Este imposibil de precizat

toate valorile posibile ale unei variabile continue. Greutatea unei persoane poate fi 73,82035... kg, funcţie de

 precizia cu care este făcută măsurătoarea.

În cazul variabilelor discrete nu se poate subdiviza unitatea de măsură. Numărul de copii într-o

familie poate fi 2 sau 3, dar în nici un caz, 2,57. Pe de altă parte, o colecţie de valori ale unei variabile

continue poate fi oricând redefinită între două valori posibile. Orice vârstă cuprinsă între 20 şi 20,5 ani, de

exemplu, poate fi rotunjită la 20 de ani, iar orice vârstă cuprinsă între 20,5 şi 21 de ani poate fi rotunjită la 21

de ani.

Variabilele calitative sunt discrete, ele având un set finit de categorii. Variabilele cantitative pot fi

atât discrete cât şi continue.

4

Page 5: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 5/91

1.2. Eşantionare şi tipuri de eşantioane

Statistica inferenţială utilizează eşantioanele pentru a face predicţii despre parametrii populaţiilor din

care acestea au fost extrase. Calitatea inferenţei depinde în mod esenţial de modul în care eşantionul

reprezintă populaţia.

Procesul de eşantionare începe prin definirea cadrului de eşantionare. Acesta cuprinde o listăcompletă sau parţială a itemilor care compun populaţia. Cadrul de eşantionare poate fi o listă de un anumit

tip a populaţiei: lista alegătorilor, lista abonaţilor telefonici dintr-o localitate sau cea a locuinţelor conectate

la reţeaua de electricitate. Subiecţii unei populaţii pot fi indivizi, familii, şcoli, locuinţe, oraşe, spitale, etc.

Dacă anumite grupuri din populaţie nu sunt incluse în cadrul de eşantionare, atunci eşantionul nu va fi

corect.

Există două mari grupuri de eşantioane: probabilistice şi neprobabilistice.

Un eşantion probabilistic este acela în care subiecţii sunt aleşi pe baza unei

 probabilităţi cunoscute. Un eşantion neprobabilistic este acela în care elemen-

tele componente sunt alese fără să se ţină cont de probabilitatea apariţiei lor.

Pentru anumite studii, eşantioanele neprobabilistice, aşa cum sunt cele pe cote,

cele intenţionate sau cele convenabile, sunt suficiente. Aceste eşantioane au unele

avantaje faţă de cele probabilistice, cum ar fi uşurinţa şi viteza cu care pot fi

construite, precum şi costul scăzut. Pe de altă parte, ele au două dezavantaje majore: lipsa de acurateţe şi

imposibilitatea generalizării. Din aceste motive, eşantioanele neprobabilistice pot fi utilizate doar atunci

când dorim o aproximare grosieră la un cost scăzut pentru a ne satisface o curiozitate personală sau atuncicând dorim să realizăm un studiu pilot, care va fi urmat mai târziu de o cercetare mult mai riguroasă.

Eşantioanele probabilistice trebuie utilizate ori de câte ori este posibil, deoarece doar ele asigură o

corectă inferenţă statistică de la eşantion la populaţie. Există patru tipuri de eşantioane probabilistice:

eşantionul aleatoriu simplu, eşantionul sistematic, cel startificat şi cel de tip cluster. Aceste tipuri diferă între

ele prin cost, acurateţe şi complexitate.

Un eşantion aleator simplu este acela în care fiecare element din cadrul de eşantionare are aceeaşi

şansă de a fi selectat. Pentru a putea utiliza un astfel de eşantion este necesar, în primul rând, să existe o listă

completă a populaţiei. Apoi de pe această listă se poate extrage eşantionul dorit utilizând metoda loteriei sau

un tabel cu numere aleatoare sau un calculator care să genereze numere aleatoare.

În cazul unui eşantion sistematic, cei N indivizi care formează cadrul de eşantionare (populaţia) sunt

împărţiţi în k grupuri, prin împărţirea populaţiei la mărimea dorită a eşantionului n. Apoi este ales, în mod

aleator, un individ din primul grup, iar restul eşantionului este obţinut prin selecţia al fiecărui k element din

fiecare grup. De exemplu, dacă vrem să extragem un eşantion sistematic de 40 de indivizi dintr-o populaţie

5

Motive pentru autiliza un eşantion înlocul unui

recensământ alîntregii populaţii:1.necesită mai puţin

timp2.costă mai puţin3.este mai uşor de

administrat

Page 6: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 6/91

de N = 800, populaţia va fi împărţită în 800/40 = 20 de grupuri. Este ales în mod aleator un număr din primul

grup, să spunem 9, apoi fiecare al 20-lea de după acesta: 29, 49, 69,..., 769 şi 789.

Deşi sunt uşor de utilizat, eşantionarea aleatorie simplă şi eşantionarea sistematică sunt în general

mai puţin eficiente decât alte metode mai sofisticate şi nu se poate şti dacă eşantionul este într-adevăr 

reprezentativ. În cazul eşantioanelor sistematice, posibilitatea de eroare este chiar mai mare, în cazul în carecadrul de eşantionare este organizat după un anumit model.

În cazul unui eşantion stratificat, cei  N indivizi ai populaţiei sunt împărţiţi în câteva subpopulaţii,

sau straturi, în conformitate cu anumite caracteristici. Este extras câte un eşantion aleator simplu din fiecare

strat, iar eşantioanele rezultate sunt combinate. Această metodă de eşantionare este mai eficientă decât cele

anterioare, deoarece asigură reprezentarea indivizilor din întreaga populaţie, ceea ce oferă o mai mare

 precizie în estimarea parametrilor populaţiei.

Pentru a construi un eşantion de tip cluster , cei N indivizi care formează populaţia sunt împărţiţi în

câţiva clusteri, astfel încât fiecare dintre aceştia este reprezentativ pentru întreaga populaţie. Apoi este extras

un eşantion aleator simplu din fiecare cluster . Clusterele sunt zone în care populţia este grupată în mod

natural, cum ar fi judeţe, localităţi, cartiere, străzi, etc. Această metodă poate fi mai eficace şi mai puţin

costisitoare decât cea a eşantionării simple aleatoare, mai ales când populaţia este răspândită peste o arie

geografică largă.

Exerciţii

1. Următoarele variabile sunt cantitative sau calitative?a. Numărul de animale de casă

 b. Judeţul de reşedinţă

c. Autoturismul ales (de producţie internă sau de import)

d. Distanţa (în km) până la locul de muncă

e. Dieta (vegetariană sau nevegetariană)

f. Timpul petrecut săptămâna trecută pe internet

g. Deţinerea unui calculator personal (da, nu)

h. Numărul de persoane bolnave de SIDA pe care le cunoaşteţi personal

2. Care din scalele de măsură (nominlă, ordinală sau interval) este mai potrivită pentru:

a. Atitudinea faţă de interzicerea avortului

 b. Numărul de fraţi

c. Genul

d. Afilierea partinică

6

Page 7: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 7/91

e. Religia

f. Ideologia politică (de stânga,..., de dreapta)

g. Numărul de ani de şcoală terminaţi

h. Cea mai înaltă diplomă obţinută

3. Care din scalele de măsură este mai potrivită pentru următoarele variabile?a. Ocupaţia

 b. Statusul ocupaţional (muncitor, ţăran, intelectual,...)

c. Rata infracţionalităţii (nr. de infracţiuni la 1000 de locuitori)

d. Populaţia localităţii

e. Rata de creştere a populaţiei (în %)

f. Tipul de localitate (comună, oraş, municipiu)

g. Venitul anual

h. Atitudinea faţă minorităţile sexuale (favorabilă, neutră, nefavorabilă)

4. Care dintre următoarele variabile pot fi considerate continue?

a. Vârsta

 b. Numărul de copii din familie

c. Venitul soţului/soţiei

d. Populaţia localităţii

e. Metoda de contracepţie utilizată

f. Latitudinea şi longitudinea localităţiig. Distanţa până la locul de muncă

h. Judeţul de reşedinţă

5. Să presupunem că următoarele informaţii sunt culese de la studenţii care cumpără cărţi de la o

librărie.

a. Suma de bani cheltuită pe cărţi

 b. Numărul de cărţi cumpărate

c. Timpul petrecut în librărie

d. Specializarea

e. Genul

f. Deţinerea unui calculator personal

g. Deţinerea unui video/DVD player 

h. Metoda de plată

7

Page 8: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 8/91

Identificaţi tipurile de variabile. Dacă variabila este numerică, detrerminaţi dacă este discretă sau

continuă.

6. Pentru un studiu care constă în interviuri cu participanţii, explicaţi de ce un eşantion simplu aleator 

 poate fi mai puţin practic decât alte metode.

7. Rectorul unei universităţi cu N=4000 de studenţi solicită biroului de evaluare academică să efectuezeo anchetă prin care să măsoare satisfacţia studenţilor. Următorul tabel conţine o clasificare a

studenţilor, funcţie de gen şi de anul de studii.

Genul Anul 1 Anul 2 Anul 3 Anul 4 TotalFemeie 700 520 500 480 2200Bărbat 560 460 400 380 1800Total 1260 980 900 860 4000

Biroul de evaluare intenţionează să extragă un eşantion de n=200 de studenţi.

a. Dacă universitatea dispune de o listă alfabetică a celor 4000 de studenţi (ceea cereprezintă cadrul de eşantionare), ce tip de eşantionare poate fi folosit? Discutaţi.

 b. Care este avantajul utilizării unui eşantion aleator simplu la punctul a?

c. Care este avantajul utilizării unui eşantion sistematic la punctul a?

d. În cazul în care cadrul de eşantionare este reprezentat de opt liste separate, în ordine

alfabetică, pe gen şi an de studiu, ce tip de eşantion ar trebui folosit? Discutaţi.

e. Să presupunem că toţi studenţii respectivei universităţi locuiesc în 20 de cămine. Fiecare

cămin are patru niveluri, cu 50 de paturi pe nivel, deci poate primi 200 de studenţi. Să  presupunem în continuare că politica universităţii este de a integra studenţii, deci pe

fiecare etaj al fiecărui cămin vor fi camere de băieţi şi camere de fete, de la specializari

diferite şi din ani diferiţi. Dacă biroul de evaluare reuşeşte să construiească un cadru de

eşantionare constând într-o listă cu toţi studenţii aşa cum sunt ei dispuşi în fiecare cămin

şi pe fiecare etaj, ce tip de eşantion ar trebui utilizat. Discutaţi.

2. Statistică descriptivă. Tabele şi grafice

8

Page 9: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 9/91

2.1. Organizarea datelor numerice

Dacă pentru un set de date compus doar din câteva observaţii nu este o problemă observarea

trăsăturilor majore, acest lucru devine tot mai dificil pe măsură ce numărul de observaţii devine mai mare.

De aceea este nevoie de organizarea informaţiilor. Pentru acest lucru sunt folosite două metode: şirul ordonat

şi dispunerea sub formă de „creangă şi frunze”.Un şir ordonat reprezintă o secvenţă ordonată de informaţii, aranjate de la cea mai mică la cea mai

mare. De exemplu, să presupunem că durata de şedere, în zile, a unor pacienţi într-un centru de

dezalcoolizare este următoarea: 11, 37, 22, 6, 20, 9, 61, 18, 24, 16, 13, 4, 39, 13, 44, 19 şi 7. Şirul ordonat

va fi în acest caz: 4, 6, 7, 9, 11, 13, 13, 16, 18, 19, 20, 22, 24, 37, 39, 44, 61. Un astfel de şir face mai uşoară

observarea extremelor, a valorilor tipice şi a zonelor în care valorile se concentrează.

Dispunerea sub formă de „creangă şi frunze” este o unealtă utilă pentru organizarea unui set de date

şi pentru înţelegerea modului în care valorile sunt distribuite şi grupate. O astfel de dispunere separă în

cifra/cifrele de intrare („creanga”) şi celelalte cifre („frunzele”), fiecare în ordine crescătoare. Dacă ne

referim la exemplul anterior, atunci o distribuţie creangă şi frunze arată aşa:

Creanga Frunzele012345

6

4, 6, 7, 91, 3, 3, 6, 8, 90, 2, 47, 94

1

2.2. Tabele şi grafice pentru date numerice

Distribuţia frecvenţelor

Indiferent de modul în care sunt ordonate datele, fie în şir crescător, fie sub formă de „crengă şi

frunze”, atunci când numărul de cazuri creşte, informaţia trebuie să fie condensată şi mai mult pentru a putea

fi prezentată, analizată şi interpretată în mod corespunzător. Astfel, informaţiile pot fi grupate în categorii ale

căror limite sunt stabilite funcţie de împrăştierea observaţiilor. O astfel de aranjare a datelor sub formă de

tabel se numeşte distribuţia frecvenţelor.Atunci când observaţiile sunt grupate într-o distribuţie de frecvenţe, procesul de analiză şi

interpretare a datelor devine mai uşor. Principalele caracteristici ale datelor pot fi aproximate, ceea ce

compensează faptul ca prin grupare informaţia iniţială, legată de fiecare observaţie individuală, este pierdută.

Atunci când se construieşte o distribuţie de frecvenţe sunt câteva etape care trebuie parcurse: punerea

datelor în ordine, stabilirea numărului de categorii, de clase, în care sunt grupate datele, stabilirea mărimii

9

Page 10: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 10/91

fiecărei clase, stabilirea frontierelor fiecărei categorii şi, în final, punerea fiecărei observaţii în categoria

corespunzătoare.

Alegerea numărului de clase în care se va grupa informaţia depinde în primul rând de numărul de

observaţii. Un număr mai mare de obdervaţii permite un număr mai mare de categorii. În general, o

distribuţie de frecvenţe are între 5 şi 15 clase. Dacă sunt prea puţine clase nu se poate observa nici odistribuţie iar dacă sunt prea multe clase, unele dintre ele nu vor avea nici o observaţie. Într-o distribuţie de

frecvenţe, lăţimile claselor trebuie să fie egale. Pentru a determina lăţimea unei clase se împarte

amplitudinea variaţiei observaţiilor (din cea mai mare valoare se scade cea mai mică) la numărul dorit de

clase. Frontierele fiecărei categorii categorii trebuie să fie foarte clare, astfel încât să nu rămână date

neacoperite sau suprapuneri.

Exemplu: trebuie construită o distribuţie a frecvenţelor pentru următoarele date obţinute la un test de

cunoştinţe: 16, 2, 16, 29, 15, 7, 25, 16, 5, 19, 1, 12, 22, 10, 29, 20.

1. Punerea datelor în ordine: 1, 2, 5, 7, 10, 12, 15, 16, 16, 16, 19, 20, 22, 25, 29, 29.

2. Stabilirea numărului de categorii: 3

3. Calcularea lăţimii fiecărei categorii: (29-1)/3 =9,333; se poate aproxima la 10.

4. Stabilirea frontierelor fiecărei categorii: 0 – 9; 10 – 19; 20 – 29.

5. Punerea fiecărei observaţii în categoria corespunzătoare:

Categoria Frecvenţa0 – 9

10 – 19

20 – 29

47

5Total 16

Principalul avantaj al unui astfel de tabel îl reprezintă faptul că principalele caracteristici ale

informaţiei devin clare foarte uşor: scorurile variază între 0 şi 29, dar cele mai multe sunt în categoria de

mijloc. Pe de altă parte, dezavantajul major al distribuţiei frecvenţelor este că, fără acces la datele originale,

nu se poate cunoaşte distribuţia valorilor în interiorul unei anumite clase.

Distribuţia frecvenţelor relative şi distribuţia procentuală

Pentru a îmbunătăţi analiza, se pot utiliza fie distribuţia frecvenţelor relative, fie distribuţia

 procentuală. Distribuţia frecvenţelor relative este formată prin împărţirea frecvenţelor din fiecare clasă lanumărul total de observaţii. Distribuţia procentuală rezultă prin înmulţirea fiecărei frecvenţe relative cu

100.

Categoria Frecvenţa Frecvenţarelativă

Procentul

10

Page 11: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 11/91

0 – 910 – 1920 – 29

475

0,250,43750,3125

2543,7531,25

Total 16 1 100Utilizarea proporţiei sau a procentajului are mai mult sens decât utilizarea doar a frecvenţelor. De

fapt, utilizarea distribuţiei frecvenţelor relative şi a distribuţiei procentuale devine esenţială atunci când se

compară două seturi de date, şi mai ales când numărul observaţiilor din cele două seturi de date diferă.

Histograma

Plecând de la expresia foarte cunoscută în jurnalism că „o imagine face cât 1000 de cuvinte” şi

transferând-o în statistică, ajungem la tehnicile grafice. Acestea sunt deseori utilizate în locul tabelelor,

 pentru a avea o descriere mai vie a seturilor de date. Unul dintrte graficele cele mai utilizate este histograma.

O histogramă este un grafic în care pe graniţele fiecărei clase sunt construite dreptunghiuri a căror înălţime

este proporţională cu frecvenţa, frecvenţa relativă sau procentajul.

Atunci când se construieşte o histogramă, variabila de interes se amplasează pe orizontală, iar peverticală se notează frecvenţa, proporţia sau procentajul observaţiilor din fiecare clasă.

Histograma

0

1

2

3

45

6

7

8

9 19 29

categoria

       F     r     e     c     v     e     n

       t     a

Poligonul frecvenţelor sau procentajelor

Punctul de mijloc al unei clase reprezintă punctul aflat la jumătatea distanţei dintre frontierele

fiecărei clase şi este reprezentativ pentru datele din acea clasă. Poligonul frecvenţelor sau procentajelor este

format prin unirea tuturor punctelor de mijloc ale claselor analizate. La fel ca şi la histogramă, variabila de

interes este amplastă pe orizontală.

11

Page 12: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 12/91

2.3. Tabele şi grafice pentru variabile nominale

Tabelul rezumativ

Un tabel rezumativ pentru variabile nominale este similar, ca formă, cu un tabel pentru date

numerice. Următorul tabel prezintă rezultatele primului tur de scrutin al alegerilor prezidenţiale desfăşurate

 pe 28 noiembrie 2004.Candidatul Numărul de voturi ProcentajulAdrain NăstaseTraian BăsescuCorneliu Vadim Tudor Marko BelaRestul candidaţilor 

427886435452361313714533446780945

40,9433,9212,575,107,47

Graficul bară

Pentru a exprima informaţia prezentată într-un tabel ca cel anterior se utilizează graficul bară al

frecvenţelor, al frecvenţelor relative sau al procentajelor. Într-un astfel de grafic, fiecare categorie este

reprezentată de o bară a cărei lungime este proporţională cu frecvenţa sau procentajul observaţiilor din acea

categorie. În general, variabila de interes este amplastă pe axa verticală, iar valorile pe axa orizontală. În

cazul variabilelor nominale nu contează ordinea în care sunt amplasate categoriile. În plus, spre deosebire de

histograme, barele sunt separate între ele, tocmai pentru a sublinia faptul că variabila este nominală

(calitativă) şi nu interval (cantitativă).

Procentajul

40,94

33,92

12,57

5,1

7,47

0 10 20 30 40 50

Adrain Năstase

Traian Băsescu

Corneliu Vadim Tudor 

Marko Bela

Restul candidaţilor 

Procentajul

Graficul tort

Graficul tort se bazează pe faptul că un cerc are 360 de grade. Acesta este împărţit în felii a căror 

mărime este proporţională cu fiecare categorie.

12

Page 13: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 13/91

Procentajul

40,94

33,92

12,57

5,17,47

Adrain NăstaseTraian Băsescu

Corneliu Vadim Tudor 

Marko Bela

Restul candidaţilor 

Scopul unui grafic este să prezinte datele cu precizie. Unele cercetări asupra percepţiei umane au

ajuns la concluzia că graficele tort au performanţe mai slabe decât graficele bară. Aceasta deoarece s-a

observat că ochiul uman apreciază mai uşor o lungime în raport cu o scală, ca în cazul graficelor bară, şi mai

greu un unghi, ca în cazul graficelor tort. Astfel, un grafic bară permite o comparare mai uşoară a

categoriilor. Pe de altă parte, graficele tort arată cu claritate faptul că suma tuturor categoriilor este 100%. În

consecinţă, alegerea tipului de grafic este subiectivă şi depinde de scopurile utilizatorului: dacă este mai

importantă comparaţia, atunci este mai bine să se utilizeze un grafic bară; dacă este mai importantă

observarea unei porţiuni în raport cu întregul, atunci este mai bine să se utilizeze un grafic tort.

Exerciţii

1. Formaţi un şir ordonat din următorul eşantion de 10 note la un examen de statistică: 8,8; 7,8; 7,8; 7,3;

9,1; 7,8; 8,5; 6,4; 6,2; 7,5. Construiţi o dispunere „creangă şi frunze”.

2. Formaţi un şir ordonat din următorul eşantion de 10 salarii (în RON) din cadrul unei companii: 755, 490,

648, 832, 710, 590, 576, 627, 915, 839. Construiţi o dispunere „creangă şi frunze”.

3. Următoarele date reprezintă un eşantion de 23 de sume de bani extrase de la un bancomat: 260, 280, 200,

200, 210, 220, 250, 250, 180, 250, 150, 200, 180, 200, 250, 250, 220, 300, 300, 300, 150, 200, 290.a. Puneţi datele întrt-un şir ordonat.

 b. Puneţi datele sub formă „creangă şi frunze”.

c. Care dintre cele două forme de prezentare oferă mai multe informaţii?. Discutaţi.

d. În jurul cărei valori par să se concentreze sumele retrase? Explicaţi.

13

Page 14: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 14/91

4. Următoarea distribuţie “creangă şi frunze” reprezintă cantitatea de motorină cumpărată (în litri),

de un eşantion de 25 de camioane de la o staţie de alimentare de la periferia Bucureştiului.

91011

1213

1,4,70,2,2,3,81,3,5,5,6,6,7,7,7,7

2,2,3,4,8,90,2a. Puneţi datele întrt-un şir ordonat.

 b. Care dintre cele două forme de prezentare oferă mai multe informaţii?. Discutaţi.

c. Care este cantitatea de motorină care are şansele cele mai mari de a fi cumpărată?

d. Există o concentraţie spre mijlocul distribuţiei a cantităţii de motorină cumpărată?

e. Credeţi că eşantionul de 25 este reprezentativ pentru o populaţie mai largă? Discutaţi.

5. Plecând de la aceeaşi distribuţie „creangă şi frunze” de la exerciţiul 3

a. Construiţi distribuţia de frecvenţe şi distribuţia procentajelor  b. Trasaţi histograma procentajelor 

c. Trasaţi poligonul procentajelor 

6. În anul 2004, numărul de credincioşi ai marilor religii ale lumii era următorul: creştini 2107

milioane, musulmani 1283 milioane, hinduşi 851 de milioane, budişti 375 milioane, iudaici 15

milioane.

a. Construiţi distribuţia frecvenţelor pentru aceste date.

 b. Construiţi distribuţia frecvenţelor relative pentru aceste date.

c. Construiţi un grafic bară.

d. Se poate calcula media, mediana sau modul pentru aceste date? Interpretaţi.

7. Cele două şiruri ordonate din tabelul următor prezintă durata de viaţă, în ore, a două eşantioane

de câte 40 de becuri de 100W, eşantioane extrase din producţia a două fabrici.

Fabrica A Fabrica B684 697 720 773 821 819 836 888 897 903831 835 848 852 852 907 912 918 942 943859 860 868 870 876 952 959 962 986 992

893 899 905 909 911 994 1004 1005 1007 1015922 924 926 926 938 1016 1018 1020 1022 1034939 943 946 954 971 1038 1072 1077 1077 1082972 977 984 1005 1014 1096 1100 1113 1113 1116

1016 1041 1052 1080 1093 1153 1154 1174 1188 1230a. Construiţi distribuţia frecvenţelor pentru cele două fabrici, utilizând clase de 100 de ore lăţime.

 b. Construiţi alte distribuţii ale frecvenţelor, utilizând următoarea schemă:

• Fabrica A: de la 650 până la 750, de la 750 inclusiv la 850, şamd

14

Page 15: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 15/91

• Fabrica B: de la 750 până la 850, de la 850 inclusiv la 950, şamd

c. Schimbaţi lăţimea intervalelor de la 100 la 50 (650 – 700, 700 – 750, etc). Comentaţi rezultatele

acestei modificări.

d. Construiţi distribuţia procentajelor din distribuţia frecvenţelor de la punctul b.

e. Trasaţi separat histogramele procentajelor.f. Trasaţi poligoanele procentajelor.

g. Becurile cărei fabrici au o speranţă de viaţă mai lungă? Explicaţi.

8. O variabilă nominală are patru categorii, cu următoarele procentaje:

Categoria ProcentajulABCD

12293524

a. Construiţi un grafic bară b. Construiţi un grafic tort

15

Page 16: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 16/91

3. Statistică descriptivă. Măsuri ale tendinţei centrale şi ale dispersiei

3.1. Măsuri ale tendinţei centrale, ale dispersiei şi formei

Cele mai multe dintre seturile de date arată o tendinţă clară a datelor de a se grupa în jurul unui punct

central. Din acest motiv, pentru orice set de date, o anumită valoare tipică poate fi utilizată pentru a descrieîntregul set. O astfel de valoare descriptivă se numeşte măsură a tendinţei centrale. Există trei astfel de

măsuri ale tendinţei centrale: media aritmetică, mediana şi modul.

Media aritmetică

Media aritmetică reprezintă cea mai utilizată măsură a tendinţei centrale. Media aritmetică se

calculează prin împărţirea sumei tuturor valorilor numerice ale unei variabile dintr-un set de date la numărul

de date din acel set.

Pentru un eşantion care conţine n observaţii, notate X1, X2,..., Xn, media aritmetică a eşantionului,

notată  X    şi numită X barat, se calculează după formula:

nn

 X  X  X  X  X 

n

ii

n X ∑

==++++

= 1321 ...

Pentru o populaţie care conţine  N  observaţii, media aritmetică a populaţiei se notează cu litera

grecească μ şi se calculează după o formulă similară:

 N  N  X  X  X  X 

n

i

i

n

 X ∑==++++= 1321 ... µ 

Trebuie subliniat faptul că μ reprezintă un parametru, iar   X   este doar o informaţie statistică.

Să luăm în considerare următorul exemplu:

Tabelul 3.1. Activitatea economică a femeilor în Europa; Angajarea în muncă a femeilor ca procent din

angajarea în muncă a bărbaţilor 

16

Page 17: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 17/91

Europa occidentală Europa centrală şi de estŢara Activitatea economică Ţara Activitatea economicăAustria 60 Bulgaria 88Belgia 47 Cehia 84Danemarca 77 Polonia 77Elveţia 60 România 77

Franţa 64 Slovacia 81Irlanda 41 Ungaria 70Italia 44Marea Britanie 60 Norvegia 68Olanda 42Portugalia 51Spania 31Suedia 77

Pentru a calcula media aritmetică a angajării în muncă a femeilor din Europa centrală şi de est, întâise calculează suma valorilor (88+84+77+77+81+70 = 477), care apoi se împarte la numărul de cazuri

(477/6=79,5). Media, ca şi ceilalţi indicatori ai tendinţei centrale, permite compararea între grupuri. În cazul

exemplului anterior, valoarea mediei aritmetice pentru Europa centrală şi de est (79,5) poate fi comparată cu

cea pentru Europa occidentală (55,53), iar diferenţa poate fi analizată.

Proprietăţile mediei:

- media este o măsură potrivită doar pentru datele cantitative

- media este puternic influenţată de observaţiile care sunt foarte depărtate de restul datelor, care

sunt numite observaţii excentrice.

Mediana

Mediana este măsura care împarte exact în două un şir ordonat de date.

Mediana = a (n+1)/2 observaţie

Dacă există un număr impar de observaţii, mediana reprezintă valoare numerică ce este poziţionată

exact în punctul de (n+1)/2.

Dacă există un număr par de observaţii, atunci mediana se situează între cele două observaţii din

mijloc şi este egală cu media lor.În cazul datelor din tabelul 3.1, pentru ţările din Europa occidentală, şirul ordonat al datelor este

următorul: 31, 41, 42, 44, 47, 51, 60, 60, 60, 64, 68, 77, 77. Numărul observaţiilor fiind impar, observaţia a

7-a împarte şirul în două părţi egale, deci Mediana = 60.

În cazul datelor pentru Europa centrală şi de este, şirul ordonat al datelor este: 70, 77, 77, 81, 84, 88.

Pentru că numărul observaţiilor este par, Mediana = (77+81)/2 = 79

17

Page 18: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 18/91

Principala calitate a medianei în raport cu media constă în faptul că nu este afectată de valorile

excentrice. Dar, pe de altă parte, pentru seturi de date relativ mici, distribuţii diferite pot avea aceeaşi

mediană.

Modul

Modul este valoarea care are frecvenţa cea mai mare într-un set de date. Spre deosebire de mediaaritmetică, modul nu este afectat de valorile extreme. Modul este utilizat doar pentru scopuri descriptive,

deoarece el este mult mai variabil de la un eşantion la altul decât decât celelalte măsuri ale tendinţei centrale.

Pentru variabilele continue, aşa cum ar fi venitul, deoarece sunt extrem de multe valori posibile pe care

variabila le poate lua, sunt şanse foarte mari ca nici o valoare să nu apară de două ori. În consecinţă, pentru

variabilele continue nu putem discuta despre mod.

În exemplul datelor din tabelul 3.1, pentru ţările din Europa occidentală, valoare cu frecvenţa cea mai

mare este 60, deci Modul = 60. Pentru ţările din Europa centrală şi de est, Modul =77.

Quartilele

Quartilele reprezintă cea mai utilizată măsură a locaţiei necentrale şi sunt utilizate pentru a descrie

 proprietăţile unor seturi mari de date. În vreme ce mediana este valoarea care împarte în două un set ordonat

de date (50% dintre observaţii sunt mai mari decât aceasta iar 50% mai mici), quartilele sunt măsuri

descripitve care împart un şi ordonat de date în patru sferturi.

Prima quartilă, Q1, este valoarea pentru care 25% dintre observaţii sunt mai mici, iar 75% sunt mai

mari: Q1 = a (n+1)/4 observaţie

A treia quartilă, Q3, este valoarea pentru care 75% dintre observaţii sunt mai mici, iar 25% sunt maimari: Q1 = a 3(n+1)/4 observaţie

Pentru calcularea quartilelor se folosesc urmatoarele reguli:

1. Dacă numărul rezultat din formulă este întreg, atunci observaţia corespunzătoare

numărului rezultat reprezintă quartila.

2. Dacă numărul rezultat din formulă este la jumătatea dintre două numere întregi, atunci

quartila reprezintă media dintre valorile observaţiilor între care se situează.

3. Dacă numărul rezultat din din formulă nu este nici întreg şi nici la jumătatea distanţei

dintre două numere întregi, atunci quartila reprezintă valoarea observaţiei cea mai apropiată.

Utilizând datele din tabelul 3.1, pentru ţările din Europa occidentală, şirul ordonat al datelor este

următorul: 31, 41, 42, 44, 47, 51, 60, 60, 60, 64, 68, 77, 77

În acest caz, Q1 = a (13+1)/4 observaţie = a 3,5 observaţie. Utilizand a doua regulă, prima quartilă va

fi media dintre a 3-a şi a 4-a observaţie: Q1 = (42+44)/2 = 43

18

Page 19: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 19/91

Q1 = a 3(13+1)/4 observaţie = a 10,5 observaţie. Utilizând a doua regulă, a treia quartilă va fi media

dintre a 10-a şi a 11-a observaţie: Q3 = (64+68)/2 = 66

Măsuri ale dispersiei

O a doua proprietate importantă care descrie un set de date este dispersia sau împrăştierea datelor.Două seturi de date pot diferi atât în ceea ce priveşte tendinţa centrală cât şi dispersia, după cum se poate

observa în figurile 3.1 şi 3.2.

Fig. 3.1. Două distribuţii simetrice care diferă doar în privinţa tendinţei centrale

Fig. 3.2. Două distribuţii simetrice care diferă doar prin dispersie

Există cinci măsuri ale dispersiei: Amplitudinea, amplitudinea interquartilică, varianţa, deviaţia

standard şi coeficientul de variaţie.

Amplitudinea reprezintă diferenţa dintre cea mai mare şi cea mai mică observaţie dintr-un set de

date: A = Xmax-Xmin

Utilizând datele din tabelul 3.1, pentru ţările din Europa occidentală, A = 77-31 = 46

Amplitudinea măsoară împrăştierea totală a unui set de date. Deşi amplitudinea este o măsură simplă

a variaţiei totale a datelor, slăbiciunea ei principală este că nu ţine cont de modul în care datele sunt

19

Page 20: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 20/91

împrăştiate între cea mai mare şi cea mai mică valoare. Astfel, atunci când există cel puţin o valoare

excentrică, folosirea amplitudinii nu este corespunzătoare.

Amplitudinea interquartilică reprezintă diferenţa dintre a treia quartilă şi prima quartilă dintr-un set

de date: Aiq = Q3-Q1

Această măsură ia în considerare împrăştierea a 50% dintre date şi de aceea nu este influenţată devalorile extreme. Utilizând şirul ordonat rezultat din datele din tabelul 3.1, pentru ţările din Europa

occidentală, Aiq = 66-43 = 23

Varianţa şi deviaţia standard

Deşi atât amplitudinea cât şi amplitudinea interquartilică măsoară împrăştierea, nici una dintre aceste

măsuri nu ia în considerare modul în care observaţiile sunt distribuite sau grupate. Cele două măsuri ale

variaţiei care iau în considerare modul de distribuţie al observaţiilor sunt varianţa (numită şi dispersie) şi

deviaţia. Aceste măsuri apreciază cum fluctuează valorile în jurul mediei. Varianţa unui eşantion ar putea fi

astfel considerată ca media pătratelor diferenţei dintre fiecare observaţie şi medie.

Astfel, pentru un eşantion care conţine n observaţii, notate X1, X2,..., Xn, varianţa eşantionului este:

[ ] )1/()(...)()( 22

2

2

1

2−−++−+−= n X  X  X  X  X  X S 

n

Sau1

)(1

2

2

=∑=

n

 X  X n

i

i

S Cea mai practică şi cea mai utilizată măsură a variaţiei este deviaţia standard. Această măsură

reprezintă radical din varianţă:

1

)(1

2

=

∑=

n

 X  X 

n

i

i

Continuând exemplul cu datele din tabelul 3.1. pentru ţările din Europa occidentală, în tabelul 3.2.

sunt prezentaţi paşii necesari calculării varianţei şi deviaţiei standard. Astfel, varianţa este

S2 = 2431,23/(13-1) = 202,6

Iar deviaţia standard 23,146,202 ==S   

Tabelul 3.2.

20

Page 21: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 21/91

Ţara Xi X   )( X   X  i −2)( X  X 

i −

Austria 60 55,53 4,47 19,98Belgia 47 55,53 -8,53 72,76Danemarca 77 55,53 21,47 460,96Elveţia 60 55,53 4,47 19,98Franţa 64 55,53 8,47 71,74

Irlanda 41 55,53 -14,53 211,12Italia 44 55,53 -11,53 132,94Marea Britanie 60 55,53 4,47 19,98 Norvegia 68 55,53 12,47 155,51Olanda 42 55,53 -13,53 183,06Portugalia 51 55,53 -4,53 20,52Spania 31 55,53 -24,53 601,72Suedia 77 55,53 21,47 460,96Total 0,00 2431,23

Calculând S2

şi S, diferenţele dintre fiecare observaţie şi valoarea medie au fost ridicate la pătrat. Deaceea, niciodată varianţa şi deviaţia standard nu pot fi negative. Singura situaţie în care S 2 şi S sunt zero este

atunci când nu există nici un fel de variaţie în interiorul setului de date.

Datele numerice sunt în mod inerent variabile, nu constante, fiecare

variabilă care este studiată luând mai multe valori. Tocmai datorită

acestei variabilităţi, pentru a sumariza un set de date este important de

 precizat nu doar măsurile tendinţei centrale, ci şi măsurile care reflectă

modul în care datele sunt dispersate. Deviaţia standard este folositoare

la înţelegerea modului în care un set de date este grupat în jurul mediei.

Pentru cele mai multe seturi de date, majoritatea observaţiilor sunt în

intervalul plus – minus o deviaţie standard faţă de medie.

În cazul exemplului cu angajarea în muncă a femeilor din Europa

occidentală, media era 55,53, iar deviaţia standard 14,23. Deci

majoritea cazurilor se vor găsi în intervalul 55,53 – 14,23 = 41,3 şi

55,53 + 14,23 = 69,76. Verificând acest lucru pe şirul ordonat al

datelor, se observă ca 10 din 13 cazuri sunt cuprinse în acest interval.

Coeficientul de variaţie

21

Calcularea lui S2 şi S1. Se calculează

diferenţele dintrefiecare observaţie şimedie

2.Se ridică la pătratfiecare diferenţă

3.Se adună diferenţeleridicate la pătrat4. Rezultatul se

împarte la n-1Pentru a calcula S seextrage rădăcina pătrată din S2

Înţelegerea dispersiei1.cu cât datele sunt mai împrăştiate,

cu atât mai mare vor fiamplitudinea, amplitudineainterquartilică, varianţa şi deviaţiastandard.

2.cu cât datele sunt mai concentrate şimai omogene, cu atât mai mici vor fi amplitudinea, amplitudineainterquartilică, varianţa şi deviaţiastandard.

3.dacă datele sunt aceleaşi (adică nuexistă nici un fel de variaţie),amplitudinea, amplitudineainterquartilică, varianţa şi deviaţiastandard vor fi nule.

4.pentru un set obişnuit de date niciuna dintre măsurile variaţiei(amplitudinea, amplitudinea

interquartilică, varianţa şi deviaţiastandard) nu pot fi vreodată nule.

Page 22: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 22/91

Spre deosebire de măsurile anterioare ale variaţiei, coeficientul de variaţie este o măsură relativă a

acesteia. El este exprimat în procente şi nu într-o anumită unitate de măsură. Coeficientul de variaţie se

calculează pein împărţirea deviaţiei standard la media aritmetică şi înmulţind totul cu 100.

CV = %100 X 

Coeficientul de variaţie este folositor când se compară două sau mai multe seturi de date, şi în special

când aceste date sunt măsurate în unităţi de măsură diferite.

Forma

O a treia proprietate importantă a unui set de date o reprezintă forma, adică modul în care sunt

distribuite datele. O distribuţie poate fi simetrică sau asimetrică. Cele asimetrice se mai numesc şi înclinate.

Pentru a descrie forma se poate compara media cu mediana. Daca aceste două măsuri sunt egale,

atunci distribuţia este considerată simetrică. Dacă media este mai mare decât mediana, distribuţia esteconisderată pozitivă sau înclinată spre dreapta. Dacă mediana este mai mare decât media, atunci distribuţia

este conisderată negativă sau înclinată spre stânga.

Fig. 3.3. Distribuţie înclinată spre stânga

Fig. 3.4. Distribuţie înclinată spre dreapta

22

Media < Mediana

Media > Mediana

Page 23: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 23/91

Fig. 3.5. Distribuţie simetrică

3.2. Obţinerea unui rezumat descriptiv al unei populaţii

În secţiunea anterioară au fost prezentate proprietăţile tendinţei centrale, variaţiei şi formei pentru un

eşantion. Să presupunem că datele nu reprezintă un eşantion, ci o întreagă populaţie. În acest caz nu mai

discutăm despre date statistice ci despre parametrii ai tendinţei centrale, variaţiei şi formei. Ele se calculează

după formule similare celor pentru eşantioane, dar se notează diferit.

Media populaţiei se calculează prin împărţirea sumei tuturor valorilor din populaţie la mărimea

 populaţiei, N .

 N  N 

 X  X  X  X 

n

ii

n X ∑

==++++

= 1321 ... µ 

Varianţa populaţiei se calculeză prin însumarea pătratului diferenţei dintre fiecare valoare şi media

aritmetică a valorilor populaţiei, urmată de împărţirea acestei sume la mărimea populaţiei.

 N 

 X n

i

i∑=

= 1

2

2

)( µ 

σ 

Deviaţia standard a populaţiei este rădăcina pătrată din varianţa popuaţiei:

 N 

 X 

n

i

i∑=

= 1

2)( µ 

σ 

Trebuie notat faptul că formulele pentru varianţa populaţiei şi pentru deviaţia standard a populaţiei

diferă de cele pentru eşantion prin faptul că, în cazul populaţiei, numitorul este N 

şi nun-1

.

Regula empirică

În cele mai multe seturi de date, o mare parte a datelor tinde să se concentreze în jurul medianei. În

seturile de date înclinate spre dreapta, această grupare apare la stânga medianei (valori mai mici decât

mediana), iar în seturile de date înclinate spre stânga, observaţiile se grupează la dreapta medianei (valori

mai mari decât aceasta). În seturile de date care sunt simetrice, în care mediana a este egală cu media,

23

Media = Mediana

Page 24: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 24/91

observaţiile tind să fie distribuite în mod egal în jurul măsurilor tendinţei centrale. Atunci când într-un set de

date nu este vizibilă o înclinaţie puternică, se poate utiliza regula empirică pentru a examina variabilitatea

datelor şi pentru a avea înţelegere mai bună a ceea ce măsoară deviaţia standard.

Regula empirică afirmă că pentru o distribuţie simetrică, în formă de clopot, aproximativ două

treimi din toate observaţiile (67%) sunt concentrate la o distanţă de ± o deviaţie standard faţă de medie, iar aproximativ 95% dintre observaţii sunt concentrate în intervalul de ± două deviaţii standard faţă de medie.

Astfel, deviaţia standard, ca o măsură a variaţiei medii în jurul mediei, ajută la înţelegerea modulului

în care sunt distribuite observaţiile deasupra şi dedesubtul mediei, permiţând concetrarea asupra valorilor 

anormale, excentrice, atunci când este analizat un set de date numerice.

3.3. Coeficientul de corelaţie

Coeficientul de corelaţie, ρ, măsoară puterea unei relaţii sau a unei asocieri între două variabile ale

unei populaţii. Valorile acestuia pot varia de la –1, pentru o corelaţie negativă perfectă, la +1, pentru o

corelaţie pozitivă perfectă. În acest caz,  perfect  înseamnă că tote punctele de pe o diagramă care reprezintă

cele două variabile ar putea fi unite de o linie dreaptă. Astfel, coeficientul de corelaţie măsoară gradul de

asociere liniară între două variabile. Semnul pozitiv al coeficientului de corelaţie arată că valorile variabilei

X cresc în acelaşi timp cu cele ale variabilei Y, iar semnul negativ arată că valorile mari ale variabilei X sunt

asociate cu valori mici ale variabilei Y. Atunci când coeficientul de corelaţie este apropiat de zero, se poate

considera că nu există nici un fel de corelaţie între cele două variabile. Figura 3.6. ilustrează trei tipuri de

asociere între variabile.

Fig. 3.6. Corelaţie perfect negativă (ρ = -1) Corelaţie perfect pozitivă (ρ = 1)

24

Page 25: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 25/91

 Nici un fel de corelaţie

In cazuri reale, este foarte puţin probabil să existe corelaţii perfecte de un anumit fel. În figura 3.7.

sunt prezentate o corelaţie pozitivă puternică (ρ = 0,75) şi o corelaţie negativă puternică (ρ = -0,75).

Fig. 3.7

În ambele situaţii, relaţiile sunt descrise ca tendinţe şi nu ca relaţie cauză – efect . Doar corelaţia nu

  poate să dovedească existenţa unei relaţii de cauzalitate, că o modificarea unei variabile provoacă

modificarea celeilalte variabile. O corelaţie puternică se poate produce doar datorită întâmplării, datorită

neluării în considerare a ueni a treia variabile sau datorită relaţiei cauză – efect. Este necesară o analiză

suplimentară pentru a determina care dintre cele trei situaţii a provocat corelaţia.

Coeficientul de corelaţie pentru un eşantion se calculează după următoarea formulă:

∑∑

==

=

−−

−−

=n

i

i

n

i

i

n

i

ii

Y Y  X  X 

Y Y  X  X 

1

2

1

2

1

)()(

))((

25

Page 26: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 26/91

Exerciţii

1. Managerul unei firme de curierat trebuie să cumpere un set de camioane. Atunci

când pachetele sunt puse în camioane pentru livrare, există două constrângeri

majore: greutatea şi volumul fiecărui item. Dacă într-un eşantion de 200 de pachete, greutatea medie este de 26 kg cu o deviaţie standard de 3,9 kg, iar 

volumul mediu este de 8,8 litri, cu o deviaţie standard de 2,2 litri, cum poate fi

comparată variaţia greutăţii şi a volumului?

2. Fie următorul set de date dintr-un eşantion de mărimea n = 5 elemente: 7, 4, 9, 8,

2.

a. Calculaţi media, mediana şi modul.

 b. Calculaţi amplitudinea, amplitudinea interquartilică, varianţa, deviaţia standard şi coeficientul de

variaţie.

c. Descrieţi forma datelor.

3. Fie următorul set de date dintr-un eşantion de mărimea n = 6 elemente: 7, 4, 9, 7, 3, 12.

a. Calculaţi media, mediana şi modul.

 b. Calculaţi amplitudinea, amplitudinea interquartilică, varianţa, deviaţia standard şi coeficientul de

variaţia.

c. Descrieţi forma datelor.

4. Fie următoarele două seturi de date, fiecare formând un eşantion de 7 elemente:Setul 1: 10, 2, 3, 2, 4, 2, 5

Setul 2: 20, 12, 13, 12, 14, 12, 15

a. Pentru fiecare set de date calculaţi media, mediana şi modul

 b. Comparaţi rezultatele.

c. Pentru fiecare set de date calculaţi amplitudinea, amplitudinea interquartilică, varianţa, deviaţia

standard şi coeficientul de variaţie.

d. Descrieţi forma fiecărui set de date.

e. Comparaţi rezultatele de la punctele c şi d.

5. Următorul set de date reprezintă informaţii despre o populaţie cu N = 10: 7, 5, 11, 8, 3, 6, 2, 1, 9, 8

a. Calculaţi media populaţiei

 b. Calculaţi deviaţia standard a populaţiei

6. Următorul set de date reprezintă informaţii despre o populaţie cu N = 10: 7, 5, 6, 6, 6, 4, 8, 6, 9, 3

a. Calculaţi media populaţiei

26

Page 27: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 27/91

 b. Calculaţi deviaţia standard a populaţiei

7. Următoarele date reprezintă informaţii de la un eşantion cu n = 11 elemente:

X 7 5 8 3 6 10 12 4 9 15 18

Y 21 15 24 9 18 30 36 12 27 45 54

a. Calculaţi coeficientul de corelaţie b. Cât de puternică este relaţia dintre X şi Y? Explicaţi.

27

Page 28: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 28/91

4. Probabilitatea şi distribuţia probabilităţii

4.1. Concepte fundamentale în probabilitateProbabilitatea reprezintă şansa ca un anumit eveniment să se producă. Probabilitatea poate să se

refere la şansa de a nimeri o anumită culoare când se alege o carte dintr-un pachet de cărţi de joc, la şansa ca

un anumit individ să aleagă un candidat în dauna altuia, ori la şansa ca un nou produs să aibă succes pe piaţă.

În oricare dintre aceste exemple, probabilitatea reprezintă o proporţie sau o fracţie şi ia valori între 0 şi 1.

Evenimentul care este imposibil să apară are probabilitatea 0, iar cel care apare cu certitudine are

 probabilitatea 1.

Probabilitatea de apariţie = X/T, unde X = numărul de cazuri în care evenimentul poate să apară,

iar T = numărul total de rezultate.

Elemente de vocabular

Elementele de bază ale teoriei probabilităţii sunt rezultatele procesului sau fenomenului studiat. În

limbajul statisticii, un experiment reprezintă un proces al cărui rezultat este imprecis. Spaţiul de

probabilitate (S) reprezintă toate rezultatele posibile ale unui experiment. Fiecare rezultat posibil este numit

eveniment. Dacă evenimentul poate fi descris în funcţie de o singură caracteristică, atunci el este un

eveniment simplu. Dacă un eveniment are două sau mai multe caracteristici, atunci el se numeşte

eveniment reunit. Complementul unui eveniment A, notat A’, include toate evenimentele din spaţiul Scare nu sunt parte a evenimentului A.

Probabilitatea (P) sau probabilitatea simplă este un număr real din intervalul [0,1], corespunzător 

unui unui subset de rezultate din spaţiul de probabilitate.

Exemplu: să presupunem că aruncarea unui zar reprezintă experimentul. Spaţiul de probabilitate, în

acest caz este S = {1,2,3,4,5,6}.

Evenimentul A este reprezentat de cazurile în care rezultatul aruncărilor sunt numere impare, A =

{1,3,5}, iar evenimentul B este reprezentat de cazurile în care rezultatul aruncărilor este mai mic decât 3, B

= {1,2}.

Presupunând că şansele de apariţie a oricărei faţete a zaruli sunt aceleaşi, P(1) = 1/6, atunci

  probabilitatea de apariţie a evenimentului A este P(A) = 3/6 = 0,5, iar probabilitatea de apariţie a

evenimentului B este P(B) = 2/6 = 0,33

Dacă  probabilitatea simplă se referă la apariţia unor evenimente simple, probabilitatea reunită se

referă la situaţii care implică două sau mai multe evenimente, reprezentând intersecţia evenimentelor.

28

Page 29: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 29/91

Exemplu: Pentru cazul anterior, evenimentul reunit (A şi B) = {1 }, iar P(A şi B) = 1/6 = 0,16

Reguli ale probabilităţii

1. 0 ≤ P(A) ≤ 1, pentru orice A în S

Probabilitatea oricărui eveniment A într-un spaţiu de probabilitate S este cuprinsă între 0şi 1.2. P(spaţiu de probabilitate vid) = 0, pentru orice S

Probabilitatea unui eveniment care nu are nici un element este nulă.

3. Dacă A şi A’ sunt evenimente complementare în spaţiul S, atunci P (A’) = 1 – P(A)

Exemplu: Dacă experimentul constă în aruncarea unui zar, şi evenimentul A = {1,3,5}, atunci

complementarul său este A’ = {2,4,6}.

P (A’) = 3/6 = 0,5

1 – P(A) = 1- 3/6 = 0,5

În cazul aceluiaşi experiment, dacă B = {1,2}, atunci complementarul său este B’ = {3,4,5,6}.

P (B’) = 1 – P(B) = 1 – 2/6 = 0,67

4. Dacă A şi B sunt evenimente din spaţiul S, iar A este un subset al lui B, atunci P(A) ≤ P(B)

Exemplu: Dacă experimentul constă în aruncarea unui zar, şi evenimentul B reprezintă elementele mai

mari sau egale cu 3, B = {3,4,5,6}, iar A reprezintă elementele mai mari sau egale cu 5, A = {5,6}, atunci

A este un subset a lui B, iar P(B) = 4/6 = 0,67 şi P(A) = 2/6 = 0,33, ceea ce verifică regula.

O diagramă Venn a exemplului anterior este prezentată în figura 4.1.

Fig. 4.1

5. Regula de însumare: probabilitatea lui A  sau B este egală cu probabilitatea evenimentului A plus

 probabilitatea evenimentului B minus probabilitatea lui A şi B:P (A sau B) = P(A) + P(B) – P(A şi B)

Exemplu: Dacă experimentul constă în aruncarea unui zar, şi evenimentul A reprezintă obţinerea lui 3

sau 4, iar evenimentul B reprezintă obţinerea lui 1, 2 sau 3, atunci P(A) = 2/6 = 0,33, iar P(B) = 3/6 =

0,5.

Diagrama Venn a acestui spaţiu de probabilităţi este prezentată în figura 4.2.

29

S1,2

B3,4

A5,6

Page 30: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 30/91

Fig. 4.2

A sau B reprezintă reunirea celor două evenimente: A U B = {1,2,3,4}, P (A U B) = 4/6 = 0,67

A şi B reprezintă intersecţia celor două evenimente: A ∩ B = {3}, P(A ∩ B) = 1/6 = 0,16

În această situaţie, aplicând regula de însumare se obţine: P (A U B) = 2/6 + 3/6 – 1/6 = 4/6 = 0,67

4.2. Probabilitate condiţionalăFiecare dintre situaţiile de până acum au implicat probabilitatea unui eveniment particular atunci

când acesta este selectat dintr-un câmp de probabilitate. Dar cum ar putea fi determinată probabilitatea dacă

anumite informaţii despre evenimentele petrecute ar fi deja cunoscute?

Atunci când se calculează probabilitatea unui anumit eveniment A, dată fiind informaţia despre

apariţia unui alt eveniment B, această probabilitate se numeşte probabilitate condiţională şi se notează

P(A│B).

Probabilitatea lui A dat fiind B este egală cu probabilitatea evenimentului A  şi B împărţită la

 probabilitatea evenimentului B.

P(A│B) = P(A şi B)/P(B)

Probabilitatea lui B dat fiind A este egală cu probabilitatea evenimentului A  şi B împărţită la

 probabilitatea evenimentului A.

P(B│A) = P(A şi B)/P(A)

Exemplu: Să presupunem că avem următorul tabel care prezintă rezultatele unui sondaj efectuat în

1000 de gospodării cu privire la cumpărarea unui televizor nou.

Tabelul 4.1

Au cumpăratIntenţionează să cumpere Da Nu TotalDa 200 50 250 Nu 100 650 750Total 300 700 1000

30

Page 31: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 31/91

Page 32: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 32/91

De aici rezultă că relaţia privind independenţa evenimentelor este satisfăcută: cunoaşterea unui

eveniment nu afectează probabilitatea celuilalt eveniment.

Regula de multiplicare

Formula probabilităţii condiţionale poate fi tranformată algebric, asfel încât probabilitatea reunităP(A şi B) să fie determinată funcţie de probabilitatea condiţională.

P(A şi B) = P(A│B)P(B)

Deci regula de multiplicare afirmă că probabilitatea lui A şi B este egală cu probabilitatea lui A dat

fiind B înmulţită cu probabilitea lui B.

Exemplu: Ştim că 80 de familii au cumprat un televizor cu ecran normal. Din tabelul 4.2 se poate

observa că 64 sunt satisfăcuţi iar 16 nu. Să presupunem că sunt aleşi, în mod aleatoriu, doi clienţi dintre cei

80. Care este probabilitatea ca amândoi să fie satisfăcuţi de achiziţie?

În acest caz se poate utiliza regula de multiplicare. Dacă A = al doilea cumpărător este satisfăcut, iar 

B = primul cumpărător este satisfăcut, atunci:

P(A şi B) = P(A│B)P(B)

Probabilitatea ca primul cumpărător să fie satisfăcut de achiziţie este de 64/80. Probabilitatea ca al

doilea cumpărător să fie satisfăcut depinde de rezultatul primei selecţii. Dacă primul cumpărător nu este pus

la loc în eşantion (eşantionare fără înlocuire), atunci numărul cumpărătorilor rămaşi este de 79. În acest caz,

 probabilitatea ca şi al doilea cumpărător să fie satisfăcut este de 63/79. Atunci,

P(A şi B) = (63/79)(64/80) = 0,638În cazul în care după extragerea primului cumpărător, acesta este introdus la loc în eşantion

(eşantionare cu înlocuire) probabilitatea celui de-al doilea cumpărător de a fi satisfăcut este egală cu cea a

 primului. De aceea,

P(A şi B) = (64/80)(64/80) = 0,64

Exemplul anterior demonstrează că a doua extragere este independentă de prima, deoarece a doua

 probabilitate nu este influenţată de prima. De aceea, înlocuind P(A│B) cu P(A), obţinem regula de

multiplicare pentru evenimente independente: dacă A şi B sunt independente din punct de vedere

statistic, probabilitatea evenimentului A  şi B este egală cu produsul dintre probabilitatea lui A şi

 probabilitatea lui B.

P(A şi B) = P(A)P(B)

Rezultă de aici că sunt două modalităţi de determinare a independenţei statistice:

1. Evenimentele A şi B sunt independente dacă şi numai dacă P(A│B) = P(A).

2. Evenimentele A şi B sunt independente dacă şi numai dacă P(A şi B) = P(A)P(B).

32

Page 33: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 33/91

4.3. Distribuţia de probabilitate pentru o variabilă aleatoare discretă

Aşa după cum s-a discutat în capitolul 1, o variabilă numerică este aceea pentru care răspunsurile

sunt exprimate prin cifre. Variabilele numerice pot fi discrete sau continue, primele rezultând dintr-un

 proces de numărare, iar celelate dintr-un proces de măsurare.Distribuţia de probabilitate pentru o variabilă aleatoare discretă este o listă exhaustivă a tuturor 

rezultatelor numerice posibile ale acelei variabile, construită astfel încât fiecărui rezultat îi este asociată

 proabilitatea de apariţie.

De exemplu, să considerăm numărul de cereri aprobate săptămânal de către rectorul unei universităţi,

aşa cum sunt prezentate în tabelul 4.3. Deoarece toate rezultatele posibile sunt incluse în tabel, lista este

exhaustivă, iar suma probabilităţilor este 1.

Tabelul 4.3.

 Număr de cereri aprobate săptămânal Probabilitatea0 0,101 0,102 0,203 0,304 0,155 0,106 0,05

Valoarea aşteptată a unei variabile discrete (μ) reprezintă media ponderată a tuturor rezultatelor 

  posibile, ponderea fiind probabilitaea rezultatului respectiv. Această medie ponderată se obţine prin

înmulţirea fiecărui rezultat posibil X cu probabilitatea corespunzătoare P(X), urmată de însumarea

rezultatelor.

∑=

== N 

i

ii X  P  X  X  E 1

)()( µ 

Pentru distribuţia de probabilitate a numărului de cereri aprobate săptămânal, valoarea aşteptată este

calculată după formula anterioară:

μ = (0)(0,1) + (1)(0,1) +(2)(0,2) +(3)(0,3) +(4)(0,15) +(5)(0,1) +(6)(0,05) == 0 + 0,1 + 0,4 + 0,9 + 0,6 + 0,5 + 0,3 = 2,8

Trebuie notat faptul că valoarea aşteptată a numărului de cereri aprobate, 2,8, nu are neapărat sens,

 pentru că numărul de cereri aprobate trebuie să fie unul întreg. Valoarea aşteptată reprezintă o medie.

Varianţa unei variabile aleatoare discrete (σ2 ) reprezintă media ponderată a pătratului diferenţelor 

dintre fiecare rezultat posibil şi medie, ponderea find reprezentată de probabilitatea respectivului rezultat.

33

Page 34: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 34/91

∑=

−= N 

i

ii X  P  X  E  X 1

22 )()]([σ  

Deviaţia standard a unei variabile aleatoare discrete (σ) este obţinută  prin extragerea radicalului

din varianţă.

∑=

−= N 

i

ii X  P  X  E  X 1

2 )()]([σ 

Varianţa şi deviaţia standard pentru cererile aprobate pe săptămână se calculează astfel:

σ2 = (0 – 2,8)2(0,1) + (1 – 2,8)2(0,1) + ( 2 – 2,8)2(0,2) + (3 – 2,8)2(0,3) + (4 – 2,8)2(0,15) +

(5 – 2,8)2(0,1) + (6 – 2,8)2(0,05) = 0,784 + 0,324 + 0,128 + 0,012 + 0,296 + 0,484 + 0,512 = 2,46

σ = 1,57

4.4. Distribuţia binomială

Atunci când există o expresie matematică pentru o variabila aleatorie, poate fi calculată probabilitatea de

apariţie a unui anumit rezultat. În astfel de cazuri întreaga distribuţie de probabilitate poate fi calculată şi

 prezentată. De exemplu, funcţia de distribuţie a probabilităţii de selecţie a unui număr dintr-un tabel cu

numere aleatoare este uniformă. Principala caracteristică a unei distribuţii uniforme este că orice rezultat al

unei variabile aleatorii are aceeaşi şansă de apariţie. Astfel, probabilitatea extragerii unui număr de o cifră

este aceeaşi – 1/10 – deoarece sunt posibile 10 rezultate. Au fost dezvoltate mai multe modele de distribuţii a

diverse variabile care apar în ştiinţele sociale, în ştiinţele naturale sau în administrarea afacerilor. Unul dintre

cele mai utilizate modele este reprezentat de distribuţia binomială.Proprietăţile distribuţiei binomiale:

1. Eşantionul constă într-un anumit număr de observaţii, n.

2. Fiecare observaţie poate fi clasificată doar în două categorii, care sunt mutual exclusive şi colectiv

exhaustive, care în general sunt numite succes şi eşec.

3. Probabilitatea ca o observaţie să fie clasificată ca succes,  p, este constantă de la o observaţie la alta. La

fel, probabilitatea ca o observaţie să fie clasificată ca eşec, 1 –  p, este constantă pentru toate observaţiile.

4. Rezultatul (succes sau eşec) uneiobservaţii este independent de rezultatul oricărei alte observaţii.Formula distribuţiei binomiale: X n X n

 X  p pC  X  P  −−= )1()(

Unde:

- CXn reprezintă combinaţii de n luate câte X:

)!(!

!

 X n X 

nC n X 

−=

- n reprezintă mărimea eşantionului, iar n! (numit n factorial) este produsul n(n-1)(n-2)....1

34

Page 35: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 35/91

- p reprezintă probabilitatea de succes a fiecărei încercări

- 1-p reprezintă probabilitatea de eşec a fiecărei încercări

- X reprezintă numărul de succese din eşantion

Atunci,  X n X   p p X n X 

n X  P  −

−−

= )1()!(!

!)(  

Caracateristicile unei distribuţii binomiale

De fiecare dată când un set de parametrii (n şi p) este specificat, se generează o anumită distribuţie

 binomială.

Forma. O distribuţie binomială poate fi simetrică sau înclinată. Atunci când p = 0,5, distribuţia

 binomială va fi simetrică, indiferent de valoarea lui n. Atunci când p ≠ 0,5, distribuţia va fi înclinată. Cu cât

 p este mai apropiată de 0,5 şi cu cât este mai mare numărul de observaţii n, cu atât mai puţin înclinată va fi

distribuţia.

Media unei distribuţii binomiale se obţine prin înmulţirea celor doi parametrii, n şi p.μ = E(X) = np

Deviaţia standard a unei distribuţii binomiale se calculează după formula:

)1(2  pnp −== σ  σ  

Exemplu:

Dacă experimentul constă în aruncarea o singură dată a unei monede şi suntem interesaţi de obţinerea

stemei, atunci, aplicând formula distribuţiei binomiale P(X=1) = 0,51(1-0,5)1-1 1!/[1!(1-1)!]

= 0,5(1)(1) = 0,5Distribuţia binomială poate fi scrisă sub forma următorului tabel

X P(X) Rezultat0 0,5 ban1 0,5 stemă

Dacă experimentul constă în aruncarea de două ori a unei monede şi suntem interesaţi de obţinerea

unei steme, atunci P(X=1) = 0,51(1-0,5)2-1 1!/[1!(2-1)!] = 0,5(0,5)2(1)/1 = 0,25(2) = 0,5

Distribuţia binomială poate fi scrisă sub forma următorului tabel

X P(X) Rezultat0 0,25 ban, ban1 0,50 ban, stemă2 0,25 stemă, stemă

Deci sunt 50% şanse ca din 2 aruncări ale unei monede să obţinem o stemă.

Care este probabilitatea ca din 12 aruncări ale unei monede să se obţină de 5 ori stemă?

35

Page 36: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 36/91

În această situaţie sunt 792 de posibilităţi de a obţine 5 steme din 12 aruncări (combinaţii de 12 luate

câte 5)

Astfel: n = 12, X = 5, p = 0,5

P(X = 5) = [(12·11·10·9·8·7·6·5·4·3·2·1)/(5·4·3·2·1)(7·6·5·4·3·2·1)]0,55(1 – 0,5)7 =

= 792·0,03125·0,0078124 = 0,19335Deci probabilitatea de a obtine 5 steme din 12 aruncări ale unei monede este de aproximativ 19%.

Dacă vom încerca să construim o distribuţie a probabilităţii pentru 12 aruncări ale monedei vom obţine:

X P(X) Rezultat0 0,00024 de 12 ori ban1 0,00292 o dată stemă, de 11 ori ban2 0,01611 de 2 ori stemă de, de 10 ori ban3 ... de 3 ori stemă de, de 9 ori ban4 ... de 4 ori stemă de, de 8 ori ban5 0,19335 de 5 ori stemă de, de 7 ori ban6 0,22558 de 6 ori stemă de, de 6 ori ban7 0,19335 de 7 ori stemă de, de 5 ori ban8 ... de 8 ori stemă de, de 4 ori ban9 ... de 9 ori stemă de, de 3 ori ban10 0,01611 de 10 ori stemă de, de 2 ori ban11 0,00292 de 11 ori stemă de, o dată ban12 0,00024 de 12 ori stemă

Care este probabilitatea de a obţine cel puţin 10 steme?

P(X≥10) = P(X=10) + P(X=11) + P(X=12) = 0,016 + 0,0029 + 0,0002 = 0,019Adică sunt 1,9% şanse ca din 12 aruncări să obţinem cel puţin 10 steme.

Media unui experiment care constă în aruncarea unei monede de 12 ori este:

μ = np = 0,5(12) = 6

Deviaţia standard este:

73,13)5,01(5,012)1( ==−⋅=−= pnpσ    

Cum se interpretează aceste rezultate? Dacă se repetă experimentul de foarte multe ori, cea mai

 probabilă medie, adică cel mai probabil rezultat după 12 aruncări ale monedei este de 6 ori stemă şi de 6 ori

 ban. Conform regulii empirice, sunt 68% şanse ca rezultatul să se afle în intervalul medie ± deviaţia

standard, adică 6 ± 1,73. Însemană este o probabilitate de 68% ca după 12 aruncări ale monedei să obţinem

5, 6 sau 7 steme, care sunt valorile cuprinse între 4,27 şi 7,73.

Exerciţii

1. Se dă următorul tabel:

36

Page 37: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 37/91

B B’ TotalA 10 20 30A’ 20 40 60Total 30 60 90Care este probabilitatea:

a. Evenimentului A

 b. Evenimentului B

c. Evenimentului A’

d. Evenimentului A şi B

e. Evenimentului A şi B’

f. Evenimentului A’ şi B’

g. Evenimentului A sau B

h. Evenimentului A sau B’

i. Evenimentului A’ sau B’2. În ultimii ani, băncile au făcut eforturi deosebite pentru ca studenţii să îşi deschidă conturi. Să

 presupunem că am extras un eşantion de 200 de studenţi care posedă un card de credit obişnuit şi/sau un card

de credit pentru călătorii:

Card de credit pentru călătoriiCard de credit obişnuit Da Nu TotalDa 60 60 120 Nu 15 65 80Total 75 125 200

a. Daţi un exemplu de eveniment simplu b. Daţi un exemplu de eveniment reunit

c. Care este complementul evenimentului de a avea un card de credit obişnuit?

d. De ce „ a avea un card de credit obişnuit şi un card de credit pentru călătorii” este eveniment reunit?

e. Construi i diagrama Venn asociată tabelului.ț

Dacă este selectat la întâmplare un student, care este probabilitatea ca:

f. studentul să aibă un card de credit?

g. studentul să aibă un card de credit pentru călătorii?h. studentul să aibă un card de credit şi un card de credit pentru călătorii?

i. studentul sa nu aibă nici card de credit şi nici card de credit pentru călătorii?

 j. studentul să aibă un card de credit sau un card de credit pentru călătorii?

k. studentul să nu aibă un card de credit sau să aibă un card de credit pentru călătorii?

3. Se da urmatorul tabel:

37

Page 38: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 38/91

B B’A 10 30A’ 25 35a. Care este probabilitatea lui A dat fiind B?

 b. Care este probabilitatea lui A dat fiind B’?

c. Care este probabilitatea lui A’ dat fiind B’?d. A si B sunt independente din punct de vedere statistic?

4. Dat fiind tabelul de la problema 2,

a. Presupunând că se cunoaşte faptul ca un student are un card de credit, care este probabilitatea ca el să

aibă un card de credit pentru călătorii?

 b. Presupunând că se cunoaşte faptul ca un student nu are un card de credit pentru călătorii, care este

 probabilitatea ca el să aiba un card de credit?

c. Cele doua evenimente, a avea un card de credit şi a avea un card de credit pentru călătorii, sunt

independente din punct de vedere statistic? Explicaţi.

5. Să presupunem că avem un pachet de cărţi de joc. În interiorul său sunt patru suite (pică, treflă, cupă şi

caro), fiecare având 13 valori (as, 2, 3, ..., regină, popă). Acest pachet de cărţi de joc este amestecat, iar 

dumneavoastră primiţi primele două cărţi, fără înlocuire.

a. Care este probabilitatea ca ambele cărţi să fie regine?

 b. Care este probabilitatea ca prima carte să fie un 10 şi a doua carte să fie un 5 sau un 6?

c. Dacă extragerea ar avea loc cu înlocuire, care ar fi răspunsul la punctul a?

d. În jocul numit Blackjack, figurile (valet, damă, popă) au câte 10 puncte, asul are fie 1 fie 11 puncte,iar celelalte cărţi au atâtea puncte câte indică cifra de pe ele. Realizezi un blackjack dacă cele două

cărţi pe care le ai totalizează 21 de puncte. Care este probabilitatea de a realiza un blackjack în

această problemă?

6. Tabelul următor prezintă distribuţia probabilităţii accidentelor de circulaţie dintr-un oraş.

 Număr zilnic de accidente P(X)0 0,101 0,20

2 0,453 0,154 0,055 0,05

a. calculaţi media sau numărul aşteptat de accidente dintr-o zi

 b. calculaţi deviaţia standard

38

Page 39: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 39/91

Page 40: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 40/91

5. Distribuţia normală şi distribuţia eşantioanelor

Acest capitol tratează cea mai importantă distribuţie din statistică, distribuţia normală, care implică o

variabilă continuă. Distribuţia normală, numită uneori şi distribuţie gaussiană, este una dintre multeledistribuţii continue rezultate din procesul de măsurare a variabilelor. Histogramele datelor obţinute de la un

eşantion sunt de multe ori apropiate de forma unui clopot. În asemenea cazuri se spune că variabila este

aproximativ normal distribuită. Principalul motiv care face din această curbă cea mai importantă distribuţie

din statistică este faptul că cele mai multe metode ale inferenţei statistice utilizează proprietăţile distribuţiei

normale chiar şi atunci când datele din eşantion nu sunt distribuite sub formă de clopot.

5.1. Distribuţia normală

Atunci când există o expresie matematică pentru a reprezenta o variabilă continuă, se poate calcula

 probabilitatea ca anumite valori să apară în anumite intervale. Cu tote acestea, probabilitatea exactă a unei

anumite valori dintr-o distribuţie continuă este zero.

Proprietăţi ale distribuţiei normale:

1. Are o formă simetrică, de clopot.

2. Toate măsurile tendinţei centrale (media, mediana şi modul) sunt egale între ele.

3. Distanţa interquartilică este cuprinsă între două treimi de deviaţie stanadard sub medie şi două treimi

de deviaţie standard dincolo de medie.4. Este asociată cu o variabilă aleatoare care are o amplitudine infinită (-∞ < X < ∞).

Expresia matematică a funcţiei de densitate a probabilităţii este notată cu f(x) şi este dată de

următoarea formulă:

 2]/))[(2/1(

2

1)( µ  µ 

σ  π  

−−=

X e X   f  

în care: e = constanta matematică 2,71828

π = constanta matematică 3,14159

μ = media populaţiei

σ = deviaţia standard a populaţiei

X = orice valoare a variabilei continue, unde -∞ < X < ∞

Deoarece e şi π sunt constante matematice, probabilităţile asociate unei vatiabile aleatoare sunt

dependente doar de doi parametrii ai distribuţiei normale: media populaţiei, μ, şi deviaţia standard a

 populaţiei, σ. De fiecare dată când există o anumită combinaţie de μ şi σ, va rezulta o distribuţie normală

40

Page 41: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 41/91

diferită, după cum se poate observa în figura 5.1. Curbele A, B şi C au aceaşi medie, dar au deviaţii standard

diferite. Curba D diferă de celelelate atât în privinţa mediei cât şi în cea a deviaţiei standard.

Fig. 5.1.

Din păcate, expresia matematică a distribuţiei normale este greu de calculat. Pentru a evita astfel de

calcule se pot folosi un set tabele care oferă probabilităţile necesare. Deoarece există un număr infinit de

valori pentru combinaţiile dintre μ şi σ, ar fi necesar un număr infinit de astfel de tabele. Însă, prin ceea ce se

numeşte standardizare, este necesar doar un singur tabel. Prin utilizarea formulei de transformare, orice

variabilă aleatoare X este transformată într-o variabilă normală standardizată Z.

Formula de transformare afirmă că valoarea lui Z este egală cu diferenţa dintre X şi media

 populaţiei μ împărţită la deviaţia statndard σ.

Z = (X - μ)/ σDeşi forma originală a variabilei X avea media μ şi deviaţia standard σ, variabila standardizată Z are

întotdeauna media μ = 0 şi deviaţia standard σ = 1. Astfel, orice set de date normal distribuite pot fi

convertite într-o formă standardizată, iar orice probabilitate poate fi determinată dintr-un tabel al distribuţiei

normale standardizate, ca cel din anexa 1.

Pentru a înţelege modul de aplicare a formulei de transformare să considerăm următorul exemplu: o

firmă de comerţ electronic, care este interesată de un acces cât mai rapid la propriul site, a constatat că

downloadarea paginii sale de acces durează în medie 7 secunde, cu o deviaţie standard de 2 secunde. Dinfigura 5.2. se poate observa că fiecărui X de pe scala iniţială îi corespunde un Z obţinut prin formula de

transformare.

41

Page 42: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 42/91

Fig. 5.2.

Astfel, pentru un timp de downloadare de 9 secunde, echivalentul standardizat este 1 (cu o deviaţie

standard deasupra mediei) deoarece Z = (9 – 7)/ 2 = 1. Iar pentru un timp de downloadare de o secundă (3

deviaţii standard sub medie) Z = (1 -7)/ 2 = -3. Astfel, deviaţia standard a devenit unitatea de măsură.

Să presupunem acum că se doreşte să se afle care este probabilitatea ca timpul de downloadare a site-ului să fie mai mic de 9 secunde. Pentru că 9 secunde se află la o deviaţie standard deasupra mediei, este

necesar să aflăm valoarea Z pentru care timpul de downloadare este mai mic de o deviaţie standard. Tabelul

din anexa 1 prezintă probabilităţile cumulative sau aria de sub aria de sub curba normală standardizată

calculată pentru un anumit Z. Pentru a utiliza acest tabel, Z trebuie înregistrat cu două zecimale. Astfel,

 pentru a determina probabilitatea sau aria de sub curbă pentru Z = +1,00, trebuie coborât pe prima coloană

 până se ajunge la valoarea întreagă a lui Z, adică 1. Apoi, la intersecţia liniei Z = 1, cu coloana 0.00, se va

găsi probabilitatea căutată: 0,8413. Adică sunt 84,13% şanse ca downloadarea să dureze mai puţin de 9

secunde. Aceasta este suprafaţa de sub curba normală de la - ∞ la 1σ (figura 5.2).

Exemplul 1. Dacă se doreşte aflarea probabilităţii ca timpul de dowloadare să fie mai mic de o

secundă, se procedează în mod similar. Trebuie calculată aria de sub curba normal standardizată aflată la

stanga valorii lui Z calculată cu ajutorul formulei de transformare (Z = -3,00). Folosind tabelul din anexa 1,

la intersecţia liniei Z = -3 cu coloana .00 se va afla P(X <1) = 0,0013. Cu alte cuvinte, sunt 0,13% şanse ca

timpul de downloadare să fie mai mic de o secundă.

42

Page 43: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 43/91

Exemplul 2. Care este probabilitatea ca timpul de downloadare să fie mai mare de 9 secunde? Pentru

că probabilitatea ca timpul de downloadare să fie mai mic de 9 secunde a fost deja determinată, privind

figura 5.2 se opoate observa că valoarea căutată este complementul acesteia, adică suprafaţa de sub curba

normală de la X = 9 (Z = 1) până la ∞: P(X > 9) = 1 – 8413 = 0,1587.

Exemplul 3. Care este probabilitatea ca timpul de downloadare să fie mai mare de o secundă, dar maimic de 9 secunde? În acest caz, probabilitatea căutată va fi egală cu suprafaţa de sub curba normală cuprinsă

între X = 1 şi X = 9. Pentru că P(X <1) şi P(X > 9) au fost deja calculate, probabilitatea ce trebuie calculată

va fi complementul sumei celor două probaiblităţi:

P(1 < X < 9) = 1- [P(X <1) + P(X > 9)] = 1 – (0,0013 + 0,1587) = 0,84

Pentru a găsi o anumită valoare asociată cu o probabilitate cunoscută, se procedează în modul următor:

1. Se schiţează curba normală şi se plasează valorile pentru medie pe scalele lui X şi Z.

2. Se găseşte aria cumulativă situată până la X.

3. Se haşurează acea arie.

4. Utilizând tabelul din anexa 1 se determină valoarea lui Z corespunzătoare ariei de sub curba

normală de până la X.

5. Se calculează X din ecuaţia de transformare:

Z = (X - μ)/σ → X = μ + Z σ

Exemplul 4. Care este timpul necesar (în secunde) pentru ca 10% dintre pagini să se downloadeze?

Pentru că în 10% din cazuri este de aşteptat ca pagina să se downloadeze în mai puţin de X secunde, aria de

sub curba normală pentru acest Z trebuie sa fie mai mică de 0,1000. Utilizând tabelul din anexa 1, se observăcă cea mai apropiată valoare de 0,1000 este 0,1003, care se găseşte la intersecţia liniei Z = -1,2 cu coloana

0,08. Deci Z = - 1,28. În această situaţie, X = 7 + (-1,28)(2) = 4,44 secunde. Astfel, ne putem aştepta ca în

10% din cazuri pagina de internet să se downloadeze în mai puţin de 4,44 secunde.

Exemplul 5. Care sunt valorile minimă şi maximă a lui X, valori situate simetric faţă de medie, care

vor include 95% dintre timpii de downloadare?

Pentru că 95% dintre valori sunt situate între Xmin şi Xmax, şi Xmin şi Xmax se află la distanţe egale de medie,

înseamnă 2,5% dintre valori sunt mai mici decât Xmin. Căutând în tabelul din anexa 1 valoarea 0,0250, o

găsim la intersecţia lui liniei Z = -1,9 şi coloanei 0,06. Deci Zmin = -1,96. Rezultă că X = 7 + (-1,96)(2) =

3,08 secunde.

Pentru a afla Xmax, trebuie găsit Z pentru care sub curba normală se află 97,5% dintre cazuri. Din tabel,

această valoare o găsim la intersecţia cliniei Z = 1,9 şi a coloanei 0,06. Deci Z = 1,96.

Prin urmare, X = 7 + (1,96)(2) = 10,92 secunde.

Înseamnă că în 95% dintre cazuri, timpul de downloadare va fi între 3,08 şi 10,92 secunde.

43

Page 44: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 44/91

5.2. Distribuţia eşantioanelor

Un scop important al analizei statistice este de a face inferenţe, adică de a utiliza media eşantionului

sau proporţia eşantionului pentru a estima parametrii corespunzători ai întregii populaţii. Principala

 problemă în utilizarea inferenţei statistice este să se tragă concluzii despre populaţie şi nu despre eşantion.De exemplu, un sondaj de opinie despre intenţia de vot a cetăţenilor foloseşte eşantionul doar ca o cale de a

afla cum vor fi distribuite voturile în rândul întregului electorat. Valorile determinate doar pentru eşantion nu

au o valoare prea mare în sine.

În mod ipotetic, utilizarea datelelor statistice ale unui eşantion pentru estimarea parametrilor 

 populaţiei ar necesita examinarea tuturor eşantioanelor posibile din acea populaţie. Când o astfel de selecţie

de eşantioane este făcută, distribuţia rezultatelor astfel obţinute este numită distribuţia eşantioanelor. Spre

deosebire de distribuţiile studiate până în acest moment, o distribuţie a eşantioanelor nu se referă observaţii

individuale, ci la valori statistice calculate în urma culegerii observaţiilor, eşantion după eşantion.

Construcţia unei distribuţii a eşantioanelor

Câteodată este posibil de construit o distribuţie de aşantioane fără a recurge la simulări matematice

complexe. Pentru a ilustra aceasta, se va construi distribuţia eşantioanelor de patru persoane dintr-o

 populaţie în care jumătate favorizează candidatul liberal la preşedenţie, iar cealaltă jumătate favorizează

candidatul social-democrat. Pentru fiecare subiect se va defini variabila X care reprezintă preferinţa pentru

un anumit candidat:

X = 1, dacă subiectul preferă candidatul liberalX = 0, dacă subiectul preferă candidatul social-democrat

Cele patru rezultate posibile dintr-un eşantion vor fi plasate într-o paranteză, după modelul următor:

(1,0,0,1). Aceasta ar însemna că primul şi ultimul respondent preferă candidatul liberal, iar al doilea şi al

treilea îl preferă pe cel social-democrat. Să presupunem că s-au extras 16 eşantioane:

(1,1,1,1) (1,1,1,0) (1,1,0,1) (1,0,1,1)

(0,1,1,1) (1,1,0,0) (1,0,1,0) (1,0,0,1)

(0,1,1,0) (0,1,0,1) (0,0,1,1) (1,0,0,0)

(0,1,0,0) (0,0,1,0) (0,0,0,1) (0,0,0,0)

Eşantioanele ar fi corecte dacă jumătate din populaţie l-ar prefera pe fiecare dintre candidaţi.

Acum se poate construi distribuţia de eşantioane pentru proporţia celor care îl preferă pe candidatul

liberal. Pentru un eşantion de 4, această proporţie poate fi 0, 0,25, 0,5, 0,75 şi 1. Proporţia 0 rezultă doar 

 pentru unul dintre cele 16 eşantioane, (0,0,0,0), aşa că probabilitatea acestui eşantion este de 1/16 = 0,0625.

Proporţia de 0,25 apare în patru eşantioane, (1,0,0,0), (0,1,0,0), (0,0,1,0) şi (0,0,0,1), aşa că probabilitatea

44

Page 45: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 45/91

unui astfel de eşantion este de 4/16 = 0,25. În mod similar se poate construi probabilitatea fiecărei proporţii,

aşa cum se poate vedea în tabelul următor.

Proporţia în eşantion Probabilitatea0,00 0,06250,25 0,2500

0,50 0,37500,75 0,25001,00 0,0625

Distribuţiile de eşantioane reflectă variabilitatea care apare atunci când se colectează date de la

eşantioane şi se utilizează informaţiile statistice pentru a estima parametrii. Dacă patru organizaţii de sondare

a opiniei publice ar face patru anchete, fiecare cu eşantionul ei, ar trebui să obţină rezultate diferite, pentru că

eşantioanele sunt diferite. În practică, dacă se lucrează profesionist, rezultatele nu ar trebui să fie foarte

diferite. O distribuţie a eşantioanelor unei informaţii statistice bazate pe n observaţii reprezintă distribuţia

frecvenţelor relative ale acelei informaţii statistice, rezultată în urma extragerii repetate a unor eşantioane de

dimensiunea n, de fiecare dată calculându-se valoarea statistică de interes. Este posibil de construit o astfel

de distribuţie în mod empiric, la fel ca în exemplul anterior. În practică, nu este necesar să se extragă

eşantioane în mod repetat pentru a genera distribuţii de eşantioane. Forma distribuţiei eşantioanelor este

cunoscută din punct de vedere teoretic, astfel încât se pot face afirmaţii despre valoarea unei informaţii

statistice pornind doar de la un singur eşantion de o anumită dimensiune.

5. 3. Distribuţia mediei eşantioanelorÎn capitolul 3 au fost discutate câteva măsuri ale tendinţei centrale. Cea mai utilizată dintre acestea

este media aritmetică. Media aritmetică este şi cea mai bună măsură pentru o distribuţie care se presupune că

este normală. Atunci când se colectează informaţii şi se calculează media unui eşantion,  X   , nu se ştie cât

de aproape se situează această valoare de media populaţiei, μ, pentru că nu se cunoaşte această ultimă

valoare. Totuşi, folosind distribuţia eşantioanelor se poate prezice eroarea de estimare. De exemplu,

distribuţia eşantioanelor poate indica faptul că este o probabilitate mare ca  X   să se situeze la, să zicem, 10

unităţi înainte sau după μ. Media eşantionului,  X   , este o variabilă care îşi modifică valoarea de laeşantion la eşantion. Pentru eşantioane aleatorii, ea fluctuează în jurul mediei populaţiei, μ, câteodată fiind

mai mare, alteori fiind mai mică. De fapt, media distribuţiei eşantioanelor este egală cu media populaţiei, μ.

Dacă se extrag în mod repetat eşantioane, pe termen foarte lung, media mediilor eşantioanelor va egala

media populaţiei.

45

Page 46: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 46/91

Page 47: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 47/91

Figura 5.4.

- Deşi un eşantion de aproximativ 30 este în general suficient de mare pentru ca distribuţia

mediilor să fie apropiată de normal, acest lucru nu înseamnă că 30 de cazuri sunt suficiente

 pentru o inferenţă statistică suficient de precisă.

Obţinerea lui Z pentru distribuţia mediilor eşantioanelor. Valoare lui Z este egală cu diferenţa

dintre media eşantionului  X   şi media populaţiei μ, împărţită la eroarea standard a mediei  X  σ   

:

n

 X  X  Z 

 X 

 X 

σ 

 µ 

σ 

 µ  −=

−=

Exemplul 1.

Să presupunem că suntem managerul unei firme alimentare, iar echipamentul de ambalare umple

cutiile de cereale după o distribuţie normală, cu o medie de 358g pentru fiecare cutie. Din experienţa

anterioară se ştie că deviaţia standard a populaţiei în procesul de umplere este de 15g. Dacă se extrage un

eşantion aleator de 25 de cutii şi este calculată greutatea medie, ce rezultat ar fi de aşteptat? Cât credeţi că vafi media eşantionului: 368g, 200g, 365g?

Eşantionul este ca o reprezentare în miniatură a populaţiei, iar dacă valorile populaţiei sunt normal

distribuite, valorile din eşantion ar trebui să fie şi ele aproximativ normal distribuite. Astfel, dacă media

 populaţiei este de 368g, media eşantionului are şanse mari de a fi apropiată de 368g.

47

Page 48: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 48/91

Mai departe, cum s-ar putea determina probabilitatea ca greutatea medie a celor 25 de cutii să fie mai

mică de 365g? De la distribuţia normală se ştie că aria mai mică decât orice valoare a lui X poate fi

determinată convertind pe X în valori standardizate Z şi găsind valoare corespunzătoare din tabelul

distribuţiei normale:

00,13

3

25

15

368365−=

−=

−=

−=

n

 X  Z σ  

 µ 

Aria corespunzătoare lui Z = -1 din tabelul anexei 1 este 0,1587. Aceasta înseamnă că 15,87% din

toate eşantioanele posibile de 25 de cutii au o medie pe eşantion de sub 365g. Nu este acelaşi lucru cu a

spune că acesta ar fi procentul cutiilor cu o greutate mai mică de 365g. Acest procent poate fi calculat astfel:

20,015

368365−=

−=

−=

σ 

 µ  X  Z 

Aria corespunzătoare lui Z = -0,20 este de 0,4207. Deci este de aşteptat ca 42,07% dintre cutii să aibă

mai puţin de 365g. Comparând rezultatele se poate observa că mai multe cutii decât media eşantioanelor vor 

avea mai puţin de 365g. Acest rezultat poate fi explicat prin faptul că procesul de calcul al mediei diluează

importanţa valorilor individuale. Astfel, şansa ca media unui eşantion de 25 de cutii să fie departe de media

 populaţiei va fi mai mică decât şansa unei anumite cutii.

Exemplul 2.

Cum este afectată eroarea standard a mediei de creşterea eşantionului de cutii de la 25 la 100 de

 bucăţi?

Dacă n = 25, atunci:

0,35

15

25

15====

n X 

σ σ 

Dacă n = 100, atunci:

5,110

15

100

15====

n X 

σ σ 

Se poate observa că urmare a creşterii mărimii eşantionului de la 25 la 100, eroarea standard a scăzut

la jumătate: de la 3 la 1,5 grame. Aceasta demonstrează că extrtagerea unor eşantioane mai mari va duce la o

variabilitate mai redusă a mediilor eşantioanelor de la un eşantion la altul.

Exemplul 3.

Dacă este extras un eşantion de 100 de cutii, care este şansa de a obţine o medie a eşantionului mai

mică de 365g?

48

Page 49: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 49/91

00,25,1

3

100

15

368365−=

−=

−=

−=

n

 X  Z 

σ  

 µ 

Din tabelul anexei 1, aria pentru un Z mai mic decât –2 este 0,0228. Aceasta înseamnă că ne putem

aştepta ca 2,28% dintre eşantioanele de 100 de bucăţi să aibă mai puţin de 365g, comparativ cu 15,87%

 pentru eşantioanele de 25.Câteodată este necesar să se afle intervalul în care va cădea o proporţie de medii ale eşantioanelor.

Similar exemplelor de la secţiunea anterioară, distanţa dintre valoarea inferioară mediei şi cea superiaoră

mediei va conţine aria de sub curba normală care trebuie determinată.

n

 X  Z  I 

 I σ 

 µ −=

unde Z I  = -Z

n

 X  Z  S 

S σ  

 µ −=

unde ZS  =+Z 

Astfel,n

 Z  X  I σ 

 µ −= , iar 

n Z  X S 

σ  µ +=

Exemplul 4.

Să se determine un interval situat în jurul mediei populaţiei care va include 95% dintre mediileeşantioanelor, pentru un eşantion de 25 de cutii.

Dacă 95% este divizat în două părţi egale, situate simetric dedesubtul şi deasupra mediei, valoarea lui

Z I  corespunzătoare unei arii de 0,0250 este, conform tabelului din anexa 1, -1,96, iar valoare lui ZS  ,

corespunzătoare unei arii de 0,975 este +1,96. Atunci, valorile inferioară şi superioară ale lui  X  vor fi:

12,36288,536825

1596,1368 =−=−=

 I  X 

88,37388,536825

15

96,1368=+=+=

S  X 

Astfel, 95% dintre mediile eşantioanelor bazate pe eşantioane de 25 de cutii vor fi situate între

362,12 g şi 373,88g.

5.4. Distribuţia proporţiei eşantioanelor

49

Page 50: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 50/91

Atunci când se lucrează cu variabile categorice, situaţie în care fiecare individ sau fiecare item din

cadrul populaţiei este clasificat ca având sau nu o anumită caracteristică (să fie bărbat sau femeie, să prefere

candidatul A sau candidatul B) cele două rezultate posibile sunt 1 sau 0, care reprezintă prezenţa sau absenţa

respectivei caracteristici. Dacă este disponibil un singur eşantion de n indivizi, atunci media eşantionului

 pentru o astfel de variabilă va fi obţinută prin însumarea tuturor cifrelor de 1 şi 0 şi împărţirea rezultatului lan. De exemplu, dacă într-un eşantion de 5 indivizi, 3 îl preferă pe candidatul A şi 2 nu îl preferă, atuci suma

scorurilor va fi 3, împărţită la 5 va rezulta 0,6. Aceasta este proporţia indivizilor din eşantion care îl preferă

 pe candidatul A. De aceea, atunci când se lucrează cu variabile categorice, media eşantionului (rezultată din

scoruri de 1 şi 0) reprezintă proporţia eşantionului pe. Astfel, proporţia eşantionuui este:

n

 X  pe =

Proporţia unui eşantion are o proprietate specială: ia valori între 0 şi 1. Dacă toţi indivizii posedă

aceeaşi proprietate, fiecare având astfel scorul 1,  pe va fi 1. Dacă jumătate din eşantion posedă acea proprietate şi jumătate nu o posedă, pe va fi 0,5, iar dacă nici un individ nu posedă proprietatea, pe va fi 0.

Prin analogie cu distribuţia mediei eşantioanelor, eroarea standard a proporţiei se poate calcula cu

următoarea formulă:

n

 p pe p

)1( −=σ  

Atunci când se exrag eşantioane dintr-o populaţie finită, cu înlocuire, distribuţia proporţiei

eşantioanelor este binomială. Totuşi, distribuţia normală poate fi utilizată pentru a aproxima distribuţia

 binomială atunci când produsele np şi n(1-p) sunt cel puţin 5. În cele mai multe cazuri în care se fac

inferenţe despre proporţii, mărimea eşantionului este suficient de mare pentru ca distribuţia să poată fi

aproximată ca fiind normală. Astfel, în multe cazuri, distribuţia normală poate fi utilizată pentru a evalua

distibuţia proporţiei eşantioanelor.

Dacă în ecuaţian

 X  X  Z 

 X 

 X 

σ 

 µ 

σ 

 µ  −=

−=

se înlocuieşte  X  cu pe, μ cu p şin

σ  

cun

 p p )1( − , atunci

n

 p p p p Z  e

)1( −

−=

Exemplu

Să presupunem că directorul unei bănci a constatat că 40% dintre cei care îşi păstrează economiile la

acea bancă posedă mai multe conturi. Dacă ar selecta un eşantion aleator de 200 de clienţi, care este

 probabilitatea ca proporţia eşantionului de clienţi ce au mai multe conturi să fie mai mică de 0,30?

50

Page 51: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 51/91

Deoarece np = 200(0,40) = 80 > 5 şi n(1 – p) = 200(0,60) = 120 > 5, distribuţia proporţiei

eşantionului poate fi considerată ca aproximativ normală. În acest caz,

89,20346,0

10,0

200

24,0

10,0

200

)60,0)(40,0(

40,030,0

)1(−=

−=

−=

−=

−=

n

 p p

 p p Z  e

Utilizând tabelul din anexa 1, aria de sub curba normală de până la Z = -2,89 este de 0,0019. Astfel,

 probabilitatea de a obţine o proporţie a eşantionului mai mică de 0,30 este de 0,19%, ceea ce înseamnă că

evenimentul este foarte puţin probabil. Aceasta înseamnă că dacă proporţia adevărată din cadrul populaţiei

este de 0,4, atunci este de aşteptat ca mai puţin de o cincime din eşantioanele de mărime 200 să aibă

 proporţii mai mici decât 0,3

Exerciţii

1. Dată fiind o distribuţie normală cu media de 50 şi deviaţia standard de 4, care este probabilitatea ca:

a. X > 43? b. X < 42?

c. 42 < X < 48?

d. X > 57,5?

e. X < 40 sau X > 55?

f. 5% dintre valori să fie mai mici decât X?

g. 60% dintre valori să se afle între două valori ale lui X, situate simetric faţă de medie?

h. 85% dintre valori să fie mai mari decât X?2. O firmă de transport a determinat că distanţa parcursă anual de fiecare camion este normal distribuită, cu o

medie de 50000 km şi o deviaţie standard de 12000 km.

a. Care este proporţia camioanelor care ar putea face între 34000 şi 50000 km într-un an?

 b. Care este probabilitatea ca un camion ales aleator să facă între 34000 şi 38000 km pe an?

c. Care este procentul camioanelor care vor face sub 30000 sau peste 60000 km pe an?

d. Care este procentul camioanelor care vor face între 30000 şi 60000 km pe an?

e. Câţi km vor face cel puţin 80% dintre camioane?

f. Care vor fi răspunsurile la întrebările a – e dacă deviaţia standard ar fi 10000km?

3. Se constată că notele finale la un examen de statistică sunt normal distribuite şi cu o medie de 7,3 şi o

deviaţie standard de 0,8.

a. Care este probabilitatea de a obţine cel mult 9,1 la acest examen?

 b. Care este procentul de studenţi cu note între 6,5 şi 8,9?

c. Care este procentul de studenţi cu note cuprinse între 8,1 şi 8,9?

51

Page 52: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 52/91

d. Doar 5% dintre studenţi obţin o notă mai mare decât ce valoare?

e. În ce situaţie eşti mai bine situat faţă de colegii tăi: atunci când obţii 8,1 puncte la acest examen sau

atunci când obţii 6,8 puncte la un examen a cărui medie este 6,2 iar deviaţia standard este 3?

4. Timpul utilizat pentru consultarea e-mailului este normal distribuit, cu μ = 8 minute şi σ = 2 minute.

a. dacă sunt extrase eşantioane aleatorii de 25 de sesiuni, care este proporţia mediilor eşantioanelor caresunt cuprinse între 7,8 şi 8,2 minute?

 b. dacă sunt extrase eşantioane aleatorii de 25 de sesiuni, care este proporţia mediilor eşantioanelor care

sunt cuprinse între 7,5 şi 8 minute?

c. dacă sunt extrase eşantioane aleatorii de 100 de sesiuni, care este proporţia mediilor eşantioanelor 

care sunt cuprinse între 7,8 şi 8,2 minute?

d. explicaţi diferenţa dintre rezultatele de la punctul a şi punctul c

e. ce are şanse mai mari de apariţie: o anumită sesiune de consultare a e-mailului care să fie mai lungă

de 11 minute, o medie a unui eşantion care să fie mai mare de 9 minute dintr-un eşantion de 25 de

sesiuni sau o medie a unui eşantion care să fie mai mare de 8,6 minute dintr-un eşantion de 100 de

sesiuni. Explicaţi rezultatul.

5. O firmă de transport a determinat că, anual, distanţa parcursă de fiecare camion este normal distribuită, cu

o medie de 50000 km şi o deviaţie standard de 12000 km.

a. dacă este extras un eşantion de 16 camioane, care este probabilitatea ca distanţa medie parcursă să fie

mai mică de 45000 km pe an?

 b. dacă este extras un eşantion de 16 camioane, care este probabilitatea ca distanţa medie parcursă să fieîntre 44000 şi 48000 km pe an?

c. dacă este extras un eşantion de 64 de camioane, care este valoarea distanţei parcurse anual pentru

care există 95% şanse ca media eşantionului să fie mai mică decât aceasta?

d. care sunt răspunsurile la întrebările a – c, dacă deviaţia standard este 10000 km?

6. O instituţie de sondare a opiniei publice analizează rezultatele unui exit-poll pentru a face predicţii în

seara alegerilor. Presupunând că este vorba de o competiţie electorală între doi candidaţi şi că dacă

unul dintre aceştia a primit 55% din voturi în cadrul eşantionului, atunci acel candidat va fi anunţat

ca şi câştigător al alegerilor. Dacă eşantionul este de 100 de persoane

a. care este probabilitatea ca acel candidat să fie anunţat ca învingător atunci când adevăratul procent de

voturi primite este de 50,1%?

 b. care este probabilitatea ca acel candidat să fie anunţat ca învingător atunci când adevăratul procent de

voturi primite este de 60%?

52

Page 53: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 53/91

c. care este probabilitatea ca acel candidat să fie anunţat ca învingător atunci când adevăratul procent de

voturi primite este de 49% (adică, de fapt, a pierdut alegerile)?

d. dacă mărimea eşantionului creşte la 400, care vor fi răspunsurile la punctele a – c?

7. Se efectuează un experiment de marketing care constă în identificarea de către respondenţi a două

 băuturi răcoritoare. Sunt extrase eşantioane de către 200 de participanţi şi se presupune că aceştia nu pot distinge între cele două branduri (aceasta înseamnă că şansa fiecărei băuturi de a fi selectată este

de 50%).

a. Care proporţia eşantioanelor pentru care identificarea va fi între 50% şi 60% corectă?

 b. Între ce limite simetrice ale procentului populaţiei se vor afla 90% dintre eşantioane?

c. Care este probabilitatea de a obţine eşantioane cu un procent de identificare corectă mai mare

de 65%?

d. Ce are şanse mai mari de apariţie: 60% identificare corectă într-un eşantion de 200 sau 55%

identificare corectă într-un eşantion de 1000? Explicaţi.

6. Estimarea intervalului de încredere

53

Page 54: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 54/91

Inferenţa statistică reprezintă procesul de utilizare a rezultatelor obţinute în urma extragerii unui

eşantion pentru a trage concluzii despre caracteristicile întregii populaţii. În acest capitol vor fi discutate

 proceduri care permit estimarea mediei sau a proporţiei populaţiei.

Există două tipuri majore de date estimative: estimările punctuale şi estimările interval. O estimare

punctuală repezintă o singură informaţie statistică, care este utilizată pentru a estima adevărata valoare a parametrului populaţiei. De exemplu, media eşantionului,  X   , este o estimare punctuală a mediei populaţiei,

μ, iar varianţa eşantionului, S2, este o estimare punctuală a varianţei populaţiei, σ2. O informaţie statistică,

aşa cum este  X   , variază de la eşantion la eşantion, deoarece depinde de itemii care sunt selectaţi în cadrul

acestuia. Această variaţie trebuie luată în considerare atunci când se doreşte oferirea unei estimări a

caracteristicii populaţiei. Pentru a realiza acest lucru se foloseşte o estimare a intervalului în care se găseşte

adevărata medie a populaţiei, utilizând distribuţia mediei eşantioanelor. Acest interval va avea o anumită

încredere sau probabilitate de estimare corectă a adevăratei valori a parametrului μ. O estimare asemănătoare

 poate fi calculată pentru proporţia, p, din cadrul unei populaţii. De exemplu, se poate construi un interval

 pentru care putem fi 95% siguri că acesta include proporţia reală a votului pentru un anumit candidat. Tot în

acest capitol se va discuta şi modul de determinare a dimensiunii unui eşantion.

6.1. Estimarea intervalului de încredere a mediei atunci când deviaţia standard este

cunoscută

În capitolul anterior a fost utilizată teorema limitei centrale şi/sau distribuţia populaţiei pentru a

determina procentajul mediilor eşantioanelor care vor fi la o anumită distanţă de media populaţiei. Înexemplul folosit, cel cu ambalarea cerealelor în cutii, 95% dintre mediile eşantioanelor erau situate între

362,12 şi 373,88g. Această afirmaţie este una deductivă, dar ceea ce trebuie să calculăm acum necesită un

raţionament inductiv. Inducţia este necesară deoarece în cazul statisticii inferenţiale rezultatele unui singur 

eşantion sunt utilizate pentru a trage concluzii despre populaţie şi nu invers. În practică, ceea ce nu se

cunoaşte şi trebuie determinat este media populaţiei.

Să presupunem, în exemplul cu cerealele la cutie, că adevărata medie a populaţiei, μ, este

necunoscută, dar este cunoscută deviaţia standard a populaţiei, σ, care este egală cu 15 grame. Astfel, în loc

să plecăm de la formula )/(96,1 nσ   µ ±  pentru a afla limita superioară şi inferioară în jurul lui μ, se va

utiliza  X   în loc de μ pentru a-l determina pe acesta din urmă: )/(96,1 n X   σ   ± . Deşi în practică este

extras un singur eşantion de mărime n, şi pentru acesta se calculează  X   , pentru a înţelege ce înseamnă

estimarea intervalului, se va lua în considerare un set de eşantioane, fiecare de mărime n.

54

Page 55: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 55/91

De exemplu, să presupunem că media populaţiei, μ, este egală cu 368g. Să presupunem în continuare

că a fost extras un eşantion de 25 de cutii, iar media acestuia este de 362,3g. Intervalul pentru estimarea lui μ

este )25/15(96,13,362 ± sau 362,3 ± 5,88. Deci estimarea lui μ este:

356,42 ≤ μ ≤ 368,18

Deoarece media populaţiei (368) este inclusă în acest interval, putem afirma că eşantionul a condusla o concluzie corectă în privinţa lui μ (figura 6.1.).

Figura 6.1. Estimarea intervalului de încredere pentru cinci eşantioane diferite de 25 de elemente,

extrase dintr-o populaţie pentru care μ = 368 şi σ = 15

55

Page 56: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 56/91

Pentru a continua acest exemplu, să presupunem că pentru un alt eşantion de 25 de cutii, media este

369,5. Intervalul calculat pentru acest eşantion va fi )25/15(96,15,369 ± sau 369,5 ± 5,88. Deci

estimarea lui μ este:

363,62 ≤ μ ≤ 375,38

Deoarece media populaţiei (368) este inclusă şi în acest interval, putem afirma că eşantionul a condusla o concluzie corectă în privinţa lui μ (figura 6.1.).

Înainte de a crede orice eşantion poate duce la concluzii corecte despre μ, să presupunem că s-a extrs

un al treilea eşantion de mărimea n = 25, a cărui medie este 360g. Intervalul calculat pentru acest eşantion va

fi )25/15(96,1360 ± sau 360 ± 5,88. Deci estimarea lui μ este:

354,12 ≤ μ ≤ 365,88

Această estimare nu este corectă, deoarece media populaţiei nu este inclusă în intervalul calculat din

acest eşantion. Astfel, pentru unele eşantioane intervalul de estimare al lui μ va fi corect, însă pentru alte

eşantioane nu va fi corect. Mai mult decât atât, în practică este extras un singur eşantion şi deoarece media

 populaţiei nu este cunoscută, nu se poate şti dacă estimarea intervalului este corectă. Pentru a ieşi din această

dilemă este necesar să se determine proporţia eşantioanelor care conduc la intervale de încredere corecte

 pentru media populaţiei, μ. Pentru a face acest lucru vor fi examinate alte două eşantioane ipotetice: unul

  pentru care media este 362,12g şi altul pentru care media este 373,88g. Pentru primul dintre aceste

eşantioane intervalul calculat va fi )25/15(96,112,362 ± sau 362,12 ± 5,88. Deci estimarea lui μ este:

356,24 ≤ μ ≤ 368,00

Deoarece media populaţiei este limita superioară a acestui interval, estimarea este corectă.Pentru cel de-al doilea eşantion, intervalul calculat va fi )25/15(96,188,373 ± sau 373,88 ± 5,88.

Deci estimarea lui μ este:

368,00 ≤ μ ≤ 379,76

Deoarece media populaţiei este limita inferioară a acestui interval, estimarea este corectă.

Din aceste exemple, ilustrate în figura 6.1, se poate observa că dacă media unui eşantion format din

25 de cutii se situează oriunde între 362,12g şi 373,88g, atunci media populaţiei este inclusă undeva în acest

interval. Din acelaşi exemplu discutat în capitolul 5 a rezultat că 95% dintre mediile eşantioanelor sesituează între 362,12g şi 373,88g. De aceea, 95% dintre toate eşantioanele de n = 25 de cutii au medii care

includ media populaţiei în intervalul calculat, iar 5% dintre toate eşantioanele vor conduce la intervale care

nu conţin media populaţiei.

Deoarece în practică este extras un singur eşantion iar media populaţiei este necunoscută, nu putem fi

niciodată siguri că intervalul calculat conţine media populaţiei. Totuşi, este o încredere de 95% că eşantionul

56

Page 57: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 57/91

respectiv include media populaţiei. În general, un interval de încredere de 95% este interpretat în felul

următor: dacă sunt extrase toate eşantioanele posibile de mărime n şi sunt calculate mediile lor, atunci 95%

dintre intervalele calculate vor include media populaţiei undeva în jurul mediei eşantionului şi doar în 5%

dintre cazuri nu se va întâmpla aşa ceva.

În unele situaţii este necesar un grad mai mare de siguranţă în estimarea intervalului în care sesituează media (de exemplu 99%). În alte cazuri, un grad de siguranţă mai mic (90%) este suficient. În

general, nivelul de încredere este simbolizat de (1 – α) x 100%, unde α este proporţia din laturile

distribuţiei care este în afara intervalului de încredere. Proporţia aflată pe latura superioară a distribuţiei este

α/2, care este egală cu cea aflată pe latura inferioară a acesteia. Pentru a obţine un interval de (1 – α) x 100%

încredere în estimarea mediei atunci când deviaţia standard este cunoscută se foloseşte următoarea formulă:

n Z  X 

σ  ±

saun

 Z  X n

 Z  X σ 

 µ σ 

+≤≤−

unde Z este valoarea corespunzătoare suprafeţei de până la 1 - α/2 din distribuţia normală standardizată, sau

 probabilitatea de α/2 din latura superioară a distribuţiei.

Pentru a construi un interval de încredere de 95%, pentru estimarea mediei, se alege α = 0,05.

Valorile lui Z corespunzătoare unei suprafeţe din care se scad cele două laturi (α/2 = 0,025) sunt –1,96 şi

+1,96. Această valoare a lui Z obţinută în construcţia unui interval de încredere se numeşte valoare critică a

distribuţiei.

Există valori critice diferite pentru fiecare nivel de încredere 1 - α ales. Un nivel de încredere de 95%

conduce, aşa cum am vazut deja, la o valoare a lui Z egală cu ±1,96 (figura 6.2.). Dacă se doreşte un nivel de

încredere de 99%, atunci α = 0,01, iar valoarea lui Z este aproximativ 2,58, pentru că suprafaţa din latura

superioară este de 0,005 (figura 6.3).

57

Page 58: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 58/91

Figura 6.2. Curba normală pentru determinarea valorii lui Z necesară pentru o încredere de 95%

Figura 6.3. Curba normală pentru determinarea valorii lui Z necesară pentru o încredere de 99%

Cineva s-ar putea întreba de ce nu construim un interval de încredere cât mai apropiat de 100%?

Acest lucru nu este de dorit deoarece, aşa cum s-a observat şi din cele două exemple anterioare, orice

creştere a nivelului de încredere este obţinută prin lărgirea intervalului de încredere. Într-o astfel de situaţie

 putem avea mai multă încredere că media populaţiei se află în interiorul unui spectru mai larg de valori, însă

58

Page 59: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 59/91

acest lucru s-ar putea să nu fie foarte folositor din punct de vedere al unei decizii. Astfel există un echilibru

între mărimea intervalului de încredere şi nivelul de încredere.

Exemplul 1

Un producător de hârtie de scris fabrică foi de dimensiunea A4, pentru care este de aşteptat ca

lungimea să fie de 297mm, iar deviaţia standard de 2mm. La intervale periodice se extrag eşantioane pentrua determina dacă lungimea foilor este egală cu 297mm sau ceva s-a deteriorat în procesul de producţie. Dacă

s-ar observa aşa ceva, utilajele ar trebui recalibrate. Să presupunem că a fost extras un eşantion de 100 de

foi, iar media lungimii acestora este de 296,7mm. Să se construiască un interval de încredere de 95% pentru

estimarea lungimii medii a foilor.

Utilizând formulan

 Z  X n

 Z  X σ 

 µ σ 

+≤≤− , cu Z = 1,96 pentru o încredere de 95%,

100

296,17,296

100

296,17,296 +≤≤− µ 

092,297308,296 ≤≤ µ 

Astfel, cu o încredere de 95%, se estimează că media populaţiei este cuprinsă între 296,308 şi 297,092.

Pentru că 297, valoarea care indică faptul că procesul de producţie este corespunzător, este inclus în acest

interval, nu există nici un motiv să se creadă că este ceva în neregulă cu procesul de producţie.

Exemplul 2

Să se construiască un interval de încredere de 99% pentru estimarea lungimii medii a foilor.

Utilizând aceeaşi formulă cu Z = 2,58 pentru o încredere de 99%,

100

258,27,296

100

258,27,296 +≤≤− µ 

216,297184,296 ≤≤ µ 

Deoarece 297 este inclus în intervalul calculat, nu există nici un motiv să se creadă că procesul de producţie

este dereglat.

6.2. Estimarea intervalului de încredere a mediei atunci când deviaţia standard este

necunoscutăAşa cum de obicei media populaţiei, μ, nu este cunoscută, nici deviaţia standard a populaţiei, σ, nu

este cunoscută. De aceea a trebuit să se dezvolte un procedeu de estimare a intervalului de încredere pentru μ

 pornind doar de la informaţiile statistice ale eşantionului,  X   şi S.

59

Page 60: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 60/91

Distribuţia Student

La începutul secolului XX, un statistician numit William S. Gosset, angajat al producătorului de bere

Guinness, din Irlanda, era interesat de inferenţele ce se pot face despre medie atunci când deviaţia standard a

 populaţiei, σ, este necunoscută. Pentru că angajaţii de la Guinness nu aveau permisiunea să publice cercetări

sub propriul nume, Gosset a adoptat pseudonimul de Student. Distribuţia pe care el dezvoltat-o a ajuns astfelsă se numească distribuţia Student.

Dacă variabila X este normal distribuită, atunci următoarea informaţie statistică are o distribuţie t cu

n-1 grade de libertate:

n

 X t 

µ −=

Se poate observa că expresia lui t este similară celei a lui Z din capitolul 5, cu excepţia faptului că

deviaţia standard a populaţiei, σ, care nu este cunoscută, este înlocuită cu deviaţia standard a eşantionului, S.

Proprietăţi ale distribuţiei t 

Ca formă, distribuţia t este foarte asemănătoare distribuţiei normale standardizate. Ambele distribuţii

au formă de clopot şi sunt simetrice. Totuşi, distribuţia t are suprafeţe mai mari pe laturi şi mai mici pe

centru decât cea normal standardizată (figura 6.4.). Acest lucru se întâmplă deoarece σ este necunoscut iar S

este utilizat pentru a-l estima. Pentru că valoarea lui σ este incertă, valorile lui t care sunt observate vor avea

o variabilitate mai mare decât Z.

Totuşi, pe măsură ce numărul gradelor de libertate creşte, distribuţia t se apropie treptat de ditribuţia

normal standardizată, până când cele două distribuţii devin identice. Acest lucru se întâmplă deoarece S

devine o estimare mai bună pentru σ pe măsură ce mărimea eşantionului creşte. Pentru un eşantion mai mare

sau egal cu 120, S îl estimează suficient de precis pe t , astfel încât diferenţa dintre distribuţia t şi distribuţia Z

este nesemnificativă. Din acest motiv, cei mai mulţi statisticieni utilizează Z în loc de t  atunci când

eşantionul este mai mare de 120.

60

Page 61: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 61/91

Fig. 6.4. Distribuţia normal standardizată şi distribuţia t pentru 18 grade de libertate

Valorile critice ale lui t pentru numărul corespunzător de grade de libertate se obţin din tabelul cu

distribuţia t (Anexa 2). Rândul de sus al fiecărei coloane indică suprafaţa din latura superioară a distribuţiei

t ; fiecare linie reprezintă valoarea specifică a lui t pentru fiecare grad de libertate.

De exemplu, pentru 100 de grade de libertate, dacă se doreşte construirea unui interval de încredere

de 95%, înseamnă că 2,5% dintre valori (o suprafaţă de 0,025) sunt în fiecare latură a distribuţiei. La

încrucişarea coloanei de 0,025 şi a liniei corespunzătoare pentru 100 de grade de libertate, vom găsi valoarea

critică a lui t : 1,9840. Deoarece t  este o distribuţie simetrică cu media zero, dacă valoarea din latura

superioară este de +1,9840, atunci valoarea din latura inferioară va fi de –1,9840. O valoare a lui t de 1,9840

înseamnă că probabilitatea ca t să depăşească +1,9840 este de 0,025, adică de 2,5% (figura 6.5.).

Figura 6.5. Distribuţia t cu 100 de grade de libertate

61

Page 62: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 62/91

Conceptul de grade de libertate

Formula varianţei, din capitolul 3 era1

)(1

2

2

=∑=

n

 X  X n

i

i

S . Astfel, pentru a calcula S2 este necesar 

să se cunoască  X   . Ca urmare, doar n-1 din valorile eşantionului pot să varieze. Acest lucru înseamnă că

există n-1 grade de libertate. De exemplu, să presupunem că un eşantion de 5 elemente are media de 20. Câte

valori distincte trebuie cunoscute pentru a le cunoaşte pe cele rămase? Faptul că n = 5 şi 20= X  ne spune

1001

=∑=

n

i

i X 

deoarece  X n X n

i

i =∑=1

Astfel, atunci când patru dintre valori sunt cunoscute, a cincea nu va fi liberă să varieze, pentru căsuma lor trebuie să fie 100. De exemplu, dacă patru dintre valori ar fi 18, 24, 19 şi 16, atunci a cincea

valoare trebuie să fie 23, astfel încât suma să fie 100.

Formula intervalului de încredere atunci când σ este necunoscut

Intervalul de încredere de valoare (1-α)x100 se calculează cu ajutorul următoarei formule:

n

S t  X  n 1−±

sau

n

S t  X 

n

S t  X  nn 11 −− +≤≤− µ 

Pentru a ilustra aplicarea formulei intervalului de încredere atunci când deviaţia standard, σ, este

necunoscută, să considerăm următorul exemplu: managerul unei firme selectează un eşantion de 100 de

facturi din populaţia de facturi din ultima lună. Media eşantionului celor 100 de facturi este de 110,27 RON,

iar deviaţia standard este de 28,95 RON. Firma cere un nivel de încredere de 95%, asfel că valoarea critică a

distribuţiei t (Anexa 2) poate fi aproximată la 1,984 (în Anexa 2 avem valoarea lui t doar pentru 100 degrade de liberate şi nu pentru 99). Utilizând ecuaţia anterioară

74,527,110100

95,28)984,1(27,1101 ±=±=±

n

S t  X  n

01,11653,104 ≤≤ µ 

Astfel, cu o încredere de 95% se poate aferma că media facturilor este situată între 104,53 şi 116,01

RON. Un interval de încredere de 95% înseamnă că dacă ar fi extrase toate eşantioanele posibile de 100 de

62

Page 63: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 63/91

facturi (ceea ce în practică nu va realiza niciodată), 95% dintre intervalele calculate vor include adevărata

medie. Validitatea estimării intervalului de încredere depinde de asumpţia de normalitate pentru distribuţia

valorilor facturilor. Deoarece mărimea eşantionului este sufiecient de mare (n = 100), se poate considera că

 presupunerea este corectă, iar utilizarea distribuţiei t este corectă.

6.3. Estimarea intervalului de încredere a proporţiei

În acest subcapitol, conceptul de interval de încredere va fi extins şi la date categorice, pentru a putea

estima proporţia populaţiei, p, din proporţia eşantionului pe = X/n. Din capitolul 5 am reţinut că atunci când

 produsele np şi n(1-p) au o valoare cel puţin egală cu 5, atunci distribuţia binomială poate fi aproximată cu o

distribuţie nomală. Astfel, un interval de încredere de (1-α)x100% pentru estimarea proporţiei populaţiei,  p,

 poate fi calculat cu următoarea formulă:

n

 p p

 Z  pee

e

)1( −

±

sau

n

 p p Z  p p

n

 p p Z  p ee

eee

e

)1()1( −+≤≤

−−

unde, pe = proporţia din eşantion = X/n = numărul de succese /mărimea eşantionului

 p = proporţia în populaţie

Z = valoarea critică rezultată din distribuţia normal standardizatăn = mărimea eşantionului

Exemplu: Să presupunem că firma din exemplul anterior doreşte să determine frecvenţa de apariţie a

erorilor în scrierea facturilor. Se doreşte construirea unui interval de încredere de 95% pentru a estima

 proporţia din întreaga populaţie de facturi care conţin erori, pentru a le putea remedia. Să presupunem că în

eşantionul de 100 de facturi, 10 conţin erori. Pentru aceste date, p e = 10/100 = 0,10. Pentru un interval de

încredere de 95%, Z = 1,96, astfel că

0588,010,0)03,0)(96,1(10,0100

)90,0)(10,0()96,1(10,0

)1(±=±=±=

± n

 p p Z  p

eee

1588,00412,0 ≤≤  p

Astfel se poate afirma că între 4,12% şi 15,88% dintre facturi conţin erori de completare.

6.4. Determinarea dimensiunii eşantionului

63

Page 64: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 64/91

În exemplele utilizate anterior referitoare la estimarea unui interval de încredere, eşantioanele au fost

alese fără a se ţine cont de lăţimea intervalului de încredere rezultat. În lumea reală, determinarea unei

mărimi corespunzătoare a eşantionului presupune o procedură complicată, care trebuie să ţină cont de

constrângerile legate de bugetul disponibil, de timpul disponibil şi de uşurinţa în selectare. În cele două

exemple anterioare, dacă se doreşte estimarea mediei facturilor sau a proporţiei facturilor ce conţin erori, ar trebui de determinat, în primul rând, cât de precisă se doreştea fi estimarea. Astfel este necesar să se

determine eroarea de eşantionare admisibilă în estimarea fiecărui parametru cât şi încrederea necesară pentru

o estimare corectă a acestora.

Determinarea mărimii eşantionului pentru medie

Pentru a detremina mărimea eşantionului necesar pentru estimarea mediei, trebuie avute în vedere

eroarea de eşantionare considerată acceptabilă, nivelul de încredere dorit, precum şi deviaţia standard.

Se pleacă de la formula din capitolul precedent

n

 X  Z 

σ  

 µ −=

, unde Z este variabila normal standardizată

mai departe,  µ σ 

−= X n

 Z 

Valoarea lui Z este pozitivă sau negativă, depinzând de faptul dacă X  este mai mare sau mai mic

decât μ. Diferenţa dintre media eşantionului, X   , şimedia populaţiei, μ, este numită eroare de eşantionare

şi este notată cu e.

n Z e

σ  =

De aici rezultă mărimea eşantionului pentru determinarea mediei, care este egală cu produsul dintre

 pătratul lui Z şi pătratul deviaţiei standard, împărţit la pătratul erorii de eşantionare

2

22

e

 Z n

σ =

Deci, pentru a putea determina mărimea eşantionului trebuie să cunoaştem trei factori:

1. Nivelul dorit de încredere, care va determina Z, valoarea critică din distribuţia normal standardizată

2. Eroarea de eşantionare acceptabilă, e

3. Deviaţia standard, σ

În practică, nu este atât de uşor de determinat aceşti trei factori. Cum ar putea fi determinate nivelul

de încredere şi eroarea de eşantionare? În mod obişnuit, răspunsul la această întrebare este oferit de

experienţă. Deşi un nivel de încredere de 95% este cel mai utilizat (în acest caz Z = 1,96), dacă se doreşte o

încredere mai mare, 99% este o valoare mai potrivită, iar dacă nu este necesară prea multă precizie, 90%

64

Page 65: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 65/91

 poate fi acceptabil. Eroarea de eşantionare nu trebuie privită din perspectiva unei valori dorite, pentru că, de

fapt, nu se doreşte nici o eroare, ci din perspectiva valorii care poate fi tolerate şi care permite tragerea unor 

concluzii valide.

În plus, este necesară o estimare a deviaţiei standard. Din nefericire, deviaţia standard a populaţiei, σ,

este rareori cunoscută. În unele situaţii, deviaţia standard a populaţiei poate fi estimată din cercetărianterioare. În alte situaţii se poate face o estimare suficient de corectă în funcţie de amplitudinea şi

distribuţia variabilei. De exemplu, dacă se presupune că există o distribuţie normală, amplitudinea este

aproximativ egală cu 6σ (adică ±3σ în jurul mediei), astfel că deviaţia standard poate fi estimată ca fiind o

şesime din amplitudine. Dacă deviaţia standard nu poate fi dedusă în aceste maniere, atunci trebuie

desfăşurat un studiu pilot, iar σ va fi extrasă de aici.

Pentru a înţelege modul de determinare a mărimii eşantionului pentru estimarea mediei populaţiei, să

reluăm un exemplu anterior, în care la o firmă au fost selectate 100 de facturi pentru a caluca un interval de

95% încredere. Cum a fost determinată această mărime a eşantionului?

Să presupunem că, după o consultare în cadrul firmei, s-a stabilit că eroarea de eşantionare nu trebuie

să fie mai mare de ±5 RON, împreună cu o încredere de 95%. Date anterioare indică faptul că deviaţia

standard a vânzărilor a fost de 25 RON pentru o lungă perioadă de timp. Astfel, e = 5, σ = 25, iar Z = 1,96

(pentru o încredere de 95%), iar n va fi

04,96)5(

)25()96,1(2

22

2

22

===e

 Z n

σ  

Putem considera că n = 97. Deoarece regula generală este de a suprasatisface criteriile, prin rotunjirela următorul număr întreg, mărimea eşantionului a fost aleasă la 100.

Determinarea mărimii eşantionului pentru proporţie

Metoda de determinare a mărimii eşantionului pentru estimarea proporţiei este similară cu cea

utilizată pentru estimarea mediei.

Se pleacă de la formula

n

 p p

 p p Z  e

)1( −

−=

, unde Z este variabila normal standardizată.

 p pn

 p p Z 

e−=

− )1(

Eroarea de eşantionare, este egală cu diferenţa dintre  pe  şi  p, adică diferenţa dintre proporţia

eşantionului şi parametrul care trebuie estimat. Astfel, eroarea de eşantionare este definită ca

65

Page 66: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 66/91

n

 p p Z e

)1( −=

De aici rezultă mărimea eşantionului pentru determinarea proporţiei, care este egală cu produsul

dintre pătratul lui Z, p şi (1- p), totul împărţit la pătratul erorii de eşantionare:

2

2 )1(

e

 p p Z n

−=

Pentru a determina mărimea eşantionului necesar estimării proporţiei, trebuie cunoscuţi trei factori:

1. Nivelul dorit de încredere, care determină valoarea lui Z

2. Eroarea de eşantionare acceptabilă, e

3. Adevărata proporţie existentă în rândul populaţiei, p

În practică, alegerea acestor factori necesită o oarecare planificare. După ce este ales nivelul de

încredere, se poate determina valoarea corespunzătoare a lui Z din distribuţia normal standardizată. Eroarea

de eşantionare, e, indică mărimea erorii care poate fi tolerată în estimarea proporţiei populaţiei. Al treileafactor, adevărata proporţie existentă în populaţie,  p, este exact parametrul care se doreşte a fi determinat.

Astfel apare întrebarea cum ar putea fi stabilită o valoare pentru un factor care este necesar la determinarea

eşantionului care, la rândul său, duce la stabilirea factorului respectiv. Există două alternative pentru acest

lucru. Prima este că, în multe situaţii, există informaţii din trecut sau din experienţe anterioare care ne pot

oferi o estimare suficient de corectă a lui  p. A doua alternativă, atunci când nu există informaţii anterioare,

constă în încercarea de a nu subestima niciodată mărimea eşantionului care este necesar. Privind ecuaţia

 pentru determinarea lui n se poate observa produsul  p(1- p) care apare la numărător. Valoarea lui p trebuiealeasă astfel încât produsul p(1- p) să fie cât mai mare posibil.

Atunci când p = 0,9, p(1- p) = (0,9)(0,1) = 0,09

Atunci când p = 0,7, p(1- p) = (0,7)(0,3) = 0,21

Atunci când p = 0,5, p(1- p) = (0,5)(0,5) = 0,25

Atunci când p = 0,3, p(1- p) = (0,3)(0,7) = 0,21

Atunci când p = 0,1, p(1- p) = (0,1)(0,9) = 0,09

Se poate observa că cea mai mare valoare a produsului  p(1- p) se obţine pentru  p = 0,5. De aceea,

atunci când nu există informaţii prealabile despre adevărata proporţie din populaţie, trebuie folosit cel mai

conservator mod de determinare a mărimii eşantionului, folosind 0,5 pentru valoarea lui  p. Această variantă

 produce cel mai mare eşantion posibil, dar duce, în acelaşi timp, şi la cel mai mare cost al eşantionării.

Dacă ne întoarcem la exemplul cu managerul firmei care dorea să afle proporţia facturilor completate

greşit, să presupunem că se doreşte o încredere de 95% în estimarea proporţiei facturilor cu erori, într-o

marjă de ±0,07 faţă de adevărata proporţie a populaţiei. Rezultatele din ultimele luni indică faptul că

66

Page 67: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 67/91

niciodată proporţia facturilor cu erori nu a depăşit 0,15. Astfel, e = 0,07, p = 0,15 şi Z = 1,96 (pentru 95%

încredere):

96,99)07,0(

)85,0)(15,0()96,1()1(2

2

2

2

==−

=e

 p p Z n

De aceea,n

= 100, pentru că regula generală este ca mărimea eşantionului să fie rotunjită la numărulîntreg cel mai apropiat, pentru a suprasatisface criteriile.

Exerciţii

1. Într-un sondaj de opinie, respondenţii sunt rugaţi să îşi evalueze poziţia ideologică pe o scală cu 7

trepte, unde 1 înseamnă extrema stangă, 4 înseamnă centru, iar 7 înseamnă extrema dreaptă. Să

 presupunem că un astfel de sondaj a fost realizat pe un eşantion de n = 2879 de persoane, media

răspunsurilor fiind 4,171, iar deviaţia standard este 1,390.

a. Construiţi un interval de 95% încredere pentru media ideologiei politice.

 b. Arătaţi care este efectul creşterii nivelului de încredere construind un interval de 99% încredere.

c. Arătaţi care este efectul scăderii nivelului de încredere construind un interval de 90% încredere.

2. Dacă  X  = 125, σ = 24 şi n = 36, construiţi un interval de 99% încredere pentru estimarea mediei

 populaţiei.

3. Managerul responsabil de controlul calităţii la o fabrică de becuri trebuie să estimeze media de viaţă a

unui important lot de produse. El ştie din procesul de producţie că deviaţia standard este de 100 de ore.

Este extras un eşantion de 64 de becuri pentru care media speranţei de viaţă este de 350 de ore.a. Construiţi un interval de 95% încredere pentru a estima adevărata medie a speranţei de viaţă a

 becurilor din lotul respectiv.

 b. Credeţi că producătorul are dreptul să afirme că, în medie, becurile rezistă 400 de ore? Explicaţi.

c. Explicaţi de ce o speranţă de viaţă a unui bec de 320 de ore nu este ceva neobişnuit, chair dacă este în

afara intervalului de încredere calculat.

d. Dacă deviaţia standard ar fi 80 de ore, care ar fi răspunsurile la punctele a şi b?

4. Determinaţi valoarea critică a lui t pentru fiecare din situaţiile următoare:

a. 1-α = 0,95, n = 10

 b. 1-α = 0,99, n = 10

c. 1-α = 0,95, n = 32

d. 1-α = 0,95, n = 61

e. 1-α = 0,90, n = 16

67

Page 68: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 68/91

5. Dacă 50= X  , S = 15 şi n = 16 şi presupunând că populaţia este normal distribuită, construiţi un

interval de încredere de 99% pentru a estima media populaţiei, μ.

6. Construiţi un interval de încredere de 95% pentru estimarea mediei populaţiei, plecând de la

următoarele seturi de date şi presupunând că populaţia este normal distribuită:

Setul 1: 1, 1, 1, 1, 8, 8, 8, 8Setul 2: 1, 2, 3, 4, 5, 6, 7, 8

Explicaţi de ce aceste seturi de date au intervale de încredere diferite, deşi au aceeaşi medie şi aceeaşi

amplitudine.

7. Construiţi un interval de 95% încredere pentru a estima media populaţiei pe baza următoarelor numere: 1,

2, 3, 4, 5, 6 şi 20. Schimbaţi numărul 20 cu 7 şi recalculaţi intervalul de încredere. Utilizând aceste rezultate,

descrieţi efectele unei valori extreme asupra intervalului de încredere.

8. Să presupunem că într-un sondaj de opinie aplicat unui eşantion de 987 de subiecţi a fost pusă următoarea

întrebare: „În ultimul an ati fost victima unui furt din buzunare, a unei tâlhării sau a unei spargeri?”. Din

totalul respondenţilor, 17 au răspuns da, iar 970 nu.

a. Determinaţi proporţia populaţiei care a fost victima unor astfel de infracţiuni.

 b. Construiţi un interval de încredere de 95% pentru proporţia populaţiei. Se poate concluziona că mai

 puţin de 5% din populaţie a fost victima unei astfel de infracţiuni?

9. Managerul unui ziar de mare tiraj vrea să determine proporţia de ziare care conţin erori de tipar 

(exces de cerneală, tăieri necorspunzătoare ale paginilor, pagini lipsa sau pagini reptate). El

hotărăşte să selecteze un eşantion de 200 de ziare pentru analiză şi doreşte să se construiască uninterval de încredere de 90% pentru a estima proporţia ziarelor cu erori de tipar din toatalul

 populaţiei de ziare. Din acest eşantion, 35 de ziare conţin erori. Managerul doreşte să aibă 90%

încredre în estimarea adevăratei proporţii din populaţie. Construiţi intervalul de încredere.

10. Un dealer de autoturisme doreşte să estimeze proporţia clienţilor care încă deţin maşina pe care au

cumpărat-o de la el în urmă cu cinci ani. Un eşantion aleator de 200 de clienţi extras din dosarele firmei arată

faptul că 82 dintre aceştia încă deţin autoturismele achiziţionate cu cinci ani în urmă. Construiţi un interval

de încredere de 95% pentru a estima proporţia clienţilor care încă deţin autoturismul cumpărat cu cinci ani în

urmă.

11. Dacă o echipă de inspecţie de la Protecţia consumatorului vrea să estimeze media volumului de suc

îmbuteliat în sticlele de 2 litri, într-o marjă de ±0,01 litri, cu o încredere de 95% şi presupunând că deviaţia

standard este de 0,05 litri, care este mărimea necesară a eşantionului?

68

Page 69: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 69/91

12. O organizaţie de sondare a opiniei publice doreşte să estimeze proporţia votului pentru unul dintre cei

doi candidaţi aflaţi în finala alegerilor prezidenţiale. Se doreşte o încredere de 90% în corectitudinea

 predicţiei, cu o marjă de ±0,04 faţă de adevărata proporţie a populaţiei.

a. Care este mărimea eşantionului necesar pentru acest lucru?

 b. Dacă se doreşte o încredere de 95%, cât de mare trebuie să fie eşantionul?c. Dacă se doreşte o încredere de 95%, cu o eroare de ±0,03, care ar trebui să fie mărimea eşantionului?

7. Testarea ipotezelor: teste pentru un singur eşantion

În acest capitol ne vom concentra atenţia asupra asupra unei alte etape a statisticii inferenţiale, şi

anume testarea ipotezelor pornind de la informaţiile oferite de un eşantion. Va fi prezentată o metodologie

69

Page 70: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 70/91

care, pas cu pas, va permite efectuarea de inferenţe despre un parametru al populaţiei analizând diferenţele

dintre rezulatelel observate (informaţiile statistice extrase din eşantion) şi rezultatele aşteptate dacă ipoteza

emisă ar fi corectă.

7.1. Metodologia testării ipotezelorIpoteza nulă şi ipoteza de lucru

Testarea ipotezelor începe cu acceptrea unei anumite teorii sau asumpţii despre un anumit parametru

al populaţiei. De exemplu, ipoteza iniţială în cazul exemplului anterior folosit, cel cu cerealele ambalate în

cutii, a fost că procesul de producţie este corespunzător, adică fiecare cutie are o greutate medie de 368 g şi

nu sunt necesare corecţii. Ipoteza care afirmă că parametrul populaţiei este egal cu specificaţiile firmei se

numeşte ipoteza nulă. O ipoteză nulă este cea care afirmă status quo-ul sau că nu există nici o diferenţă, şi

este notată cu H0. Pentru exemplul în discuţie, ipoteza nulă poate fi scrisă în mod formal ca

H0: μ = 368

Deşi informaţia disponibilă se referă doar la eşantion, ipoteza nulă este scrisă în termeni de parmetru

al populaţiei. Informaţia statistică va fi utilizată pentru a face inferenţe despre întreaga populaţie, în cazul

nostru despre întregul proces de umplere a cutiilor cu cereale. Una dintre inferenţele care poate rezulta din

analiza eşantionului este aceea că ipoteza nulă este falsă. Dacă ipoteza nulă este falsă, atunci altceva ar trebui

să fie adevărat. Pentru a anticipa această posibilitate, ori de câte ori este emisă o ipoteză nulă trebuie emisă şi

o ipoteză alternativă (sau ipoteză de lucru). Aceasta se notează cu H1 şi poate fi scrisă în mod formal ca

H1: μ ≠ 368Ipoteza alternativă reprezintă concluzia rezultată din respingerea ipotezei nule, dacă eşantionul oferă

suficiente dovezi pentru a decide că ipoteza nulă nu are şanse să fie adevărată. În exemplul cu cerealele, dacă

greutatea medie a cutiilor de cereale este suficient de depărtată de cifra specificată de companie, 368 g,

atunci ipoteza nulă poate fi respinsă şi poate fi acceptată ipoteza alternativă, că greutatea medie a cutiilor de

cereale este diferită de 368 g. Ca urmare, producţia ar trebui să fie oprită şi să se ia măsurile de corecţie

corespunzătoare.

Metodologia testării ipotezelor este proiectată astfel încât respingerea ipotezei nule se bazează pe

informaţiile oferite de eşantion că ipoteza de lucru are mult mai multe şanse să fie adevărată. Totuşi, eşecul

de a respinge ipoteza nulă nu înseamnă neapărat că aceasta este adevărată. Practic, niciodată nu se poate

dovedi că o ipoteză nulă este corectă, deoarece decizia este luată întotdeauna pe baza informaţiilor oferite de

către un eşantion şi nu pe baza informaţiilor oferite de către întreaga populaţie. De aceea, atunci când ipoteza

nulă nu poate fi respinsă, se poate concluziona doar că există prea puţine dovezi pentru a fi siguri de

respingerea ei.

70

Page 71: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 71/91

Valoarea critică a testului statistic

Logica ce stă la baza metodologiei testării ipotezelor poate fi dezvoltată dacă ne gândim cum ar putea

fi utilizată informaţia oferită de eşantion pentru a determina plauzibilitatea ipotezei nule.

În cazul cu firma producătoare de cereale, ipoteza nulă afirmă că greutatea medie a fiecărei cutii decereale, pentru întrega cantitate produsă, este de 368 g. De pe banda de producţie este extras un eşantion de

cutii, fiecare cutie este cântărită şi se calculează media acestora. După cum ştim, o informaţie statistică este o

estimare a parametrului populaţiei din care a fost extras eşantionul. Chiar dacă ipoteza nulă este adevărată,

informaţia statistică poate să difere de valoarea parametrului datorită variaţiei produsă de eşantionare.

Totuşi, ne putem aştepta ca informaţia statistică extrasă din eşantion să fie apropiată de parametrul populaţiei

în cazul în care ipoteza nulă este adevărată. Într-o asemenea situaţie nu sunt suficeinte dovezi pentru a

respinge ipoteza nulă. Dacă, de exemplu, media eşantionului de cutii ar fi 367,9 g, bunul simţ ne-ar sugera să

concluzionăm că media populaţiei nu s-a modificat în procesul de producţie, deoarece 367,9 este foarte

apropiat de 368.

Pe de altă parte, dacă există o discrepanţă majoră între valoarea informaţiei statistice şi parametrul

corespunzător pentru care se face ipoteza, bunul simţ ne conduce la concluzia că ipoteza nulă nu are cum să

fie adevărată. De exemplu, dacă media eşantionului este 320, vom fi înclinaţi să presupunem că media

 populaţiei nu este 368 deoarece media eşantionului este foarte îndepărtată de valoarea pentru care se face

ipoteza, şi anume 368g. Într-o asemenea situaţie este foarte puţin probabil să se obţină o medie a

eşantionului de 320 dintr-o populaţie a cărei medie este 368 şi de aceea este mai logic să se concluzioneze căcă media populaţiei nu este 368. Într-o asemenea situaţie vom respinge ipoteza nulă. În ambele situaţii

anterioare, decizia este luată pe baza credinţei că eşantionul este într-adevăr reprezentativ pentru populaţia

din care a fost extras.

Din nefericire, luarea unei decizii nu este întotdeauna atât de uşoară şi nici nu poate fi lăsată pe

seama unei judecăţi subiective şi arbitrare legată de cât de aproape sau de departe se află media eşantionului

de aceea a populaţiei. Metodologia testării ipotezelor asigură definiţii clare pentru evaluarea unor astfel de

diferenţe. Acest lucru este realizat prin determinarea distribuţiei de eşantioane pentru informaţia statistică de

interes (de exemplu, media eşantionului), urmată apoi de calcularea unui anumit test statistic bazat pe

rezultatele eşantionului respectiv. Deoarece distribuţia de eşantioane pentru testul statistic are de cele mai

multe ori o formă cunoscută, fie distribuţia normală standardizată fie distribuţia t , aceste distribuţii pot fi

utilizate pentru a determina şansele ipotezei nule de a fi adevărate.

Regiunile de respingere şi de nerespingere

71

Page 72: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 72/91

Distribuţia de eşantioane pentru testul statistic este împărţită în două regiuni: o regiune de respingere

(numită şi regiune critică) şi o regiune de nerespingere (fig. 7.1). Regiunea de respingere reprezintă valorile

testului statistic care nu sunt de aşteptat să apară dacă ipoteza nulă este adevărată. Aceste valori au şanse de

apariţie mai mari dacă ipoteza nulă este falsă.

Fig. 7.1. Regiunile de respingere şi de nerespingere în testarea ipotezelor

Dacă testul statistic se situează în regiunea de nerespingere, ipoteza nulă nu poate fi respinsă. În

exemplul cu cerealele, dacă se consideră că nu există suficiente dovezi pentru a concluziona că media

 populaţiei este diferită de 368g, atunci ipoteza nulă nu poate fi respinsă. Dacă testul statistic se situează în

regiunea de respingere, atunci ipoteza nulă poate fi respinsă. În acest caz, firma poate concluziona că media

 populaţiei nu este 368g.

Pentru a lua o decizie în privinţa ipotezei nule, în primul rând trebuie determinată valoarea critică a

testului statistic. Valoarea critică este cea care separă regiunea de nerespingere de cea de respingere.

Determinarea acestei valori critice depinde de mărimea regiunii de respingere, care la rândul ei este funcţie

de riscurile implicate de utilizarea unui eşantion atunci când se doreşte estimarea unui parametru al unei populaţii.

Riscuri în luarea unei decizii atunci când se utilizează metodologia testării ipotezelor

72

Page 73: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 73/91

Atunci când este utilizată o informaţie statistică extrasă de la un eşantion pentru a lua o decizie în

 privinţa unui parametru al unei populaţii, există riscul tragerii unei concluzii eronate. Două tipuri de erori pot

să apară atunci când sunt testate ipoteze: tipul I de eroare şi tipul II de eroare.

Tipul I de eroare apare atunci când ipoteza nulă, H0, este respinsă când de fapt ea este adevărată şi

nu ar trebui respinsă. Probabilitatea de apariţie a tipului I de eroare este α.Tipul II de eroare apare atunci când ipoteza nulă, H0, nu este respinsă, deşi ea este falsă şi ar trebui

respinsă. Probabilitatea de apariţie a tipului II de eroare este β.

În cazul exemplului discutat, tipul I de eroare apare atunci când, pe baza informaţiilor oferite de

eşantion se concluzionează că greutatea medie a populaţiei de cutii nu este 368g, când de fapt ea este 368g.

Pe de altă parte, tipul II de eroare apare atunci când, pe baza informaţiilor oferite de eşantion se

concluzionează că greutatea medie a populaţiei de cutii este 368g, când de fapt ea nu este 368g.

Nivelul de semnificaţie

Probabilitatea de a comite tipul I de eroare se numeşte nivel de semnificaţie al testului statistic. În

mod obişnuit, tipul I de eroare poate fi controlat prin stabilirea nivelului de risc, α, care poate fi tolerat în

respingerea ipotezei nule, atunci când ea este de fapt adevărată. Nivelul de semnificaţie este ales înainte de

testarea ipotezei şi de obicei ia valori de 0,01, 0,05 sau 0,1.

Coeficientul de încredere, care este notat 1 – α, şi care este complementul probabilităţii erorii de tip

I, reprezintă probabilitatea ca ipoteza nulă, H0, să fie acceptată atunci când ea este adevărată. Nivelul de

 încredere pentru testarea unei ipoteze este de (1 – α)100%. În ipoteza cu cerealele, coeficientul de încredere

măsoară probabilitatea concluziei că greutatea medie a populaţiei de cutii este de 368g, când ea chiar este368g.

Riscul β

Probabilitatea de a comite tipul II de eroare se notează cu β. Spre deosebire de tipul I de eroare, care

este controlată prin alegerea lui α, probabilitatea de a face tipul II de eroare este dependentă de diferenţa

dintre valoarea care se presupune prin ipoteză că există şi valoarea reală a parametrului din populaţie.

Deoarece diferenţele mari sunt mai uşor de observat decât cele mici, dacă diferenţa dintre informaţia

statistică obţinută de la eşantion şi parametrul corespunzător al populaţiei este mare, probabilitatea de a face

tipul II de eroare este de aşteptat să fie mică. De exemplu, dacă adevărata medie a populaţiei (care de fapt nu

este cunoscută) este de 320g, sunt şanse mici (β) să se concluzioneze că media nu s-a schimbat faţă de 368g.

Pe de altă parte, dacă diferenţa dintre informaţia statistică şi valoarea parametrului corespunzător este mică,

 probabilitatea de a comite tipul II de eroare este mare. Astfel, dacă media populaţiei este într-adevăr 367g,

este o mare probabilitate de a concluziona că media cu care sunt umplute cutiile nu s-a modificat faţă de

368g, şi s-ar face tipul II de eroare.

73

Page 74: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 74/91

Puterea testului statistic, 1 – β, este complementul tipului II de eroare şi reprezintă probabilitatea de

respingere a ipotezei nule când aceasta este falsă şi chiar trebuie respinsă. În exemplul nostru, puterea

testului este probabilitatea de a concluziona că greutea medie a cutiilor nu este 368g, când ea de fapt nu este

368g.

Riscuri în luarea deciziei atunci când se testează o ipoteză

Tabelul 7.1. ilustrează rezultatele celor două decizii posibile (să se accepte H0 sau să respingă H0)

care pot să apară atunci când se testează ipoteze. În funcţie de decizia luată, pot să apară una din cele două

tipuri de erori sau poate fi luată una din cele două decizii corecte.

Tabelul 7.1.

Situaţia realăDecizia statistică H0 este adevărată H0 este falsă

 Nerespingerea lui H0 Decizie corectăÎncredere = 1 – α

Eroare de tip IIP(eroare de tip II) = β

Respingerea lui H0 Eroare de tip I

P(eroare de tip I) = α

Decizie corectă

Putere = 1 - β

O cale de reducere a probabilităţii de a face tipul II de eroare este de a mări dimensiunea

eşantionului. Eşantioanele mari permit sesizarea diferenţelor mici dintre valoarile reale ale parametrilor şi

valorile cuprinse în ipoteză. Pentru un anumit nivel al lui α, creşterea dimensiunii eşantionului va duce la

scăderea lui β, ceea ce va duce la creşterea capacităţii testului de a detecta faptul dacă ipoteza nulă, H 0, estefalsă. Cu toate acestea, întotdeauna există o limită dată de resursele disponibile, ceea ce va afecta mărimea

eşantionului luat în considerare. De aceea, pentru o anumită mărime a eşantionului, trebuie luat în

considerare un anumit echilibru între cele două tipuri de erori. Deoarece riscul de apariţie al tipului I de

eroare poate fi controlat, acest risc poate fi redus prin selectarea unei valori cât mai mici pentru α. De

exemplu, dacă sunt consecinţe negative importante asociate cu tipul I de eroare, se poate alege α = 0,01 în

loc de α = 0,05. Totuşi, când α scade, β creşte, astfel că o reducere a riscului de a face tipul I de eroare va

duce la o creştere a riscului tipului II de eroare. Dacă, pe de altă parte, se doreşte reducerea lui β, atunci

trebuie aleasă o valoare mai mare pentru α. Astfel, dacă este important să se evite tipul II de eroare, atunci se

 poote selecta α = 0,05 sau 0,1 în loc de α = 0,01.

În exemplul nostru cu fabrica de cereale, tipul I de eroare duce la concluzia că media greutăţii per 

cutie s-a schimbat de la 368g, când de fapt ea nu s-a schimbat. Tipul II de eroare duce la concluzia că

greutatea medie per cutie nu s-a modificat de la 368g, când de fapt ea s-a modificat. Alegerea unor valori

rezonabile pentru α şi β depinde de costurile asociate fiecărui tip de eroare. Dacă, de exemplu, este foarte

74

Page 75: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 75/91

costisitor de modificat procesul tehnologic de umplere a cutiilor, atunci probabil că vom dori să fim siguri că

schimbarea va fi benefică, deci tipul I de eroare va fi cel mai important şi va trebui menţinut la valori cât mai

scăzute. Pe de altă parte, dacă se doreşte siguranţă în detectarea schimbărilor de la media de 368g, atunci

riscul apariţiei tipului II de eroare este mai important şi trebuie ales un nivel mai ridicat al lui α.

7.2. Testul Z pentru medie, atunci când deviaţia standard este cunoscută

În exemplul discutat anterior, se dorea determinarea faptului dacă procesul tehnologic al umplerii

cutiilor cu cereale decurge corect, adică dacă greutatea medie a cutiilor este 368g, şi nu sunt necesare

ajustări. Pentru a evalua acest lucru se extrage un eşantion de 25 de cutii, fiecare cutie este cântărită, iar 

greutatea care este aşteptată prin ipoteză (parametrul populaţiei) este comparată cu greutatea rezultată din

eşantion. În această situaţie, ipoteza nulă este H0: μ = 368, iar ipoteza de lucru este H1: μ ≠ 368.

Dacă deviaţia standard, σ, este cunoscută, atunci distribuţia mediei este normală (acest lucru este

adevărat dacă populaţia este normal distribuită sau dacă mărimea eşantionului este cel puţin 30), de aici

rezultând valoarea testului Z

n

 X  Z 

σ  

 µ −=

În ecuaţia anterioară, numărătorul arată cât de departe se află media eşantionului de media pentru

care se face ipoteza, μ. Numitorul reprezintă eroarea standard a mediei, astfel încât Z reprezintă diferenţa

dintre  X   şi μ în unităţi de erori standard.

Perspectiva valorii critice în testarea ipotezelor

Dacă se utilizează un nivel de semnificaţie de 0,05, mărimea regiunii de respingere este de 0,05, iar 

valorile critice ale distribuţiei pot fi determinate. Aceste valori critice pot fi exprimate ca valori standardizate

ale lui Z (adică în unităţi de deviaţie standard). Deoarece regiunea de respingere este divizată în două părţi

(de aceea acest test se numeşte şi test pentru două laturi), valoare 0,05 este împărţită în două părţi egale de

valoare 0,025 fiecare. O regiune de respingere de 0,025 pe fiecare dintre laturile distribuţiei normale va

conduce, conform tabelului din Anexa 1, la o valoare critică inferioară de –1,96 şi la o valoare criticăsuperioară de +1,96. Figura 7.2. ilustrează această situaţie: dacă media este de fapt 368g, aşa cum presupune

ipoteza de nul, H0, atunci valorile testului statistic Z au o distribuţie normal standardizată centrată pe 0 (ceea

ce corespunde unei valori  X  de 368g). Valori ale lui Z mai mari decât +1,96 sau mai mici decât –1,96

indică faptul că  X  este prea departe de μ = 368, ceea ce nu este de aşteptat dacă H0 ar fi adevărată.

75

Page 76: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 76/91

Page 77: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 77/91

Fig. 7.3.

Perspectiva valorii-p în testarea ipotezelor

77

Paşi în testarea unei ipoteze1. Se enunţă ipoteza de nul, H0. Ipoteza de nul trebuie enunţată în termeni statistici utilizând

 parametrii populaţiei.2. Se enunţă ipoteza de lucru, H1. Ipoteza de lucru trebuie enunţată în termeni statistici utilizând

 parametrii populaţiei.3. Se alege nivelul de semnificaţie, α. Nivelul de semnificaţie este ales în funcţie de importanţa

riscurilor legate de apariţia erorilor de tip I şi de tip II.

4. Se alege mărimea eşantionului, n. Mărimea eşantionului este aleasă după luarea în considerare ariscurilor implicate de apariţia erorilor de tip I şi de tip II (trebuie selectate nivelurile pentru α şi β)şi după luarea în considerare a constângerilor bugetare.

5. Se determină testul statistic corespunzător. Dacă deviaţia standard a populaţiei, σ, este cunoscută,testul statistic selectat va fi Z.

6. Se stabilesc valorile critice care separă regiunea de nerespingere de regiunile de respingere.7. Se colectează datele şi se calculează informaţia statistică corespunzătoare pentru eşantion (media

eşantionului).8. Se determină faptul dacă testul statistic se situează în regiunea de nerespingere sau în regiunile de

respingere.9. Se ia decizia statistică. Dacă testul statistic se situează în regiunea de nerespingere, atunci ipoteza

de nul, H0, nu poate fi respinsă. Dacă testul statistic se situează în regiunile de respingere, ipotezade nul este respinsă.

10. Decizia statistică trebuie exprimată în contextul problemei.

Page 78: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 78/91

În ultimii ani, odată cu dezvoltarea programelor statistice, perspectiva valorii-p a devenit tot mai

acceptată. Valoarea-p este probabilitatea de a obţine un test statistic egal sau dincolo de rezultatul obţinut din

eşantion în condiţiile în care ipoteza nulă, H0, ar fi adevărată. Valoarea–p este numită şi nivelul observat de

 semnificaţie, care este cea mai mică valoare la care H0 poate fi respinsă. Decizia pentru respingerea lui H0

din perspectiva valorii-p este luată astfel:- dacă valoarea-p este mai mare sau egală cu α, ipoteza nulă nu este respinsă.

- dacă valoarea-p este mai mică decât α, ipoteza nulă este respinsă.

Pentru a înţelege perspectiva valorii-p, să reluăm exemplul cu cerealele. S-a testat faptul dacă media

greutăţii cutiilor cu cereale este 368g. A fost obţinută o valoare de +1,50 pentru Z, iar ipoteza nulă nu a fost

respinsă deoarece această valoare este mai mică decât valoarea critică superioară (+1,96) şi mult mai mare

decât valoarea critică inferioară (-1,96).

Pentru utilizarea valorii-p, pentru un test pe două laturi, trebuie găsită probabilitatea de a obţine un

test statistic Z care este egal sau mai îndepărtat decât +1,5 deviaţii standard faţă de centrul distribuţiei

normal standardizate. Cu alte cuvinte, trebuie calculată probabilitatea de a obţine o valoare Z mai mare decât

+1,50 sau o valoare Z mai mică decât –1,50. Din tabelul distribuţiei normal standardizate (Anexa 1),

 probabilitatea de a obţine o valoare a lui Z mai mică decât –1,50 este de 0,0668, iar cea de a obţine o

 probabilitate mai mică decât +1,50 este de 0,9332. De aceea, probabilitatea de a obţine o valoare mai mică

decât +1,50 este de 1-0,9332 = 0,0668. Astfel, valoarea-p pentru un test pe două laturi este 0,0668 + 0,0668

= 0,1336 (Fig. 7.4.).

Fig. 7.4. Găsirea valorii-p pentru un test pe două laturi

78

Page 79: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 79/91

Interpretarea rezultatului: probabilitatea de a obţine un rezultat egal sau mai îndepărtat decât cel

observat este de 0,1336. Deoarece 0,1336 este mai mare decât α = 0,05, ipoteza de nul nu poate fi respinsă.

Legătura dintre estimarea intervalului de încredere şi testarea ipotezelor

În acest capitol şi în cel anterior au fost discutate două componente majore ale statisticii inferenţiale:

estimarea intervalului de încredere şi testarea ipotezelor. Deşi ambele teme se bazează pe acelaşi set de

concepte, ele sunt utilizate în scopuri diferite. Intervalele de încredere sunt utilizate pentru a estima

 parametrii, iar testarea ipotezelor se face cu scopul de a lua decizii despre anumite valori ale parametrilor 

 populaţiei.În exemplul cu cerealele, în loc să testăm ipoteza de nul că μ = 368g, putem ajunge la aceeaşi

concluzie prin estimarea intervalului de încredere al lui μ. Dacă valoarea de 368g se situează în acest

interval, ipoteza de nul nu poate fi respinsă, deoarece 368 nu este o valoare anormală. Pe de altă parte, dacă

valoarea pentru care se face ipoteza nu se situează în intervalul de încredere, ipoteza de nul este respinsă,

deoarece 368 este considerată o valoare excentrică.

Utilizând ecuaţia pentru calcularea intervalului de încredere din capitolul anterior,

n Z  X 

σ  ±

 pentru n = 25,  X  = 372,5g, σ = 15g şi pentru un interval de încredere de 95% (care corespunde unui nivel

de semnificaţie de 0,05)

88,55,37225

1596,15,372 ±=±

38,37862,366 ≤≤ µ 

79

Paşi în determinarea valorii-p1. Se emite ipoteza de nul, H0.2. Se emite ipoteza de lucru, H1.

3. Se alege nivelul de semnificaţie, α.4. Se alege mărimea eşantionului, n.5. Se alege testul statistic corespunzător.6. Se colectează datele şi se calculează valorile corespunzătoare testului statistic.7. Se calculează valoarea-p pe baza testului statistic. Acest lucru implică:

a. Trasarea distribuţiei bazate pe ipoteza de nul, H0. b. Plasarea testului statistic pe axa orizontală.c. Haşurarea ariei corespunzătoare de sub curbă, pe baza ipotezei de lucru, H1.

8. Se compară valoare-p cu α.9. Se ia decizia statistică. Dacă valoarea-p este mai mare sau egală cu α, ipoteza de nul nu este

respinsă. Dacă valoarea-p este mai mică decât α, ipoteza de nul este respinsă.

10. Se exprimă decizia statistică în contextul problemei.

Page 80: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 80/91

Deoarece intervalul de încredere include valoarea pentru care s-a făcut ipoteza (368g), ipoteza de nul

nu poate fi respinsă. Există prea puţine dovezi pentru a concluziona că greutatea medie a cutiilor este diferită

de 368g. Adică am ajuns la aceeaşi decizie ca şi în cazul utilizării metodologiei testării ipotezelor.

7.3. Teste pe o singură laturăPână acum, metodologia de testare a ipotezelor a fost utilizată pentru a examina dacă media

 populaţiei este egală cu cea specificată în ipoteza de nul. Ipoteza de lucru conţine două posibilităţi: meid

apoate fi mai mică sau mai mare decât cea specificată. Din acest motiv, regiunea de respingere este împărţită

în două părţi. Totuşi, în unele situaţii, ipoteza de lucru se concentrează pe o anumită direcţie. Ipoteza de

lucru H1: μ> μ0 se aplică atunci când se doreşte detectarea faptului dacă μ este mai mare decât o anumită

valoare μ0, iar ipoteza de lucru H1: μ< μ0 se aplică atunci când se doreşte detectarea faptului dacă μ este mai

mic decât o anumită valoare μ0.

Ipotezele de lucru H1: μ> μ0 şi H1: μ< μ0 sunt numite ipoteze pe o singură latură sau direcţionate. Un

astfel de test este aplicat atunci când cercetătorul prezice o deviaţie de la H0 într-o anumită direcţie. Prin

contrast, testele pe două laturi, H1: μ≠ μ0, se aplică atunci când cercetătorul doreşte să detecteze orice tip de

deviaţie a lui μ de la μ0. Alegerea între cele două tipuri de teste se face înainte de analizarea datelor.

Exemplu

Să presupunem că o firmă de prelucrarea laptelui este interesată dacă cei care o aprovizionează cu

lapte adaugă apă, pentru a creşte astfel cantitatea vândută. Se ştie faptul că exesul de apă reduce temperatura

de îngheţ a laptelui. Punctul de îngheţ al laptelui natural este normal distribuit, cu o medie de –0,545ºC.Deviaţia standard a temperaturii de îngheţ a laptelui este cunoscută ca fiind de 0,008ºC. Deoarece firma de

 prelucrare a laptelui este interesată doar în determinarea faptului dacă temperatura de îngheţ a laptelui este

mai mică decât cea a laptelui natural, întreaga regiune de respingere este concentrată pe latura inferioară a

distribuţiei.

Ipoteza de nul şi ipoteza de lucru sunt următoarele:

H0: μ ≥ -0,545ºC

H1: μ< -0,545ºC

Regiunea de respingere este situată în întregime pe latura inferioară a distribuţiei, geoarece se doreşte

respingerea ipotezei de nul doar când media eşantionului este semnificativ mai mică decât -0,545ºC.

Dacă se alege un nivel de seminifcaţie, α, de 0,05, valoarea critică a lui Z trebuie să fie negativă. Aşa

după cum se vede din Figura 7.5., deoarece întreaga arie de respingere de 0,05 se găseşte în partea inferioară

a distribuţiei, valoarea critică a lui Z este de –1,645, adică media dintre –1,64 şi –1,65. Decizia este de a

repinge H0 dacă Z < –1,645. Altfe, H0 nu poate fi respinsă.

80

Page 81: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 81/91

Fig. 7.5. Testarea unei ipoteze pe o singură latură

În situaţia noastră, pentru n = 25,  X   = -0,550ºC şi σ = 0,008ºC

125,3

25

008,0

)545,0(550,0−=

−−−=

−=

n

 X  Z 

σ  

 µ 

Deoarece Z = -3,125 < –1,645, H0, trebuie respinsă. Concluzia este că sunt dovezi că temperaturamedie de îngheţ este mai mică decât -0,545ºC. Drept consecinţă, firma ar trebui să înceapă o investigaţie cu

 privire la practicile companiei care o aprovizionează cu lapte.

Pentru a obţine valoarea-p, trebuie calculată probabilitatea de a obţine o valoare a lui Z mai mică

decât testul statistic de –3,125. Această valoare este de 0,0009. Deoarece valoarea-p este mai mică decât

nivelul de seminificaţie stabilit (α = 0,05), ipoteza de nul este respinsă.

7.4. Testul t pentru medie, atunci când deviaţia standard este necunoscută

În cele mai multe situaţii în care se testează ipoteze, deviaţia standard a populaţiei, σ, este

necunoscută. Astfel, deviaţia standard a populaţiei este estimată prin calcularea lui S, deviaţia standard a

eşantionului. Dacă se presupune că populaţia este normal distribuită, distribuţia mediei eşantioanelor 

urmează (aşa cum am arătat în capitolul anterior) distribuţia t , cu n-1 grade de libertate. Testul statistic t 

 pentru determinarea diferenţei dintre media eşantionului,  X   , şi media populaţiei, μ, atunci când se cunoaşte

deviaţia standard a eşantionului, S, este dat de următoarea ecuaţie:

81

Page 82: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 82/91

n

 X t 

µ −=

în care testul statistic t urmează o distribuţie t cu n-1 grade de libertate.

Să presupunem că o firmă umăreşte cu atenţie vânzările pe care le face. Departamentul de audit al

firmei extrage lunar un eşantion de facturi. În ultimii ani, valoarea medie a facturilor a fost de 120 de lei.Următoarele date reprezintă sumele dintr-un eşantion aleator de 12 facturi:

108,98 152,22 111,45 110,59 127,46 107,26 93,32 91,97 11,56 75,71 128,58 135,11

Deoarece departamentul de audit este interesat dacă apare vreo schimbare în valoarea medie a

facturilor emise de către firmă faţă de media lunară de 120 de lei din ultimii ani, indiferent de direcţia

schimbării, se utilizează un test pe două laturi pentru următoarea ipoteză de nul şi ipoteză de lucru:

H0: μ = 120 lei

H1: μ ≠ 120 leiPerspectiva valorii critice

Pentru un eşantion de mărime n, testul statistic t are o distribuţie t cu n-1 grade de libertate. Deoarece

ipoteza de lucru nu este direcţionată, aria de respingere este împărţită în două, 0,025 pe latura inferioară şi

0,025 pe cea superioară (Fig. 7.6.).Dacă se alege un nivel de semnificaţie α = 0,05, valoarea critică a

distribuţiei t cu 12-1 = 11 grade de libertate poate fi obţinută din tabelul Anexei 2 şi ea este de ±2,2010.

Decizia este de a respinge H0 dacă t < - t11 = -2,2010 sau t > t11 = +2,2010, altfel H0 nu poate fi

respinsă.

Din datele eşantionului se pot calcula

85,1121 ==

∑=

n

 X 

 X 

n

i

i

80,201

)(1

2

=−

=

∑=

n

 X  X 

n

i

i

În această situaţie, valoarea parametrului t este19,1

12

80,20

12085,112−=

−=

−=

n

 X t 

µ 

82

Page 83: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 83/91

Fig. 7.6. Testarea unie ipoteze la 0,05 nivel de semnificaţie, pentru 11 grade de libertate

Deoarece t = -1,19 se situează în regiunea de nerespingere dintre valorile critice t11 = ±2,2010, ipoteza

nulă nu poate fi respinsă. Nu există suficiente dovezi pentru a crede că media lunară a facturilor s-a

modificat faţă de ceea ce era pe termen lung, adică de 120 lei; diferenţa observată este nesemnificativă şi se poate datora unui accident.

Perspectiva valorii-p

În această situaţie, valoarea-p poate fi calculată doar cu ajutorul unui program specializat de statistică

şi ea este de 0,26 pentru un test pe două laturi. Deoarece valoarea-p, sau nivelul observat de semnificaţie,

este mai mare decât nivelul de semnificaţie, α, ipoteza de nul, H0, nu poate fi respinsă. Dacă ipoteza nulă ar 

fi fost adevărată, probabilitatea ca media eşantionului să difere de 120 de lei este de 0,26. Deci

departamentul de audit nu are de făcut nici o recomandare către conducerea firmei în privinţa modificării politicii de vânzări.

7.5. Testul Z pentru proporţie

În unele situaţii se doreşte testarea unei ipoteze despre o anumită proporţie într-o populaţie,  p, şi nu

despre o medie a populaţiei respective. În această situaţie se extrage un eşantion aleator din cadrul

83

Page 84: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 84/91

 populaţiei, ceea ce ne permite să calculăm proporţia eşantionului,n

 X 

e p = . Valoarea acestei informaţii

statistice este comparată cu cea pentru care se face ipoteza,  p, astfel încât să se poată lua o decizie în privinţa

ipotezei.

Dacă numărul de succese, X, şi numărul de eşecuri, n – X, sunt cel puţin 5, fiecare dintre ele,

distribuţia eşantioanelor proporţiei are o distribuţie care se apropie de cea normal standardizată. Testul Z

pentru proporţie este dat de următoarea ecuaţie:

n

 p p

 p p Z  e

)1( −

−=

unden

 X  pe = , adică proporţia succeselor din eşantion

iar  p = proporţia de succese din populaţie pentru care se face ipoteza.

Dacă se fac înlocuirile, testul Z poate fi scris şi funcţie de numărul de succese:

)1( npnp

np X  Z 

−=

Să presupunem că se doreşte un răspuns la următoarea problemă de cercetare: „Firmele mici sunt

deţinute în proporţie egală de femei şi de bărbaţi?”. Se extrage un eşantion de 899 de firme mici, 369 dintre

acestea fiind deţinute de către femei. În termeni de proporţie, ipoteza nulă şi ipoteza de lucru pot fi scrise

astfel:

H0: p = 0,5 (adică proporţia de firme mici deţinute de femei este de 0,5)H1: p ≠ 0,5 (adică proporţia de firme mici deţinute de femei este diferită de 0,5)

Perspectiva valorii critice

Deoarece suntem interesaţi dacă proporţia firmelor mici deţinute de femei este de 0,5 (şi deci

 proporţia celor deţinute de bărbaţi este de 0,5), va fi utilizat un test pe două laturi. Dacă se alege un nivel de

semnificaţie α = 0,05, regiunile de respingere şi de nerespingere apar ca în figura 7.7. Decizia va fi de a

respinge H0 dacă Z < -1,96 sau Z > +1,96, altfel H0 neputând fi respinsă.

Din datele culese, 41046,0899

369===

n

 X 

 pe

Atunci, testul Z va fi:

37,50167,0

08954,0

899

)5,01(5,0

5,041046,0

)1(−=

−=

−=

−=

n

 p p

 p p Z  e

84

Page 85: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 85/91

Fig. 7.7. Testarea unei ipoteze pe două laturi pentru proporţie, la un nivel de semnificaţie de 0,05

Deoarece –5,37 < -1,96, ipoteza nulă, H0, trebuie respinsă. Deci sunt dovezi că proporţia firmelor 

mici deţinute de femei nu este 0,5.

Perspectiva valorii-p

Probabilitatea de a obţine o valoare a lui Z dincolo de –5,37 sau +5,37 este practic 0 (valoarea

maximă din tabelul Anexei 1, pentru un Z = 3,9 este de 0,00005). Cu ajutorul unui program de statistică,

această valoare este găsită ca fiind 0,000000079064. Deoarece această valoare este mult mai mică decât

nivelul selectat de semnificaţie (α = 0,05), ipoteza nulă este respinsă. Valoarea extrem de mică a valorii-p

arată că practic nu este nici o şansă de a obţine o proporţie a unui eşantion de 0,41046 dacă adevărata medie

a populţiei ar fi 0,5.

Exerciţii

1. Dacă în testarea unei ipoteze (test pe două laturi) se utilizează un nivel de semnificaţie de 0,05, ce se va

decide dacă valoarea calculată a testului Z este +2,21?2. Dacă în testarea unei ipoteze (test pe două laturi) se utilizează un nivel de semnificaţie de 0,01, ce se va

decide în privinţa ipotezei de nul dacă μ = 12,5 şi se utilizează testul Z?

3. Se presupune că în testarea unei ipoteze, valoarea testului statistic Z este +2,0. Care este valoarea-p?

4. Un psiholog realizează un experiment pe un eşantion de 49 de copii dintr-o şcoală. Valoare medie a

coeficientului de inteligenţă pentru copiii din eşantion este de 103. Considerând că valoarea

85

Page 86: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 86/91

coeficeintului de inteligenţă la nivel naţional este de 100, cu o deviaţie standard de 14, este posibil ca

media copiilor din acea şcoală să fie tot 100?

a. Enunţaţi ipoteza de nul şi ipoteza de lucru.

 b. Calculaţi Z şi p.

c. Luaţi o decizie referitor la H0, dacă α = 0,05.d. Construiţi un interval de încredere de 95% pentru μ şi comparaţi rezultatul cu cel de la punctul c.

e. Care ar fi concluzia dacă α = 0,2, α = 0,1 sau α = 0,01. De ce α = 0,2 nu se utilizează de obicei în

 practică.

5. Un director al unei fabrici de stofă trebuie să determine dacă un utilaj nou achiziţionat produce un

anumit tip de stofă, în conformitate cu specificaţiile producătorului: adică stofa să aibă o rezistenţă la

rupere de 70 kg, cu o deviaţie standard de 3,5 kg. Este extras un eşantion de 49 de bucăţi de stofă, din

care rezultă că rezistanţa la rupere este de 69,1 kg.

a. Enunţaţi ipoteza de nul şi ipoteza de lucru.

 b. Există suficiente dovezi că utilajul nu îndeplineşte specificaţiile producătorului? (utilizaţi un nivel

de semnificaţie de 0,05)

c. Calculaţi valoarea-p şi interpretaţi rezultatul ei.

d. Care ar fi răspunsul la punctul b dacă deviaţia standard ar fi 1,75 kg.

e. Care ar fi răspunsul la punctul b dacă media eşantionului ar fi de 69 kg iar deviaţia standard 3,5 kg?

6. Se presupune că în testarea unei ipoteze pe o singură latură, unde trebuie respinsă doar latura superioară,

valoarea testului statistic Z este +2,0. Care este valoarea-p?7. Se presupune că în testarea unei ipoteze pe o singură latură, unde trebuie respinsă doar latura inferioară,

valoarea testului statistic Z este –1,38. Care este valoarea-p?

8. O companie metalurgică fabrică bare de oţel. Dacă procesul de producţie este corespunzător, lungimea

 barelor trebuie să fie de cel puţin 2,8 metri şi cu o deviaţie standard de 0,2m. Barele mai lungi pot fi

folosite sau pot fi scurtate, însă barele mai scurte trebuie să fie retopite. De pe banda de fabricaţie este

selectat un eşantion de 25 de bare. Lungimea medie a barelor din eşantion este de 2,73m. Compania

vrea să determine dacă echipamentul său necesită reglaje.

a. Enunţaţi ipoteza nulă şi ipoteza de lucru

 b. Dacă se doreşte testarea ipotezei la un nivel de semnificaţie de 0,05, care ar fi decizia luată dacă se

utilizează perspectiva valorii critice?

c. Dacă se doreşte testarea ipotezei la un nivel de semnificaţie de 0,05, care ar fi decizia luată dacă se

utilizează perspectiva valorii-p?

d. Interpretaţi înţelesul valorii-p în această problemă.

86

Page 87: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 87/91

e. Comparaţi concluziile de la punctele b şi c.

9. Un director al unei fabrici de stofă trebuie să determine dacă un utilaj nou achiziţionat produce un

anumit tip de stofă, în conformitate cu specificaţiile producătorului: adică stofa să aibă o rezistenţă la

rupere de 70 kg, cu o deviaţie standard de 3,5 kg. Directorul este îngrijorat de faptul că dacă rezistenţa

la rupere este de fapt mai mică decât 70 de kg, firma va trebui să facă faţă multor reclamaţii. Esteextras un eşantion de 49 de bucăţi de stofă, din care rezultă că rezistanţa la rupere este de 69,1 kg.

a. Enunţaţi ipoteza de nul şi ipoteza de lucru.

 b. Există suficiente dovezi că rezistenţa medie la rupere este mai mică decât 70 de kg?

(utilizaţi un nivel de semnificaţie de 0,05)

c. Calculaţi valoarea-p şi interpretaţi rezultatul ei.

d. Comparaţi rezultatele de la punctul b şi c.

10. Dacă dintr-un eşantion de n = 16 elemente, extras dintr-o populaţie normal distribuită, media

eşantionului este  X  = 56, iar deviaţia standard a eşantionului este S = 12, care este valoarea testului t,

dacă se testează o ipoteză nulă H0, care afirmă că μ = 50?

11. Prorectorul responsabil cu admiterea al unei universităţi doreşte să îi sfătuiască pe părinţii viitorilor 

studenţi în legătură cu costul cărţilor şi altor materiale didactice de pe parcursul unui semestru. Este

extras un eşantion de 100 de studenţi, care cheltuie pe cărţi, în medie 315,4 lei, cu o deviaţie standard

de 43,20 lei.

a. Utilizând un nivel de semnificaţie de 0,1, sunt suficiente dovezi pentru a afirma media populaţiei

este de peste 300 de lei? b. Care ar fi răspunsul la punctul a dacă deviaţia standard ar fi de 75 lei, iar nivelul de semnificaţie de

0,05?

c. Care ar fi răspunsul la punctul a dacă media eşantionului ar fi de 305,11 lei, iar deviaţia standard de

43,20 lei?

12. Un producător de baterii extrage un eşantion de 13 baterii de pe banda de producţie şi le utilizeză până

când acestea se consumă total. Timpul de viaţă, în ore, al bateriilor din eşantion este următorul:

342 426 317 545 264 451 1049 631 512 266 492 562 298

a. La un nivel de semnificaţie de 0,05, există dovezi durata medie de viaţă a bateriilor este mai mare

de 400 de ore?

 b. Ce sfat i-aţi da producătorului dacă acesta ar vrea să afirme în reclamă că „bateriile rezistă mai

mult de 400 de ore”?

c. Dacă prima cifră din şir ar fi 1342 în loc de 342, care ar fi răspunsurile la punctele anterioare?

Comentaţi diferenţa de rezultat.

87

Page 88: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 88/91

13. Există dovezi pentru a afirma că jumătate dintre angajaţii din România au acces la internet

la locul de muncă? O anchetă efectuată pe un eşantion de 1000 de angajaţi indică faptul că 440 dintre

aceştia au acces la internet.

a. Dacă este ales un nivel de semnificaţie de 0,05, sunt dovezi pentru a afirma ca mai puţin de

 jumătate dintre angajaţi au acces la internet la locul de muncă? b. Calculaţi valoarea-p şi interpretaţi-o.

14. Directorul de personal al unei companii de asigurări este interesat de a reduce rata

„mortalităţii” agenţilor în primul lor an de la angajare. Datele din anii precedenţi indică faptul că 25%

dintre noii angajaţi renunţă la locul de muncă în primul an. Un nou program de pregătire este lansat

 pentru pregătirea unui eşantion de 150 de noi angajaţi. La sfârşitul primului an de slujbă, 29 dintre cei

150 care au urmat cursul părăsiseră compania.

a. La un nivel de semnificaţie de 0,01, sunt dovezi pentru a afirma că proporţia celor care

abandonează firma este mai mică de 25%?

 b. Calculaţi valoarea-p şi interpretaţi-o.

c. Care ar fi răspunsul la punctul a dacă numărul celor care au părăsit compania ar fi de 22?

d. Calculaţi valoarea-p, pentru punctul c, şi interpretaţi-o.

88

Page 89: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 89/91

Anexa 1Aria de sub curba normală de la -∞ la Z

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

------------------------------------------------------------------------------

-3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002

-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002

-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003

-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005

-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007

-3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010

-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014

-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019

-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026

-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036

-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048

-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064

-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084

-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110

-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143

-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183

-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233

-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294

-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367

-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455

-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559

-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681

-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823

-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985

-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170

-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379

-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611

-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867

-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148

-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451

-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776

-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121

-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483

-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859

-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247

-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

 

89

Page 90: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 90/91

 

Aria de sub curba normală de la -∞ la Z

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

------------------------------------------------------------------------------0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359

0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753

0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141

0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517

0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224

0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549

0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852

0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133

0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621

1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830

1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015

1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177

1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441

1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545

1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633

1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706

1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817

2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857

2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890

2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916

2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952

2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974

2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981

2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993

3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995

3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997

3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998

90

Page 91: Statistic A- Suport de Curs

8/8/2019 Statistic A- Suport de Curs

http://slidepdf.com/reader/full/statistic-a-suport-de-curs 91/91

Anexa 2 Valorile critice ale lui t

aria din laturagr. de sup.

libertate0,25 0,10 0,05 0,025 0,01 0,005

1 1.000 3.0777 6.3138 12.7062 31.8207 63.6564

2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248

3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409

4 0.7407 1.5332 2.1318 2.7764 3.7469 4.60415 0.7267 1.4759 2.0150 2.5706 3.3649 4.0322

6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074

7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995

8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554

9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498

10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693

11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058

12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545

13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123

14 0.6924 1.3450 1.7613 2.1448 2.6245 2.976815 0.6912 1.3406 1.7531 2.1315 2.6025 2.9467

16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208

17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982

18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784

19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609

20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453

21 0.6864 1.3232 1.7207 2.0796 2.5177 2.8314

22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188

23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073

24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969

25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874

26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787

27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707

28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633

29 0.6830 1.3114 1.6991 2.0452 2.4620 2.7564

30 0.6828 1.3104 1.6973 2.0423 2.4573 2.7500

35 0,6816 1,3062 1,6896 2,0301 2,4377 2,7238

40 0 6807 1 3031 1 6839 2 0211 2 4233 2 7045


Recommended