STATISTICA INFERENŢIALĂ
estimarea parametrilor
testarea ipotezelor.
Distributia normala
Corespunde reprezentării grafice a unei caracteristici pentru care există un mare număr
de măsurări, tinzând spre infinit
Are formă de „clopot”. Cea mai mare parte a valorilor se concentrează în zona centrală (medie)
Este perfect simetrică pe ambele laturi ale sale
Linia curbei se apropie la infinit de axa X, fără a o atinge vreodată
Distribuţia normală. Concentrarea valorilor
Pentru =0 şi =1 se obţine expresia analitică a funcţiei normale standard,
Aproximativ 68% dintre valori se găsesc în intervalul de până la o deviaţie standard faţă de medie.
Aproximativ 95% dintre valori se găsesc în intervalul de până la 2 deviaţii standard faţă de medie.
Aproximativ 99,7% dintre valori se găsesc în intervalul de până la 3 deviaţii standard faţă de medie.
Intervalul de incredere (confidence interval) Reprezinta un interval ce defineste un nivel maxim si unul minim, numite nivele de incredere cu o anumita probabilitate asociata CI = m +/- zcr Sm;
m – media esantionului, Sm – eroarea standard Zcr - se determină funcție de nr. De observații din eșantion și nivelul de încredere 90%, 95% (cel mai frecvent), 99%
Se poate determina cu o anumită probabilitate, care este intervalul în care se află media populaţiei, cunoscând doar media unui eşantion extras din aceasta și deviația standard a eșantionului.
Teorema limitei centrale permite estimarea nivelului de încredere pentru media populaţiei, pe baza mediei unui eşantion extras din acea populaţie
Marja de eroare
Intervalul de încredere pentru medie exprimat cu probabilitatea de 95%
n
sm
n
sm 96.1,96.1
n96.1m
n96.1m
m
95.0aria
limita
inferioară
limita
superioară
z=1.96 se numeşte z critic deoarece reprezintă un prag limită, de o parte şi de alta a
mediei
Cu cât esantionul este mai mare cu atât CI este mai mic
Nivele de încredere
1. 1-0,05=0,95 (95%)
2. 1-0,01=0,99 (99%)
3. 1-0,001=0,999 (99,9%)
Prag de semnificatie
Determinarea intervalului de
încredere
Etape: 1. Stabilirea eşantionului
2. Determinarea volumului eşantionului (n)
3. Determinarea mediei eşantionului (m)
4. Determinarea dispersiei eşantionului (s)
5. Determinarea erorii standard a mediei
6. Determinarea argumentului α z
7. Determinarea intervalului de încredere
n
ssm
zsmzsmm mm ;
1. Dacă se cunoaște dispersia populației (2 )
=0,05 sau =5% u=1,96
=0,01 sau =1% u=2,58
=0,001 sau =0,1% u=3,29 n
uxn
ux
2. Dacă nu se cunoaște dispersia populației (2 ) si
n>120
n
Sux
n
Sux
3. Dacă nu se cunoaște dispersia populației (2) si n<120
n
Stx
n
Stx 1n,1n,
t,n-1 se citeşte din tabelul
cu distribuţia "t" la nivelul
şi n-1 grade de libertate
=0,05 sau =5% u=1,96
=0,01 sau =1% u=2,58
=0,001 sau =0,1% u=3,29
Ipoteza statistică Reprezintă o presupunere asupra parametrilor uneia sau unor repartiţii
Ipoteze statistice
Presupunem ca legea care guvernează o anumită populație statistică depinde de un parametru pe care dorim să îl estimăm.
În mod curent, estimarea parametrului se face prin prelucrarea datelor conținute într-un eșantion de sondaj prelevat din cadrul populației de origine. Valoarea găsită în acest mod reprezintă un estimator al parametrului căutat. Deoarece această valoare depinde de eșantionul extras, ea poate diferi de la un sondaj la altul. Se ridică, deci, întrebarea în ce măsură parametrul estimat de către noi pe baza rezultatelor obținute de la un sondaj oarecare asigură „credibilitatea”aprecierii făcute asupra valorii parametrului. Pentru a răspunde la această întrebare va fi nevoie să testăm într-un anumit fel rezultatul găsit, care în contextul prezentat are valoare de „ipoteză statistică”.
Ipoteza statistică este o presupunere care se face cu privire la parametrul unei repartiții sau la legea de repartiție pe care o urmează anumite populații statistice sau variabile aleatoare.
O ipoteză statistică nu este neapărat adevărată. Ea poate fi corectă sau greşită. Din acest motiv, procedeul de verificare al ipotezelor satistice presupune ca pe lângă ipoteza ce urmează a fi testată să fie formulată și o ipoteză alternativă. Ipoteza statistică ce urmeazăa fi testată poartă numele de ipoteză nulă şi se notează în mod uzual prin H0.
Respingerea ipotezei care este testată (a ipotezei nule) implică acceptarea unei alte ipoteze. Această altă ipoteză (contrară, într-un anume grad, ipotezei respinse) este numită ipoteză alternativă. Ipoteza alternativă se notează de obicei prin Ha, sau prin H1.
Cele două ipoteze trebuie să reprezinte, pentru valorea parametrului populației, sau legii de repartiție care se analizează, variante mutual exclusive (adică imposibil de realizat împreună) şi exhaustive (adică capabile sa acopere toate posibilitățile).
Testele statistice Verificarea ipotezelor statistice se face cu
ajutorul TESTELOR STATISTICE.
TESTELE STATISTICE reprezintă metode matematice de verificare a ipotezelor statistice.
Testarea se face pe baza eşantionului de date.
Orice decizie comportă un anumit risc.
TESTUL STATISTIC este o metodă de comparaţie a două sau mai multe populaţii, prin intermediul unor variabile observate ale lor.
12
Definiţie, aplicabilitate
Un test statistic este conceput şi utilizat pentru verificarea unei ipoteze statistice.
De regulă, ipoteza care trebuie testată (H0, ipoteza nulă) se poate formula ca fiind una în care nu există nici o schimbare:
Nu există nici o diferenţă între mediile a două populaţii (media taliei a populației studenților de la MV respectiv studenții de la POLITEHNICĂ.)
Efectuarea unui test statistic este o metodă folosită pentru a testa o presupunere, în care credem, despre o întreagă populaţie, prin folosirea datelor obţinute dintr-un eşantion.
O ipoteza ştiinţifica este înlocuita printr-o ipoteza statistică, exprimata prin intermediul parametrului acelei populaţii (cum ar fi proporţia, media etc.).
Ce este o ipoteză? (definiție DEX)
presupunere, enunțată pe baza unor fapte cunoscute, cu privire la anumite (legături între) fenomene care nu pot fi observate direct sau cu privire la esența fenomenelor, la cauza sau la mecanismul intern care le produce;
prin ipoteză înțelegem o sentință verbală, derivată din observații, teorii sau din rezultatele altor cercetări cu privire la relația dintre variabile (Schwab, 2005), care se exprimă sub forma unei predicții cu privire la relația dintre variabilele cercetate (Spector, 2012; Wampold, 2006) și care poate fi testată pe cale empirică (Mitchell & Jolley, 2001).
În enunţarea unei ipoteze există două posibilităţi:
–
Ipoteza nulă notată H0 în care parametrii de comparat se consideră egali. Spre exemplu media populaţiei 1 având date în eşantionului 1 este egală cu media populaţiei 2 caracterizată de eşantionul 2.
–Ipoteza alternativă în care se consideră cei doi parametri diferiţi.
210 : H
211 : H
Ipoteza nulă
H0 este ipoteza care postulează faptul ca eșantioanele sau populațiile pe care le avem de comparat în cadrul unui studiu, experiment sau test, sunt similare, sau cu alte cuvinte, orice diferență este atribuită șansei și nu unui anumit factor.
Formula generală pentru un test statistic este:
statisticluiindicatoruastandarderoarea
ipoteticparametrustatisticindicatorstatistictest
)(_
EXEMPLU:
verificarea ipotezei egalităţii mediei
n
xz
Media eşantionului
Media populaţiei
Eroarea standard a mediei
Specificarea ipotezei alternativa
Specificarea ipotezei nule
Alegerea statisticii adaptată situaţiei concrete
formula în care apar datele extrase dintr-un eşantion
Alegem nivelul de semnificaţie
Calcularea valorii statisticii, folosind efectiv datele din
eşantion
(ales aleator).
compararea valorii
calculate cu pragul dat
de nivelul de
semnificaþie
Ipoteza se
respinge
Ipoteza se acceptă
Pasul 1
Pasul 2
Pasul 3
Pasul 4
Pasul 5
Pasul 1. Stabilirea ipotezelor H0 şi HA
Ipoteza nulă H0, este ipoteza care trebuie testată, testul efectuându-se sub prezumţia că ipoteza nulă ar fi adevărată.
Ipoteza alternativă HA, este acea ipoteză care într-un sens sau altul contrazice ipoteza nulă. Această ipoteză se mai numeşte şi ipoteza de lucru.
Media eșantionului este egală cu media poplației
Media eșantionuluimedia populației. Media eșantionuluimedia populației. Media eșantionuluimedia populației.
Pasul 2. Alegerea şi calcularea
parametrului statistic al testului
Un parametru statistic al testului trebuie
să îndeplinească două condiţii:
Distribuţia de probabilitate a
parametrului statistic al
testului sub prezumţia că H0
este adevărată, este
cunoscută.
Distribuţie normală
Trebuie să se comporte diferit
atunci când ipoteza nulă H0 este
adevărată faţă de situaţia în care
ipoteza alternativă HA este
adevărată.
Populație
E1 E2 E2 E4 E5 Etc.
𝑥1 = 100; 𝑥2 = 102; 𝑥3 = 110; 𝑥4 = 100; 𝑥5 = 100
Pasul 3. Alegerea regiunii critice. Se decide în funcţie de valoarea parametrului
statistic calculat, care dintre ipoteze, cea nulă sau
cea alternativă, este adevărată.
Dacă valoarea parametrului statistic aparţine regiunii critice, ipoteza nulă H0 va fi respinsă şi va fi acceptată ipoteza alternativă HA.
Dacă valoarea parametrului
statistic nu aparţine
regiunii critice, ipoteza nulă
H0 va fi acceptată.
regiune
respinsă regiune
respinsă regiune
acceptată
Distribuţia de probabilitate a parametrului statistic
Pasul 4. Alegerea dimensiunii regiunii
critice
Se defineşte nivelul de semnificaţie, notat cu , sau mărimea riscului pe care suntem dispuşi să ni-l asumăm în respingerea ipotezei nule H0 în cazul în care aceasta este adevărată.
Se specifică mărimea riscului de eroare pe care îl acceptăm (pragul de semnificație).
De obicei se alege un prag de semnificație între 0,05 şi 0,01. Acesta corespunde unui nivel de încredrere cuprins între 95% și 99%.
Pasul 5. Decizia testului
regiune
respinsă regiune respinsă regiune
acceptată
Stabilirea semnificaţiei testului se poate face:
1. pe baza valorii calculate
2. pe baza valorii lui p
25
Luarea deciziei pe baza valorii probabilităţii p de semnificaţie a testului
În momentul în care prelucrăm statistic o serie de date dorim să ştim dacă rezultatele obţinute sunt sau nu semnificative statistic.
Răspunsul la această întrebare este dat de valoarea lui p calculată de orice program statistic la prelucrarea unor date.
În cazul testelor statistice, ipoteza nulă este respinsă dacă nivelul de semnificaţie este mai mic decât 0,05 iar programele de prelucrare statistică a datelor vor afişa o steluţă (*) în tabelul rezultatelor.
26
Luarea deciziei pe baza valorii probabilităţii p de semnificaţie a testului
Dacă p ≤ 0,05: respingem ipoteza nulă şi acceptăm ipoteza alternativă (am obţinut semnificaţia statistică)
Dacă p > 0,05: acceptăm ipoteza nulă (nu am obţinut semnificaţia statistică)
27 Luarea deciziei pe baza valorii probabilităţii p de semnificaţie a testului
p = 0,13
NU respingem ipoteza nulă
Risc de eroare de tip II
p = 0,02
DA respingem ipoteza nulă
Risc de eroare de tip I
Regiunea de respingere a unei ipoteze statistice este intervalul din distribuţie de probabilitate a caracteristicii considerate în care se respinge ipoteza nulă şi se acceptă ipoteza alternativă
Regiunea de acceptare a unei ipoteze statistice este intervalul din distribuţie de probabilitate a caracteristicii considerate în care se acceptă ipoteza nulă.
Test bilateral pentru =0,05. 5% din rezultate stabilesc ca eronată decizia de respingere a H0 când de fapt HA este adevărat
Decizia testului pe baza valorii calculate
Dacă valoarea calculată pentru testul statistic este în zona respinsă, diferenţele sunt considerate semnificative.
Dacă valoarea calculată pentru testul statistic este în zona acceptată, diferenţele sunt considerate nesemnificative.
Decizia testului pe baza valorii lui p
Dacă 0,01 <= p <0,05 , rezultatele (diferențele) sunt considerate semnificative.
Dacă 0,001 <= p<0,01, rezultatele (diferențele) sunt considerate înalt semnificative.
Dacă p<0,001, rezultatele (diferențele) sunt considerate foarte înalt semnificative.
Dacă p>=0,05, rezultatele (diferențele) sunt considerate nesemnificative statistic.
Dacă 0,05 <= p<0,1, se notează o oarecare tendinţă spre considerarea unei semnificaţii statistice.
31
Semnificaţia lui p: reguli empirice
0,01 ≤ p < 0,05: rezultatul e semnificativ statistic
0,001 ≤ p < 0,01: rezultatul e înalt semnificativ statistic
p < 0,001: rezultatul e foarte înalt semnificativ statistic
p ≥ 0,05: rezultatul e considerat nesemnificativ statistic
Se pot comite două tipuri de erori:
I. Ipoteza H0 se respinge deşi este adevărată. Probabilitatea comiterii acestei
erori este . (1- puterea testului =probabilitatea de a respinge ipoteza când este falsă)
II. Ipoteza H0 se acceptă deşi este falsă. Probabilitatea comiterii acestei erori este .
Eroarea de tip I
H0 este respinsă deşi este adevărată
Concluzionăm că există
reale diferenţe deşi
acestea sunt datorate
şansei
Concluzionăm că un
tratament este eficient pe
baza unei interpretări
greşite
H0 ipoteza nulă -eșantioanele sau
populațiile pe care le avem de comparat în cadrul unui studiu,
experiment sau test sunt similare
Eroarea de tip II
H0 nu este respinsă deşi este falsă
Am concluzionat că există
diferenţele observate sunt
datorate şansei atunci când
acestea apar datorită
diferenţelor dintre eşantioane
Am putea abandona un
tratament pe care tocmai îl
testăm sau o direcţie de
cercetare
H0 ipoteza nulă -eșantioanele sau
populațiile pe care le avem de comparat în cadrul unui studiu,
experiment sau test sunt similare
36
Puterea unui test statistic
Este capacitatea de a detecta o diferenţă acolo unde există
Creşterea volumului eşantionului determină creşterea puterii testului statistic aplicat
Valoarea este în relaţie directă cu eroarea de tip II:
Puterea = 1 – β
Cea mai utilizată modalitate de creştere a puterii unui test statistic este de a creşte volumul eşantionului
Valoarea obţinută la testul statistic se compară cu cele din tabele pentru nivele de semnificaţie considerate, luându-se apoi decizia statistică.
Se poate calcula direct probabilitatea p ca pentru valorile observate şi luate în calcul, ipoteza emisă să
se accepte sau să se respingă.
Test unilateral (One Tailed )
Este acel test pentru care intervalul de respingere este format (dupa distribuția normală) dintr-o singură coadă stânga sau dreapta, testul fiind unilateral stâng sau drept.
Este folosit pentru a testa o ipoteza nulă pentru care ipoteza alternativă este direcționată, comparația făcându-se într-un singur sens , și este mai puternic ca un test bilateral.
Ipoteza este formulată în genul: rezultatele obtinute în primul eşantion sunt mai mari sau sunt mai mici decât în al doilea eşantion.
Într-un test unilatral la dreapta, ipotezele care se admit sunt:
H0: = 0; HA: > 0
H0: = 0; HA: < 0
Testul bilateral(“two-tailed test “)
Este acel test pentru care intervalul de respingere este format din 2 “cozi”-in stanga și în dreapta curbei.
Este folosit pentru a testa o ipoteză nulă nefiind necesară nici o presupunere privind ipoteza alternativă.
Avem de a face o ipoteza bilaterală dacă sintagma utilizată în formularea ipotezei sună precum urmatoarea: „exista diferente între cele doua grupe luate în studiu”. Se observă că nu se arată
direcția diferenței în ipoteăa. Într-un test bilateral, ipoteza care se admite este:
H0: = 0; HA: ≠ 0
42
De reţinut!
Orice test statistic se poate interpreta din perspectiva valorii critice sau a intervalului critic şi respectiv din perspectiva valorii p.
Orice test statistic are asociat 2 tipuri de erori. Fiecare tip de eroare are o anumită semnificaţie.
Puterea unui test statistic este în relaţie cu eroarea de tip II şi depinde de volumul eşantionului.