Tudor Drugan - voifidoctor · Testul este, de asemenea, corect aplicat atunci când talia...

Post on 09-Oct-2019

9 views 1 download

transcript

1

Tudor Drugan

Obiective

• Teste de comparare a mediilor:

– Testul z de comparaţie a mediei unui eşantion cu media unei populaţii (variaţia cunoscută)

– Testul z de comparare a mediilor a două populaţii (variaţii cunoscute şi egale)

• Teste de comparare a frecventelor:

– Testul chi-pătrat

– Testul z de comparare a unei frecvenţe observate cu o frecvenţă teoretică (distribuţia binomială)

2

Obiectivul testului este de a compara media unei variabile cantitative continue pe un eşantion reprezentativ extras dintr-o populaţie cu media µ cu o medie cunoscută µ0 a unei populaţii standard.

Se presupune că cele două populaţii au aceiaşi variaţie 2 care se cunoaşte.

Condiţii de aplicare Este necesar să cunoaştem variaţia populaţiei (dacă

nu o cunoaştem, aplicăm testul Student).

Testul este corect aplicat dacă populaţia este normal distribuită.

Dacă populaţia nu este normal distribuită sau talia eşantionului este mică (<30) testul dă o valoare orientativă.

Testul este, de asemenea, corect aplicat atunci când talia eşantionului este mare ( ≥ 30).

Ipotezele testului 1. Test bilateral: H0: = 0 versus H1: 0

2. Test unilateral: H0: = 0 versus H1: > 0

unde = media popolaţiei din care este extras eşantionul şi 0 = media populaţiei standard.

Intr-o altă formă ipotezele testului se pot formula în modul următor: Ipoteza nulă: nu există diferenţă semnificativă între media

eşantionului şi media populaţiei. Ipoteza alternativă pentru testul bilateral: există diferenţă

semnificativă între media eşantionului şi media populaţiei. Ipoteza nulă pentru testul unilateral: media eşantionului este

semnificativ mai mare decât media populaţiei.

n

XZ

0

Pragul de semnificaţie = 0,05

Regiunea critică pentru testul bilateral este (- , -1,96 ] [1,96 , )

Regiunea critică pentru testul unilateral este [1.645, )

Agregarea familiala a bolilor cardiovasculare prin studiul legăturii dintre nivelul colesterolului sangvin şi aceste boli.

Se ştie că nivelul mediu al colesterolului sanguin la copii este de 175 mg/dL.

La un eşantion de 10 copii, proveniţi din familii în care tatăl a decedat în urma unei boli cardiovasculare, media colesterolului sanguin este de 200 mg/dL iar deviaţia standard este de 50 mg/dL.

IPOTEZA: Nivelul mediu al colesterolului la această populaţie

de copii este mai mare decât cel al populaţiei generale?

Este nivelul colesterolului obţinut la acest eşantion semnificativ diferit faţă de cel al populaţiei generale?

Datele problemei: 0 = 175, X = 200, n = 10, s = 50. Ipotezele testului sunt:

1. Test bilateral: H0: X = 0 = 175 versus H1: X <>0<>175 2. Test unilateral: H0: X = 0 = 175 versus H1: X > 0 > 175

De asemenea, avem: Ipoteza nulă: nu există diferenţă semnificativă între media

colesterolului pentru eşantion faţă de media populaţiei. Ipoteza alternativă pentru testul bilateral: există diferenţă

semnificativă între media colesterolului la eşantion şi respectiv la populaţia generală.

Ipoteza alternativă pentru testul unilateral: media colesterolului pentru eşantion este mai mare decât media colesterolului la populaţia generală.

Prag de semnificaţie = 0,05

1. Regiunea critică pentru testul bilateral este: (- , -1,96 ] [1,96 , ).

2. Regiunea critică pentru testul unilateral este: [1.645, ) .

Datele problemei: 0 = 175, X = 200, n = 10, s = 50. Parametrul statistic calculat al testului:

0 200 1751.68

50

10

XZ

n

1. Pentru testul bilateral: Deoarece parametrul statistic calculat al testului nu aparţine regiunii critice nu putem respingem ipoteza nulă; nu există o diferenţă semnificativă între media colesterolului la eşantionul ales şi populaţia generală.

0 200 1751.68

50

10

XZ

n

2. Pentru testul unilateral: Deoarece parametrul statistic calculat al testului Z este mai mare decât 1,645 putem nega ipoteza nulă, adică există diferenţă semnificativă între media colesterolului la eşantion şi media colesterolului populaţiei generale.

0 200 1751.68

50

10

XZ

n

Obiectivul testului este de a compara mediile unei variabile cantitative continue între două populaţii, care satisfac condiţia au aceeaşi variaţie 2 cunoscută.

Pentru aplicarea testului se utilizează două eşantioane reprezentative independente extrase din cele două populaţii

Condiţii de aplicare

1. Populaţiile trebuie să aibă variaţii cunoscute şi egale.

2. Testul este corect aplicat dacă populaţiile sunt normal distribuite sau dacă eşantioanele utilizate au talie mare (30).

3. Dacă populaţiile nu sunt normal distribuite sau dacă cel puţin un eşantion are talie mică (<30), testul dă o valoare orientativă.

Algoritm

Considerăm două populaţii cu mediile şi respectiv .

Ipotezele testului: 1. Test bilateral: H0: = 0 versus H1: 0

2. Test unilateral: H0: = 0 versus H1: > 0

Sub prezumţia că ipoteza nulă este adevărată (1 - 2 = 0), parametrul statistic al testului este dat de formula:

1 2 1 2 1 2

1 2 1 2

( ) ( )

1 1 1 1

X X X XZ

n n n n

Excesul de acid uric in sange poate fi dat:

de un exces de productie plecand de la metabolismul protidelor (substante organice azotoase);

un defect in eliminarea urinara;

asocierea celor doua cauze de mai sus.

In guta primara, adesea este implicat un factor familial, genetic, care provoaca tulburari enzimatice la nivelul metabolismului purinelor (compus organic din acidul uric).

Sedentarismul, obezitatea, alcoolismul si factorii alimentari (aici un rol important il are carnea de vanat, maruntaiele, carnea de oaie, miel) joaca un rol favorizant evident.

Dorim să studiem dacă există diferenţă semnificativă între cantitatea de acid uric sangvin la bărbaţii din mediul urban faţă de cei din mediul rural, cunoscându-se că variaţia acidului uric este egală cu 2,1 mg/100ml.

Din prima populaţie (mediul urban) s-a extras un eşantion de 10 persoane cu vârste cuprinse între 45 şi 60 de ani şi s-a obţinut o medie a acidului uric de 5,6 mg/100ml.

S-a determinat media acidului uric la un eşantion de 16 bărbaţi, extras din a doua populaţie (mediul rural), cu vârste cuprinse între 45 şi 60 de ani din mediul rural şi s-a constata o valoare medie de 4,1 mg/100ml.

Ipoteza testului: 1. Test bilateral: H0: = 0 versus H1: 0

2. Test unilateral: H0: = 0 versus H1: > 0

Ipoteza nulă: Media acidului uric la prima populaţie nu diferă semnificativ faţă de media acidului uric la cea de-a doua populaţie.

Ipoteza alternativă, test bilateral: Media acidului uric la cei din mediul urban diferă semnificativ faţă de media acidului uric la cei din mediul rural.

Ipoteza alternativă, test unilateral: Media acidului uric la cei din mediul urban este semnificativ mai mare faţă de media acidului uric la cei din mediul rural.

Parametrul statistic calculat al testului:

Pragul de semnificaţie: = 0,05.

Valoarea critică:

1. Regiunea critică pentru testul bilateral: (- , -1,96 ] [1,96 , )

2. Regiunea critică pentru testul unilateral: [1.645, )

77.1

16

1

10

11.2

1.46.5

Z

1. Test bilateral: Deoarece statistica calculată a testului nu aparţine regiunii critice nu se poate nega ipoteza nulă. Media acidului uric la prima populaţie (mediu urban) nu diferă semnificativ faţă de media acidului uric la cea de-a doua populaţie (mediu rural).

77.1

16

1

10

11.2

1.46.5

Z

2. Test unilateral: Deoarece statistica calculată a testului aparţine regiunii critice, se acceptă ipoteza alternativă că media acidului uric în prima populaţie (mediu urban) este mai mare decât media în cea de a doua populaţie (mediu rural).

77.1

16

1

10

11.2

1.46.5

Z

Analiza frecvenţelor pentru variabile măsurabile

pe o scară nominală sau ordinală

Test neparametric care verifică dacă distribuţia

observată diferă de cea aşteptată (teoretică)

În aplicare testului Chi-pătrat întotdeauna: Frecvenţele sunt date de numărul de cazuri şi nu

reprezintă procente sau ranguri

Categoriile sunt exhaustive şi mutual exclusive:

orice subiect poate aparţine unei categorii dar numai

uneia

O – frecvenţa observată şi E – frecvenţa

aşteptată

E

EO2

2

Aruncăm o monedă de

100 de ori şi obţinem

de 47 de ori stema deşi

teoretic ar fi trebuit să

obţinem stema de 50 de

ori

84,3

1

36,018,018,0

18,050

3

50

5053ban pentru

18,050

3

50

5047 stemapentru

2

)05,0(

2

2

222

222

df

E

EO

E

EO

E

EO Nu putem

rejecta

ipoteza nulă,

aruncarea cu

banul a fost

corectă

serveşte la compararea a două distribuţii, urmând două modele, care constau în: compararea unei distribuţii observate (sau

empirice) pe un eşantion cu o distribuţie teoretică. In acest caz, se caută să se determine dacă un eşantion se aseamănă cu un anumit model teoretic, fiind astfel vorba de un test Hi-pătrat de ajustare.

compararea a două distribuţii observate în scopul stabilirii fie a independenţei dintre două criterii sau omogenitatea dintr-un tabel de contingenţă: test Hi-pătrat de omogenitate sau de independenţă.

Astfel vom presupune că se caută efectul fumatului

asupra aparitiei cancerului buzei inferioare (M).

Pentru aceasta se observă un eşantion de 400 de

subiecţi dintre care: 160 au afectiunea M prezentă ( şi 240 nu au boala prezentă)

130 sunt fumători T ( şi 270 nu sunt fumători).

Maladia M

Fumător T

M+ M- Total

T+ 80 50 130

T- 80 190 270

Total 160 240 400

Se caută să se stabilească dacă fumatul influenţează

apariţia maladiei M sau dacă apariţia acesteia este

independentă de fumat.

Tabelul de contingenţă prezentat se numeşte tabel de

contingenţă observat, iar frecvenţele pe care le

conţine se numesc frecvenţe observate.

Maladia M

Fumător T

M+ M- Total

T+ 80 50 130

T- 80 190 270

Total 160 240 400

H0: caracterele A şi B sunt independente.

H0 : fumatul nu are influenţă asupra apariţiei

maladiei M.

0 22

1

( )tL Ci i

ti i

f f

f

urmează o lege

cu (L-1) x (C-1) grade de libertate

Se face ipoteza de independenţă între cele două

caractere M şi T (adică ipoteza nulă H0 , în acest caz)

atunci

Se calculeaza un tabel de contingenţă teoretic care

satisface această ipoteză de independenţă.

Se determină apoi abaterea (ecartul) dintre cele două

tabele de contingenţă observat şi teoretic.

Dacă această abatere este mică atunci ea este

explicată doar prin întâmplare (hazard) şi ipoteza

de independenţă este acceptată.

Dacă această abatere este foarte importantă

pentru ca doar întâmplarea să o explice atunci

ipoteza de independenţă trebuie să fie respinsă.

Problema este următoarea: dispunând de un eşantion de n = 400 de subiecţi dintre care 160 au maladia M iar 130 sunt fumători, să se determine cum sunt repartizaţi subiecţii în funcţie de cele două caractere (M şi T) dacă se presupune că acestea sunt independente

M - Total

T 130

- 270

Total 160 240 400

400

240270

400

160270

400

240130

400

160130

M - Total

T 52 130-52 130

- 160-52 270-(160-

52)

270

Total 160 240 400

M - Total

T 52 78 130

- 108 162 270

Total 160 240 400

Maladia M

Fumător T

M Total

T 80 50 130

80 190 270

Total 160 240 400

M Total

T 52 78 130

108 162 270

Total 160 240 400

0 22

1

( )tL Ci i

ti i

f f

f

Fie pragul de semnificaţie al testului.

S-a ales pragul de semnificaţie = 0.05

Regiunea critică este [X2 ,).

Pentru pragul =0.05 şi cu 1 grad de libertate valoarea = 3.84, astfel că în acest caz regiunea critică este intervalul [3.84 , ).

2 2 2 22 (80 52) (50 78) (80 108) (190 162)

37,2252 78 108 162

Maladia M

Fumător T

M Total

T 80 50 130

80 190 270

Total 160 240 400

M Total

T 52 78 130

108 162 270

Total 160 240 400

Dacă X2 [3.84, ) se respinge H0 cu un risc de eroare de prima speţă .

Dacă X2 [3.84, ) atunci H0 nu se poate respinge

X2 =37,22 >> 3.84 aşa că ipoteza nulă H0 se respinge cu un risc inferior lui 5%.In concluzie, fumatul se asociază cu maladia M favorizând-o.

Scopul acestui test este investigarea semnificaţiei diferenţei între o frecvenţă teoretică p (într-o populaţie) şi o frecvenţă observată f pe un eşantion reprezentativ a unei valori a unei variabile calitative (binare).

Condiţii de aplicare: Testul este corect aplicat dacă numărul n al

observaţiilor eşantionului este suficient de mare (np, n(1-p)>10), pentru a justifica utilizarea unei aproximări cu o distribuţie normală redusă (a distribuţiei frecvenţei de selecţie).

Un eşantion randomizat de volum n este extras dintr-o populaţie pentru care cunoaştem frecvenţa teoretică p a unei variabile calitative. Pentru aceeaşi variabilă se calculează frecvenţa ei în eşantion f. Parametrul testului este:

(1 )

f pz

p p

n

Suntem interesaţi de investigarea prevalenţei hepatitei C la personalul care lucrează în cabinetele de medicina dentara din Transilvania.

Se ştie din studii anterioare că prevalenţa hepatitei C în populaţia generală din Transilvania este de 9%.

S-a luat în studiu un eşantion de 100 de persoane care lucrează în cabinetele de medicina dentara din Transilvania şi s-a obţinut o prevalenţă a hepatitei B de 6%.

Există diferenţă semnificativă între frecvenţa hepatitei B la personalul care lucrează s-a luat în studiu faţă de populaţia generală din acesta regiune?

Soluţie

Datele problemei: f = 0,06, p = 0,09, . Fie p0 prevalenţa (necunoscută) a hepatitei C în populaţia alcătuită de personalul cabinetelor dentare.

Ipotezele testului:

1. Test bilateral: H0: p0=p1 versus H1:p0<>p1

2. Test unilateral: H0: p0=p1 versus H1:p0>p1

Ipoteza nulă: Nu există diferenţă semnificativă între frecvenţa hepatitei C la eşantionul studiat faţă de frecvenţa hepatitei C în populaţia generală.

Ipoteza alternativă, test bilateral: Există diferenţă semnificativă între frecvenţa hepatitei C la nivelul eşantionului şi prevalenţa hepatitei C în populaţia generală.

Ipoteza alternativă, test unilateral: Frecvenţa hepatitei C la nivelul eşantionului studiat este semnificativ mai mare faţă de frecvenţa hepatitei C în populaţia generală.

Statistica testului:

Pragul de semnificaţie: = 0,05.

Regiunea critică:

1. Regiunea critică, test bilateral: (- , -1,96 ] [1,96 , ) – (vezi anexa 1).

2. Regiunea critică, test unilateral: [1.645, ) –( vezi anexa 1).

0.06 0.091.04

(1 ) 0.09(1 0.09)

100

f pZ

p p

n

Concluzie

1. Test bilateral: Deoarece parametrul statistic calculat al testului nu aparţine regiunii critice nu se poate nega ipoteza nulă. Nu există diferenţă semnificativă între frecvenţa hepatitei C la eşantionul studiat faţă de frecvenţa hepatitei C în populaţia generală.

2. Test unilateral: Deoarece parametrul statistic calculat al testului nu aparţine regiunii critice, nu se poate nega ipoteza nulă. Nu există diferenţă semnificativă între frecvenţa hepatitei C la eşantionul studiat faţă de frecvenţa hepatitei C în populaţia generală.

Analiza de varianţă ANOVA

47

• Este un test destinat analizei cercetărilor

multinivel şi/sau multifactoriale

• Este utilizat atunci când trebuiesc

cercetate 3 sau mai multe condiţii sau

eşantioane

• Bazat pe statistica F şi pe prezumţia că

eşantioanele sunt extrase aleator dintr-o

populaţie normal distribuită (în practică

se verifică întotdeauna)

Analiza de varianţă ANOVA

• Univariat – analiza se aplică asupra

unui experiment cu un singur factor,

care produce cel puţin trei grupuri

independente

• Ipoteza statistică:

• H0: μ1 = μ2 = μ3 ... = μn

• Testul statistic utilizat este testul F

(propus de Sir Ronald Fischer

ANOVA UNIVARIATĂ pentru

eşantioane independente

• Studiu ipotetic

asupra efectului

utilizării bastonului

sau cârjelor la

persoanele cu

amputaţie

unilaterală,

măsurându-se

lungimea pasului

• Varianţa totală SSt

• Varianţa intergrup

SSb

• Varianţa intragrup

SSe= SSt - SSb

Exemplu

• Media pătratică

intergrup MSb

• Media pătratică

intragrup MSe

Exemplu

• Dacă nu putem rejecta

ipoteza nulă, nici un

tratament nu este util

• Dacă putem rejecta

ipoteza nulă atunci cel

puţin un tratament este

util şi trebuiesc făcute

comparaţii multiple

pentru a arăta care este

tratamentul corect

Exemplu

Exemplu

• Utilă în studii care permit

investigarea efectelor

simultane a 2 sau mai multe

variabile independente

• Se studiază efectul întinderilor

rapide faţă de cele de prelungi

asupra articulaţiei

genunchiului aflata în flexie

sau în extensie

• Rezultă un cadru 3x2, fiecare

cu 10 pacienţi

Analiza bivariată ANOVA - Exemplu

• Ce se investighează?

• Efectul variabilei A

independent de B

• Efectul variabilei B

independent de A

• Efectul cumulat al celor

două variabile

Analiza bivariată ANOVA - Exemplu

• Efectele datorate

aplicării uneia din

cele 2 variabile se

măsoară prin

media pentru

nivelurile rezultate

din efectele

principale şi se

numeşte medie

marginală

Efectele principale

Efectele simple

Interacţiunea între variabile

Interacţiunea între variabile

• Ipoteza într-un design 3x2 este de

genul:

• H0: μA1 = μA2 = Μa3

• H0: μB1 = μB2

• H0: μA1B1 = μA1B2 = μA2B1 = μA2B2 = μA3B1 =

μA3B2

Testarea ipotezei statistice