+ All Categories
Home > Documents > Curs02_2011

Curs02_2011

Date post: 09-Aug-2015
Category:
Upload: jordandenise
View: 10 times
Download: 3 times
Share this document with a friend
23
BIOSTATISTICĂ Elemente de biostatistică Cursul 2 IM&Bs UMF "C. Davila" 1 Biostatistică - cursul 2 - 2011
Transcript
Page 1: Curs02_2011

BIOSTATISTICĂ Elemente de biostatistică

Cursul 2

IM&Bs UMF "C. Davila" 1 Biostatistică - cursul 2 - 2011

Page 2: Curs02_2011

Conținutul acestui curs:

Populaţii şi eşantioane, caracteristici şi variabile

Reprezentări grafice

Statistici descriptive: Centrarea unei variabile numerice

Statistici descriptive: Deviaţia în jurul centrului

Statistici descriptive pentru variabile calitative şi ordinale

Covarianţa și corelaţia

Regresia

Alte distribuţii: hi-pătrat, Student, Fisher-Snedecor

IM&Bs UMF "C. Davila" 2 Biostatistică - cursul 2 - 2011

Page 3: Curs02_2011

Populaţii şi eşantioane, caracteristici şi variabile

Statistica = ştiinţa care se ocupă cu tratamentul

datelor obţinute din grupuri „mici” de indivizi şi

extinderea rezultatelor la populaţii „mari”.

Variabilitatea Incertitudine

Biostatistica = domeniu particular al statisticii

IM&Bs UMF "C. Davila" 3 Biostatistică - cursul 2 - 2011

Page 4: Curs02_2011

Populaţii şi eşantioane, caracteristici şi variabile

TERMENI:

Populaţie

Eşantion

Variabilă

Frecvenţă

IM&Bs UMF "C. Davila" 4 Biostatistică - cursul 2 - 2011

Page 5: Curs02_2011

Populaţii şi eşantioane, caracteristici şi variabile

Variabile Variabile

numerice ordinale (calitative)

clase

k = nr de clase

! Nu există un algoritm pentru stabilirea numărului

de clase

k “prea mic” ascunde particularităţile claselor

“prea mare” se îngreunează reprezentarea

claselor

Recomandare: k[8,20]

IM&Bs UMF "C. Davila" 5 Biostatistică - cursul 2 - 2011

Page 6: Curs02_2011

Reprezentări grafice Tipuri de diagrame (clasice):

- diagrama cu bare verticale sau orizontale (bar,

rotated bar)

- rozeta (pie)

- histograma (histogram)

Alte diagrame:

- box-and-whiskers plot- - diagrama de corelaţie (scatter plot) - diagrama „Stem-and-Leaf” (Trunchi-şi-Frunză) - diagrama pentru proporţia cumulativă etc.

IM&Bs UMF "C. Davila" 6 Biostatistică - cursul 2 - 2011

Page 7: Curs02_2011

Reprezentări grafice

IM&Bs UMF "C. Davila" 7 Biostatistică - cursul 2 - 2011

Page 8: Curs02_2011

Reprezentări grafice

IM&Bs UMF "C. Davila"

Diagrama de corelaţie

-10

-9

-8

-7

-6

-5

-4

-3

-2

-1

-0

+0

+1

+2

+3

+4

+5

+6

7

1

4 2 9 3 6 0

0 4 4 3 8 0 8

4 9 9 7 4 1 9 7

2 1 1 4 4 9 7 9 4 8 9 1 0 7 2

2 5 5 2 1 7 2 4 3 2 7 0 9 7 8 6 7

9 0 3 2 2 2 7 1 5 1 1 3 4 0 8 1 8 9 9 6 7 7 5

6 7 9 6 6 3 5 2 8 3 1 4 3 8 9 8

0 4 0 9 0 9 2 5 1 1 8 0 2 5 5 6 5 6 6 2 9 1

7 7 0 7 4 2 6 6 4 1 0 1 9 2 6 4 3 7 6 9 4

4 7 4 3 5 1 0 1 0

8 9 9 5 4 3 4

6 0

5

Diagrama Stem-and-Leaf

8 Biostatistică - cursul 2 - 2011

Page 9: Curs02_2011

Centrarea unei variabile numerice n indivizi (eşantion) şi x1, x2,..., xn (măsurători)

Media aritmetică statistică (nr sau valoare

obţinută pe baza datelor

din eşantion)

tratează toate velorile

echitabil

Mediana = “punctul” care împarte datele în două părţi egale

x1 x2 ... xn datele sunt ordonate (distincte?!) n=2m+1 Me=xm+1 sau n=2m Me=(xm+xm+1)/2

Modulul: - valoarea cu frecvenţa maximă (date categoriale)

- Mo=3Me-2m (date numerice)

IM&Bs UMF "C. Davila"

n

xxxm n

...21

9 Biostatistică - cursul 2 - 2011

Page 10: Curs02_2011

Deviația în jurul centrului Deviaţia (abaterea) =împrăştierea în jurul centrului

Amplitudinea A= xmax- xmin (lungimea intervalului)

Deviaţia medie (abatere medie)

media

pătratică

Deviaţia standard

Estimarea lui se face cu deviaţia standard:

IM&Bs UMF "C. Davila"

n

mxE

n

kk

1

||

n

mxQ

n

kk

1

2)(

10 Biostatistică - cursul 2 - 2011

1

)(1

2

n

mxs

n

kk

Page 11: Curs02_2011

Statistici descriptive pentru variabile calitative şi ordinale

IM&Bs UMF "C. Davila"

Variabile calitative

• Frecvenţa relativă (media aritmetică) .

• Varianţa

• Abatere standard .

• Modulul

Variabile ordinale

• Mediana

• Dispersia

n

af

)1( ffV

)1( ffs

1

1

)1(K

kkk

FFD

4/)1(

K

Dd

lormodalitati ale

relative frecvente

modalitati denr

kF

K

11 Biostatistică - cursul 2 - 2011

Page 12: Curs02_2011

Covarianța şi corelația

Covarianţa arată cât de mult se schimbă împreună două variabile

X=Y:

Coeficientul de corelaţie Pearson

X, Y independente

Y=a+bX, b>0 (b<0)

IM&Bs UMF "C. Davila"

)()()(),( YEXEYXEYXCov

)()()(),( 22 XVarXEXEXXCov

)))(())(((),( YEYXEXEYXCov

)()(),( 2 YVarXVarYXCov

),(2)()()( YXCovYVarXVarYXVar

]1,1[)()(

),(),(ρ

YVarXVar

YXCovYX

0),(ρ YX

1-sau 1),(ρ YX

12 Biostatistică - cursul 2 - 2011

Medie!

Page 13: Curs02_2011

Covarianța și corelația

IM&Bs UMF "C. Davila" 13 Biostatistică - cursul 2 - 2011

Page 14: Curs02_2011

Covarianța şi corelația Practic: mX, mY mediile seriilor de date

Covarianţa în esantion

Coeficientul de corelaţie Pearson

sau

Funcţii EXCEL: CORREL(), PEARSON()

Coeficientul de corelaţie Spearman

X, Y ordinale, dk – diferenţa rangurilor

IM&Bs UMF "C. Davila"

YkXk

mymxn

C1

1

22,

YkXk

YkXk

YX

mymx

mymxr

YX

YXss

Cr

,

)1(

61

2

nn

dro k

)))(())(((),( YEYXEXEYXCov

14 Biostatistică - cursul 2 - 2011

Page 15: Curs02_2011

IM&Bs UMF "C. Davila"

Regresia

Întrebare: există o legătură (asociere) între variabilele X şi Y? Dată o valoare x a variabilei X, putem “previziona” valoarea corespunzătoare a variabilei Y? Legătură liniară? Permitem ca valorile lui Y să aibă o mică “abatere aleatoare”

ε este “eroarea”

X

Y

y

x

X

Y

x

y

XY

XY

15 Biostatistică - cursul 2 - 2011

Page 16: Curs02_2011

IM&Bs UMF "C. Davila"

Regresia

În practică dispunem de eşantioane de valori “perechi”?

X

Y

xi

yi

),( ii yx

Estimăm şi din datele eşantionului (metoda celor mai mici pătrate)

Obţinem dreapta de regresie

bXaY x1 x2

y1

y2

Eroarea εi

16 Biostatistică - cursul 2 - 2011

Page 17: Curs02_2011

IM&Bs UMF "C. Davila"

Regresia

Întrebare: există o legătură (asociere) liniară între variabilele X şi Y?

Răspuns “corect”: DA (coeficient de corelaţie = r)

r apropiat de 1 (formula corectă)

r apropiat de 0

17 Biostatistică - cursul 2 - 2011

Page 18: Curs02_2011

IM&Bs UMF "C. Davila"

Distribuția normală standard Z = N(0, 1)

Dacă Z1=N(0, 1), Z2=N(0, 1),…, Zn=N(0, 1)

sunt independente, atunci:

Z1+Z2+…+ Zn=N(0, n)

(suma este încă normală), iar

Reprezintă erori de măsurare (vezi

formula de regresie)

nnn 1

,0N...21 ZZZ

M

18 Biostatistică - cursul 2 - 2011

Page 19: Curs02_2011

IM&Bs UMF "C. Davila"

Distribuția hi-pătrat χ2(ν)

Mai precis, (Definiție)

unde Z1=N(0, 1), Z2=N(0, 1),…, Zn=N(0, 1) sunt

independente.

Este caracterizată de nr de “grade de libertate” n Calcule în Excel: CHIDIST(x, n)

Reprezintă eroarea “de ansamblu” 22

221

2 ...)( nn ZZZ

19 Biostatistică - cursul 2 - 2011

Page 20: Curs02_2011

IM&Bs UMF "C. Davila"

Date importante:

Distribuția hi-pătrat χ2(ν)

Asimetrică

Vârful în

ν - 2

Media

E(χ2(ν))=ν

Varianța

Var(χ2(ν))=2ν

CHIDIST(x, n) =

aria haşurată

20 Biostatistică - cursul 2 - 2011

Page 21: Curs02_2011

IM&Bs UMF "C. Davila"

Definiţie

Date importante:

Distribuția Student t(ν)

Simetrică

Vârful în 0

Parametru n

Densitatea lui t(10)

Pentru n>30 practic

t(n) şi Z coincid

nnn

)()(t

2

Z William Gosset 1908

”Student”

21 Biostatistică - cursul 2 - 2011

Page 22: Curs02_2011

IM&Bs UMF "C. Davila"

Distribuţia Student t(ν)

Calcul direct în Excel cu funcţia

TDIST(x, n, TAILS)

TDIST(x, n, 1) =

aria haşurată TDIST(x, n, 2) =

aria haşurată

(Doar pentru valori x pozitive!)

22 Biostatistică - cursul 2 - 2011

Page 23: Curs02_2011

IM&Bs UMF "C. Davila"

Distribuţia Fisher-Snedecor F(ν1, ν2)

Definiție

Să presupunem ca avem 2 eșantioane (n1, s1 și respectiv n2,s2) extrase din 2 populaţii (1, 2)

2

22

1

12

)2,1)(

)(

(

nn

nn

nn F

Calcul direct în Excel cu funcţia FDIST(x, ν1, ν2) (Importanţa în “confirmarea”

faptului că eşantioane distincte

fac parte din aceeaşi populaţie!)

)1,1(~ 212

2

2

1 nnFs

s

23 Biostatistică - cursul 2 - 2011