of 14
4/28/2015
1
CORELAII SI REGRESII
LEGTURA NTRE MAI MULTE VARIABILE
dou sau mai multe variabile cantitative
dou variabile de ordine
dou variabile calitative
o variabil cantitativ cu o variabil
calitativ
2
Tipuri de relaii
4/28/2015
2
Variabile cantitative
Varsta X: X1, X2,..., Xn
TAS Y: Y1, Y2,..., Yn.
1. S se stabileasc dac exist o legtur ntre variabilele X i Y (cantitative continue) i s se determine o modalitate de a msura intensitatea acestei legturi.
Coeficientul de corelaie
2. S se stabileasc dac Y depinde de X i dac da, n ce form se realizeaz aceast dependen.
Funcia de regresie
3
Statistici descriptive in dou dimensiuni. Diagrama de dispersie
4
4/28/2015
3
Statistici descriptive in dou dimensiuni. Diagrama de dispersie
X
Y
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
* *
*
*
*
5
Statistici descriptive in dou dimensiuni. Diagrama de dispersie
X
Y
*
*
* *
*
*
*
*
*
*
*
*
III IV
*
*
*
*
II I
* *
*
*
* *
*
*
*
6
4/28/2015
4
Statistici descriptive in dou dimensiuni. Diagrama de dispersie
X
Y
*
*
*
III IV
*
II I
**
* *
*
**
*
*
*
**
*
*
*
*
*
*
*
**
*
7
Statistici descriptive in dou dimensiuni. Diagrama de dispersie
X
Y
*
**
*
*
*
*
*
*
*
III IV
*
II I
**
*
**
*
*
*
*
*
*
**
*
*
*
*
**
*
*
8
4/28/2015
5
Descrierea "intensitatii" relaiei dintre variabilele X i Y:
(Xi,Yi) -n cadranele I sau III: 0
(Xi,Yi) -n cadranele II sau IV: 0
9
))((1
YYXXSPE i
n
i
i
))(( YYXX ii
))(( YYXX ii
SPE va fi cu att mai mare n valoare
absolut cu ct norul de puncte este mai apropiat de o alur general cresctoare (SPE > 0 ) sau descresctoare (SPE < 0).
Dezavantaje: depinde de numrul de puncte din seria statistic i de unitile de msur ale variabilelor
Indici de corelaie. Suma produselor ecart
Indici de corelaie. Covariana
10
Avantaje: mrime independent fa de volumul seriei statistice.
))((1
),(1
YYXXn
YXCOV i
n
i
i
4/28/2015
6
Indici de corelaie. Coeficientul de corelaie
11
Pentru a obine un indicator independent i de unitile de msur ale celor dou variabile se utilizeaz coeficientul de corelaie sau coeficientul Bravais-Pearson:
SySx
YXCOVr
),(
SX i SY reprezint abaterile standard pentru seriile X i respectiv Y:
n
XX
s
n
i
i
1
2
2
)(2S s
r [-1, 1]
msoar intensitatea relaiei dintre variabilele X i Y
Dac r=1 punctele sunt situate pe o dreapt de pant pozitiv (cresctoare).
Dac 0 < r < 1, norul de puncte poate fi nlocuit (ajustat) printr-o dreapt de pant pozitiv .
Dac -1 < r < 0 atunci norul de puncte poate fi aproximat cu o dreapt de pant negativ.
Dac r=-1 atunci toate punctele sunt situate pe o dreapt de pant negativ.
12
4/28/2015
7
13
0
5
10
15
20
25
30
35
0 2 4 6
r=0 r=1
0
10
20
30
40
50
60
0 2 4 6
r=-1
0
10
20
30
40
50
60
0 2 4 6
0
10
20
30
40
50
60
0 2 4 6
0
10
20
30
40
50
60
0 2 4 6
r>0 r0.75 sau < -0.75 O foarte bun asociere sau
corelaie
4/28/2015
8
r >0
O cretere a lui X determin o cretere a lui Y (direct proporionale).
r < 0
O cretere a lui X determin o diminuare a lui Y (invers proporionale)
15
Coeficientul de corelaie-interpretare Alura norului de puncte
Indici de corelaie. Coeficientul de determinare
d = r2 Reprezint partea din variaia total a lui Y explicat prin relaia
liniar existent ntre X i Y.
Cazuri particulare:
d=1: Dac toate punctele se afl pe o dreapt care nu e paralel cu axa OX, orice variaie a lui Y este exprimat prin relaia liniar.
d=0: X i Y sunt independente, adic ntre cele dou variabile nu exist o relaie liniar
Dac d este exprimat n procente: reprezint procentul n care variaia lui Y este dat prin relaia liniar ntre cele dou variabile.
16
4/28/2015
9
Dou variabile ordinale (sau o variabil ordinal i una cantitativ) Coeficientul de corelaie al lui Spearman
Se procedeaz astfel:
i. Se nlocuiete seria bivariat (x1,,xn;y1,,yn) cu seria rangurilor (Rx1,Rxn;Ry1,,Ryn), valorilor xi i yi dup ordonarea lor n ordine cresctoare (pentru valorile egale se ia media aritmetica a rangurilor).
ii. Pentru determinarea coeficientului rs al lui Spearman se calculeaza coeficientul de corelatie (Pearson) pentru seria rangurilor.
17
Coeficientul de corelaie al lui Spearman
Coeficientul rs se mai poate calcula folosind formula:
18
ii yxi
n
i
i
s RRdnn
d
r
,
)1(
6
1 1
2
4/28/2015
10
Drepte de regresie pentru variabile
cantitative continue
Dreapta de regresie Y(X):
y = a + b x
Dreapta de regresie X(Y):
x = c +dy
Dreapta de regresie a celor mai mici dreptunghiuri
y=e+fx.
19
Statistici descriptive in dou dimensiuni. Drepte de regresie
Dreapta de regresie Y(X)
min ( ),a b R
i
i
n
ia bX Y
1
2
Valorile lui a i b pentru care este atins minimul sumei sunt date prin formulele:
bCOV X Y
SX
( , ).
a Y b X
20
4/28/2015
11
Drepte de regresie
Dreapta de regresie X(Y)
2
1
)(min,
i
n
i
iRdc
XYdc
dCOV X Y
SY
( , )
c Y d X
21
Utilizarea funciilor de regresie
Extrapolare i interpolare
Cnd se determin valoarea funciei (adic a lui Y), pentru un X cuprins intervalul [Xmin, Xmax], atunci se
efectueaz o operaie de interpolare, iar cnd X se afl
n afara intervalului se spune c este vorba de o
extrapolare.
Prezicerea lui Y pentru un X dat
Simulari
22
4/28/2015
12
Regresii multidimensionale
Fiind date variabilele:Xi: Xi1,...,Xin , i=1,2,...,m
Y: Y1,..., Yn
se caut o relaie de forma:
Y = a + b1X1+...+bmXm,
unde coeficienii a si bi (i=1,...,m) se determin astfel
nct s minimizeze expresia:
( ( ... ))Y a b X b Xii
n
i m mi
1
1 1
2
.
23
Coeficientul de corelaie dintre greutate i vrst este 0,8. Care dintre urmtoarele afirmaii sunt adevrate:
ntre greutate i vrst exist o relaie de direct proporionalitate
ntre greutate i vrst exist o relaie de invers proporionallitate
ntre greutate i vrst exist o corelaie negativa
ntre greutate i vrst exist o corelaie pozitiv
ntre greutate i vrst exist o corelaie foarte bun
ntre greutate i vrst exist o corelaie slab
Nu am destule date / Eroare de studiu
24
4/28/2015
13
Coeficientul de determinare dintre vrst i IMC este 0,49. Care dintre urmtoarele afirmaii sunt adevrate:
Corelaia dintre vrst i IMC este suficient
Variabilele vrst i IMC sunt direct proporionale
Variabilele vrst i IMC sunt invers proporionale
Corelaia dintre vrst i IMC este bun
Nu am destule date / Eroare de studiu
25
Coeficientul de corelaie dintre greutate (kg) i temperatura de afara (grade Celsius) este 0,8. Care dintre urmtoarele afirmaii sunt adevrate:
ntre greutate i vrst exist o relaie de direct proporionalitate
ntre greutate i vrst exist o relaie de invers proporionallitate
ntre greutate i vrst exist o corelaie negativa
ntre greutate i vrst exist o corelaie pozitiv
ntre greutate i vrst exist o corelaie foarte bun
ntre greutate i vrst exist o corelaie slab
Nu am destule date / Eroare de studiu
26
4/28/2015
14
Coeficientul de corelaie Pearson dintre greutate (kg) i sex (F/M) este 0,67. Care dintre urmtoarele afirmaii sunt adevrate:
ntre greutate i vrst exist o relaie de direct proporionalitate
ntre greutate i vrst exist o relaie de invers proporionallitate
ntre greutate i vrst exist o corelaie negativa
ntre greutate i vrst exist o corelaie pozitiv
ntre greutate i vrst exist o corelaie foarte bun
ntre greutate i vrst exist o corelaie slab
Nu am destule date / Eroare de studiu
27