Post on 17-Oct-2015
transcript
Metode descriptive de analiz_ statistic_ a datelor de
UNIVERSITATEA TRANSILVANIA DIN BRAOV
FACULTATEA DE TIINE ECONOMICE
Nicoleta PETCU
ANALIZA DATELOR - aplicaii N SPSS
Analiza bidimensional
Regresie i corelaie
Analiza multidimensional
Pentru studenii programelor de studii - masterat
BRAOV, 2007
ANALIZ BIDIMENSIONAL
Pentru a realiza o distribuie bidimensional s-a luat n considerare un eantion format din 150 de persoane ce au rspuns unor ntrebri dintr-un chestionar, printre care: dac au vzut reclama la un produs nou lansat pe pia i dac au cumprat produsul respectiv. Cele dou ntrebri au devenit variabile statistice pentru fiierul creat n SPSS. Tabelele de contingen se pot realiza astfel:
Analyze (
Descriptive Statistics (Crosstabs
Fig. 1 Realizarea tabelelor de contingen
Cu ajutorul butonului Cells obinem o nou caset de dialog cu ajutorul creia putem obine tabelele menionate mai sus:
Fig. 2 Selectarea tipului de frecvene
Distribuia persoanelor dup cele dou caracteristici
n acest tabel s-a obinut distribuia celor 150 de persoane dup cele dou caracteristici, sub forma frecvenelor absolute.
Dac dorim s obinem profilele linii, adic pentru fiecare modalitate a variabilei reclama, ponderea celor care cumpr n totalul liniei, bifm n caseta de dialog Percentages ( Row.
Profile linii
Dac dorim s obinem profilele coloane, adic pentru fiecare modalitate a variabilei cumpr, ponderea celor care au vzut reclama n totalul coloanei, bifm n caseta de dialog Percentages ( Column.
Profile coloane
Reprezentarea grafic a distribuiei celor 150 de persoane chestionate, dup cele dou variabile se realizeaz bifnd n caseta Crosstabs, Display clustered bar charts i obinem graficul de mai jos.
Fig. 3 Grafic clusterGraficul pune n eviden faptul c, decizia de cumprare a fost influenat de reclama care s-a fcut la acel produs.
Testarea independenei a dou variabile testul (2Cu ajutorul testului (2 se poate analiza dac dou variabile sunt dependente sau independente, garantnd rezultatele cu o probabilitate dinainte stabilit. Pentru a verifica acest lucru pornim de la ipotezele:
H0: variabile independente ipoteza nul, cu alternativa
H1: variabile dependente.
Dou variabile sunt independente dac sunt ndeplinite condiiile:
Testul se poate aplica att n cazul variabilelor dihotomice ct i n cazul variabilelor calitative cu mai multe modaliti. Revenind la distribuia din tabelul de mai sus , condiiile de independen se rezum la egalitatea rapoartelor:
Din aceste condiii de independen se determin distribuia teoretic (Expected) astfel:
n cazul exemplului nostru, pentru a obine distribuia teoretic (cum ar fi trebuit s se distribuie cele 150 de persoane dac variabilele reclama i cumpr ar fi independente), n caseta Cells se selecteaz opiunea Expected.
Frecvene teoretice
Pentru a verifica dac cele dou variabile sunt independente se calculeaz mrimea cu formula:
Valoarea se compar cu valoarea teoretic , extras din tabelul funciei , pentru nivelul de semnificaie ( ales i grade de libertate.
Dac valoarea (, atunci, se respinge ipoteza H0 i se admite alternativa ei H1, variabilele sunt dependente.
Metodele de analiz ne permit i msurarea intensitii legturii cu ajutorul coeficienilor:
a) Coeficientul (. Presupunnd c X este variabila anterioar i Y variabila posterioar, se urmrete s se analizeze n ce proporie cei ce posed X1 posed i Y1, iar cei ce posed X2 posed i Y1, calculndu-se diferenele: . Dac vom considera Y variabila anterioar i X variabila posterioar se calculeaz diferenele . Efectundu-se media geometric a celor dou diferene, se obine coeficientul (:
O alt formul este cea obinut cu ajutorul mrimii :
Dac acest coeficient are o valoare pozitiv ne indic o asociere pozitiv (indivizii se concentreaz pe diagonala principal, cei care rspund DA la prima ntrebare , rspund DA i la a doua) iar dac are o valoare negativ ne indic o asociere negativ.
b) Coeficientul Q (al lui Yule). Acest coeficient are un interval fix de variaie [-1,+1], se anuleaz n cazul n care variabilele sunt statistic independente i se obine cu formula:
Pentru exemplul ales, se testeaz existena legturii dintre cele dou variabile cu testul , iar intensitatea legturii o msurm cu ajutorul coeficienilor menionai mai sus.
Fig. 4 Alegerea opiunilor statistice
Coeficient
Coeficieni Phi, Cramers V
Valoarea ( 42,19 i este mai mare dect ( 3,84 pentru nivelul de semnificaie ( de 0,05 i un grad de libertate, ceea ce ne ndreptete s respingem ipotaza H0 i s acceptm alternativa ei H1, adic exist legtur ntre reclam i atitudinea consumatorilor de a cumpra produsul respectiv. Coeficienii care msoar intensitatea legturii ne arat o asociere pozitiv de intensitate medie ntre cele dou variabile. Asocierea variabilelor nominale
Considerm variabile nominale, variabilele calitative cu mai mult de dou modaliti (variante). Msurarea asocierii se realizeaz pornind tot de la tabelul de contingen, prin calculul coeficienilor de asociere.
a) Coeficientul de contingen (C). Cu ct valoarea acestui coeficient este mai apropiat de 1 cu att legtura este mai puternic i cu ct valoarea este mai aproape de zero, cu att legtura este mai slab. Valoarea acestui coeficient se determin cu relaia:
unde n este mrimea eantionului. Pentru aprecierea corect a intensitii legturii trebuie luat n considerare relaia: , unde p reprezint numrul de modaliti ale variabilei independente. Pentru un tabel 2(2 valoarea maxim a lui C este 0,707, pentru un tabel 3(3 este 0,816 i aa mai departe .
b) Coeficientul V al lui Cramer. Valoarea acestui coeficient se obine cu relaia:
n caren este mrimea eantionului iar , p reprezint numrul liniilor, q reprezint numrul coloanelor.
c) Coeficientul ( (al lui Goodman i Kruskal). Calculul acestui coeficient este bazat pe reducerea erorilor de predicie. Una dintre variabile, considerat anterioar sau independent se afl n postura de a ameliora predicia celeilalte, devenit posterioar sau dependent. Coeficientul ( se definete ca proporia cu care se reduc erorile prin introducerea variabilei independente. Acest coeficient este cuprins ntre 0 i 1.Valoarea 0 indic faptul c variabila independent nu are nici un rol n predicia variabilei dependente iar valoarea 1 semnific faptul c variabila independent determin perfect modalitile variabilei dependente.
Plecnd de la distribuia din tabelul de mai sus, se pot calcula coeficienii ( astfel:
Distribuie dup variabile nominale
considernd variabila CUMP (cu trei modaliti) pe poziia variabilei dependente (cumpr dac a vzut reclama), vom calcula coeficientul , ceea ce nseamn (suma frecvenelor maxime pe linii - frecvena maxim pe linia totalurilor)/(n frecvena maxim pe linia totalurilor). considernd variabila RECLAMA pe poziia variabilei dependente (a vzut reclama dac a cumprat) vom calcula coeficientul
La modul general, pentru dou variabile X i Y :
Bifnd n caseta de dialog Lambda, vom obine rezultatele:
Coeficieni Lambda, tau
Valorile obinute sugereaz existenei legturii dintre cele dou variabile, iar predicia de la CUMP spre RECLAMA este mai bun dect invers.
d) Indice de concordan kappa. Permite compararea aprecierilor a doi observatori asupra aceluiai grup. Considerm, de exemplu (Bishop 1975), aprecierile a doi inspectori colari asupra comportamentului pedagogic a 72 cadre didactice (autoritar, indiferent, ngduitor). Rezultatele evalurilor sunt prezentate n tabelul de mai jos.Rezultatele evalurilor
Inspector 1Inspector 2
autoritarindiferentngduitorTotal
autoritar17482940,3(
indiferent5121723,6(
ngduitor103132636,1(
Total32
44,4(19
26,4(21
29,2( 72
Concordana n aprecierile celor doi inspectori este 58,3(. Inspectorul 1 a apreciat n proporie de 40,3( dintre cdrele didactice ca fiind autoritare, n timp ce inspectorul 2 n proporie de 44,4(. Dac evalurile sunt independente, se presupune c 17,9( (40,3((44,4() dintre cadrele didactice s fie evaluate autoritare de cei doi inspectori. Asemntor, 6,2( (23,6((26,4() sunt evaluate ca fiind indiferente iar 10,5( (36,1((29,2() ngduitoare. n acest caz 34,6( dintre cadrele didactice sunt clasate n aceeai categorie prin simplul joc al hazardului. Indicele kappa va avea valoarea:
n utilizarea indicelui kappa, cele dou variabile trebuie s aib acelai interval de variaie.
Prelucrarea variabilelor cantitative
Dup modul de exprimare, caracteristicile statistice se separ n caracteristici calitative (exprimate prin cuvinte) i caracteristici cantitative (exprimate numeric). De exemplu, profesia i vrsta.
Eantioane independente Testul Z
Considernd dou eantioane de volum n1 i n2, se urmrete a se stabili dac exist o diferen semnificativ, din punct de vedere statistic, ntre mediile celor dou populaii.
Exemplul 1. Un mare productor de ambalaje pentru bunuri de consum a testat n mai multe magazine situaia vnzrilor cu un nou tip de ambalaj pentru produsul M. Rezultatele au fost urmtoarele:
Vnzri n funcie de ambalaj (mii lei)
MagazinulVnzri cu vechiul ambalajVnzri cu noul ambalaj
1235255
2672691
3590575
4207195
5187210
6337358
7176193
8223246
Pentru a rezolva aceast problem utiliznd produsul SPSS, este nevoie s se creeze o variabil de cod (V1), n care valoarea 1 corespunde vnzrilor cu vechiul ambalaj, iar valoarea 2 corespunde vnzrilor cu noul ambalaj. Aceast variabil va fi necesar gruprii datelor corespunztor celor dou eantioane. Valorile vnzrilor se indic ntr-o singur variabil (Ambalaj - valorile din primul eantion urmate de valorile celui de-al doilea). Se selecteaz:
Analyze (
Compare Means (Independent - Samples T Test
Fig. 5 Compararea mediilor a dou eantioane independente
Dup alegerea metodei de analiz se recurge la definirea grupurilor conform casetei de dialog din figura 6.
Fig. 6 Selectarea variabilelor
din lista variabilelor se selecteaz n Test Variable(s): variabila potrivit creia se compar mediile celor dou eantioane.
variabila dup care se realizeaz gruparea n cele dou eantioane se plaseaz n caseta Grouping Variable: care activeaz Define Groupsn Group 1: se nscrie codul 1 pentru valorile primului eantion iar n Group 2: codul 2 pentru valorile celui de-al doilea eantion.
Fig. 7 Definirea grupurilor
Cut point: - se utilizeaz dac dorim s specificm o valoare n funcie de care se vor constitui grupurile, primul va conine valorile mai mici dect cea specificat iar al doilea valorile mai mari.
Rezultatele oferite de produsul SPSS se prezint astfel:
Indicatori statistici la nivel de eantioane
Eantioanele fiind de volum ( 30 se aplic testul Student. Valoarea . Valoarea teoretic pentru nivelul de semnificaie i 14 grade de libertate, extras din tabelul funciei Student .
Regula de decizie este urmtoarea:
se accept ipoteza H0 dac
se respinge ipoteza H0 i se accept alternativa ei H1 dac
n cazul nostru se accept ipoteza H0, nu exist diferene semnificative ntre mediile celor dou eantioane.
Exemplul 2. Printr-o anchet selectiv, s-a urmrit aprecierea gradului de atractivitate a ambalajului unui produs. ntrebarea este dac exist diferene semnificative ntre media aprecierilor femeilor i media aprecierilor brbailor.
Distribuia persoanelor dup aprecieri
Apreciere ambalaj
(puncte)Nr. respondeni
FemeiBrbai
1 (foarte atractiv)510
2 (atractiv)1030
3 (nici / nici)1530
4 (neatractiv)8020
5 (foarte neatractiv)1010
Femeile au primit codul 1, iar brbaii codul 2.
Indicatori statistici la nivel de eantioane
Rezultatele testului egalitii mediilor
Fiind eantioane de volum suficient de mare, valoarea teoretic ce corespunde nivelului de semnificaie este 1,96. Aplicnd aceeai regul de decizie ca mai sus, valoarea calculat fiind 5,565 suntem ndreptii s respingem ipoteza H0 i s acceptm ipoteza H1, exist diferene ntre aprecierile femeilor i aprecierile brbailor.
Eantioane perechi
Problema eantioanelor perechi poate fi pus, de exemplu, atunci cnd studiem rezultatele obinute de membrii unui grup nainte de efectuarea unui curs i dup efectuarea acelui curs, din punct de vedere al testrii egalitii mediilor i .
Exemplu: Un grup de 20 de studeni au fost verificai la disciplina de Microeconomie dup cunotinele obinute la curs. Rezultatele au fost nregistrate n fiierul es_perechi n variabila Puncte1. Dup iniierea ntr-un produs informatic specializat n nvarea disciplinei de Microeconomie, acelai grup a fost testat, rezultatele nregistrndu-se n variabila Puncte2. Pentru un nivel de semnificaie (=0,05 se poate verifica dac efectul cursului a fost pozitiv.
Rezultate obinute
Puncte1Puncte2di
9093-3
91910
9395-2
8988+1
8588-3
8987+2
8384-1
8892-4
8483+1
8285-3
8382+1
8183-2
7274-2
70700
7177-6
8185-4
8587-2
87870
7476-2
7372+1
Ipotezele sunt:
H0: ( = 0 nu exist diferene ntre rezultatele dinainte i dup iniierea pe calculator ()
H1: ( ( 0 exist diferene ntre rezultate
Pentru a efectua acest test selectm:
Analyze (
Compare Means ( Paired - Samples T Test
Fig. 8 Compararea mediilor a dou eantioane perechi
din lista de variabile se selecteaz variabila Puncte1 ce va fi plasat n lista Current Selections n Variable 1:, precum i variabila Puncte2 ce va apare n Variable2: iar cu ( sunt transferate n lista Paired Variables: Options permite alegerea intervalului de ncredere
butonul OK declaneaz modelul de analiz i obinerea rezultatelor.
Indicatori statistici
Rezultatele testului egalitii mediilor
Deoarece volumul eantionului este n = 20, folosim repartiia Sudent cu 19 grade de libertate i, pentru nivelul de semnificaie ( = 0,05, obinem valoarea t = -1,761 (test unilateral).
Regula de decizie va fi urmtoarea:
dac se accept H0;
dac se respinge ipoteza H0 se accept alternativa ei H1.Se observ din tabelul cu rezltate c valoarea este 2,96. Putem afirma c rezultatele iniierii n produsul informatic au fost pozitive, existnd diferene semnificative statistic ntre punctajul mediu de dinainte i de dup curs.
Testul Wicoxon
Aceeai decizie putem s o lum i dac folosim testul Wilcoxon.
Analyze (
Nonparametric Tests ( 2 Related Samples
Fig. 9 Selectarea testelor neparametrice
Fig. 10 Definirea variabilelor perechi
Diferene negative, pozitive, egale
Test Wilcoxon
Nivelul de semnificaie indicat de test este de 0,008 mai mic dect 0,05, ceea ce ne ndreptete s respingem ipoteza H0 i s acceptm ipoteza H1.
Analiz dispersional cu un factor (ANOVA)
Colectivitile cu care operm n statistica social-economic dei au un caracter finit sunt formate de cele mai multe ori dintr-un numr foarte mare de uniti purttoare a unor variabile cu un grad mare de variaie. Din aceast cauz unitile la care s-a fcut observarea trebuie mprite n grupe, n funcie de variaia factorilor determinani.
n cazul n care s-a aplicat n prealabil metoda gruprii se pot calcula att medii ct i indicatori de variaie (dispersii) pe grupe i pe total colectivitate. Media i dispersia pe ntreaga colectivitate se pot calcula fie fcnd abstracie de faptul c ea este compus din mai multe grupe, fie lund n calcul indicatorii corespunztori calculai la nivelul grupelor.
Exemplu: 50 de ageni economici au fost grupai dup numrul mediu de salariai i mrimea profitului. Pentru nivelul de semnificaie ( = 0,05 ne propunem s verificm dac factorul de grupare este semnificativ, altfel spus dac numrul angajailor influeneaz variaia profitului.
Repartiia agenilor economici din sectorul de activitate A
dup numrul mediu de salariai i profitul obinut
Ageni economici dup numrul mediu de salariaiAgeni economici dup mrimea profitului (milioane lei)
Total
12 - 1616 - 2020 - 24peste 24
sub 105155-25
10 - 50-1010-20
peste 50---55
Total52515550
Pentru a reliza n SPSS acest lucru alegem calea:
Analyze (
Compare Means ( One - Way ANOVA
Fig. 11 Selectarea variabilelor
n fiierul creat n SPSS au fost definite variabilele profit, nr_ang. Pentru a se realiza gruparea dup numrul angajailor a fost necesar codificarea agenilor economici dup variabila nr_ang, prin generarea unei noi variabile codang.. n figura 11 se observ selectarea variabilelor:
Dependent List: a fost selectat variabila profit Factor: a fost selectat variabila dup care se face gruparea codang.
OKRezultatele prelucrrilor se prezint astfel:
Varianele i valoarea Fcalc
Valoarea calculat pentru criteriul F este 21,63 iar nivelul de semnificaie este 0,000 mai mic dect 0,05 , ceea ce ne ndreptete s respingem ipoteza H0 i acceptm H1, factorul de grupare, numrul angajailor, este semnificativ pentru variaia profitului.
O analiz mai detaliat o obinem alegnd calea:
Analyze (
Compare Means ( Means
Mediile de grp
Varianele i valoarea Fcalc
REGRESIE I CORELAIE
Statistica social-economic studiaz fenomenele de mas n interdepen unele cu altele. n acest scop datele sunt sistematizate sub form de serii de repartiie multidimensionale. Analiza lor se realizeaz prin metodele de corelaie statistic.
Utilizarea din ce n ce mai frecvent a metodei corelaiei n statistic este justificat de necesitatea crecnd a reflectrii ntr-o form numeric adecvat a interdependenei obiective dintre fenomenele social-economice n ceea ce privete natura, direcia i gradul de intensitate a legturilor care se manifest ntr-o anumit perioad de timp sau n dinamic.
Exemplu: referitor la valoarea ncasrilor (mil. lei) i cheltuielile publicitare (sute mii lei) efectuate de o societate comercial n decursul a cinci luni s-au nregistrat datele:
Analiza legturii dintre cheltuielile publicitare i valoarea ncasrilor
Nr. crt.Cheltuieli
publicitare
(sute mii lei)
Valoarea
ncasrilor
(mil. lei)
1
2
3
4
55
6
9
12
1825
30
35
45
65
25
36
81
144
324 125
180
315
540
1170 625
900
1225
2025
422525
28
37
46
64
Total
a) Se cere:
b) s se caracterizeze i s se msoare legtura dintre variabile;
c) s se testeze semnificaia coeficienilor pentru un nivel de semnificaie .
Sistemul de ecuaii normale devine:
Din rezolvarea sistemului rezult coeficienii: i .
Coeficientul de regresie b fiind pozitiv ne arat existena unei legturi directe ntre cele dou variabile i anume, pe msur ce cheltuielile publicitare cresc cu o sut mii lei, valoarea ncasrilor crete cu trei milioane lei.
Coeficientul de corelaie:
arat c ntre cele dou caracteristici exist o legtur puternic.
Testarea semnificaiei coeficienilor pentru nivelul de semnificaie de 0,05 i 5-2 grade de libertate, pentru care valoarea tabelar a variabilei t este 2,353, conduce la rezultatele:
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 17,23 > 2,353 ceea ce ne ndreptete s tragem concluzia c acest coeficient de regresie este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul ( este:
EMBED Equation.3
Testarea termenului liber:
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 5,20 > 2,353 ceea ce ne ndreptete s tragem concluzia c termenul liber este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul ( este:
EMBED Equation.3
Testarea coeficientului de corelaie:
Desprindem concluzia c i coeficientul de corelaie este semnificativ diferit de zero , n care i corespunde nivelului de semnificaie 0,05 i 5-1 grade de libertate. Intervalul de ncredere pentru coeficientul ( va fi:
Pentru a rezolva n SPSS aceast problem se selecteaz:
Analyze (
Regression (Linear
Fig. 1 Selectarea variabilelor
Dependent din lista variabilelor se alege variabila dependent;
Independent(s) din lista variabilelor se selecteaz variabilele independente (factorii de influen);
Method: - se alege metoda de analiz:
Enter se analizeaz variabilele global, ntr-un singur pas;
Forward regresie pas cu pas ascendent;
Backward regresie pas cu pas descendent;
Stepwise la fiecare pas sunt indicate variabilele incluse i excluse din modelul iniial;
Remove sunt indicate variabilele eliminate din model;
Statistics - conduce la ecranul:
Fig. 2 Selectarea parametrilor pentru coeficienii de regresie i analiza reziduurilor
Estimates calculul coeficienilor de regresie;
Confidence intervals stabilirea intervalului de ncredere pentru coeficienii de regresie pentru probabilitatea de 95%; Covariance matrix matricea de varian-covarian pentru coeficienii de regresie;
Model fit determin raportul de corelaie R, coeficientul de determinaie R2, R2 ajustat, eroarea standard, analiz ANOVA;
Descriptives afieaz pentru fiecare variabil media, abaterea standard, matricea corelaiilor;
Part and partial correlations corelaii pariale;
Collinearity diagnostics analiza colinearitii.
Plots- reprezentri grafice Save - conduce la ecranul: Fig. 3 Selectarea parametrilor pentru obinerea valorilor ajustate i a valorilor reziduale
Predicted Values
Unstandardized se obin valorile variabilei dependente , calculate cu ajutorul coeficienilor de regresie (valorile ajustate);
Standardized pentru valorile ajustate se calculeaz media i abaterea standard. Standardizarea const n mprirea abaterilor fa de medie la eroarea standard. Valorile standardizate au media 0 i abaterea standard 1;
Adjusted valorile variabilei dependente ce corespund fiecrei observaii, dar calculate cu coeficienii de regresie ce au rezultat din modelul de regresie din care observaia respectiv a fost ndeprtat ;
Residuals
Unstadardized valorile ;
Standardized valorile standardizate;
Studentized valorile studentizate;
Distances
Mahalanobis msoar distana fiecrei valori a variabilei independente fa de media variabilei. O distan mare indic o valoare extrem;
Cooks Leverage values contribuia unei observaii dat de valoarea (levierul);
Influence statistics
DfFit calculeaz valorile DFITS; Options conduce la ecranul:
Fig.4 Stabilirea criteriului de selectare a variabilelor
Stepping Method Criteria
Use probability of F o variabil este introdus n model dac nivelul de semnificaie pentru valoarea calculat F este mai mic dect valoarea specificat n Entry i este scoas din model dac nivelul de semnificaie pentru valoarea calculat F este mai mare dect valoarea specificat n Removal; Use F value - o variabil este introdus n model dac valoarea calculat F este mai mare dect valoarea specificat n Entry i este scoas din model dac valoarea calculat F este mai mic dect valoarea specificat n Removal;Pentru exemplul de mai sus s-au obinut rezultatele:
Corelaia simpl curbilinie
n practica statistic se ntlnesc i legturi care nu se realizeaz de form liniar. n acest caz se pot ntlni forme variate de legturi curbilinii specifice relaiilor de dependen dintre caracteristica factorial aleas i cea rezultativ.
Aceste legturi neliniare se ntlnesc mai frecvent sub forma unei parabole de gradul 2, a hiperbolei i a funciei exponeniale. n cazul legturii neliniare este necesar ca, pe baza graficului, s se aleag acea funcie care, tratat vizual, s prezinte abateri minime de la linia valorilor empirice nscrise n cmpul de corelaie. Cnd nu se poate desprinde cu claritate forma de realizare a legturii dintre x i y este necesar s se calculeze mai multe ecuaii de estimare, cu care s se ajusteze datele i s se aleag apoi aceea care d o dispersie minim fat de valorile teoretice ale caracteristicii rezultative n funcie de factorul ales.
Exemplu: n zece uniti comerciale s-au cules date cu privire la valoarea vnzrilor de tricotaje i nivelul relativ al cheltuielilor de circulaie:
Valoarea vnzrilor
(mil. lei)Nivelul relativ al
cheltuielilor de circulaie (%)
xy
5,1
5,5
6,0
6,5
6,7
7,0
7,0
8,5
11,0
13,0 8
7,2
6,8
6,4
6
5,6
5
4,6
4,2
4,2
Pentru a rezolva n SPSS problemele de regresie neliniar se apeleaz:
Analyze (
Regression (Curve Estimation
Fig. 5 Selectarea opiunilor pentru regresia neliniar
Pentru a vizualiza legtura dintre cele dou variabile s-a utilizat:
Graphs (
Scatter
Fig. 6 Legtura dintre cheltuieli i vnzri
Graficul sugereaz o legtur invers ntre cele dou variabile. Pentru a putea face comparaie ntre modelul liniar i modelul hiperbolic au fost selectate ambele metode de analiz, obinndu-se rezultatele:Dependent variable.. CHELT Method.. LINEAR
Multiple R ,85395
R Square ,72923
Analysis of Variance:
DF Sum of Squares Mean Square
Regression 1 11,259261 11,259261
Residuals 8 4,180739 ,522592
F = 21,54502 Signif F = ,0017
-------------------- Variables in the Equation --------------------
Variable B SE B Beta T Sig T
VINZARI -,442581 ,095350 -,853948 -4,642 ,0017
(Constant) 9,176893 ,762589 12,034 ,0000
Dependent variable.. CHELT Method.. INVERSE
Multiple R ,95148
R Square ,90531
Analysis of Variance:
DF Sum of Squares Mean Square
Regression 1 13,978011 13,978011
Residuals 8 1,461989 ,182749
F = 76,48762 Signif F = ,0000
-------------------- Variables in the Equation --------------------
Variable B SE B Beta T Sig T
VINZARI 33,109280 3,785769 ,951479 8,746 ,0000
(Constant) 1,102268 ,553896 1,990 ,0818
The following new variables are being created:
Name Label
FIT_3 Fit for CHELT with VINZARI from CURVEFIT, MOD_2 LINEAR
FIT_4 Fit for CHELT with VINZARI from CURVEFIT, MOD_2 INVERSE
Fig. 7 Valorile observate comparate cu liniile de regresie
Modelul liniar a condus la funcia (coficientul b fiind negativ arat legtur invers ntre cele dou variabile), raportul de corelaie R de 0,8539 indic o legtur puternic iar valoarea F = 21,54 pentru care nivelul de semnificaie este 0,0017 (mai mic dect 0,05 ales pentru testarea modelului) arat c modelul este semnificativ. .
Modelul hiperbolic a condus la funcia , raportul de corelaie R este 0,9514, valoarea F = 76,48 pentru care nivelul de semnificaie este 0,0000. . Din aceste rezultate deducem c modelul hiperbolic estimeaz mai bine legtura dintre cele dou variabile.
Regresia pas cu pas
Dac numrul variabilelor explicative este important, apare necesitatea aplicrii metodelor de selectare automat a variabilelor. Metodele cele mai utilizate sunt regresia pas cu pas ascendent (forward stepwise regression), regresia pas cu pas descendent (backward stepwise regression), sau o combinaie a celor dou.
Regresia pas cu pas ascendent
Regresia pas cu pas ascendent este o metod iterativ constnd n selecionarea la fiecare etap a variabilei explicative ce maximizeaz coeficientul de determinaie R2 al lui Y cu toate variabilele selecionate n etapele precedente i noua variabil gsit, astfel nct aportul marginal al celei din urm s fie semnificativ.
n prima etap se construiete tabelul R2(Y,Xj):
VariabileR2(Y,Xj)FjNivel de
semnificaie
X1.
.
XpR2(Y,X1)
.
.
R2(Y,Xp)F1.
.
Fp1.
.
p
Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales).
n etapa a doua se construiete tabelul R2(Y, Xst-1 ,Xj), n care Xst-1 este variabila explicativ selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu.
Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai mare dect nivelul .
Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X1 ... Xt au fost selecionate:
n care statistica: S(X1,...,Xk) reprezint suma ptratelor explicat de variabilele X1,...,Xk .
Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile puternic corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea variabilei Y s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele nesemnificative sunt eliminate.
Valorile variabilelor nregistrate la 32 uniti turistice
Nr. turiti
(mii pers.)Zile - turitiPre mediu/zi
(zeci mii lei)Val. investiiilor
(zeci mil. lei)Clelt. publicit.
(sute mii lei)Val. ncas.
(mil. lei)
X1X2X3X4X5Y
398
369
268
484
394
332
336
383
285
277
456
355
364
320
311
362
408
433
359
476
415
420
536
432
436
415
462
429
517
328
418
5151080
1180
1290
1110
1460
1400
1360
1040
1050
1350
1280
1310
1200
1470
1430
1450
1310
1240
1060
1380
1480
1360
1110
1520
1230
1190
1120
1250
1420
1230
1350
120056
59
56
57
59
60
59
60
63
62
64
64
63
65
67
66
66
67
68
71
69
69
73
73
73
74
73
74
74
52
68
7812
9
28
12
13
11
24
20
8
10
21
23
13
14
22
23
13
8
27
18
7
10
27
15
32
19
14
11
26
19
34
2376
88
51
39
51
20
40
31
12
68
52
76
96
47
27
72
62
24
73
63
28
91
74
16
42
41
92
83
74
87
74
215550
5439
4290
5502
4871
4708
4627
4110
4122
4842
5740
5094
5383
4888
4033
4941
5312
5139
5397
5149
5450
4989
5926
4703
5365
4630
5711
5095
6142
4787
5035
5288
Modelul estimat prin metoda celor mai mici ptrate este:
Funcionarea procedurii se realizeaz astfel:
Pas 1. Se calculeaz precum i valorile pariale mpreun cu nivelul de semnificaie.
VariabileR2 (Y,Xj )FjNivel de semnificaie
X1X2X3X4X50.500
0.017
0.102
0.003
0.22730.024
0.515
3.400
0.083
8.8010.000
0.478
0.075
0.776
0.006
Variabila selecionat este X1.
Pas 2. Se calculeaz :
VariabileR2 (Y,X1 ,Xj )Fj
X2X3X4X50.502
0.521
0.503
0.67614.645
15.787
14.677
30.2030,717
0,268
0,687
0,000
Variabila selecionat este X5.
Obs.Valoarea Fj corespunde modelului n ansamblu iar nivelul de semnificaie corespunde variabilei analizate (de exemplu, n modelul 0,687 este nivelul de semnificaie pentru variabila X4. Deoarece valoarea nivelului de semnificaie este mai mare de 0,05, variabila nu este reprezentativ pentru model).
Pas 3. Se construiete tabelul:
VariabileR2 (Y,X1 , X5 ,Xj )FjNivel de semnificaie
X2X3X40.676
0.683
0.68319.452
20.111
20.0930.917
0.426
0.432
Se observ dup valorile nivelului de semnificaie c nici o variabil nu va mai fi inclus n model. Din cei cinci factori de influen considerai iniial au fost reinui doar doi, numrul turitilor i cheltuielile publicitare.
Fig. 8 Alegerea metodei de selectare a variabilelor
Rezultatele oferite de produsul SPSS se pot urmri n tabelele de mai jos:
ANALIZE MULTIDIMENSIONALE
ANALIZA COMPONENTELOR PRINCIPALE (ACP)Studiul unui eantion sau al unei populaii poate fi considerat complet, de regul, doar dac au fost msurate sau evaluate foarte multe variabile, pentru fiecare individ (sperndu-se ca msurtorile fcute s acopere domeniul de investigaie). La prima vedere, fiecare dintre variabilele msurate ar putea prea a fi de aceeai importan; ns innd seama de faptul c ntre unele ar putea exista legturi de dependen (i deci unele ar putea fi redundante), am putea s descoperim c un numr mic de variabile, independente ntre ele, explic suficient (cea mai mare parte din ) abaterile constatate asupra indivizilor. Domenii de aplicare
a) extragerea i interpretarea factorilor, permind structurarea variabilelor iniiale, oferind un rezumat al informaiei aduse de ansamblul variabilelor;
b) selecionarea dintr-un ansamblu important de variabile a celor care intervin mai mult n descrierea fenomenului studiat. Este posibil de conservat pentru analize ulterioare numai a acelora puternic corelate cu factorii considerai cei mai importani;
c) ACP poate fi considerat ca o faz intermediar pentru aplicarea altor metode asupra fie a indivizilor, fie a variabilelor.
Exemplu: Trei mrci ale aceluiai tip de produs sunt notate de la 0 la 10 de 6 consumatori:
Aprecierile consumatorilor
Mrci
ConsumatoriIIIIII
1
2
3
4
5
64
6
8
0
10
85
7
0
6
7
56
8
1
3
4
2
P1. Reducerea datelor
Indicatori statistici
IIIIII
Medii
Abateri medii
ptratice (6
3,275
2,384
2,38
Deoarece datele sunt omogene este suficient centrarea lor, astfel nct se obine tabelul T0.
Centrarea datelor
T0IIIIII
1
2
3
4
5
6-2
0
2
-6
4
20
2
-5
1
2
02
4
-3
-1
0
-2
P2. Calculul coordonatelor punctelor pe axe
Elaborarea matricei de varian covarian:
n care: este matricea datelor centrate, iar este transpusa matricei .
Urma matricei V este egal cu suma elementelor de pe diagonal: 64+34+34 = 132.
Rangul matricei este egal cu 3 (rangul unei matrice cu m linii i n coloane r ( min(m,n).
Diagonalizarea matricei de varian covarian:
- calculul valorilor proprii :
Numrul soluiilor este egal cu rangul matricei de date. Se obin n acest caz trei soluii:
Fiecrei valori proprii i corespunde un vector propriu care definete direcia unei axe factoriale. Valoarea proprie msoar ineria norului ce va fi proiectat pe acea ax factorial.
Astfel: din ineria total proiectat pe axa 1.
EMBED Equation.3 din ineria total proiectat pe axa 2.
Obs. n ACP normat suma valorilor proprii este egal cu numrul de variabile.
- determinarea vectorilor proprii:
Se utilizeaz urmtoarele relaii:
Valorii proprii vectorul propriu astfel nct
Valorii proprii vectorul propriu astfel nct
Valorii proprii vectorul propriu astfel nct
Se obin vectorii proprii:
- determinarea vectorilor proprii normai:
Amintim c norma sau lungimea unui vector
i c normarea unui vector const n divizarea acestuia prin norma sa:
EMBED Equation.3 Calculul coordonatelor punctelor pe axele factoriale:- calculul coordonatelor punctelor indivizi:
indivizi
u1 u2 u3 axa1 axa2 axa3
T0 coordonate puncte - indivizi
- calculul coordonatelor punctelor variabile:
Se nmulete fiecare vector propriu normat cu abaterea medie ptratic a norului proiectat pe axa corespunztoare.
variabile
axa1 axa2 axa3
coordonate puncte variabile
Graficul punctelor indivizi i variabile
P3. Interpretarea rezultatelor
Marca I este opus mrcilor II i III.
Indivizii 5 i 6 sunt destul de apropiai prin preferinele lor pentru marca I, n timp ce indivizii 1 i 2 prefer mrcile II i III.
Individul 1 i mai ales individul 4 consider defavorabil marca I.
Individul 6 i mai ales individul 3 consider defavorabile mrcile II i III.
Individul 2 pare a fi indiferent fa de marca I, n timp ce individul 5 nu pare deloc interesat de marca II i III.
Exemplul 1: innd cont de faptul c potenialii cumprtori apreciaz automobilele dup caracteristicile prezentate n tabelul de mai jos, ne propunem efectuarea unei analize n componente principale utiliznd produsul SPSS.Datele au fost introduse prin meniul Data ( Difine Variable.
Pentru apelarea analizei n componente principale se alege calea:
Analyze (
Data Reduction ( Factor
Caracteristici ale automobilelor
CodModelPreCap.cilVitezaConsCap.habLung.Gr./P.
AAustin Metro Special120009981406,295534023,2
CCitroen AX 132759541455,6117035019,4
DDaihatsu 146259931456,7115136120,8
F1Fiat Uno 45 134759991456,296836421,5
F2Fiat Uno Turbo 2500513012008,996836411,0
F3Fiat Uno 70 1784513021657,796836416,0
F4Ford Fiesta Junior 1305011171377,090036422,7
F5Ford Fiesta XR 2174315971809,397336412,0
NNissan 124009881406,437536417,0
OOpel Corsa 130509931437,284536222,4
P1Peugeot 205 XE 132609541346,8120037023,8
P2Peugeot 205 GL 1578011241425,8120037021,4
P3Peugeot 205 GT 1896513601709,2120037013,9
P4Peugeot 205 GTI 2517515801908,7120037011,2
R1Renault 4 TL 129819561156,395036733,1
R2Renault 4 GTL 1380611081206,395036728,4
R3Renault 5 SL 1415611081435,891535920,6
R4Renault 5 GTS 1725013971677,991535913,8
R5Renault GT Turbo 2531913972008,791535910,2
S1Seat GLX 1928314611758,8120036414,7
S2Seat GL 109709031317,3108834723,4
S3Suzuki GA 121159931456,440035818,4
S4Suzuki GL 1465513241636,540035814,0
T1Toyota L 140009991506,120237019,5
T2Toyota XL 1685012951706,820237015,0
VVolkswagen 1804512721708,0104036514,0
Fig. 1 Selectarea variabilelor
Din lista iniial de variabile se plaseaz cu sgeat dreapta variabilele ce vor intra n analiz, cu condiia s fie numai variabile numerice.
Descriptives permite obinerea unei analize univariate coninnd indicatorii: medie, abaterea medie ptratic, precum i matricea de corelaie dintre variabile;
Extraction se selecteaz metoda, se alege numrul de factori, se marcheaz apariia graficului valorilor proprii Scree plot;
Fig. 2 Funciile modulului Extraction Rotation permite aplicarea metodei fr rotirea sau cu rotirea axelor, precum i reprezentarea graficului variabilelor prin opiunea Loading plot(s);
Fig. 3 Funciile modulului Rotation
Scores creeaz variabile noi ce conin coordonatele punctelor indivizi;
Pentru exemplul de mai sus s-au obinut rezultatele:Statistic descriptiv
VariabileMeanStd. DeviationAnalysis N
CAP.CIL1172,04209,4426
CAP_HAB894,23311,1926
CONSUM 7,177 1,15626
GR_P 18,51545,609826
LUNGIME 362,317,43 26
PRET 16118,38 4229,9726
VITEZA154,8122,61 26
Valorile proprii sunt:
Primii doi factori exprim 78,4( din variana total, ceea ce nseamn c i putem utiliza pentru a reprezenta norul de puncte n planul principal.
Fig. 4 Graficul valorilor proprii
Informaia coninut n ultimii factori este neglijabil comparativ cu cea coninut n primii, ceea ce permite o reducere a numrului factorilor ce descriu un fenomen.
Coeficienii de corelaie prezentai n tabelul de mai sus servesc drept coordonate ale variabilelor n planul celor doi factori.
Fig. 5 Reprezentarea variabilelor n planul celor doi factori
Privind graficul, devine evident faptul c factorul 1 este apropiat de variabilele vitez, pre, capacitate cilindric i consum, adic performane tehnice, pe cnd factorul 2 este apropiat de confortul intern.
Pentru a reprezenta punctele indivizi pe harta indivizilor se folosesc coordonatele acestora aflate n variabilele fac1_1 i fac2_1 . Coordonatele punctelor indivizi
Codfac1_1fac2_1Codfac1_1fac2_1
A-1,0761,072P41,866,4591
C-,8531,015R1-1,397,4842
D-,500,7814R2-,982,2896
F1-,661,0916R3-,626,0545
F21,628,0851R4,674,0825
F3,528,0992R51,681,0731
F4-,553,1034S11,130,8272
F51,600,2063S2-1,0441,378
N-,654-1,63S3-,719-1,30
O-,600,0460S4,099-1,51
P1-,716,7103T1-,572-2,31
P2-,425,4399T2,355-2,43
P31,118,6544V,700,2169
Pentru realizarea graficului se apeleaz :
Graphs ( Scatter .
Fig. 6 Alegerea parametrilor pentru reprezentarea grafic
n graficul de mai jos au fost reprezentai indivizii (mrcile) n planul principal, conform coordonatelor punctelor indivizi.
Fig. 7 Punctele indivizi
Un cumprtor i poate face acum o idee mai exact asupra clasamentului acestor mrci, poate alege mai clar, n funcie de ceea ce l intereseaz: pre/performane tehnice, sau confortul intern al autoturismului.
Exemplul 2: Dintr-o cercetare pe baz de sondaj, asupra unui eantion format din 110 turiti au fost selecionate cteva variabile din chestionarele nregistrate (modul de cazare, dac a sosit cu un grup sau individual, motivaia turistic, profesia, sexul, ce tip de sport practic, sursele de informare, ara, vrsta, mijlocul de transport utilizat), n vederea efecturii unei analize n componente principale.
S-au obinut rezultatele:
Matricea coeficienilor de corelaie: CAZARE GRUP MOTIV PROFESIE SEX SPORT SURSE_IN
CAZARE 1.00000
GRUP .53555 1.00000
MOTIV -.22277 .09222 1.00000
PROFESIE .24877 .18259 -.13558 1.00000
SEX .54844 .42999 -.04401 .33284 1.00000
SPORT .35921 -.03650 -.16822 .25919 .19040 1.00000
SURSE_IN -.20775 -.36539 -.04173 .58147 -.01131 .34082 1.00000
ARA -.28417 -.34993 -.12478 .60704 .06825 .17510 .65745
TRANSP .34276 .10355 -.20298 .66436 .39625 .46192 .60163
VRSTA .77286 .58829 -.19978 .33210 .53111 .21977 -.09029
ARA TRANSP VRSTA
ARA 1.00000
TRANSP .59873 1.00000
VRSTA -.20254 .39162 1.00000
Determinarea valorilor proprii:
Variabile Factori Valori proprii % %
cumulate
CAZARE 1 3.48485 34.8 34.8
GRUP 2 2.82289 28.2 63.1
MOTIV 3 1.09891 11.0 74.1
PROFESIE 4 .83836 8.4 82.5
SEX 5 .55509 5.6
88.0
SPORT 6 .37733 3.8
91.8
SURSE_IN 7 .28967 2.9
94.7
ARA 8 .26634 2.7 97.3
TRANSP 9 .18518 1.9 99.2
VRSTA 10 .08138 .8 100.0
Primii doi factori principali exprim 63,1% din variana (mprtierea) total, ceea ce nseamn c i putem utiliza pentru a reprezenta norul de puncte n planul principal, fr a pierde prea mult informaie.
De regul, informaia coninut n ultimii factori ai secvenei este neglijabil, comparativ cu cea coninut n primii. De aceea, analiza componentelor principale ofer o baz pentru reducerea numrului factorilor ce descriu un fenomen.
Factorii principali Factor 1 i Factor 2 sunt abstraci. Pentru interpretarea lor se calculeaz coeficienii de corelaie ntre variabilele concrete i cele dou componente principale. Coeficienii de corelaie vor servi drept coordonate ale variabilelor n planul celor doi factori. Coeficienii de corelaie a variabilelor cu cei doi factori:
Factor 1 Factor 2
CAZARE .65487 -.62181
GRUP .37138 -.70781
MOTIV -.28656 -.03825
PROFESIE .76703 .33938
SEX .64945 -.34277
SPORT .54332 .14655
SURSE_IN .43008 .77862
ARA .39217 .80252
TRANSP .84620 .33274
VRSTA .68980 -.56449
Fig. 8 Reprezentarea grafic a variabilelor n planul celor doi factoriDin reprezentarea grafic desprindem concluziile:
variabile independente, dac unghiul format de vectorii variabilelor este drept, (de exemplu: mod cltorie, care se refer la cltoria individual sau n grup, formeaz un unghi aproximativ drept cu profesia);
variabilele sunt apropiate ntre ele dac unghiul format este ascuit, ( de exemplu: practicarea sporturilor de iarn cu profesia, vrsta cu cazarea, sursele de informare cu ara);
variabile sunt opuse (repulsie) dac unghiul format este obtuz,(de exemplu: cltoria n grup sau individual cu sursele de informare); cu ct punctul este mai ndeprtat fa de centru n direcia unei axe, cu att mai mari sunt coordonatele punctului i cu att mai mult contribuie la formarea axei (transportul, sursele de informare pentru primul factor, cazarea, vrsta, modul de cltorie pentru al doilea factor).Din reprezentarea grafic rezult c factorul 1 este apropiat de variabilele: profesia, transportul, sursele de informare, practicarea sporturilor de iarn, ara, deci de variabilele care privesc motivaia i mijloacele prin care se poate practica turismul n Poiana Braov, factorul 2 este apropiat de variabilele: cazare, vrst, cltorie n grup sau individual, sex, care sunt legate mai mult de confort i datele personale ale indivizilor.
O alt interpretare ar fi: factorul 1 concentreaz n jurul su variabilele cel mai bine percepute de indivizii chestionai (sunt activi fa de aceste variabile i pasivi fa de variabilele ce contribuie la formarea celui de-al doilea factor).
Prin aplicarea metodelor de analiz factorial s-a realizat o reducere a datelor, nlocuind norul de puncte iniial cu un nor de dimensiuni mai restrnse, pentru o reprezentare grafic comod i pentru a pune n eviden ceea ce este tipic n opiniile turitilor.
ANALIZA FACTORIAL A CORESPONDENELOR (AFC)Analiza factorial a corespondenelor este o generalizare a analizei componentelor principale, adaptat tratrii datelor calitative, prezentate sub forma unui tabel de contingen sau a unui tabel format din indivizi descrii prin caracteristici calitative, studiind legturile dintre dou ansambluri de variabile (sau ntre modalitile a dou variabile de clasificare).
Cazul a dou caracteristici
Tabel de contingen
Y
XCategoria de vrst
16-20 ani21-30 ani31-40 ani41-50 anipeste 50
Criteriul hotrtorpreul
performanele tehnice
designul17
26
615
28
2835
19
1833
31
1542
34
3
Se apeleaz:
Analyze (
Data Reduction ( Correspondence Analysis
Fig. 9 Selectarea variabilelor analizei n componente principale
Codificarea variantelor caracteristicii X s-a realizat astfel:
1 pre;
2 performane tehnice;
3 design.
Codificarea variantelor caracteristicii Y:
1 16 20 ani;
2 21 30 ani;
3 31 40 ani;
4 41 50 ani;5 peste 50 ani.Variabila Criteriu se indic pe linii iar n Define Range se completeaz valoarea minim i valoarea maxim (1 i 3).
Variabila Vrsta se indic pe coloane iar n Define Range se completeaz valoarea minim i valoarea maxim (1 i 5).
Fig. 10 Selectarea opiunilor analizei n componente principale
Cu ajutorul produsului SPSS, prelucrarea datelor din tabelul 4.10 a condus la urmtoarele rezultate:
Valorile proprii sunt
EMBED Equation.3 Primul factor principal explic 79,3( din mprtierea datelor iar al doilea factor principal restul de 20,7(
Se observ din graficele de mai sus c prima ax (factorul 1) se explic prin oponena ntre categoria de vrst peste 50 de ani i categoria de vrst 21 30 ani, celelalte modaliti ocupnd poziii intermediare. Tot axa 1 opune preul designului.
A doua ax (factorul 2) ar putea fi explicat prin oponena dintre modalitile performane tehnice i pre, sau prin oponena categoria de vrst 16 20 ani cu cea cuprins ntre 31 40 ani.
Se poate trage concluzia c tinerii ar prefera performanele tehnice iar cei de vrst mijlocie nclin spre designul i preul produsului.
ANALIZA DISCRIMINANT
O populaie este divizat n k clase cu ajutorul unui criteriu calitativ Y. Fiecare individ al populaiei este descris prin p variabile numerice . Analiza discriminant utilizeaz mai multe metode ce permit studierea legturii dintre criteriul Y i variabilele , plecnd de la un eantion. Analiza factorial discriminant permite punerea n eviden a diferenelor dintre clase la nivelul variabilelor i vizualizarea datelor. Pentru aceasta este nevoie de utilizarea procedurilor automate pentru selectarea variabilelor discriminante.
Exemplul 1: o firm de soft este interesat s-i extind vnzrile de soft de aplicaie de marketing. Pentru aceasta efectueaz o cercetare n vederea depistrii caracteristicilor ce ar putea influena decizia de achiziionare a unui asemenea soft. Analiza este realizat la nivelul a 12 firme la care s-au nregistrat caracteristicile: dotare cu soft de specialitate, numrul salariailor, cifra de afaceri.
Valorile variabilelorEste dotat
cu softNr.salariai
X1CA (mil.lei)
X2
da334900
da566000
da254000
da416900
da305700
da577400
nu385100
nu302700
nu203450
nu102800
nu91500
nu404000
Pentru rezolvarea n SPSS a acestei metode se apeleaz:
Analyze (Classify (Discriminant . . .Fig. 11 Selectarea variabilelor
Analyze . . . ne conduce la ecranul:
Means - permite calcularea mediilor pe subgrupuri pentru fiecare variabil explicativ; Univariate ANOVAs - se selecteaz dac se dorete analiz ANOVA pentru fiecare factor;
Fisher's - se selecteaz dac se doresc coeficienii Fisher ai funciei; Unstandardized - se selecteaz dac se doresc coeficienii nestandardizai ai funciei; Within-groups correlation - coeficienii de corelaie n interiorul grupurilor;
Within-groups covariance - covariana n interiorul grupurilor;
Total covariance - covariana dintre variabile pe total.
Classify . . . ne conduce la ecranul:
Fig. 12 Selectarea parametrilor clasificrii
All groups equal - se selecteaz pentru grupuri de volume egale; Compute from group sizes - se selecteaz pentru grupuri de volume neegale; Cassewise results - afieaz grupul actual, grupul rezultat, scorurile de discriminare;
Within-groups - utilizeaz pentru clasificare matricea de covarian din interiorul grupurilor ;
Plots - se obin reprezentri grafice pe grupuri combinate sau pe grupuri separate.
Save . . . ne conduce la ecranul:
Fig. 13 Salvarea noilor variabile
Interpretarea rezultatelor
Cele 12 firme au fost mprite n dou grupuri de volume egale. n urma aplicrii metodei discriminante va rezulta o alt clasificare i se vor gsi funciile care au avut o importan mare n obinerea unor grupuri distincte.
Grupul firmelor dotate cu soft are centroidul format din mediile celor dou caracteristici (40.33, 5816.7), iar grupul firmelor ce nu sunt dotate cu soft are centroidul (24.5, 3258,3).
n tabelul de mai sus este afiat matricea de covarian din interiorul claselor W.
Deoarece variabila de explicat are doar dou modaliti, rezult o singur funcie de discriminare.
Indicatorul calitii discriminrii ( al lui Wilks are valoarea 0.413 cu un nivel de semnificaie de 0.019, mai mic dect 0.05, ceea ce indic n ansamblu o discriminare acceptabil.
n tabelul de mai sus sunt prezentai coeficienii nestandardizai ai funciei discriminante.
Rezult funcia discriminant
Prin standardizare (mprire la abaterea standard din interiorul grupelor i ) se obin coeficienii standardizai:
Cu funcia discriminant se calculeaz scorurile pentru fiecare firm Discriminant Scores.
Cu ajutorul distanelor Mahalanobis sunt calculate ptratele distanelor fa de proieciile centroizilor pe axa de discriminare (, media scorurilor firmelor dotate cu soft i , media scorurilor firmelor fr soft).
Clasificarea firmelor se face n funcie de scorul de separare - cutting score, care are valoarea 0, conform criteriului:
dac scorul firmei > 0 firma va aparine primului grup
dac scorul firmei ( 0 firma va aparine celui de-al doilea grup
Se obine o rat a succesului de 83,3 %.
Variabila cu puterea cea mai mare de discriminare este X2 - cifra de afaceri, acest lucru este pus n eviden de cele dou statistici ( i F.
n tabelul de mai jos sunt prezentai coeficienii de corelaie ntre variabile i vectorul scorurilor.
Exemplul 2. 17 studeni au fost apreciai dup notele obinute la examenele de matematic, statistic, informatic i marketing. Primul grup este format din 6 studeni, considerai foarte buni (codul 1) dup notele la cele patru discipline. Al doilea grup este format din 8 studeni, considerai buni (codul 2) iar al treilea grup este format din 3 studeni, considerai slabi (codul 3). Utiliznd analiza discriminant se vor constitui noi grupuri, dup notele obinute la cele patru discipline.
Notele pe discipline
Nr. Crt.ApreciereNota
matematicNota
statisticNota
informaticNota
marketing
118859
2151069
3179610
4179810
5181098
618599
726775
826757
927658
1025868
1125865
1227978
13210101010
1429588
1535775
1637666
1735555
Se observ din tabelul de mai sus c s-au produs schimbri n ceea ce privete costituirea grupurilor dup notele obinute la cele patru discipline.
ANALIZ CLUSTER
n multe domenii exist un mare interes pentru dezvoltarea metodelor de clasificare a obiectelor. Foarte adesea obiectele de clasificat sunt clienii. Obiectivul urmrit este gruparea clienilor poteniali n grupe omogene destul de mari pentru a putea fi analizai, utiliznd modaliti de clasificare cum ar fi segmentarea i tipologia.
Exemplul 1: se consider un set de 8 uniti caracterizate prin valori nregistrate pentru trei variabile. Aplicarea metodei cluster se realizeaz selectnd:
Analyze (Classify (Hierarchical Cluster . . .
Fig. 14 Selectarea variabilelor
Variable(s) permite selectarea variabilelor asupra crora se aplic metoda;
Label Cases by: - implicit cazurile sunt afiate prin numrul curent. Opional se poate alege pentru identificare o variabil de tip ir de caractere;
Cluster Cases aplic metoda prin calcularea distanelor dintre indivizi;
Cluster Variables aplic metoda prin calcularea distanelor dintre variabile;
Analyze . . . ne conduce la ecranul:
Fig. 15 Selectarea parametrilor opiunii Analyze
Agglomeration schedule conduce la obinerea unei liste a clusterelor formate de-a lungul a mai multor pai;
Proximity matrix conduce la afiarea matricei similaritilor sau disimilaritilor;
Cluster Membership None suprim afiarea membrilor grupurilor;
Cluster Membership Single solution afieaz membrii grupurilor pentru numrul clusterelor specificate n caseta clusters. De exemplu, dac se specific 4, colectivitatea va fi mprit n 4 clustere;
Cluster Membership Range of solutions: - afieaz membrii grupurilor tuturor situaiilor clusterelor specificate n casetele From, trough clusters. De exemplu, dac se specific de la 2 la 4, este prezentat soluia pentru mprirea colectivitii n 2 clustere, 3 clustere i 4 clustere.
Plots . . . ne conduce la ecranul:
Fig. 16 Selectarea parametrilor opiunii Plots
Dendrogram permite reprezentarea grafic a coeziunii clusterelor formate;
Icicle pentru toate sau o parte din clustere, permite afiarea informaiilor referitoare la fiecare caz ce este combinat ntr-un cluster, la fiecare iteraie.Se poate selecta orientare vertical sau orizontal.
Method . . . permite alegerea tipului de distan utilizat n constituirea clusterelor, precum i transformarea valorilor sau a msurilor. Save . . . permite salvarea noilor variabile.
Pentru exemplul ales, cu x1, x2, x3 au fost notate variabilele iniiale, iar cu zx1, zx2, zx3 valorile normalizate cu scor Z.
Pornind de la matricea cu date normalizate, se determin distanele euclidiene medii pentru fiecare pereche de elemente.
Proximity Matrix Squared Euclidean Distance
Case1 2 3 4 56 78
11,2512,46112,4892,9022,882 ,37216,541
21,2511,1047,8881,9511,637 ,3909,251
32,4611,1045,100,8481,059 1,91512,140
412,4897,8885,1009,2909,7959,99315,677
52,9021,951,8489,290 0,091982,90912,166
62,8821,6371,0599,7950,091982,69110,452
7,372,3901,9159,9932,9092,69112,754
816,5419,25112,14015,67712,16610,45212,754
Algoritmul de grupare a unitilor pornete de la aceast matrice, opernd astfel:
1. Se caut n matricea distanelor perechea reciproc de valoare minim. n exemplu, aceasta este perechea (5,6) pentru care distana d56 = 0,09198.
2. Se atribuie aceleiai grupri (5,6) unitile din perechea reciproc respectiv.
3. Se reface matricea distanelor cu (5,6), considerat ca o singur unitate. Distana dintre orice cluster X i (5,6) este dat de valoarea distanei minime dintre uniti ale lui X i ale lui (5,6). De exemplu, de la 1 la 5 distana este 2,902 iar de la 1 la 6 distana este 2,882, se alege 2,882. Aplicnd acest principiu, rezult urmtoarea matrice a distanelor:
Case1 2 3 4(5,6) 78
11,2512,46112,4892,882 ,37216,541
21,2511,1047,8881,637 ,3909,251
32,4611,1045,100,8481,91512,140
412,4897,8885,1009,2909,99315,677
(5,6)2,8821,637,8489,2902,69110,452
7,372,3901,9159,9932,69112,754
816,5419,25112,14015,67710,45212,754
4. Se reia procesul de grupare de la pasul 1, cutnd perechea reciproc maxim n noua matrice, n cazul nostru (1,7). Ele vor forma nucleul unei grupe noi.
Case(1,7) 2 3 4(5,6)8
(1,7),3901,9159,9932,69112,754
2,3901,1047,8881,6379,251
31,9151,1045,100,84812,140
49,9937,8885,1009,29015,677
(5,6)2,6911,637,8489,29010,452
812,7549,25112,14015,67710,452
Case1+7+2 3 4(5,6)8
1+7+21,1047,8881,6379,251
31,1045,100,84812,140
47,8885,1009,29015,677
(5,6)1,637,8489,29010,452
89,25112,14015,67710,452
Case1+7+24(5,6)+38
1+7+27,8881,1049,251
47,8885,10015,677
(5,6)+31,1045,10010,452
89,25115,67710,452
Case1,7,2+5,6,3 48
1,7,2+5,6,35,1009,251
45,10015,677
89,25115,677
Pentru a reprezenta grafic procesul de grupri, se construiete o dendrogram, adic un grafic de tip arbore. Nivelul la care se unesc dou clustere sau dou uniti este marcat printr-o linie vertical care unete liniile orizontale, denumite ramuri, corespunztoare gruprilor unite. Ramurile care pornesc de la baza figurii corespund situaiei iniiale, n care un cluster era echivalent cu o unitate.
n final rezult dendrograma de mai jos i lista ciclurilor de grupare (aglomeration schedule). De exemplu unitatea 2 se unete cu grupul (1,7) la nivelul 0,39 n decursul celui de-al treilea ciclu de grupare.
Dendrogram
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
5 -+---+
6 -+ I
3 -----+---------------------+
1 -+ I I
7 -+---+ +---------------------+
2 -+ I I
4 ---------------------------+ I
8 -------------------------------------------------+
5. Obinerea gruprilor propriu-zise se realizeaz prin tierea dendogramei la un anumit nivel. Nu exist o regul unanim admis, dar jocul liniilor orizontale de unire a diferitelor ramuri poate sugera nivelul de tiere. Zona n care liniile orizontale ncep s se distaneze considerabil ntre ele este cea n care poate fi adecvat tierea. O alt metod ar fi producerea unei rupturi considerabile n seria coeficienilor care exprim nivelul de contopire a grupelor.
n concluzie, din exemplul prezentat, rezult dou grupuri relativ compacte (1,7,2) i (5,6,3) i dou uniti izolate 4 i 8.
Exemplul 2: utilizarea analizei cluster n studiul proximitilor salariilor medii nominale pe activiti ale economiei naionale. Se consider ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale, anul 2000, zona Centru, format din judeele Alba, Braov, Covasna, Harghita, Mure, Sibiu. Se urmrete constituirea grupurilor ce scot n eviden asemnrile dintre salariile pe activiti ale economiei naionale.
Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale,
anul 2000, zona Centru
Judee
ABBVCVHRMSSB
Comer119713614076601204232131829114906531376971
Hotel res.124882016481361217915129692212635461283845
Transport199031625081401769728171196118629252971791
Pot308066633718103278844299532529396682662131
Bnci442737850846074360286450565447154954191889
Tranz.im.143327924694631852821129618718295321406370
Administr.276742533009182491821257049727531032997957
nvm.196740625498581777582172536919053852073729
Sntate140991817514591601269154951817058341848168
Sursa datelor: Anuarul Statistic al Romniei 2001
Fig. 17 Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale
Metoda utilizat a fost clasificare ierarhic cu opiunea (cel mai apropiat vecin(.
Pornind de la matricea de date se determin distanele euclidiene medii pentru fiecare pereche de elemente.
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+------+
COMERT 3 -+
HR 4 -+-+
SANATATE 7 -+ I
TRANZ 9 ---+-------+
INV 5 ---+ +----------------------------------+
TRANSP 8 ---+ I I
ADM 1 ---+-------+ I
POSTA 6 ---+ I
BANCI 2 ----------------------------------------------+
Din dendrogram rezult cteva grupe: salariile medii nominale lunare sunt apropiate pentru activitile (comer, hoteluri i restaurante, sntate), (tranzacii imobiliare, nvmnt), (transporturi, administraie public, pot ) i distinct sectorul bancar.
Din punct de vedere al unitilor teritoriale, situaia se prezint astfel:
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+------+
Alba 1 -+
Harghita 4 -+---------+
Covasna 3 -+ +-------------+
Mures 5 -----------+ +--------------------+
Sibiu 6 -------------------------+ I
Brasov 2 ----------------------------------------------+Din dendrograma de mai sus rezult un grup relativ compact format din judeele (Alba, Harghita, Covasna) i trei uniti izolate Mure, Sibiu, Braov.
EMBED Excel.Sheet.8
EMBED Word.Picture.8
Rotaru T., Metode statistice aplicate n tiinele sociale, Ed. Polirom, 2000
Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 156
Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 121
Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag. 89
Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag.166
271
_1087830971.unknown
_1103287943.unknown
_1103456375.unknown
_1103473536.unknown
_1103481451.unknown
_1103483514.unknown
_1104611862.unknown
_1104861755.unknown
_1104862523.unknown
_1104862808.unknown
_1106739807.unknown
_1104862440.unknown
_1104612713.unknown
_1104354435.unknown
_1104609911.unknown
_1104611632.unknown
_1104609552.unknown
_1104346204.unknown
_1104346707.unknown
_1104353501.unknown
_1104345940.unknown
_1103482544.unknown
_1103483257.unknown
_1103483289.unknown
_1103483089.unknown
_1103481817.unknown
_1103481931.unknown
_1103481655.unknown
_1103475425.unknown
_1103475848.unknown
_1103481424.unknown
_1103475066.unknown
_1103475097.unknown
_1103475408.unknown
_1103473924.unknown
_1103457119.unknown
_1103473374.unknown
_1103473520.unknown
_1103458886.unknown
_1103456739.unknown
_1103457019.unknown
_1103456504.unknown
_1103455929.unknown
_1103456212.unknown
_1103456251.unknown
_1103455958.unknown
_1103455891.unknown
_1103455908.unknown
_1103455876.unknown
_1103455851.unknown
_1091200830.unknown
_1092597097.unknown
_1094803488.unknown
_1098640697.xlsChart3
119713612488201990316308066644273781433279276742519674061409918
140766016481362508140337181050846072469463330091825498581751459
120423212179151769728327884443602861852821249182117775821601269
131829112969221711961299532545056541296187257049717253691549518
149065312635461862925293966847154951829532275310319053851705834
137697112838452971791266213141918891406370299795720737291848168
comer
hotel rest.
transport
posta
banci
tranz.
administr
nvm.
sntate
Sheet1
Activiti ale economiei naionale
comerhotel rest.transportpostabancitranz.administrnvm.sntate
Alba119713612488201990316308066644273781433279276742519674061409918
Brasov140766016481362508140337181050846072469463330091825498581751459
Covasna120423212179151769728327884443602861852821249182117775821601269
Harghita131829112969221711961299532545056541296187257049717253691549518
Mures149065312635461862925293966847154951829532275310319053851705834
Sibiu137697112838452971791266213141918891406370299795720737291848168
Sheet1
000000000
000000000
000000000
000000000
000000000
000000000
comer
hotel rest.
transport
posta
banci
tranz.
administr
nvm.
sntate
Sheet2
Sheet3
_1102420254.doc
Column Scores for virsta
Dimension 1
1,0
,5
0,0
-,5
-1,0
Dimension 2
,8
,6
,4
,2
0,0
-,2
-,4
-,6
-,8
peste 50 ani
41-50 ani
31-40 ani
21-30 ani
16-20 ani
_1102420156.doc
Dimension 1
1,0
,5
0,0
-,5
-1,0
-1,5
Dimension 2
,8
,6
,4
,2
0,0
-,2
-,4
-,6
-,8
virsta
criteriu
peste 50 ani
41-50 ani
31-40 ani
21-30 ani
16-20 ani
design
perf.tehn
pret
_1094805169.unknown
_1093014037.unknown
_1093014055.unknown
_1093011924.unknown
_1092583379.unknown
_1092583412.unknown
_1092241485.unknown
_1091124553.unknown
_1091125112.unknown
_1091199718.unknown
_1091124955.unknown
_1091124538.unknown
_1091124547.unknown
_1091117552.unknown
_1091124529.unknown
_1091117357.unknown
_1087725777.unknown
_1087734101.unknown
_1087742017.unknown
_1087828615.unknown
_1087828961.unknown
_1087828230.unknown
_1087734447.unknown
_1087734395.unknown
_1087734338.unknown
_1087734021.unknown
_1043557030.unknown
_1051986112.unknown
_1087725361.unknown
_1087725516.unknown
_1051988159.unknown
_1087725344.unknown
_1051986291.unknown
_1043563131.unknown
_1051985577.unknown
_1051985651.unknown
_1050231191.unknown
_1050526474.unknown
_1050527340.unknown
_1051985513.unknown
_1050527275.unknown
_1050520842.unknown
_1050520862.unknown
_1044556802.unknown
_1044557105.unknown
_1044556695.unknown
_1043557611.unknown
_1043558397.unknown
_1043558915.unknown
_1043557619.unknown
_1043557062.unknown
_1043557401.unknown
_1043557608.unknown
_1043557049.unknown
_1043330577.unknown
_1043556882.unknown
_1043556964.unknown
_1043556989.unknown
_1043556938.unknown
_1043556762.unknown
_1043556835.unknown
_1043330666.unknown
_1043328177.unknown
_1043329460.unknown
_1043330566.unknown
_1043328337.unknown
_1043327337.unknown
_1043327920.unknown
_1043327209.unknown
_1043327303.unknown
_972043692.bin
_972043691.bin