+ All Categories
Home > Documents > Spss Analiza Cluster

Spss Analiza Cluster

Date post: 28-Jun-2015
Category:
Upload: danuveronica6575
View: 3,452 times
Download: 21 times
Share this document with a friend
85
Referat-lecţie SPSS-TCM Hierarchical Cluster Analysis K-Means Cluster Analysis Coordonator : Conf.univ.dr. Corneliu Muntean 1
Transcript
Page 1: Spss Analiza Cluster

Referat-lecţie SPSS-TCM

Hierarchical Cluster AnalysisK-Means Cluster Analysis

Coordonator : Conf.univ.dr. Corneliu Muntean

1

Page 2: Spss Analiza Cluster

Cuprins

Obiective..............................................................................................................................3Capitolul.1. Introducere în analiza grupurilor....................................................................4Capitolul.2. Analiza Cluster................................................................................................6

2.1.Hierarchical Cluster...................................................................................................62.2. K-Means Cluster.......................................................................................................72.3. Diferenţe dintre analiza ierarhică şi cea K-means....................................................82.4. Scopul analizei Cluster.............................................................................................92.5. Standardizarea...........................................................................................................92.6. Noţiuni de statistică asociate cu Analiza Cluster......................................................9

Capitolul.3. Aplicaţiile analizei grupurilor.......................................................................113.1. Segmentarea pieţei..................................................................................................113.2. Analiza structurii de piaţă.......................................................................................113.3. Identificarea potenţialelor teste de piaţă.................................................................12

Capitolul.4. Etape ale analizei clusterelor........................................................................134.1. Formularea problemei.............................................................................................134.2. Selectarea distanţei.................................................................................................144.3. Alegerea unei proceduri..........................................................................................184.4. Alegerea numărului de clustere..............................................................................234.5. Identificarea şi numirea grupurilor.........................................................................234.6. Testarea soluţiei......................................................................................................23

Capitolul 5. Aplicaţii.........................................................................................................255.1. Exemplul 1. Gruparea cazurilor - Hierarchical Cluster Analysis...........................32

5.1.1. Interpretarea Outputului...................................................................................355.2. Exemplul 2. Gruparea variabilelor – Hierarchical Cluster Analysis......................42

5.2.1. Interpretarea outputului....................................................................................445.3. Exemplul 3. Gruparea cazurilor folosind procedura K-Means..............................51

5.3.1. Interpretarea Output-ului................................................................................575.3.2.Reprezentare grafică.........................................................................................60

2

Page 3: Spss Analiza Cluster

Obiective

Până la finalul acestei ore ne propunem ca:

90 % dintre colegi să fi înţeles descrierea conceptului de baza  “Cluster

Analysis” ;

70 % să ştie cum se accesează aceste proceduri ;

60 % să ştie când să folosească Hierarchical Cluster Analysis şi când să

folosească K-Means Cluster Analysis;

50 % dintre colegi să deruleze procedurile necesare obţinerii unui Output corect

pentru metodele ierarhice şi nonierarhice;

30 % dintre colegi să ştie să analizeze rezultatele Output-ului generat de analiza

pe grupuri;

10 % dintre colegi să poată interpreta rezultatele generate de analiza pe grupuri.

3

Page 4: Spss Analiza Cluster

Capitolul.1. Introducere în analiza grupurilor

Analiza grupurilor este o procedură multivariată de identificare a grupurilor de date. Ea

constă într-o colecţie de tehnici prin care un set de obiecte este divizat în grupuri relativ

omogene. Acesta este şi obiectivul principal al analizei: de a clasifica obiectele în grupuri

omogene, în funcţie de un set dat de variabile. Obiectele grupurilor pot fi cazuri sau

variabile. Analiza grupurilor este complementară analizei factoriale. Dacă în cazul

analizei factoriale, se urmărea gruparea variabilelor într-un număr redus de factori

determinanţi ( variabile finale ), în situaţia analizei grupurilor, cazurile sunt obiectul

principal de studiu. Metodele ierarhice ale analizei grupurilor pot realiza şi gruparea

variabilelor, dar urmând un model ad-hoc.

Analiza grupurilor este un instrument util în multe domenii, precum : biologia ( gruparea

speciilor ) sau lingvistica ( gruparea dialectelor ). Oamenii de marketing sunt foarte

interesaţi de analiza grupurilor, utilizând-o în numeroase aplicaţii . În primul rând, analiza

grupurilor ajută la identificarea segmentelor de piaţă ale consumatorilor, în funcţie de

anumite variabile. În al doilea rând, se poate ajunge la înţelegerea comportamentului

consumatorilor prin gruparea acestora în funcţie de variabile comportamentale. În plus, se

pot, cu ajutorul acestei analize, identifica oportunităţi pentru produse ce urmează a fi

lansate pe piaţă. Grupând mărci şi produse, se pot determina segmente competitive de

piaţă. Analiza grupurilor are un cuvânt important de spus şi în ceea ce priveşte alegerea

testelor de piaţă. Dispunerea oraşelor în grupuri omogene face posibilă selectarea oraşelor

comparabile pentru a testa diverse strategii de piaţă.

Problema principală a acestei analize este de a atribui fiecare caz unui singur grup. Figura

de mai jos arată o situaţie ideală, în care grupurile sunt separate în mod evident :

4

Page 5: Spss Analiza Cluster

În realitate, rezultatele nu pot fi reprezentate astfel. Figura următoare arată grupuri ale

căror limite nu sunt bine delimitate, situaţie mult mai apropiată de realitate :

SPSS oferă două modalităţi de grupare a obiectelor : Hierarchical Cluster Analysis şi

K-Means Cluster Analysis. Prima metodă - cea ierarhică - poate realiza gruparea atât a

cazurilor, cât şi a variabilelor, pe când metoda K-Means grupează doar cazurile unei baze

de date.

5

Page 6: Spss Analiza Cluster

Capitolul.2. Analiza Cluster

Analiza cluster este o procedură multivariată pentru a determina grupurile de date.

Obiectele din aceste grupuri pot fi cazuri sau variabile. O analiză cluster a cazurilor se

aseamănă cu analiza discriminantă într-un anumit punct – cercetătorul caută să clasifice

un set de obiecte în grupuri sau categorii, dar, în analiza cluster, nici numărul si nici

membrii grupurilor nu sunt cunoscuţi. În analiza cluster se începe fără nici o cunoştinţă

legată de structura grupului şi cel mai adesea nu se ştie câte clustere sunt. Clustering este

o tehnică bună folosită în analiza exploratorie, când se crede că eşantionul nu este

omogen.

SPSS furnizează două metode pentru a grupa obiectele în categorii:

- Hierarchical Cluster Analysis

- K-Means Cluster Analysis

Hierarchical Cluster Analysis lucrează ori cu cazuri, ori cu variabile, pe când K-

Means Cluster Analysis, doar cu cazuri.

2.1.Hierarchical Cluster

Folosind metoda ierarhizării, gruparea începe prin găsirea celor mai apropiate

perechi de obiecte (cazuri sau variabile), în funcţie de tipul unităţii de măsură folosit şi le

combină pentru a forma un cluster. Algoritmul continuă pas cu pas, unind perechi de

obiecte, perechi de clustere, sau un obiect cu un cluster, până când toate datele sunt într-

un cluster. Metoda se numeşte ierarhizare deoarece odată ce două obiecte sunt unite într-

un cluster, ele rămân împreună până la ultimul pas. Un cluster format într-un stadiu

ulterior al analizei, conţine clustere dintr-un stadiu anterior, care coţine clustere dintr-un

stadiu şi mai anterior.

6

Page 7: Spss Analiza Cluster

2.2. K-Means Cluster

Această procedură începe prin folosirea valorilor primelor k cazuri din baza de

date, ca estimări temporare a k medii ale grupurilor, unde k este numărul de clustere

specificat de utilizator. Centrele iniţiale ale grupurilor sunt formate prin compararea şi

atribuirea fiecărui caz următor, pe rând, unui cluster cu cel mai apropiat centru şi apoi

facându-se media celor două se obţine centrul clusterului. Apoi un proces iterativ este

folosit pentru a găsi centrele finale ale clusterelor. La fiecare pas cazurile sunt grupate în

grupul cu cel mai apropiat centru şi centrele clusterelor sunt recalculate. Acest proces

continuă pînă ce nu mai au loc schimbări în centrele grupurilor sau pînă când este atins

numărul maxim de iteraţii. Se poate specifica centrul clusterelor şi SPSS va aloca cazurile

în centrele specificate. Acest lucru permite gruparea de noi cazuri pe baza rezultatelor

7

Page 8: Spss Analiza Cluster

anterioare. Această procedură de analiză este folositoare cînd există un număr mare de

cazuri.

2.3. Diferenţe dintre analiza ierarhică şi cea K-means

Metoda grupării folosind factorul K manevrează probleme majore (peste 200 de

cazuri) într-un mod mai uşor. Gruparea ierarhică înregistrează o matrice a distanţelor

pentru fiecare pereche de cazuri(sau variabile) încât problemele extinse devin dificile.

Mai important, când mărimea exemplului este mare, fiecare grafic de tip icicle sau

dendogramă devine greu de citit şi de interpretat pentru că se întinde pe multe pagini.

Pentru seturi mici de înregistrări, graficele icicle şi dendrograma furnizează o imagine

excelentă a modului în care fiecare caz sau variabilă este unită cu alta, şi matricea

distanţei poate fii deasemenea informativă.

Prin furnizarea distanţei dintre fiecare caz şi centrul grupului său, Cluster k-means

caracterizează doar dacă un caz este apropiat de un altul în grupul său. Marimea

factorului statistic F în analiza Anova într-o singură direcţie după elementul K este utilă

pentru a indentifica variabilele care sunt conform tiparului grupului şi de asemenea acela

care diferă puţin de-a lungul grupului. În metoda grupării după factorul K ,introducând

centrele grupurilor , poţi clasifica noi cazuri.

Procedura analizei grupării după factorul K cere ca să specifici numărul de

grupuri, astfel încât va trebui să încerci diferite analize (de exemplu, pentru folosirea a 3,

4 şi 5 grupuri). Concomitent, trebuie să se analizeze un subset de cazuri prin procedura

grupării ierarhice pentru a determina un număr rezonabil de grupuri.

Desigur, la gruparea ierarhică, mai trebuie să se specifice numărul de grupuri

(prin studierea graficelor afişate); pentru că nu există nici un test „magic” care să-ţi spună

numărul grupurilor.

Metoda grupării ierarhice oferă multe opţiuni cu privire la standardizarea datelor,

introducerea datelor şi de legare a grupurilor. La analiza grupării după factorul K, se

standardizează datele înainte de a cere o analiză a gruparilor. Sistemul distanţei

Euclidiene este folosit automat.

8

Page 9: Spss Analiza Cluster

Gruparea ierarhică exclude toate cazurile cu valori lipsă utilizate în analiza.

Analiza K are o opţiune care repartizează cazurile pe baza distanţelor introduse din toate

variabilele cu valori nenule.

2.4. Scopul analizei Cluster

Analiza grupărilor este o unealtă importantă în multe domenii academice precum

biologia (gruparea speciilor de animale) şi lingvistica (gruparea dialectelor). Există chiar

şi o organizaţie profesională „Societatea clasificării” şi un jurnal academic „Jurnalul

Clasificării” care studiază tehnicile de analiză a grupurilor.

2.5. Standardizarea

Variabilele cu valori mari contribuie, într-o măsură mai mare, la calcularea

distanţelor decât variabilele cu valori mici. De exemplu, valoarea mortalităţii infantile

poate fi de 168 de copii, în timp ce creşterea populaţiei unei ţări poate fi de 0.1 %. O

modalitate de a evita această problemă este de a transforma toate variabilele, astfel încât

să fie pe o scală comparabilă. Dacă se transformă fiecare variabilă în scor z, fiecare nouă

variabilă va avea media egală cu 0, iar deviaţia standard egală cu 1.

O altă manieră, de a rezolva problema scalelor diferite, este de a ordona fiecare variabilă

pe o scală de la 0 la 1, unde cea mai mică valoare devine 0, iar valoarea cea mai mare, 1.

Hierarchical Cluster Analysis oferă mai multe metode de standardizare. În cazul metodei

K-Means, datele trebuie standardizate înainte de începerea algoritmului.

2.6. Noţiuni de statistică asociate cu Analiza Cluster

Majoritatea metodelor de grupare sunt euristice şi sunt bazate pe algoritmi, astfel

analiza clasificării contrastează puternic cu analiza variaţiei, regresiei, diferenţială, şi

factorul analiză, care aceştia se bazează pe raţionamente statistice.

9

Page 10: Spss Analiza Cluster

Deşi multe dintre metodele clasificării deţin proprietăţi importante din statistică,

simplitatea fundamentală a acestor metode trebuie recunoscută, astfel ca urmatoarele

concepte sunt asociate cu analiza clasificării.

Agglomeration schedule - oferă informaţii cu privire la obiecte sau cazuri(fapte),

fiind combinate la fiecare fază a procesului de grupare ierarhică.

Cluster centroid reprezintă suma valorilor variabilelor pentru toate cazurile sau

pentru toate obiectele ce se află într-o mulţime distinctă.

Cluster centers – reprezintă punctele iniţiale de pornire în analiza grupării

nonierarhică.Grupurile sunt alcatuite în jurul acestor centre.

Cluster membership (apartenenţa la grup) indică grupul căreia obiectul (cazul)

îi aparţine.

Dendrograma - reprezintă un instrument grafic ce arată rezultatele clasificării.

Liniile verticale reprezintă grupuri ce sunt unite între ele; poziţia liniilor de pe scală

indică distanţa unde grupurile erau unite. Dendograma se citeşte de la stanga la dreapta

Distanţele dintre centrele grupurilor indică cât de mult perechile de grupuri

individuale sunt separate, astfel ca mulţimile care sunt în mare măsură separate sunt

distincte şi deci cele mai de dorit.

Diagrama de tip icicle („ţurţure de gheaţă”) reprezintă un instrument grafic ce

indică rezultatele grupării şi este denumită aşa pentru că adună şirul de ţurţuri ce atârnă

pe streaşina casei. Coloanele corespund cu obiectele ce sunt grupate, iar şirurile

corespund cu numărul de grupe. Diagrama de tip icicle se citeşte de jos în sus.

Similitudine / coeficientul matricei distanţei - reprezintă o matrice

triunghiulară inferioară conţinând distanţele „pairwise” dintre obiecte şi cazuri.

Paşii implicaţi în transmiterea analizei clasificării.

Primul pas este de a formula problema clasificării, definind mai întâi variabilele pe care

se bazează această metodă, apoi o măsură cât mai apropiată a distanţei trebuie selectată.

Măsurarea distanţei determină cât de similare sau nu pot fi obiectele grupate

(clasificate). Diverse proceduri de grupare au fost dezvoltate iar cercetătorul ar trebui să

selecteze una care să se potrivească problemei. Astfel pentru alegerea numărului de grupe

e nevoie de discernământ din partea cercetătorului.

10

Page 11: Spss Analiza Cluster

Grupele derivate ar trebui să fie interpretate în funcţie de variabilele care se

grupau odata şi le conturau în termeni de variabile suplimentare tipice. Cercetătorul

trebuie să evalueze validitatea procesului de clasificare.

Capitolul.3. Aplicaţiile analizei grupurilor

3.1. Segmentarea pieţei

Principala aplicaţie de marketing a analizei grupurilor o constituie segmentarea pieţei.

Cercetătorii au căutat mult timp grupuri care să răspundă similar la stimuli de marketing

( atributele produselor, poziţionarea produselor, preţul, campaniile promoţionale ).

Abordarea acestei probleme începe cu realizarea unui set de variabile - relevante pentru

produse - ( preferinţe pentru mărci, beneficii căutate, răspunsuri la întrebări legate de

stilul de viaţă ) şi extragerea unui eşantion reprezentativ de consumatori. Dacă numărul

variabilelor este ridicat, se poate apela la analiza factorială în vederea reducerii lor.

Grupurile obţinute în urma analizei sunt comparate în baza variabilelor de grupare, dar şi

a altor variabile care descriu consumatorii, oferind oamenilor de marketing modele de a

ajunge la pieţele ţintă.

Alternativa segmentării bazate pe analiza grupurilor este o clasificare a consumatorilor pe

baza unui set redus de variabile. Grupurile astfel obţinute sunt comparate în baza unui

număr mare de variabile. Deşi nu este o manieră elegantă de lucru, alegerea unor grupuri

întâmplătoare de consumatori se dovedeşte la fel de folositoare ca şi cea bazată pe analiza

grupurilor.

3.2. Analiza structurii de piaţă

Obiectivul analizei structurii de piaţă este de a identifica produsele ce concurează între

ele. Mulţi cercetători afirmă că doar acele mărci sau produse despre care consumatorii

11

Page 12: Spss Analiza Cluster

afirmă că sunt concurente, concurează într-adevăr. Cum consumatorii îşi afirmă puterea

de decizie, cumpărând un produs sau un altul, se pare că mărcile sunt cu atât mai

competitive cu cât se produc schimburi de consumatori între ele. Analiza grupurilor este

utilă în măsura în care , grupând consumatorii, poate determina gradul de competitivitate

dintre anumite mărci sau produse.

3.3. Identificarea potenţialelor teste de piaţă

Managerii care aplică teste de piaţă caută pieţe relativ omogene astfel încât, prin

compararea cu rezultatele altor programe de marketing, să se obţină informaţii utile.

12

Page 13: Spss Analiza Cluster

Capitolul.4. Etape ale analizei clusterelor

Paşii implicaţi în conducerea analizei clusterelor sunt următorii: primul

pas este formularea problemei grupării prin definirea variabilelor pe baza cărora se vor

forma clustere. Apoi, trebuie selectată o măsură adecvată a distanţei. Unitatea de măsură

a distanţei determină cît de asemănător sau diferit este obiectul grupat. Câteva proceduri

de grupare au fost dezvoltate, şi cercetătorul trebuie să selecteze una din acestea, care este

cea mai adecvată pentru rezolvarea problemei. Stabilirea unui număr de clustere este

atribuţia cercetătorului. În final, cercetătorul trebuie să verifice validitate procesului de

grupare.

1. Formularea problemei

2. Selectarea distanţei

3. Alegerea unei proceduri

4. Alegerea numărului de clustere

5. Identificarea şi numirea grupurilor

6. Testarea soluţiei

4.1. Formularea problemei

Poate cea mai importantă parte a formulării problemei de grupare este selectarea

variabilelor pe baza cărora se vor obţine grupurile. Includerea chiar şi a uneia sau a două

variabile irelevante poate afecta soluţia obţinută. Setul de variabile selectate trebuie să

descrie similarităţile dintre obiecte care sunt relevante pentru problema cercetării de

marketing. Variabilele trebuie selectate pe baza unei cercetări anterioare, unei teorii sau

prin considerarea unei ipoteze ce va fi testată. În cercetarea exploratorie, analistul trebuie

să-şi folosească judecata şi intuiţia.

13

Page 14: Spss Analiza Cluster

4.2. Selectarea distanţei

Deoarece obiectivul analizei cluster este gruparea obiectelor similare împreună,

unele unităţi de măsurare sunt necesare observării diferenţelor, sau asemănărilor dintre

obiecte. Cea mai utilizată abordare este măsurarea asemănărilor pe baza distanţei dintre

perechi de obiecte. Obiectele cu distanţe mai mici între ele se aseamănă mai mult, decât

cele care au distanţe mai mari între ele. Există câteva căi diferite de a calcula distanţele

dintre două obiecte.

Cea mai folosită unitate de măsură a similarităţii este distanţa euclidiană sau

pătratul ei. Distanţa euclidiană este rădăcină pătrată din suma pătratelor diferenţelor

dintre fiecare variabile de acelaşi tip.

D(i,j)=

E o alegere naturală deoarece dacă graficul celor N obiecte are p dimensiuni, distanta

Euclidiana dinte orice pereche de obiecte lungimea liniei ce le uneste.

O parte din cercetatori nu obişnuiesc să folosească distanţa Euclidiană deoarece depinde

de unitatea de masură. Pentru a îndeparta efectul modului în care sunt măsurate

variabilele, unii cercetători folosesc standardizarea datelor pe baza formulei:

unde si sunt media si deviaţia standard pentru variabila f

din matricea de înregistrari.

Distanţa Euclidiana transformată, devine o măsură

a deosebirilor. Această transformare are ca efect transformarea în date utilizabile, fiindcă

toate variabilele vor avea deviaţia standard de 1.

Cercetatori nu recomandă standardizarea decât doar dacă diferenţele de unitate ale

variabilelor nu sunt comparabile, fiindcă alăturarea tuturor variabilelor pe aceeaşi scală

elimină informaţii.

În multe cazuri, un cercetator nu vrea ca variabilele să fie egale ca importanţă chiar dacă

sunt măsurate pe aceeaşi scală. De exemplu, un agent imobiliar crede că venitul e mai

14

Page 15: Spss Analiza Cluster

important (sa zicem de 10 ori)în determinarea manierei de achiziţie a casei decât vârsta.

O cale pentru a obţine aceasta este să impunem importanţa , la variabile şi să

folosim urmatoarele măsurători:

sau .

De asemenea, sunt disponibile şi alte unităţi de măsură. Cityblock sau distanţa

Manhattan, între două obiecte este suma modulului diferenţelor dintre variabilele de

acelaşi tip.

distance(x,y) = i |xi - yi|

Distanţa Chebychev între două obiecte este modulul diferenţei maxime pentru

orice variabilă.

distance(x,y) = Maximum|xi - yi|

Distanţa Minkowski este definită prin relaţia :

unde q este un număr mai mare sau egal cu 1. Se observă că, atât distanţa Euclidiană, cât

şi City Block , sunt variante ale acestei distanţe ( q = 1 pentru City Block, iar q = 2 pentru

distanţa Euclidiană ).

Dacă variabilele sunt măsurate cu scale diferite, soluţia grupării va fi influenţată

de unităţile de măsură. În acest caz, înainte de a realiza gruparea datele trebuie

standardizate. Astfel, standardizarea îndepărtează influenţa unităţilor de măsură.

Corelaţia este una dintre măsurile de similaritate dintre două obiecte.

Să considerăm răspunsurile date de trei respondenţi - pe o scală de la 1 la 5 - pentru trei

caracteristici ale unui produs : marca, preţul şi ambalajul.

15

Page 16: Spss Analiza Cluster

Datele categoriale

Genul sau ultima marcă achiziţionată sunt exemple de date categoriale. Atunci când

aceste date sunt codificate cu valori numerice, distanţa euclidiană nu mai are

aplicabilitate. Întrucât majoritatea programelor folosesc – ca opţiune standard – distanţa

euclidiană, este necesară alegerea cu atenţie a metodei de calcul.

Cea mai folosită măsură a similarităţii o reprezintă proporţia variabilelor când două

obiecte aparţin aceleiaşi categorii. Coeficientul de asemănare va fi definit prin:

În mod identic, coeficientul de diferenţiere se va calcula după formula :

Anumite situaţii determină modificări ale măsurii de bază. Adesea, variabilele analizate

nu sunt egale ca importanţă. Acest aspect conduce la ponderarea variabilelor, ca şi în

cazul distanţei euclidiene.

Datele ordinale

Variabilele ordinale discrete sunt foarte asemănătoare cu variabilele nominale. Singura

diferenţă este că se pot ordona categoriile într-o ordine logică ( de exemplu, răspunsurile

16

Page 17: Spss Analiza Cluster

date pe scale de genul : 1 - acord total, 2 - acord parţial, 3 - posibil acord , 4 - dezacord

parţial, 5 - dezacord total ).

În majoritatea situaţiilor, aceste date pot fi tratate ca date de tip interval. Problema care

apare este că nu se precizează respondenţilor că 1 înseamna 1.00, 2 - 0.75 şi aşa mai

departe. Cercetătorii care nu doresc să trateze aceste date ca şi date de interval, pot apela

la coeficienţii de asemănare.

Datele scalare

Majoritatea metodelor statistice lucrează cu date de tip interval. De aceea, aceste date vor

fi tratate ca fiind de interval.

Datele mixte

Cele mai multe baze de date conţin diverse categorii de date. Un chestionar poate cere

vârsta respondentului, venitul acestuia, ultima marcă achiziţionată, cotarea produsului şi

ierarhizarea importanţei caracteristicilor.

Conform afirmaţiei lui Gower, similaritatea dintre două obiecte este media similarităţilor

pentru fiecare dintre variabile, luată separat.

Pentru ca această afirmaţie să aibă sens, fiecare variabilă trebuie să fie măsurată pe

aceeaşi scală. Cea mai la îndemână scală este cea de la 0 la 1. Similaritatea dintre

variabilele nominale poate fi 1 sau 0, în funcţie de asemănările dintre categorii.

Pentru variabilele ordinale, valoarea scală se calculează după formula :

M f este numărul de categorii pentru variabila f.

Transformeare unde Rf este diferenţa dintre valorile maxime şi

cele minime ale variabilelei f , plasează variabilele tip interval pe o scară comparabilă de

la 0 la 1.

17

Page 18: Spss Analiza Cluster

4.3. Alegerea unei proceduri

Ierarhice

Proceduri de grupare

Înlănţuire simplă

Aglomerative

Pragul paralelPragul secvenţial

Înlănţuire completă

Metoda Ward

Înlănţuire medie

Metode centroidale

Divizionare

Metode ale varianţeiMetode de înlănţuire

Repartiţia optimă

Non ierarhice

Alegerea unui algoritm de grupare

18

Page 19: Spss Analiza Cluster

Procedurile de grupare pot fi ierarhice sau non-ierarhice. Gruparea ierarhică este

caracterizată de dezvoltarea unei ierarhii de tip arbore. Metodele ierarhice pot fi de

aglomerare sau de dispersie. Gruparea prin aglomerare începe cu fiecare obiect într-un

grup separat. Grupurile sunt formate prin gruparea obiectelor în grupuri din ce în ce mai

mari. Gruparea prin dispersie începe cu toate obiectele grupate într-un singur cluster.

Clusterele sunt divizate până când fiecare obiect este într-un cluster separat.

Metodele aglomerării sunt cel mai adesea folosite în cercetările de marketing. Ele

constau în principal în metode de legare. Aceste metode includ legături simple, legături

complete şi legături medii.

Metoda legăturii simple este bazată pe regula minimului distanţei către cel mai

apropiat vecin. Primele două obiecte grupate sunt cele care au cea mai mică distanţă

dintre ele. Cea mai mică distanţă care urmează este identificată şi ori primul obiect este

grupat cu primele două sau un nou cluster de două obiecte este format.

În fiecare stadiu, distanţa dintre cele două clustere este distanţa dintre puctele lor cele mai

apropiate. Două clustere sunt unite în orice stadiu printr-o legătură, simplă, scurtă între

ele. Acest proces este continuat până când toate obiectele sunt grupate într-un singur

cluster.

Metoda legăturii complete este asemănătoare cu cea anterioară, exceptând faptul că este

bazată pe maximul distanţei sau abordarea vecinului cel mai îndepărtat. În cadrul acestei

19

Page 20: Spss Analiza Cluster

metode, distanţa dintre două clustere este calculată ca fiind disnaţa dintre punctele lor

cele mai îndepărtate.

Metoda legăturii medii funcţionează în mod similar. În cadrul acestei metode distanţa

dintre două clustere este definită ca fiind media distanţelor dintre toate perechile de

obiecte, unde un membru al perechii este din fiecare cluster. Această metodă foloseşte

informaţia obţinută din toate perechile de distanţe, nu doar din cele minime sau maxime.

Din acest motiv, de obicei este preferată celorlalte două metode.

Metoda varianţei încearcă să genereze clustere penru a minimiza varianţa

intergrupuri. O metodă de varianţă des folosită este procedura Ward. Pentru fiecare

cluster, sunt calculate mediile variabilelor. Apoi, pentru fiecare obiect este calculată

distanţa euclidiană pătrată pînă la centrul clusterului. Aceste distanţe sunt însumate

pentru toate obiectele. În fiecare stadiu, cele două clustere cu cea mai mică creştere a

distanţei sunt combinate.

20

Page 21: Spss Analiza Cluster

În metoda centrelor, distanţa dintre două clustere este distanţa dintre centrele lor(mediile

pentru toate variabilele). De fiecare dată când sunt grupate obiectele este calculat un nou

centru.

Dintre toate metodele ierarhice, metoda legăturii medii şi procedura Ward au demonstrat

că sunt mai bune decât celelalte proceduri.

Al doilea tip de proceduri de grupare, metodele non-ierarhice, clasifică obiectele în k

grupuri astfel încât fiecare grup să conţină cel puţin un caz, iar fiecare caz să aparţină

unui grup unic. Numărul grupurilor nu poate fi mai mare decât cel al cazurilor.

În cercetarea de piaţă, cea mai folosită metodă de partitiţionare este abordarea K-means.

Acest algoritm începe cu o distribuţie aleatoare a cazurilor în k grupuri. Centroizii

grupurilor sunt calculaţi şi folosiţi în analiză. Fiecare caz este atribuit grupului cu cel mai

apropiat centroid. De fiecare dată când un caz este adăugat unui grup, se recalculează

centroizii. Acest proces continuă până când toate cazurile sunt grupate. K-means

Clustering cuprinde : pragul secvenţial, pragul paralel şi repartiţia optimă.

21

Page 22: Spss Analiza Cluster

În metoda pragului secvenţial, este selectat un centru de grup şi toate cazurile dintr-un

prag valoric predefinit sunt grupate împreună. Un nou centru de grup este selectat şi

procedeul se repetă pentru punctele negrupate.

În metoda pragului paralel, centrele grupurilor sunt selectate toate odată, iar cazurile sunt

grupate cu cel mai apropiat centru.

Metoda repartiţiei optime se diferenţiază prin aceea că obiectele / cazurile pot fi

redistribuite într-o manieră care să asigure optimizarea criteriului considerat în analiză.

Două mari dezavantaje ale procedurilor non–ierarhice este că numărul clusterelor trebuie

prespecificat şi că selecţia centrelor clusterelor este arbitrară. Mai mult, rezultatele

grupării pot depinde de modul în care centrele sunt selectate. Multe programe non-

ierarhice selectează primele K (k = numărul de clustere) cazuri fără valorile lipsă ca

centre iniţiale ale clusterelor. Totuşi, gruparea non-ierarhică este mai rapidă decât

metodele ierarhice şi poate fi folosită când numărul obiectelor este mare. A fost sugerat

ca metodele ierarhice şi neiarhice să fie folosite în tandem. Prima dată, o soluţie iniţială

de grupare este obţinută folosind o procedură ierarhică cum ar fi metoda legăturii medii

sau Ward. Numărul de clustere şi centrele clusterelor obţinute astfel sunt folosite ca

input-uri pentru metoda partiţionării optimizate.

Alegerea metodei de grupare şi alegerea unităţii de măsură sunt interdependente.

De exemplu, distanţa euclidiană pătraă ar trebui folosită cu procedura Ward şi metoda

centrelor. Câteva proceduri neierahice pot de asemena folosi distanţele pătrate euclidiene.

Alegerea metodei de grupare, dat fiind numărul mare de procedee, devine o decizie foarte

importantă şi care cere multă atenţie. Mai multe criterii trebuie considerate :

* într-o multitudine de studii, K-means, metoda Ward şi metoda înlănţuirii medii au dat

rezultate mai bune, comparativ cu alte modalităţi de analiză.

* studiile arată că alegerea algoritmului are un impact mai mare asupra rezultatelor decât

are alegerea unei anumite măsuri a similarităţii.

* metodele non-ierarhice urmăresc identificarea celei mai bune clasificări a cazurilor;

metodele ierarhice caută să descopere un model al grupării cazurilor.

22

Page 23: Spss Analiza Cluster

Metodele de suprapunere

Metodele non-ierahice nu permit suprapunerea. Metodele ierarhice permit suprapunerea

doar atunci când grupurile de pe un nivel inferior al dendogramei sunt complet incluse

într-un grup aflat pe un nivel superior al graficului.

4.4. Alegerea numărului de clustere

O chestiune majoră în analiza clustere este alegerea numărului de clustere. Deşi

nu există reguli sunt disponibile câteva elemente de ghidare.

Consideraţii teoretice conceptuale sau practice pot sugera un număr de

clustere. De exemplu, dacă scopul grupării este identificarea segmentelor de piaţă,

conducerea firmei poate cere un anume număr de grupuri.

În gruparea ierarhică, distanţele la care clusterele sunt combinate poate fi

folosit ca şi criteriu. Această informaţie poate fi obţinută din tabelul de aglomerare sau

din dendogramă.

În gruparea non-ierarhică, proporţia dintre varianţa totală intra-grup şi

varianţa totală inter-grup poate fi marcată pe o hartă. Punctul în care apare o cotitură sau

o îndoitură ascuţită indică numărul potrivit de grupuri. Crescând numărul de grupuri mai

mult de acest punct, de obicei, nu se merită. Mărimea relativă a grupurilor ar trebui să fie

în concordanţă cu scopul.

4.5. Identificarea şi numirea grupurilor

Cheia acestei etape o constituie centroizii grupurilor. Mai exact, media tuturor

cazurilor dintr-un grup - pentru datele de interval, sau cea mai frecventă categorie -

pentru variabilele nominale. Adesea, o simplă privire asupra centroizilor poate oferi

cercetătorilor suficiente informaţii pentru a face posibilă numirea grupurilor.

23

Page 24: Spss Analiza Cluster

4.6. Testarea soluţiei

Ultimul pas în analiza clusterelor este testarea soluţiei. Acesta este pasul pe care

majoritatea îl sar deoarece nu există o metodă standard de a-l realiza. Totuşi, următoarele

proceduri aduc verificări adecvate calităţii rezultatelor grupării.

Efectuarea analizei clusterelor pe aceleaşi date folosind unităţi de măsură

diferite. Compararea rezultatelor pentru a determina stabilitatea soluţiilor.

Folosirea de metode diferite de gruparea şi compararea rezultatelor.

Divizarea în mod aleatoriu a datelor în jumătăţi. Efectuarea grupării

separat pe fiecare jumătate. Compararea centrelor clusterelor de-a lungul

celor două jumătăţi.

Ştergerea aleatoarie a variabilelor. Efectuarea grupării bazate pe un set de

variabile redus. Compararea rezultatelor cu cele obţinute prin gruparea

bazată pe întregul set de variabile.

În gruparea non-ierarhică soluţia poate depinde de ordinea cazurilor în seturi de date.

Efectuarea de mai multe ori a grupării folosind o ordine diferită a acazurilor până când

soluţia se stabilizează

Noţiunile caracteristice şi paşii implicaţi în analiza pe grupuri pot fi sistematizate cu

ajutorul acronimului CLUSTERING.

C metoda centrului de greutate

L metoda legăturii

U fundamentarea problemei: selectarea variabilelor de grupare

S măsurile distanţei sau asemănarea

T tipul metodei de grupare: ierarhică şi nonierarhică

E metoda erorii sumei pătratelor sau metoda varianţei

R validitatea şi fiabilitatea analizei pe grupuri

I interpretarea şi realizarea unui profil al grupului

N numărul de grupuri

G instrumente grafice: dendrogramă şi graficul ţurţure

24

Page 25: Spss Analiza Cluster

Capitolul 5. AplicaţiiHIERARCHICAL CLUSTER ANALYSIS

Pentru exemplificarea acestui algoritm vom presupune că managerul unei firme de

consultanţă doreşte să afle cum sunt grupate laptopurile de pe piaţă, acesta dorind să

achiziţioneze 7 laptopuri pentru agenţii săi, aceste laptopuri fiindu-i necesare în

prelucarea datelor, analizarea cazurilor, planificarea trainingurilor, prezentarea acestora.

Managerul s-a oprit asupra a 19 laptopuri cuprinzând mărci foarte cunoscute ca:

HP, DELL, ACER, TOSHIBA, SONY, NEC, PANASONIC, FUJITSU- SIEMENS, dar

şi unele mai puţin cunoscute ca: Amilo, Prestigio Nobile, Gygabyte, Amilo, Travel Mate.

Despre laptopurile respective managerul are informaţii referitoare la preţ,

capacitate hard disk(GB), capacitate memorie instalată(MB), diagonală ecran (inch),

autonomie(numărul de ore a duratei bateriei), greutate(kg), capacitate memorie

video(MB), deţinere bluetooth, frecvenţa procesorului(Gzh).

Pentru a proceda la gruparea acestor laptopuri, managerul a întocmit o bază de

date în SPSS 9.0, cu 10 variabile definite după cum urmează:

Tiplap – variabilă nominală, definită string, de 20 de caractere, aliniere la stânga,

ea defineşte tipul laptopului.

Preţ – variabilă de proporţie, definită numeric, de 4 caractere, aliniere la centru,

ea reprezintă preţul final de cumpărare a laptopului.

Capacitate hard disk – variabilă de proporţie, definită numeric, de 4 carcatere,

aliniere centru, reprezentând capacitatea hard diskului măsurată în gigabytes (GB).

25

Page 26: Spss Analiza Cluster

Capacitate memorie instalată – variabilă de proporţie, de 4 caractere, aliniere la

centru, reprezintă capacitatea memorie RAM, măsurată în megabytes (MB).

Diagonală – variabilă de proporţie, definită numeric, de 3 caractere şi o zecimală,

aliniere la centru, reprezintă diagonala display măsurată în inch (1 inch = 2, 54 cm)

Autonomie – variabilă de proporţie, de 2 caractere şi o zecimală, aliniere la

centru, reprezintă rezistenţa bateriei în număr de ore.

Greutate – variabilă de proporţie, definită numeric, de 2 caractere şi o zecimală,

aliniere la centru, ea reprezintă greutatea laptopului exprimată în kilograme.

Memorie video – variabilă de proporţie, definită numeric, de 3 caractere, aliniere

la centru, reprezintă memoria plăcii video exprimată în Mgabytes(MB).

Bluetooth – variabilă de proporţie, definită numerică, de 1 caracter, aliniere la

centru, reprezită deşinerea sau nu de bluetooth ( 1- DA, 2 – NU).

Garanţia – variabilă de proporţie, definită numeric, de 1 caracter, aliniere la

centru, ea reprezintă garanţia ofertită de firmă în ani.

Frecvenţă procesor – variabilă de proporţie, definită numeric, de 4 caractere,

aliniere la centru, ea reprezintă frecvenţa procesorului laptopului măsurată în gigahertz

(Ghz).

Baza de date astfel obţinută va fi utilizată pentru a aplica analiza grupurilor.

Deoarece baza de date are 10 variabile se va utiliza prima metodă de analiză, şi anume

Hierarchical Cluster Analysis.

Această procedură identifică grupurile relativ omogene de cazuri (sau variabile)

după anumite caracteristici selectate, folosind un algoritm care începe cu fiecare caz (sau

variabilă) într-un grup separat, combinând grupurile până rămâne unul singur. Se pot

analiza variabilele netransformate sau se poate alege dintr-o varietate de transformări

standardizate. Distanţa sau măsurile similare sunt generate de procedura Proximities (de

proximitate). Pentru a ajuta la alegerea celei mai bune soluţii, statisticile sunt prezente în

fiecare etapă.

Pentru aceasta din meniul Analyze se selectează opţiunea Clasify apoi

Hierarchical Cluster Analysis, la fel ca în figura ce urmează.

26

Page 27: Spss Analiza Cluster

Figura 1. Alegerea procedurii din meniul Analyze.

După selectarea procedurii va apărea o fereastră care permite selectarea

variabilelor de grupare şi posibilitatea personalizării. Fereastra apare în figura 2.

27

Page 28: Spss Analiza Cluster

Figura 2. Fereastra Hierarchical Cluster Analysis.

Câmpul Variable(s) permite selectarea variabilelor pentru sau după care se face

gruparea. Variabilele sunt trimise în acest câmp prin intermediul săgeţii.

Câmpul Label Cases by permite selectarea variabilei ce indică numele fiecărui

caz în parte. Variabila este trimisă în acest câmp prin intermediul săgeţii.

Câmpul Cluster permite alegerea modalităţii de grupare: pentru variabile sau

pentru cazuri. Dacă se alege gruparea variabilelor, câmpul Label Cases by va deveni

indisponibil.

Câmpul Display permite optarea pentru afişarea sau nu a statisticilor sau a

graficelor.

În continuare sunt descrise opţiunile celor patru butoane din partea de jos a ferestrei.

Figura 3. Ferestra statistics.

Ferestra statistics permite definirea următoarelor opţiuni:

Aglomeration schedule. Lista de aglomerare, prin bifare arată cazurile sau

grupurile combinate la fiecare stagiu(etapă), distanţele dintre cazuri sau grupuri

combinate şi ultimul nivel al grupului când un caz (sau variabilă) a fost adăugat grupului.

Proximity matrix. Matricea de proximitate ne arată distanţele sau similarităţile

dintre itemi.

28

Page 29: Spss Analiza Cluster

Cluster membership. Apartenenţa grupului arată grupul la care, fiecare caz, este

repartizat în unul sau mai multe stagii în timpul combinării clusterelor. Opţiunile

disponibile sunt single solution şi range of solutions.

Figura 3. Ferestra Plots.

Ferestra Plots permite definirea următoarelor opţiuni:

Dendograms. Prin bifarea căsuţei se afişează o dendogramă. Dendogramele pot

fi folosite pentru a fixa coeziunea grupurilor formate şi aduce informaţii despre numărul

potrivit de grupuri de menţinut.

Icile. Se afişează un grafic icicle, incluzînd toate grupurile sau o gamă specificată

de grupuri. Icicle plots afişează informaţii despre cum sunt combinate cazurile în grupuri

la fiecare repetare a analizei.

Orientation permite alegerea unui grafic vertical sau orizontal.

29

Page 30: Spss Analiza Cluster

Figura 4. Ferestra Method.

Ferestra Method permite selectarea:

Cluster method – Opţiunile disponibile sunt between-groups linkage, within-

groups linkage, nearest neighbor, furthest neigbor, centroid clustering, median clustering

şi metoda Ward.

Measure. Îţi permite să specifici distanţa sau măsura similară pentru a putea fi

folosită în grupare. Poţi selecta tipul datelor şi distanţa potrivită sau o măsură similară.

Interval data. Opţiunile disponibile sunt Euclidean distance, cosine,

Pearson correlation, Chebzchev, block, Minkowski şi customizat.

* SEUCLID – Squared Euclidean distance- Distanţa dintre două cazuri, x şi y, este suma

pătratelor diferenţelor dintre valorile acelor cazuri. SEUCLID este măsura folosită în

metodele centroidale şi Ward. SEUCLID este bifată din standard .

* EUCLID – Euclidean distance- Distanţa dintre două cazuri, x şi y, este rădăcina pătrată

a sumei pătratelor diferenţelor dintre valorile acelor cazuri.

30

Page 31: Spss Analiza Cluster

* COSINE – un model al măsurii similarităţii pentru datele continue. Măsoară cosinusul

unghiului dintre doi vectori ai valorilor. Cosinusul ia valori cuprinse în intervalul ( - 1, 1),

valoarea 0 indicând vectori ortogonali.

* CHEBYCHEV – Chebychev distance metric – Distanţa dintre două cazuri este

diferenţa maximă – în valoare absolută – dintre valorile cazurilor.

* BLOCK – City-block sau Manhattan distance – Distanţa dintre două cazuri este suma

diferenţelor – în mărime absolută – dintre valorile cazurilor.

* MINKOWSKI – Distance in an absolute Minkowski power metric – Distanţa dintre

două cazuri este rădăcina de ordinul p a sumei diferenţelor – în mărime absolută – dintre

valorile cazurilor.

Count data. Opţiunile disponibile sunt chi-square measure şi phi-

square measure.

Binary data. Opţiunile disponibile sunt Euclidian distance, squared

Euclidean distance, size difference, pattern difference, variance, dispersion, shape, simple

matching, phi 4-point correlation, lambda, Anderberg`s D, dice, Hamann, Jaccard,

Kulczynski 1, Kulczynski 2, Lance and Williams, Ochiai, Rogers and Tanimoto, Russel

and Rao, Sokal and Sneath 1, Sokal and Sneath 2, Sokal and Sneath 3, Sokal and Sneath

4, Sokal and Sneath 5, Yule`s Y, Yule`s Q.

Transform values. Permite standardizarea valorilor datelor ori pentru cazuri ori

pentru valori, înainte de a calcula apropierile (nu este disponibilă pentru datele binare).

Metodele de standardizare disponibile sunt Z scores, range -1 to 1, range 0 to 1,

maximum magnitude of, mean of, şi standard deviation of.

Transform meassures. Permite transformarea valorilor generate de măsura

distanţei. Ele sunt aplicate după ce măsura distanţei a fost calculată. Opţiunile disponibile

sunt absolute values, change sign şi rescale to 0-1 range.

31

Page 32: Spss Analiza Cluster

Figura 5. Meniul Save.

Ferestra Save permite:

Cluster Membership. Apartenenţa grupurilor poate fi salvată, prin bifarea

opţiunii, pentru o singură soluţie sau o gamă de soluţii. Variabilele salvate pot fi folosite

în analizele ulterioare pentru a explora alte diferenţe dintre grupuri.

5.1. Exemplul 1. Gruparea cazurilor - Hierarchical Cluster Analysis

Pentru a desfăşura analiza din meniul Analyze...

Classify...

Hierarchical Cluster...

În fereastra Variables se selectează variabilele preţ, capacitate hard disk,

capacitate memorie, diagonală, autonomie, greutate, memorie video, bluetooth, garanţie,

frecvenţă procesor.

32

Page 33: Spss Analiza Cluster

În fereastra Label cases by selectăm variabila tiplap.

În câmpul Cluster bifăm cases.

În câmpul Display bifăm ambele opţiuni.

În ferestra Statistics bifăm Agglomeration Schedule, Proximity Matrix, iar în

câmpul Cluster membership bifăm Range of solutions de la 2 la 4.

În ferestra Plots bifăm Dendogram, la câmpul Icicle bifăm All clusters, iar la

Orientation bifăm Vertical.

33

Page 34: Spss Analiza Cluster

În ferestra Method alegem la Cluster method Between-groups linkage, în câmpul

Measure bifăm Interval şi alegem Squared Euclidean distance; în câmpul Transform

values alegem Z scores şi bifăm By variables. În câmpul Transform measures nu bifăm

nici o opţiune.

În ferestra Save lăsăm bifată opţiunea None.

34

Page 35: Spss Analiza Cluster

5.1.1. Interpretarea OutputuluiOutputul obţinut în urma procesării conţin următoarele elemente:

Tabelul 1. Case Processing Summary

Acest tabel prezintă procentajul de variabile valide, 100% în cazul nostru. De

asemenea se arată care este numărul total de variabile utilizate în analiză, 20, atât

procentual cât şi absolut.

35

Page 36: Spss Analiza Cluster

Proximity Matrix

În tabelul 2 sunt prezentate distanţele dintre fiecare caz în parte. Pe linia

oblică acestea au valoarea 0 deoarece distanţa dintre aceeaşi variabilă nu este calculată.

Proximity matrix este o matrice simetrică, astfel că toate elementele prezente deasupra

diagonalei principale sunt trecute şi sub această diagonală. Datele tabelului sunt pătratele

distanţelor Euclidiene pentru toate perechile de cazuri.

Se poate observa că valoarea cea mai mică este pentru perechea ( D1-E1) altfel spus,

acest caz este cel mai asemănătoare din punctul de vedere al caracteristicilor pe care le

întrunesc. Astfel putem observa că Laptorile GigaByte W551N şi Amilo L1310G au cele

mai multe caracteristici în comun.

36

Page 37: Spss Analiza Cluster

Tabelul 2. Proximity Matrix

Proximity MatrixSquared Euclidean Distance

Case 1:A1 2:A2 3:A3 4:A4 5:B1 6:B2 7:B3 8:B4 9:C1 10:C2 11:C3 12:C4 13:D1 14:D2 15:D3 16:D4 17:E1 18:E2 19:E31:A1 11,718 9,895 8,024 15,038 13,397 12,629 31,394 17,728 26,013 10,219 13,154 14,717 9,031 18,165 23,356 10,982 15,403 5,2542:A2 11,718 16,366 17,386 10,385 20,663 8,687 46,262 12,499 16,354 18,312 13,787 18,311 6,376 10,763 35,327 14,069 16,409 5,4773:A3 9,895 16,366 7,345 12,474 12,034 6,842 46,000 11,807 33,797 4,768 4,720 6,572 13,084 21,244 27,911 4,215 7,935 9,8074:A4 8,024 17,386 7,345 12,250 16,500 15,845 40,431 16,997 34,942 8,421 10,099 8,810 10,249 21,906 24,439 11,468 13,967 6,8755:B1 15,038 10,385 12,474 12,250 25,903 9,776 56,387 9,156 31,711 13,527 5,505 9,213 14,551 17,507 37,065 7,810 8,416 8,8616:B2 13,397 20,663 12,034 16,500 25,903 18,247 51,811 27,269 39,967 19,481 18,047 15,742 21,649 39,452 19,723 12,828 23,310 18,8697:B3 12,629 8,687 6,842 15,845 9,776 18,247 50,211 3,797 34,779 8,045 4,444 9,139 9,984 19,483 43,821 4,332 3,153 8,3278:B4 31,394 46,262 46,000 40,431 56,387 51,811 50,211 58,955 68,146 53,206 47,337 42,919 42,040 54,424 52,702 46,555 58,602 44,7849:C1 17,728 12,499 11,807 16,997 9,156 27,269 3,797 58,955 33,794 6,182 4,202 10,291 11,574 16,024 51,874 7,815 3,259 7,99210:C2 26,013 16,354 33,797 34,942 31,711 39,967 34,779 68,146 33,794 30,487 34,856 43,810 24,565 8,918 43,756 39,115 42,946 17,97711:C3 10,219 18,312 4,768 8,421 13,527 19,481 8,045 53,206 6,182 30,487 5,044 9,620 12,381 16,751 38,984 7,890 5,456 6,43212:C4 13,154 13,787 4,720 10,099 5,505 18,047 4,444 47,337 4,202 34,856 5,044 3,409 14,477 19,918 38,219 2,902 2,847 9,01613:D1 14,717 18,311 6,572 8,810 9,213 15,742 9,139 42,919 10,291 43,810 9,620 3,409 14,945 26,732 27,099 2,643 8,321 13,70814:D2 9,031 6,376 13,084 10,249 14,551 21,649 9,984 42,040 11,574 24,565 12,381 14,477 14,945 9,831 28,326 12,319 16,301 3,66215:D3 18,165 10,763 21,244 21,906 17,507 39,452 19,483 54,424 16,024 8,918 16,751 19,918 26,732 9,831 40,006 22,904 25,226 8,27516:D4 23,356 35,327 27,911 24,439 37,065 19,723 43,821 52,702 51,874 43,756 38,984 38,219 27,099 28,326 40,006 26,966 52,016 32,50017:E1 10,982 14,069 4,215 11,468 7,810 12,828 4,332 46,555 7,815 39,115 7,890 2,902 2,643 12,319 22,904 26,966 5,887 11,00818:E2 15,403 16,409 7,935 13,967 8,416 23,310 3,153 58,602 3,259 42,946 5,456 2,847 8,321 16,301 25,226 52,016 5,887 10,27319:E3 5,254 5,477 9,807 6,875 8,861 18,869 8,327 44,784 7,992 17,977 6,432 9,016 13,708 3,662 8,275 32,500 11,008 10,273

This is a dissimilarity matrix

37

Page 38: Spss Analiza Cluster

Tabelul 3. Agglomeration Schedule

Din acest tabel se poate observa cum s-au grupat cazurile în fiecare fază de grupare.

În a doua coloană, Cluster Combined, sunt prezentate cazurile grupate. În cea de-a treia

coloană, Coefficients, sunt coeficienţii distanţelor dintre elementele grupate. În a patra

coloană, Stage cluster First Appears, ne este arătat numărul fazei în care au mai apărut

fiecare din cele două elemente. Ultima coloană, Next Stage, ne spune în ce fază va mai

apărea elementul din primul grup şi în ce fază se va modifica el.

Spre exemplu, în prima fază se grupează cazul 13 cu 17, distanţa dintre ele este cea

mai mică 2,643, nu au mai apărut până în acel moment în nici o fază, iar prima fază în care

va mai apărea cazul 13 este faza 8 şi atunci vor apărea modificări.

38

Page 39: Spss Analiza Cluster

Tabelul 4. Cluster Membership

Cluster Membership

În tabelul Cluster Membership , în funcţie de numărul grupurilor formate, sunt afişate

cazurile ce intră în componenţa lor. În situaţia de faţă, se observă că cazul 8 ( Aspire 98 15

WKHi), indiferent de numărul grupurilor ce se formează, aparţine aceluiaşi grup 2.

Cazurile 10 şi 15, atunci când se formează 4 grupuri, alcătuiesc singure grupul 3.

Pentru o vizualizare mai clară a modului de grupare a cazurilor :

39

Page 40: Spss Analiza Cluster

Tabelul 5. Vertical Icicle

Prezintă graficul tabeluilui Aglomeration schedule. Vertical Icicle este un grafic ce

afişează paşii în formarea grupurilor. Coloanele corespund cazurilor, iar rândurile

corespund numărului de grupuri. Acest tip de grafic se citeşte de jos în sus.

1 2 3 4 5 6 7 9 10 11 12

13 14 15 16 17 18 19

8

1 2 3 4 5 6 7 9 10 11 12 13 14 15 17

18 19

8 16

1 2 3 4 5 6 7 9 11 12 13 14 17 18 19

81015 16

Situaţia formării a 2 grupuri

Situaţia formării a 3 grupuri

Situaţia formării a 4 grupuri

40

Page 41: Spss Analiza Cluster

41

Page 42: Spss Analiza Cluster

Să luăm un exemplu pentru a ilustra reprezentarea grafică. Urmărind rândurile vom

observa că 17 (Amilo L 1310G), 18 (Travel Mate 4061), 7 (MSI Megabook L720), 19

(ThinkPad R50e), sunt toate grupate după faptul că între ele există cele mai mici diferenţe

(de aproximativ 1, conform acestei scale). Este evident că 8 (Aspire 981WKHi),

16(Accer Ferrari 1005WTM) şi 10 (Sony VAIO VGN-TX1HP) diferă faţă de celelalte

mărci.

Pe linia verticală se observă că 13 şi 17 formează un grup, 12,18,9 şi 7 alt grup,14 şi 9 un

altul.

În final vom avea 4 grupuri formate astfel:

Grupul 1: 13, 17, 12, 18, 9, 7, 3, 11, 5

Grupul 2: 14, 19, 2, 1, 4

Grupul 3: 6

Grupul 4: 10, 15, 16, 8

42

Page 43: Spss Analiza Cluster

5.2. Exemplul 2. Gruparea variabilelor – Hierarchical Cluster AnalysisAnaliza grupurilor şi analiza factorială identifică, ambele, grupuri relativ omogene de

variabile, dar analiza factorială are un model teoretic, pe când analiza grupurilor urmează

un model ad-hoc.

Pentru a desfăşura analiza din meniul Analyze...

Classify...

Hierarchical Cluster...

În fereastra Variables se selectează variabilele preţ, capacitate hard disk,

capacitate memorie, diagonală, autonomie, greutate, bluetooth, garanţie, frecvenţă

procesor, memorie video.

În fereastra Label cases by selectăm variabila tilap.

În câmpul Cluster bifăm Variables.

În câmpul Display bifăm ambele opţiuni.

În ferestra Statistics bifăm Agglomeration Schedule, Proximity Matrix, iar în

câmpul Cluster membership bifăm Range of solutions de la 2 la 4.

În ferestra Plots bifăm Dendogram, la câmpul Icicle bifăm All clusters, iar la

Orientation bifăm Vertical.

43

Page 44: Spss Analiza Cluster

În ferestra Method alegem la Cluster method Between-groups linkage, în câmpul

Measure bifăm Interval şi alegem Pearson Correlation ( reflecta gradul unei relatii lineare

dintre 2 variabile). Pentru gruparea variabilelor vom folosi corelaţia Pearson, pentru

măsurarea intensitaţii relaţiilor dintre variabile, şi se va folosi valoarea absolută pentru

fiecare variabilă (în Tranfsorm Measures) . Pentru ca grupurile sa reflecte numai

corelaţii pozitive, vom menţine semnul acestora.

Click ‘Continue’ pentru a ajunge la casuta principala a gruparii ierarhice, si apoi

dam Ok pentru a ne aparea urmatorul output .

44

Page 45: Spss Analiza Cluster

5.2.1. Interpretarea outputului

Tabel.1

Acest tabel prezinta 19 cazuri valide din totalul bazei de date în proporţie de 100%.

45

Page 46: Spss Analiza Cluster

Tabel. 2

46

Page 47: Spss Analiza Cluster

Această figură prezintă proximităţile ce există între variabile. Se observă că

valorile matricei sunt simetrice în funcţie de diagonala (valorile de deasupra diagonalei

sunt egale cu cele dedesubtul diagonalei). În acest caz am folosit corelaţia Pearson . De

exemplu cea mai puternica corelatie este cea dintre diagonala diplay-ului şi greutatea

laptopului fără taxe (0,693), astfel că pe măsură ce scade greutatea laptop-ului, scade şi

mărimea diagonalei display-ului..

Coeficientul corelaţiei este folosit pentru a măsura similitudinea, iar matricea este

citită ca un input file(rezultatele sunt identice cu cele obţinute prin comanda FLIP)

Agglomeration Schedule

Paşii implicaţi în procedura grupării sunt la fel, atât pentru gruparea variabilelor

cât şi pentru gruparea cazurilor. Astfel rezultatele analizei grupării sunt expuse în acest

tabel. La început fiecare variabilă formează singură un grup, apoi la fiecare etapa doua

variabile se vor uni, o variabila se va uni cu un grup sau chiar doua grupuri se vor uni ,

formand unul singur.

De exemplu, in prima etapa (randul1), observam ca variabilele 4si 6 se unesc,

conform coloanei „Cluster Combined”. Valoarea coeficientului corelatiei Pearson dintre

47

Page 48: Spss Analiza Cluster

cele doua variabile este de 0,693, prezentată în coloana „Coefficients”, şi reprezintă cea

mai puternică corelaţie în comparaţie cu toate perechile de variabile din acest tabel.

Urmatoarea coloana „ Stage Cluster First Appears” indică etapa la care un grup

este format pentru prima oară.(în cazul nostru nici variabila 4 şi nici 6 nu au mai format

un alt grup până acum).

Coloana „Next Stage” indică etapa la care o altă variabilă sau un alt grup este unit

cu aceasta. Astfel observăm că pe linia 9, variabila 4 apare din nou, dar de data asta se

uneşte şi cu variabila 1.

Valoarea coeficientul corelaţiei Pearson este de 0. 688, fiind mai mică decât

prima. În coloana „ Stage Cluster First Appears” indică faptul că variabila 2 formează

pentru prima dată un grup pe linia 2.

Conform coloanei „Next Stage” ne prezintă valoarea 4 , ceea ce inseamna că pe

linia 4 , variabila 2 se mai uneste şi cu variabila 3..

În cazul în care valoarea coeficienţilor este mare, atunci între variabilele ce

formează un grup există cea mai puternică relaţie de corelaţie, pe când coeficienţii mici

indică faptul că există diferenţe între variabilele ce formează un grup.

În tabelul Cluster Membership , în funcţie de numărul grupurilor formate, sunt afişate

cazurile ce intră în componenţa lor. În situaţia de faţă, se observă că în cazul 1 (preţ), 7

48

Page 49: Spss Analiza Cluster

(memorie video) şi 8 (bluetooth) indiferent de numărul grupurilor ce se formează,

aparţine aceluiaşi grup 1. Cazul 5 (autonomie), atunci când se formează grupul 4 el

formează singur acest grup.

Pentru o vizualizare mai clară a modului de grupare a cazurilor.

1 2 35 7 89 10

4 6

1 5 7 8 2 3 9 10 4 6

1 7 8 39 10

4 6 5

Situaţia formării a 2 grupuri

Situaţia formării a 3 grupuri

Situaţia formării a 4 grupuri

49

Page 50: Spss Analiza Cluster

Explicarea figurii Vertical Icicle din Output

Coloanele reprezinta cele 10 variabilele ce sunt „grupate”. Pentru a oferi o mai

bună vizualizare a acestui tabel, vom include numele celor 10 variabile, folosind căsuţa „l

cases”.

Prima coloană reprezintă variabila greutate, cea de-a doua diagonala. Rândurile

reprezintă etapele din analiza Cluster (grupării) şi sunt citite de la baza la vârf. Rândul 9

50

Page 51: Spss Analiza Cluster

reprezintă prima etapă , în timp ce rândul 1 reprezintă ultima etapă, unde toate variabilele

formează un singur grup.

De amintit faptul că etapa 0(care nu este prezentată în tabel) înfăţişează fiecare

variabilă ca formând propriul grup. Din moment ce sunt 9 variabile, există 9 variabile în

etapa 0. Etapa 1 (rândul 9) combină cele mai apropiate 2 variabile într-un singur grup.

Explicarea dendrogramei

O altă cale de a reprezenta vizual etapele din soluţia grupării ierarhice , este

dendrograma, care identifică grupurile ce sunt unite , precum şi valorile coeficienţilor

fiecărei etape.

Această dendrogramă oferă o imagine clară asupra modului cum s-a format

Agglomeration Schedule prezentat anterior, numai că trebuie menţionat faptul că SPSS

nu reprezintă grafic distanţele actuale, ci le rearanjează atribuindu-le coeficienţi de la 0 la

25. Liniile ce sunt unite variabilelor indică un grup.

51

Page 52: Spss Analiza Cluster

Să luăm un exemplu pentru a ilustra reprezentarea grafică. Urmărind rândurile vom

observa că: variabilele 4(diagonală) şi 6(greutate) formează un grup după faptul că între

ele există cea mai puternică relaţie de corelaţie (de aproximativ 1, conform acestei scale).

Variabilele 2 (capacitate hard disk) şi 10 (frecvenţă procesor) formează cel de-al doilea

grup.

5.3. Exemplul 3. Gruparea cazurilor folosind procedura K-Means

Deoarece variabilele pe care le folosim sunt măsurate în scale diferite, trebuie să

folosim procedura Descriptives din meniul Statistics pentru a standardiza variabilele cu

ajutorul proceduri Z (astfel valoarile pentru fiecare variabilă sunt”re-scalate” pentru a

avea media 0 si deviaţia standard de 1).

Din meniu alegem:

Analyze

Descriptive statistics

Descriptives

52

Page 53: Spss Analiza Cluster

Selectăm variabilele care vor fi standardizate (preţ, gramaj, cantitate alcool ,gradul de

transparenţă, cantitate parfum, număr aplicaţii ) şi bifarea opţiunii Save standardized

values as variables va adăuga, în baza de date de lucru, valorile standardizate ale

variabilelor

( scorurile z ).

53

Page 54: Spss Analiza Cluster

Astfel se va forma o nouă bază de date adăugându-i-se alte şase variabile

standardizate de tipul „znume variabilă”.

Gruparea cazurilor în funcţie de Cluster Analyze K-means

Din meniu alegem:

Analyze

Classify

K-Means Cluster

54

Page 55: Spss Analiza Cluster

Din meniul principal alegem pentru grupare, cele şase variabile standardizate (Z

score: preţ, Z score: gramaj Z score: cantitate alcool, Z score: categorie parfum, etc), în

căsuţa „Label Cases by” alegem variabila „marcă produs”.

La „Number of Cluster”, este specificat numărul de grupuri = 4; iar la

„Method„ bifăm „Iterate and classify” pentru a repeta şi clasifica cazurile.

55

Page 56: Spss Analiza Cluster

Din submeniul Iterate alegem „10” , acesta fiind numărul maxim de repetări ale

algoritmului.

Maximum iterations -limitează numărul de repetari în algoritmul K-Means.

Repetarea se opreşte după acest număr de repetari chiar dacă criteriul de convergenţă nu

este satisfacut. Acest numar poate fi intre 1 si 999.

Convergence criterion - se determină atunci când încetează repetarea. Reprezintă

o proporţie a distanţei minime între centrii clusterelor iniţiale, deci trebuie să fie cuprins

între 0 şi 1.

Use running means- permite să se solicite reactualizarea centrelor clusterilor

după ce a fost repartizat fiecare caz. Dacă nu se selectează această opţiune, noi centre

sunt calculate dupa ce au fost repartizate toate cazurile.

56

Page 57: Spss Analiza Cluster

Din submeniul Save selectăm , „Cluster membership” - crează o variabilă nouă

indicând numarul final de clustere pentru fiecare caz. (aceasta ia valori de la 1 până la nr

de grupuri nou create).

„Distance from cluster center” – bifarea opţiunii determină crearea unei noi

variabile indicând distanţa euclidiana dintre fiecare caz si centrul sau de clasificare.

Din Options – „Statistics” cuprinde următoarele: Initial cluster centers, tabelul

ANOVA şi informaţii despre cluster pentru fiecare caz, selectăm „ANOVA table „ cât şi

„Cluster information for each case”; iar de la „Missing Values” bifăm „Exclude cases

listwise” pentru a exclude doar cazurile cu vlori lipsă pentru variabilile de grupare .

57

Page 58: Spss Analiza Cluster

5.3.1. Interpretarea Output-ului

Acest tabel arată numărul de repetări din algoritm şi distanţele dintre centre la

fiecare etapă.

Cluster membership prezintă informaţii referitoare la distanţa fiecărui caz faţă de

centrul grupului său. Se observă că cel mai îndepartat caz faţă de centrul său (cluster 10)

este Florentine – distanţa e de 1,586, iar cel mai apropiat este Oriflame (distanţa faţă de

centrul său fiind de 0).

58

Page 59: Spss Analiza Cluster

Final Cluster Center indică media variabilor stadardizate pentru fiecare grup.

Media fiecărui grup defineşte centrul său. De exemplu , se observă că pentru grupul 1

(Nivea, Dove, Amway ), media preţului are o deviaţie standard 0,55 unităţi peste media

antiperspirantelor în timp ce pentru grupul 4(Secret, Avon, Florentine) media are o

deviaţie standard de -0,11 sub medie.

În cazul gramajului, media grupului 2(Oriflame) indică o deviaţie standard de

aproximativ 1,16 (ca şi media grupului 1) , fiind peste media celorlate

antiperspirante(din grupul 3 şi 4) , pe când media grupului 4(Secret, Avon, Florentine)

are o deviatie standard de aproximativ – 0,77, aceasta aflându-se sub media celorlate

medii (înafară de grupul 3, care are aceeaşi deviaţie)

Tabelul de mai sus arată distanţele dintre centrele celor patru grupuri. Se observă

că cea mai mare distanţă e între grupul 3 (Rexona, Lady Speed Stik şi Fa) şi 1 (Nivea,

Dove, Amway), de 4,233, iar cea mai mică distanţă este între grupul 3 (Rexona, Lady

Speed Stik şi Fa) si 4(Secret şi Avon), de 2,374.

59

Page 60: Spss Analiza Cluster

ANOVA (analiza varianţei). Pentru fiecare variabilă în particular, SPSS

realizează o analiză a varianţei de tip One –Way ANOVA folosind clusterele finale ca

grupuri. În coloana Cluster sunt afişate mediile patratice dintre grupuri iar în coloana

Error mediile pătratice din grupuri.

Raportul celor două medii pătratice este reprezentat de Anova F statistics. Ultima

coloană, Sig trebuie ignorată deoarece raportul F nu este folosit pentru a măsura

semnificaţia. Grupurile sunt formate pentru a caracteriza diferenţele.

Se observă că media variabilei Z_număr aplicări diferă cel mai mult de-a lungul

celor 4 grupuri (F=33,817) pe când media Z_gramaj nu diferă deloc de-a lungul celor 4

grupuri (F= 0).

Aparent aceste cazuri nu par a fi distribuite în mod egal în grupuri. Sunt puţine

cazuri în grupul 2 (este un singur caz, Oriflame), pe când în grupurile 1, 3 şi 4 sunt cele

mai multe cazuri, câte 3 . Dacă presupunem că fiecare grup reprezintă tipul mărcii de

60

Page 61: Spss Analiza Cluster

antiperspirant, am putea spune că sunt mai multe antiperspirante ale acestui tip

reprezentate de grupurile 1, 3 şi 4 decât faţă de cel găsit în grupul 2. Nu a fost eliminat

nici un caz conform „ Missing cases”.

5.3.2.Reprezentare grafică

Pentru reprezentare grafică, meniul Graphs selectăm graficul Scatter – Simple şi

selectăm Define.

Pentru axa Y selectăm ca variabilă „Distance of cases from its classification

cluster center” şi pentru X selectăm „ Cluster number of cases” iar la „Set markers by”

alegem Marcă produs pentru legendă.

Din Titles alegem numele graficului: Graph

61

Page 62: Spss Analiza Cluster

În primul rând graficul nu înlocuieşte analiza propiu-zisă. El ajută la înţelegea

analizei, oferind o imagine a modului în care s-a realizat gruparea.

Graficul de mai sus prezintă cele 10 cazuri ale bazei de date, grupate în funcţie de

distanţa fiecărui caz faţă de centrul grupului şi în funcţie de numărul de grupuri format.

Se observă că Un grup este format din produsele marca AMWAY, Dove şi Nivea, un alt

grup din Lady Spead Steak, Rexona şi FA, următorul din Secret , AVON şi Florentine,

iar un singur produs, marca Oriflame aparţine unui alt grup.

62


Recommended