Home >Documents >Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Date post:29-Jan-2017
Category:
View:227 times
Download:3 times
Share this document with a friend
Transcript:
  • Statistic multivariat

    Lucrarea nr. 12 Clasificare - SPSS

    A. Noiuni teoretice

    Clasificare Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n

    clase (grupuri) de entiti similare. Atunci cnd gruparea este efectuat manual, cel care o efectueaz opereaz cu judeci de similaritate, asemnare, apropiere. Acest tip de raionament este formalizat i n metodele automate.

    Exist, n esen, dou tipuri de clasificare automat: 1. predictiv, de exemplu analiza discriminant; se asigneaz o observaie la

    un grup pornind de la reguli de clasificare derivate din observaii clasificate n prealabil. Se poate ca schema de clasificare existent s fie subiectiv, neutilizabil efectiv, astfel nct metoda descoper aspectele eseniale ale schemei i le transform n reguli practice.

    2. descriptiv, de exemplu analiza cluster; se grupeaz obiectele pe baza similaritii lor, nu este cunoscut o grupare prealabil.

    Clasificare predictiv Considerm cazul a dou populaii multivariate, 1 i 2, fiecare caracterizat

    de repartiiile diferitelor variabile msurate. Problema clasificrii revine la a stabili populaia la care aparine o observaie u (caracterizat de valorile variabilelor considerate).

    Notnd cu S spaiul de eantionare (care cuprinde observaii din 1 i din 2), o regul de clasificare revine la a partiiona S n A1 i A2, astfel nct pentru o observaie u se poate dezvolta o procedur care decide

    dac u A1, atunci u 1 dac u A2, atunci u 2

    Clasificare predictiv - Fisher Regula de clasificare a lui Fisher este bazat pe maximizarea separaiei dintre

    cele dou populaii, n spiritul analizei varianei. Presupunem c populaiile univariate au, respectiv, mediile 1, 2 i dispersia comun 2.

    Este evident (intuitiv) c o observaie u va fi clasat n 1 dac u este mai apropiat de 1 i n 2 daca este mai apropiat de 2.

    In cazul a dou populaii m-dimensionale, ideea lui Fisher a fost s transforme observaia multidimensional u ntr-o observaie univariat y = a'u. Problema devine atunci aceea de a determina combinaia liniar, definit de vectorul a, astfel nct cele dou populaii s fie separate (difereniate) ct mai mult posibil. Se ajunge astfel, n cazul general, la problema studiat n analiza discriminant. Aceast analiz ofer ca rezultat i funciile de clasificare:

    Fiecare subpopulaie, i, are asociat o funcie de clasificare fi astfel nct observaia u este clasat n populaia j determinat prin

    )(max)( uu ii

    j ff =

  • Definim centrul unei clase (sau centroidul clasei) n mod uzual, ca punctul avnd drept componente mediile aritmetice ale componentelor corespunztoare din punctele clasei. Funciile de clasificare sunt estimate pe baza distanelor dintre o observaie (valorile celor m variabile determin un punct n spaiul R m) i punctele centrale, centroizii claselor. Distanele se pot calcula ca distane euclidiene, dar, din pcate distana euclidian nu reflect proprietile distribuionale ale variabilelor: variabile msurate pe scale diferite, de ordine de mrime diferite, pot afecta foarte mult distanele euclidiene. Componentele cu variabilitate mare ar trebui s contribuie cu ponderi mai mici dect cele cu variabilitate mic.

    Pentru a considera i distribuiile variabilelor au fost definite distane noi, cea mai utilizat fiind distana Mahalanobis: dac este matricea de covarian a celor m variabile, adic = cov(x)=exp[(x-exp(x))(x-exp(x))] atunci distana Mahalanobis ntre punctele x = (x1, , xm) i y = (y1, , ym) , este definit prin

    y)(x)y(xyx, 1 =)(d

    i, corespunztor, se definete norma unui vector prin xx'xx 1 == )0,(d .

    Clasificare predictiv k vecini Considerm situaia clasificrii propriu-zise, adic sunt cunoscute n obiecte

    prin atributele lor, inclusiv apartenena la clasele 1, 2, , k, i se dorete clasarea unei noi observaii.

    Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k - nearest neighbours).

    1. Se determin k obiecte cele mai apropiate de noua observaie. 2. Aceste k obiecte stabilesc clasa noului obiect prin

    Vot majoritar noul obiect este clasat n clasa la care aparin cei mai muli dintre cei k vecini (care dispun fiecare de un vot ntreg).

    Vot invers proporional distanei similar votului majoritar, dar fiecare dintre cei k vecini apropiai dispune de o fraciune de vot, egal cu inversul distanei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie).

    Clasificare descriptiv In analiza multivariat, clasificarea descriptiv (cluster analysis) se refer la

    metodele utilizate pentru a identifica ntr-o mulime de obiecte grupurile de obiecte similare. Cazurile de aplicare ale acestor metode sunt similare celor n care se utilizeaz analiza factorial.

    Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte, coloanele sunt variabile, atribute). In plus,

    datele sunt omogene n sensul c are sens calculul distanelor dintre elemente

    exist suficient de multe date nct simpla inspecie vizual sau prelucrrile statistice elementare nu ofer o imagine satisfctoare a structurii datelor

    tabloul de date este amorf: nu exist o structurare a priori (dependene funcionale, relaii, clasificri cunoscute).

  • De remarcat c ultima caracteristic este cea care ne deprteaz de descrierea predictiv (unde se presupunea existena unei structurri necesare n etapa de training).

    Drept rezultat al clasificrii descriptive se obin grupurile de elemente, clasele identificate. Deoarece se pot aplica pe aceleai structuri de date, metodele clasificrii descriptive sunt complementare metodelor analizei factoriale. De regul, atunci cnd se utilizeaz mpreun, analiza factorial este efectuat mai nti, clasele evideniate de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptiv.

    Metodele de clasificare sunt de natur mai degrab algoritmic: clasele apar ca urmare a unei suite de operaii efectuate recursiv sau repetitiv; matematica implicat este relativ elementar.

    Numim clas (grup, cluster) o mulime de obiecte (elemente) similare ntre ele i nesimilare obiectelor din alte clase. Un cluster poate fi gndit (reprezentrile grafice reflect aceste interpretri)

    Ca o mulime de puncte care sunt apropiate (la distane mici) ntre ele i deprtate de punctele din alte clase, sau

    Ca o regiune conex dintr-un spaiu multidimensional care are o densitate mare (relativ) de puncte, clusterele fiind separate ntre ele de regiuni cu o densitate sczut (relativ) de puncte.

    Rezult c problema esenial n determinarea (identificarea) clusterelor este cea a specificrii proximitii (apropierii, similaritii) i cum se determin aceasta. Este evident c proximitatea este o noiune dependent de problema real cercetat.

    Structurile uzuale de date privind obiectele supuse analizei cluster sunt: Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin

    atributele lor n obiecte i p atribute vor furniza o matrice de tip np. Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).

    Matricea de proximitate. Elementele d(i,j) reprezint proximitile dintre obiectele i i j. Proximitatea poate fi

    o similaritate (asemnare), cum ar fi coeficientul de corelaie, sau o disociere (deprtare, difereniere), cum ar fi distana euclidian.

    Atunci cnd atributele sunt de tipuri diferite (att discrete, ct i continue), se poate calcula proximitatea dintre obiectele i i j prin

    ]1,0[),(

    1

    )(

    1

    )()(

    =

    =

    =f

    i

    fij

    p

    f

    fij

    fij d

    jid

    unde )( fij este ponderea variabilei f

    ===

    restin 1binara ,asimetrica este si 00

    lipsa sau pentru 0)( fxx

    xx

    jfif

    jfiff

    ij

    Menionm c )( fijd este contribuia variabilei f la d(i,j) i anume:

    - dac f este binar sau nominal, atunci =

    = altfel 1

    pentru 0)( jfiffij

    xxd

    (Hamming) - dac f este continu, atunci (normalizare prin amplitudine)

    hfhhfh

    jfiffij xx

    xxd

    minmax)(

    =

  • - dac f este ordinal, se atribuie rangul rif, se calculeaz 1max

    1

    =

    hfh

    ifif r

    rz i se

    consider c f este continu, avnd valorile zif. Exist mai multe tipuri de algoritmi de clasificare: - Algoritmi ascendeni (de agregare, de sintez) clasele sunt construite

    prin agregarea succesiv a elementelor, se obine astfel o ierarhie de partiii, de clase.

    - Algoritmi descendeni (de divizare) mulimea obiectelor este divizat succesiv n submulimi de obiecte din ce n ce mai omogene; se poate obine i aici o ierarhie a partiiilor.

    - Algoritmi de partiionare se pleac de la o partiie (structur de clase) care se modific pentru a maximiza omogenitatea fiecrei clase.

    Primele dou categorii pot fi reunite n clasificarea ierarhic (hierarchical cluster analysis).

    Clasificare descriptiv - agregare Algoritmul fundamental de clasificare ascendent ierarhic este: 1. Etapa 0 exist cele n elemente care se clasific; 2. Etapa 1 se determin perechea de elemente cele mai apropiate ntre ele i

    se produce, prin agregarea lor, un nou element; 3. Etapa 2 exist acum n-1 elemente care se clasific; 4. Se repet Etapa 1 i Etapa 2 pn cnd mulimea elementelor care se

    clasific are un singur element.

    Clasificare descriptiv - divizare Metoda ierarhic descendent const n construirea ierarhiei n ordine invers: 1. Se pleac de la mulimea total a elementelor 2. La fiecare pas urmtor, cea mai mare (cea mai eterogen) grupare este

    divizat n dou subgrupri. 3. Algoritmul se oprete atunci cnd toate grupurile constituite au cte un

    singur element. Pentru definirea grupului cel mai eterogen se utilizeaz diametrul grupului,

    definit ca distana maxim dintre dou elemente din grup. Evident c se po

Click here to load reader

Reader Image
Embed Size (px)
Recommended