+ All Categories
Home > Documents > Proiect interpretare

Proiect interpretare

Date post: 14-Jul-2015
Category:
Upload: trascauo
View: 133 times
Download: 1 times
Share this document with a friend

of 15

Transcript

PROIECT

ANALIZA DATELORVlad Emilian Teleaba Grupa 1038

INTRODUCEREVoi incerca sa realizez o analiza a situatiei economico-sociale in mai multe tari care au apartinut blocului comunist inainte de 1989. Printre acestea se numara si Romania, alaturi de state din Europa Centrala si de Est si spatiul ex-sovietic. Scopul final este acela de a stabili care sunt caracteristicile definitorii pentru evaluarea performantelor economice si sociale din acest spatiu, precum si de a incerca sa clasificam aceste tari in functie de similitudini si diferente. Analiza datelor este un mijloc extrem de folositor pentru compararea economiilor tarilor luate in vedere. Tabelul urmator contine caracteristicile a 30 de state din spatiul sus amintit. Tabelul are 30 de linii corespunzatoare tarilor analizate si 8 coloane, reprezentand diversi indicatori economico sociali cat mai reprezentativi si mai diversificati: -PIB pe cap de locuitor la paritatea puterii de cumparare, o masura foarte buna a bunastarii medii dintr-o tara -Inflatia multianuala in procente -Somajul(% din populatie) -Exportul net ca procentaj din PIB, pentru a exprima performantele unei economii in termeni relativi la dimensiunea economiei respective -Stocul de investitii straine directe pe care l-am exprimat la numarul de locuitori, pentru a surprinde acelasi efect de performanta economica raportat la dimensiunea unui stat -Deficitul balantei de plati, din nou ca procent din PIB -Gradul de urbanizare, masura buna a dezvoltarii sociale a unei tari

- Speranta de viata la nastere, indicator ce masoara calitatea vietii dintr-o tara si peformanta sistemului medical

Deoarece ordinul de marime al datelor si unitatile de masura sunt diferite, inainte de a efectua Analiza Componentelor Principale vom realiza anumite operatii de rafinare si transformare a datelor.Trebuie spus ca au existat cateva observatii lipsa in matricea de observatii, motiv pentru care am aplicat algoritmi de extrapolare si interpolare a datelor. De asemenea, inainte de a standardiza datele, pentru ca diferitele caracteristici pe care leam ales sunt definite de variabile de minim (Somaj), de maxim(PIB, Exporturile, Investitiile, Soldul Balantei de plati, Urbanizarea si Speranta de viata la nastere), precum si variabile cu caracter special, cum este inflatia, care nu este nici minimizata nici maximizata, ci are o valoare optima pe care am aproximat-o la 2%, asadar din aceste motive am ales sa normalizez

datele prin algoritmii studiati la cursul de Teoria Deciziei, astfel incat datele sa exprime acelasi criteriu universal, de maxim.

Tot in imaginea de mai sus se observa si mediile si abaterile standard ale celor 8 variabile analizate. Ulterior, am aplicat procedeul de standardizare a datelor

Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile. Au rezultat urmatoarele observatii:

ANALIZA

COMPONENTELOR PRINCIPALE

Analiza componentelor principale este o tehnica de analiza a datelor care are drept scop descompunerea variabilitatii totale din spatiul cauzal initial sub forma unui numar redus de componente, fara ca aceasta forma sa contina redundante informationale .Aceste componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele, fiecare fiind o combinatie liniara de variabilele originale.

Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a performantelor economice ale tarilor analizate. Vom considera variabila PIB per capita ca fiind un indicator general esential in aprecierea dezvoltarii economice a unui stat. Alte variabile(Somaj, Inflatie, Exporturi, samd ) sunt caracteristici care estimeaza factorul latent reprezentat de nivelul de dezvoltare al unei tari, iar variabilele gradului de urbanizare si al sperantei de viata indica gradul de dezvoltare sociala al unui stat.

Matricea de corelatiePentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale si determina componentele pricipale.

VECTORII

SI VALORILE PROPRII

Cum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma unui vector de forma: , unde ponderile din tabelul de mai sus. Astfel, spre exp componenta principala w1 se scrie: W1= 0,530679 x1 + 0,36883 x2 + . + 0,454281 x8 .Calculam valorile propii ce ne arata cantitatea de informatie extrasa de fiecare componenta principala: in spatiul indivizilor; in spatial variabilelor, , sunt variabilele originale si

unde

este componenta principala de ordin k si

valoarea proprie

corespunzatoare acesteia.

In figura de mai sus in prima coloana sunt valorile proprii ce exprima varianta explicata prin fiecare noua componenta principala si corelatia dintre noua variabila si variabilele vechi. A doua coloana reprezinta diferentra dintre 2 componente consecutive. In a treia coloana este exprimat procentul din inertia totala a norului de puncte retinut pe fiecare axa. In a patra coloana este exprimat procentul cumulativ al componente dinainte. Am putea spune ca avem 3 componente principale care sintetizeaza din punct de vedere informational toate cele 8 variabile originale. Astfel prin intermediul primei componente principale se asigura conservarea a 37,90% din varianta totala. Varianta celei de-a doua componente principale este egala cu valoarea proprie 2,05 si retine 25,56% din varianta totala iar cumulativ cu prima componenta retine 63,56% din varianta totala. Varianta celei de-a treia component principal este egala cu valoarea 0,88 si retine 11,12 din variant totala iar cumulative cu a doua component retine 74,68% din varianta totala.

ANALIZA

FACTORIALA

Analiza factoriala este o analiza multivariata, care are ca scop sa explice corelatiile manifestate ntre o serie de variabile, numite indicatori sau teste, prin intermediul unui numar mai mic de factori ordonati si necorelati, numiti factori comuni. Analiza exploratorie in acest caz ne indeamna sa consideram 3 factori comuni latenti, respectiv gradul de dezvoltare economica, siguranta nationala exprimata prin balanta comerciala si de plati

a tarii, respectiv gradul de nelinste sociala exprimat prin somaj si alte variabile de acest gen. In analiza factoriala variabilitatea se descompune in 3 componente: comunalitatea, unicitatea si rezidualitatea. Comunalitatea explica influenta factorului comun, latent, asupra variabilelor, unicitatea explica influenta factorului unic asupra acestor variabile, iar rezidualitatea acopera partea de hazard din modelul nostru.

Astfel, mai sus avem matricea factor, de o deosebita importanta pentru analiza factoriala pentru ca ea ne arata intensitatea legaturii dintre cei 3 factori artificiali si fiecare din variabilele initiale. Putem trage concluzie ca primul factor este corelat puternic cu PIBul, inflatia, Investitiile si cei 2 indicatori socio-economici, urbanizarea si speranta de viata. Al doilea factor este intens corelat cu exportul net si balanta de plati, in timp ce al 3lea factor este corelat puternic cu somajul. In acest fel am obtinut o grupare a variabilelor initiale in functie de gradul de interconectivitate al caracteristicilor analizate. Varianta totala a celor 3 factori este 5,97, care retine un procent de 74,68 din varianta totala. O anumita observatie, corespunzatoare unui factor dat, este determinata sun forma unui scor corespunzator respectivului factor, format pe baza contributiei variabilelor originale. Scorurile sunt date de urmatoarea relatie: , unde reprezita coeficientii din matricea scorurilor factor iar xi sunt variabilele din matricea Factor Pattern. Pentru optimizarea analizei factoriale, vom utiliza si o transformare ortogonala a axelor initiale ale factorilor comuni, in acest fel reusind sa surprindem cat mai bine analiza factorilor asupra variabilelor initiale. Vom obtine o noua solutie factor prin rotirea structurii factor. In tabelul de mai jos este specificata comunalitatea totala si comunalitatea individuala a fiecarei variabile: Comunalitatea pentru fiecare variabila s-a calculat dupa formula: , unde variabile iar este comunalitatea uneia dintre cele 8 este varianta factorului i din matricea Rotated Factor Pattern. .

Specificitatea se poate obtine din diferenta 1-

O anumita observatie, corespunzatoare unui factor dat, este determinata sun forma unui scor corespunzator respectivului factor, format pe baza contributiei variabilelor originale. Scorurile sunt date de urmatoarea relatie: , unde reprezita coeficientii din matricea scorurilor factor iar xi sunt variabilele din matricea Rotated Factor Pattern.

ANALIZA

CLUSTER

Metodele de analiza cluster au ca scop gruparea indivizilor, identificati printr-o serie de atribute, intr-un numar cat mai restrans de clase omogene. Aceste metode realizeaza o analiza globala a indivizilor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime. Astfel se realizeaza clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele constituite sa fie cat mai diferite.

Clasificarea variabilelor prin clasificare ierarhica

Metoda lui Ward de

Metoda lui Ward este o metoda care comaseaza acele clustere pentru care suma patratelor abaterilor la nivelul clusterului rezultat din comasare este cea mai mica, n comparaie cu alte perechi de clustere

Mai sus observam etapele clasificarii dupa metoda lui Ward

In urma clusterizarii prin metoda lui Ward, asa cum se observa prin linia rosa pe care am trasat-o peste dendograma, cred ca o clasificare optima ar fi in 4 clustere, cele 4 fiind identificate prin intersectia liniei rosii cu liniile orizontale, fiecare cluster reprezentand grupul identificat printr-o linie care se intersecteaza cu linia rosie. Romania face parte din primul cluster, reprezentat de tari apartinand as spune Europei de Sud-Est. Clusterizarea demonstreaza o foarte puternica corelatie intre state apartinand aceleiasi regiuni geografice.

Clasificarea variabilelor prin Metoda agregarii complete

Metoda agregarii complete este similara cu metoda agregarii simple, cu deosebirea ca agregarea a doua clustere se face pe baza unei distante de agregare care este distanta dintre cele mai departate obiecte din acele clustere. Clusterizarea de acest tip se mai numeste si analiza cluster de distanta maxima sau analiza cluster de tip MAX. n cazul metodei agregarii complete evaluarea distantelor dintre clustere se face cu ajutorul metodei celor mai departati vecini. Aceasta nseamna ca distanta dintre doua clustere este considerata a fi n acest caz distanta cea mai mare dintre oricare doua puncte apartinand celor doua clustere. Metoda agregarii complete este o metoda de clasificare ierarhica de tip ascendent, care comaseaza in fiecare etapa a clasificarii acele doua clustere pentru care distanta dintre cei mai departati vecini este cea mai mica, in comparatie cu alte perechi de clustere.

Mai sus observam etapele clasificarii dupa metoda agregarii complete.

Observatia de facut in acest caz este ca metoda aceasta da rezultate un pic mai greu de identificat. In dendograma am oferit 2 exemple de cum se poate realiza oprirea clasificarii, daca vrem sa obtinem 7 clustere (linia albastra) sau 4 clustere(linia verde), acestea fiind doar 2 posibilitati. Problema este ca, asa cum se observa, rezultatele sunt inferioare primei clusterizari dupa metoda Ward. In cazul clasificarii de tip MAX, se observa ca anumite forme (Bosnia sau Turkmenistan) raman clustere distincte pana destul de tarziu. In cazul in care alegem cele 7 clustere identificate de linia albastra, cele 2 state (Bosnia si Turkmenistan) nu intra in niciun grup de tari. Este insa greu de crezut ca aceste state sunt atat de diferite de restul incat sa constituie clustere diferite. Daca alegem doar 4 clustere distincte (linia verde), problema ramane, insa Turkmenistanul reuseste sa intre in unul din clusterele precedente. Concluzia mea ar fi ca aceasta metoda da rezultate inferioare metodei lui Ward.


Recommended