Proiect Analiza Datelor

ACADEMIA DE STUDII ECONOMICEFacultatea de Finanțe, Asigurãri, Bãnci și Burse de Valori

PROIECT ANALIZA DATELOR

București21 iunie 2012

Cuprins

Introducere.............................................................................................................3

Analiza componentelor principale.........................................................................6

Analiza cluster.....................................................................................................11

Analiza discriminantă..........................................................................................15

Concluzii.............................................................................................................18

2

Introducere

Prin intermediul acestui proiect, doresc să realizez o exemplificare și interpretarea a unor rezultate economice prin utilizarea programului econometric SAS. Am făcut apel la următoarele analize:

analiza componentelor principale analiza cluster analiza discriminantă

Alegerea datelor financiare și standardizarea acestora

Pentru exemplificare, am ales un număr de 35 de companii listate la Bursa de Valori București (criteriile după care am ales aceste companii este volum de tranzacționare comparativ cu totalitatea titlurilor, categoriile în care sunt încadrate pentru tranzacționare, etc). Pentru fiecare din aceste 35 de companii, am selectat un numar de 6 indicatori economice așa cum au fost raportați de respectivele companii la 31 decembrie 2011. Sursa datelor o reprezintă www.bvb.ro și www.ktd.ro:

cifra de afaceri, număr salariați profit indice de lichiditate capitaluri proprii EPS (earnings per share)

Nume CompaniiCifra de afaceri Salariati Profit Lichiditate

Capitaluri proprii EPS

1 Aerostar Bacau 158.402,22 1.21

9 11.618,30 4,70 102.543,40 0,10

2 Azomures1.625.577,2

0 2.68

8 365.196,44 4,301.101.795,1

6 0,69

3 Antibiotice 281.847,46 1.45

0 20.298,91 1,92 287.058,41 0,04

4 Biofarm 28.583,62 36

2 6.015,09 5,03 151.776,10 0,015 Bermas 23.098,10 205 1.915,90 2,12 23.061,19 0,09

6 C.N.T.E.E. Transelectrica3.113.142,7

8 2.197 90.913,32 1,112.467.436,7

6 1,24

7 Carbochim 30.321,51 23

3 1.468,01 2,08 64.750,68 0,38

8 Calipso Oradea 6.056,34 7

2 1.251,43 1,34 68.265,29 0,07

9 Dafora 45.004,76 57

9 1.890,06 1,20 162.110,48 0,00

10 Eletromagnetica 495.195,62 53

5 12.943,98 0,00 267.016,75 0,02

11 Electroputere 199.082,32 1.55

7 -48.063,97 1,01 20.898,02-

0,14

12 ElectroArges 125.615,94 55

8 7.310,57 1,89 26.260,09 0,12

13 Farmaceutica Remedia 203.467,82 39

5 4.077,45 1,05 39.835,32 0,0414 Electrocontact 6.817,99 13 -596,49 2,51 11.698,06 0,00

3

http://www.ktd.ro/

http://www.bvb.ro/

1

15Impact Developet & Contractor 13.540,40

27 -22.261,05 7,82 296.828,11

-0,11

16 Mecanica Ceahlau 31.578,54 19

5 7.246,83 3,69 42.913,16 0,03

17 Mechel Targoviste1.099.750,7

1 2.25

0 -133.495,50 0,50 7.246,83-

1,94

18 Oltchim1.533.016,1

9 3.44

7 -278.342,62 0,21 -826.884,43-

0,81

19 Oil Terminal 115.773,80 1.18

5 545,42 0,63 345.226,81 0,00

20 OMV Petrom16.565.465,

97 22.05

2 3.685.607,2

3 1,1018.890.892,

16 0,07

21 PetrolExportImport 521.232,19 1

9 235,34 2,15 13.013,03 0,58

22 Prodplast 53.828,30 15

1 2.929,97 14,71 47.572,52 0,17

23 Ropharm 385.169,84 75

6 385.169,84 1,09 91.212,49 0,04

24 SNTGN Transgaz1.343.321,8

1 4.95

1 379.571,47 1,913.262.877,9

632,2

4

25 SIF Banat Crisana 141.752,17 7

8 63.006,52 3,63 642.598,33 0,11

26 SIF Moldova 336.996,16 7

8 192.922,60 2,43 566.155,40 0,37

27 SIF Muntenia 196.907,50

4 65.336,35 1,941.137.521,3

9 0,0828 SIF Oltenia 133.228,30 72 83.442,67 0,80 652.841,78 0,1429 SIF Transilvania 325.883,73 77 207.727,56 2,99 769.314,33 0,1930 Socep 59.103,46 440 7.092,14 13,30 99.800,09 0,02

31 Turbomecanica 46.491,76 438 -19.411,42 0,61 67.520,49-

0,0532 Titan 348.039,35 881 8.242,13 0,00 134.882,94 0,02

33 Teraplat 209.359,98 449 -14.642,20 1,19 130.073,87-

0,0534 Vrancart 163.751,67 1.134 1.997,35 0,98 88.234,85 0,0035 Zentiva 235.648,17 555 33.857,31 3,34 256.395,84 0,08

Mean 862.915,82 1.469 146.657,63 2,72 900.306,96 0,97

Standard deviation2.804.874,4

3 3.744 629.224,42 3,263.211.848,9

0 5,46

Datele sunt importate in SAS fie manual prin File, Import din meniul programului SAS, fie prim următoarea procedură:

PROC IMPORT OUT= WORK.Companii DATAFILE= "C:\Users\Anca\Desktop\AnalizaDatelor.xls" DBMS=EXCEL REPLACE; RANGE="Sheet1$"; GETNAMES=YES; MIXED=NO; SCANTEXT=YES; USEDATE=YES; SCANTIME=YES;RUN;

Intrucat datele sunt extrase in forma lor brută, primară, am purces la procesul de standardizare a acestora pentru a le asigura consistența, relevanța și comparabilitate.

4

Operația de standardizare a valorilor a constat în substituirea valorilor fiecărei observații cu o noua valoarea reprezentând raportul dintre valoarea centrată a respectivei variabile și abaterea standard a respectivei variabile

Am realizat procesul de standardizare a valorilor atât în programul Excel, cât și în programul SAS, rezultatele obținute fiind aceleași.

După realizarea importului datelor din Excel, standardizarea datelor s-a efectuat după următoarea procedură:

PROC STANDARD data=work.companii mean=0 std=1 out=work.companiist;var cifra_de_afaceri Salariati profit lichiditate capitaluri_proprii eps;RUN;

5

Analiza componentelor principale

Analiza componentelor principale este o metodă de analiză multidimensională al cărei scop este descompunerea variabilității totale din spațiul cauzal inițial la un număr redus de componente cu eliminarea redundanței informaționale. Componentele principale reprezintă combinaţii liniare ale variabilelor originale, astfel încât aceste variabile noi să fie caracterizate de o variabiliate maximă.

Acest tip de analiză asupra datelor o vom realiza cu ajutorul procedurii princomp:

PROC PRINCOMP DATA=work.companiist STD out=Analiza n=6 outstat=rez_ACP;var cifra_de_afaceri Salariati profit lichiditate capitaluri_proprii eps;title 'Rezultate Analiza Componentelor Principale';RUN;

Rezultat din SAS este următorul:

6

7

Dupa cum se poate observa, în tabelul “Simple Statistics” în cazul variabilelor standardizate, media aritmetică este nulă. Totodată, variabilele standardizate au proprietatea ca varianţa lor este egală cu unitatea.

În continuare, în tabelul “Correlation Matrix” procedura a evidenţiat corelaţia dintre variabilele supuse analizei. Observăm faptul că, cele mai puternic corelate variabile sunt cifra de afaceri şi numărul de salariaţi cu un grad de corelare de 0.9780, dar şi capitalurile proprii şi numărul de salariaţi cu 0.9627. La polul opus, cele mai puternic necorelate variabile supuse analizei sunt numărul de salariaţi şi lichiditate cu un grad de corelare de -0,1443, în condiţiile în care valoarea 1 aduce cu sine variabile puternic correlate, iar valoarea -1, valori puternic necorelate.

Tabelul “Eigenvalues of the Correlation Matrix” relevă ordonarea componentelor principale în ordine descrescătoare a informaţiei reţinute, procent din varianţa totală. Conform Criteriului lui Kaiser (întrucât valorile au fost standardizate), numărul de componente principale este dat de numărul valorilor proprii mai mari decât 1. Astfel putem observa faptul că avem doar 2 componenete supraunitare, deci vom avea doar 2 componente principale. Din acelaşi tabel observăm ca primele două componente reţin cumulat 82.46% din informaţia conţinută în spaţiul iniţial de puncte, fapt ce implică pierderea a 17.54% din informaţie.

Prima componentă principală explică 65,64% din varianţa totală; primele două componente în proporţie de 82,46% iar primele trei în proportie de 98,66%. In cazul variabilelor standardizate, covariantele sunt chiar coeficientii de corelaţia Pearson.

Desigur, aceste componente principale pot fi scrise ca o combinaţie liniară a celor 6 variabile, fapt evidenţiat în ultimul tabel, cel al vectorilor proprii “Eigenvectors”:

Spre exemplu prima componentă principală se scrie sub forma:

Componenta 1 = 0.4980*Cifra _afaceri + 0.4947*Salariaţi + 0.4945* Profit + (-0,0769*Lichiditate+0.50*capitaluri proprii + 0.0685*EPS

Componenta 2 = 0.0929*Cifra _afaceri + (-0.0167*Salariaţi) + 0.0922* Profit + 0,5936*Lichiditate+0.0329*Capitaluri proprii +(- 0.7931*EPS)

Un alt mod de determinare a componentelor principale este facilitat de calea grafică.

Astfel vom rula procedura generală de generare a graficelor:

ods graphics on; proc princomp plots=all; var cifra_de_afaceri Salariati profit lichiditate capitaluri_proprii eps; run; ods graphics off;

8

Aşa cum rezultă din unul din graficele rezultate, primul component explică intr-o proporţie foarte mare varianţa, de peste 60%. În al doilea grafic, observăm varianța explicată de către fiecare dintre componentele principale. Legenda ne arată că linia continuă reprezintă proporția în care fiecare componentă explică varianța, iar linia punctată reprezintă inluența cumulativă a componentelor, mai exact, este o reprezentare grafică a coloanelor 3 şi 4 din tabelul valorilor proprii.

9

Graficul de mai sus prezintă componenţa componentelor 1 şi 2: observăm faptul că prima componentă este cel mai bine explicată cu ajutorul variabilelor profit, salariaţi, capitaluri proprii şi cifra de afaceri la naştere. Cea de-a doua componentă se explică prin lichiditate şi cifra de afaceri, dar şi prin EPS, pentru aceast din urmă se poate remarca faptul că are valori negative.

Transpuse în economie, o abordare de a interpretare cele 2 componente principale ar fi: componenta 1 să fie văzută ca exprimând dimensiunea companiilor (prin numărul salariaţilor, prin mărimea cifrei de afaceri, a capitalurilor proprii), iar componenta 2 exprimând performanţa companiilor (prin lichiditate, prin EPS şi prin mărimea cifrei de afaceri).

Proiectate pe cele două componente principale care au rezultat în urma ACP-ului, cele 35 de companii ar fi poziţionate în felul următor:

Se poate remarca poziţia distinctivă faţă de restul companiilor a companiilor 35 (Zentiva), care este foarte bine reprezentată pe componenta 1 - dimensiune şi 34 (Vrancart), care este reprezentată negativ pe axa componentei 2- performanţă.

10

Analiza cluster

Analiza cluster este o metodă foarte răspandită în primul rând datorită scopului cu care acesta este aplicată dar şi datorită uşurinţei în ceea ce constă utilizarea ei. Scopul acesteia este practic clasificarea obiectelor în custere, asigurându-se o variabilitate mininmă intracluster şi o variabilitate maximă intercluster. Mulţimea de obiecte grupate într-un cluster au proprietatea că gradul de disimilaritate dintre oricare două dintre ele este mai mic decât gradul de disimilaritate dintre oricare obiect al clusterului şi un obiect al unui alt cluster. Cu alte cuvinte, analiza multidimensională de clusterizare are rolul de a grupa obiecte cât mai asemănătoare între ele, iar obiectele din clase diferite să fie la rândul lor cât mai diferite între ele. Acest mod de analiză a datelor oferă posibilitatea creării de ipoteze asupra fenomenelor, explicând asemănarea dintre observaţiile făcute pe acestea.

Pentru a realiza această analiză, vom folosi metoda Ward de evaluare a distanţelor dintre clustere ca sumă a pătratelor abaterilor la nivelul configuraţiei rezultată din comasarea celor două clustere pentru care se evaluează distanţa.

Procedura în SAS este următoarea:

proc cluster method=ward standard data=work.companiist outtree=work.cluster all;id nume_companii;run;

proc tree horizontal;id nume_companii;run;

proc tree data=work.cluster out=work.cluster_tree nclusters=5 haxis=axis1 horizontal; height _rsq_; copy cifra_de_afaceri salariati profit lichiditate capitaluri_proprii eps; id nume_companii; title 'Arborele clasificarii - Dendrograma';run;

Mai jos, putem observa istoricul clusterizării realizate. Coloana FREQ arată câte obiecte sunt cuprinse în fiecare cluster. O creştere semnificativă a lui SPRSQ indică o creştere a numărului de clustere comasate la un moment dat. CCC arată criteriul cubic de clusterizare, o valoare aproximată a lui R² aşteptat, în ipoteza nulă. Faptul că acesta are valoarea 0 în cea mai mare parte a analizei, ne arată faptul că dispunem de o clusterizare potenţială, cu alte cuvinte trebuie să avem mare grijă în folosirea acestor clustere. Coloanele PSF şi PST2 indică valorile

11

testelor pseudo F şi respectiv t², teste ce la momentul apariţiei unei variaţii semnificative, indică momentul de oprire şi trecere la un alt nivel de grupare.

Dendrograma clasificării arată reprezentarea claselor formate. Aceasta ne poate ajuta sa decidem asupra numarului optim de clase ce trebuie retinute in analiza, prin aparitia unor gap-uri. Făcând o tăietură imaginară pe dendrogramă, putem afla numărul claselor. Poziția tăieturii depinde de analist, aceasta se face în funcție de distanța dorită între clase.

12

13

Astfel, după ce am trasat o linie, grupele ar arată sub forma următoare:

Grupa 1: Aerostar, Biofarm, Mecanica Ceahlau, Zentiva, SIF Banat Crisana, Bermas, Carbochim, ElectroArges, Electrocontact, PetrolExportImport, SIF Moldova, SIF Transilvania, SIF Muntenia, Impact, Azomures, Transelectrica

Grupa 2: Antibiotice, Electroputere, Oil Terminal, Vrancart, Calipso, Dafora, Farmaceutica Remedia, Teraplat, Turbomecanica, SIF Oltenia, Electromagnetica, Titan, Ropharm, Mechel Targoviste şi Oltchim

Grupa 3: Socep şi Prodplast Grupa 4: SNTGN Transgaz Grupa 5: OMV Petrom

Totodată, tabelul work.cluster_tree rezultat arată sub forma următoare, surprizând componenţa clusterelor, aşa cum se văd şi în dendograma:

14

Analiza discriminantă

Acest tip de analiză este utilizat în special pentru a determina aparteneţa obiectelor supuse analizei la anumite clase apriori cunoscute. Ea a fost denumită analiză discriminantă deoarece se bazează pe dereminarea unui set optimal de caracterisitci care să permită cea mai bună discriminare între două sau mai multe tipuri de obiecte. Pe baza acestui set de caracteristici, se deduc anumite criterii de separare a populaţiei supuse analizei, iar prin utilitarea acestor două instrumente (setul de caracteristici şi criteriile de separare) se poate recurge la clasificare obiectelor în clase, fenomen cunoscut sub numele de predicţie. Variabilele din setul optimal de caracteristici se numesc variabile descriptor.

Analiza discriminantă constă în căutarea unei variabile scor, , care să fie adesea o combinaţie liniară a variabilelor . Aceasta are putere discriminatorie maximă. Apoi se caută o nouă variabilă, cu putere discriminatorie mai mică, dar maximă în cadrul celor rămase şi tot aşa. Criteriile pe care se caută variabila discriminant se folosesc deopotrivă în deducerea funcţiei discriminant, denumită şi funcţie de clasificare sau funcţie scor, care defineşte puncte, curbe sau suprafeţe de separare a populaţiei.

Procesul efectiv porneşte de la un set de clase iniţiale şi se stabileşte o modalitate eficientă de structurare a populaţiei în clase de predicţie. Această structurare nu este niciodată perfectă, deoarece clasele de predicţie se obţin prin trunchiere. Criteriile de clasificare a obiectelor în clase se determină prin intermediul procesului de formare a clasificatorului.

Pentru determinarea clasificatorului vom folosi criteriul funcţiilor discriminant ale lui Fisher care urmăreşte maximizarea variabilităţii dintre grupe şi minimizarea acesteia în cadrul grupelor. Astfel, scorurile discriminate se determină prin trasarea de axe pe care gardul de omogenitate al variabilelor să fie maxim, iar similaritatea între ele să fie minimă.

In SAS, am pornit aşadar de la rezultatele pe care le-am obţinut în cadrul analizei cluster, i.e. tabelul work.cluster_tree. Procedura pe care am utilizat-o a fost următoarea:

PROC DISCRIM data=work.cluster_tree LIST;var cifra_de_afaceri salariati profit lichiditate capitaluri_proprii

eps;CLASS cluster; RUN;

În urma rulării acesteia avem primele informaţii legate de numărul de observaţii, numărul variabilelor cantitative incluse în analiză, numărul de clustere luate în calcul, precum şi date referitoare la clustere şi la matricea de varianţă-covarianţă.

Astfel, pentru cele 35 de companii supuse analizei, avem 35-1=34 grade de libertate, ce au fost împărţite în 5 clase/grupe, în fiecare grupă existând deci, 30 de grade de libertate. De

15

asemenea, în tabelul Class level information, SAS oferă informaţii asupra frecvenţei oservaţiilor din fiecare clasă, proporţia acestora în fiecare clasă. Probabilităţi sunt egale pentru toate cele 5 clase.

În următoarea imagine sunt prezentate pătratele distanţelor dintre clustere şi funcţia discriminant liniară. Find dat de asemenea clasificatorul Fisher pentru fiecare clasă, putem determina combinaţia liniară discriminantă a fiecărui cluster.

16

În cele ce urmează avem clasificarea celor 35 de companii supuse analizei în clase:

Astfel avem următoarea situaţie: 15 companii au fost clasificate în primul cluster cu o probabilitate de 42.86% 16 companii au fost clasificate în al doilea cluster cu o probabilitate de 45.71% 2 companii au fost clasificate în al treilea cluster cu o probabilitate de 5.71% 1 companie a fost clasificată în al patrulea cluster cu o probabilitate de 2.86% 1 companie a fost clasificată în al patrulea cluster cu o probabilitate de 2.86%

Se constată că eroarea totală este de 1,25%, clasificatorul obținut având o putere de discriminare foarte mare.

17

Concluzii

În cadrul acestui proiect, am realizat o analiză a mai multor companii, listate la Bursa de Valori Bucureşti prin intermediul programului econometric SAS. Am pornit de la niște date inițiale (disponibile pe www.bvb.ro şi www.ktd.ro), pentru fiecare companie considerând câte 6 caracteristici (variabile): cifra de afaceri, profit, număr salariaţi, indicele de lichiditate, capitaluri proprii şi EPS (earnings per share). Aceste date au fost supuse procesului de standardizare, pentru purificarea valorilor originale.

Pentru a simplifica spațiul inițial de cauzalitate am realizat analiza componentelor principale, prin care am redus dimensionalitatea spațiului și am eliminat redundanțele informaționale. În acest fel am obținut 2 componente principale: Componenta 1 = dimensiunea companiilor formată din numărul salariaţilor, mărimea cifrei de afaceri şi a capitalurilor proprii, Componenta 2 = lichiditate, prin EPS şi prin mărimea cifrei de afaceri

Pentru realizarea clasificării obiectelor în clase prin analiza cluster am utilizat metoda Ward, care exprimă distanțele din punct de vedere al minimizării variabilității intarcluster (maximizarea variabilității intercluster). Au rezultat 5 clustere, companiile fiind grupate după anumite caracteristici comune.

În cadrul analizei discriminante în care s-a evidenţiat criteriul de discriminare şi modul de alocare a obiectelor în clase.

18

http://www.ktd.ro/

http://www.bvb.ro/

19

Date post:	07-Apr-2016
Category:	Documents
Upload:	sofia-bulgaru
View:	78 times
Download:	3 times

Proiect Analiza Datelor

Documents