proiect spss

Post on 23-Dec-2016

110 views 16 download

transcript

UNIVERSITATEA “VASILE ALECSANDRI” BACĂU

FACULTATEA DE ŞTIINŢE ECONOMICE

SPECIALIZAREA MARKETING

PROIECT

ANALIZA INFORMAŢIILOR DE MARKETING

UTILIZÂND SPSS

Profesor StudentAsist. univ. drd. Oana Ancuţa STÂNGACIU Vlasceanu Daniel Alexandru

2

Cerintele proiectului:

Alegeti din “Anuarul Statistic al Romaniei” sau din baza de date TEMPO online – serii de timp

a I.N.S. de pe site-ul www.insse.ro 2 variabile aflate intr-o oarecare dependenta una de alta, pentru

toate cele 41 judete (fara municipiul Bucuresti).

Folosind SPSS, introduceti datele si analizati:

Indicatorii medii si ai variatiei pentru fiecare din cele doua variabile folosind metode

diferite de analiza.

Efectuati grafice specifice pentru cele doua distributii si pentru indicatorii calculati.

Efectuati o analiza bivariata a datelor selectate.

Analizati legatura dintre cele doua variabile si stabiliti care este cel mai potrivit model

de regresie.

3

Pentru proiectul de fata am ales ca variabile de pe site-ul www.insse.ro suprafata cultivata cu

grau in anul 2008 si productia de grau in acelasi an.

Am deschis o sesiune de lucru in SPSS si am definit variabilele in fereastra Variable View.

Primul pas dupa definirea variabilelor a fost stabilirea atributelor fiecarei variabile in parte. Pentru

variabila Judet am ales ca tip String (alfa numerica) cu o lungime de 50 de carcatere.

Pentru variabilele Suprafata_cultivata si Productie am stabilit tipul variabilei ca fiind

Numeric, lungimea de 16 caractere si numarul de zecimale egal cu zero.

Am introdus etichetele (Label) pentru fiecare variabila in parte.

4

Indicatorii medii si ai variatiei pentru fiecare din cele doua variabile, folosind

metode diferite de analiza.

Suprafata cultivate

5

Primul pas in calculul indicatorilor a fost deschiderea ferestrei Analyze->Descriptive Statistics-

>Frequencies. Am mutat in casuta Variable(s) suprafata cultivata, apoi am intrat in optiunea Statistics

unde am bifat urmatorii indicatori: Quartiles, Mean, Median, Mode, Sum, Std. Deviation, Variance,

Range, Minimum, Maximum si Skewness.

6

N = 41 -> baza de date cuprinde 41 de judete analizate

Mean = 49079 -> suprafata medie cultivata in cele 41 de judete este de 49079 hectare

Median = 33282 -> jumatate din judetele analizate au o suprafata cultivata sub 33282 hectare si

jumatate peste

Mode = 6836 -> avem module multiple si de aceea este indicata doar cea mai mica valoare

Std. Deviation = 50028 -> aproximativ 68% dintre judeţe au o suprafaţǎ cultivatǎ cu grau cuprinsǎ

într-un interval egal cu media plus sau minus valoarea abaterii medii pǎtratice, respectiv: 49079 +/-

50028;

Variance = 2502836064

Skewness = 2

Range = 222571 -> diferenţa dintre cea mai mare si cea mai micǎ suprafaţǎ cultivatǎ cu grau este de

222571 hectare ( amplitudinea);

Maximum = 229407 -> cea mai mare suprafaţǎ cultivatǎ cu grau este de 229407 hectare

Minimum = 6836 -> cea mai mica suprafaţǎ cultivatǎ cu grau este de 6836 hectare

7

Optiunea Analyze->Descriptive Statistics-> Descriptives.

Optiunea Analyze->Reports-> Case Summaries.

8

Se observa ca prin toate cele 3 metode rezultatele sunt aceleasi.

Productie de grau

9

Primul pas in calculul indicatorilor a fost deschiderea ferestrei Analyze->Descriptive Statistics-

>Frequencies. Am mutat in casuta Variable(s) productia, apoi am intrat in optiunea Statistics unde am

bifat urmatorii indicatori: Quartiles, Mean, Median, Mode, Sum, Std. Deviation, Variance, Range,

Minimum, Maximum si Skewness.

10

N = 41 -> baza de date cuprinde 41 de judete analizate

Mean = 134769 -> productia medie obtinuta in cele 41 de judete este de 134769 tone

Median = 76221 -> jumatate din judetele analizate au obtinut o productie de grau de sub 76221 tone si

jumatate peste

Mode = 14334-> avem module multiple si de aceea este indicata doar cea mai mica valoare

Std. Deviation = 135764 -> aproximativ 68% dintre judeţe au o productie de grau cuprinsǎ într-un

interval egal cu media plus sau minus valoarea abaterii medii pǎtratice, respectiv: 134769 +/- 135764;

Variance = 18431817509

Skewness = 2

Range = 558052 -> diferenţa dintre cea mai mare si cea mai micǎ productie de grau obtinuta este de

558052 tone ( amplitudinea);

Maximum = 572386 -> cea mai mare productie de grau obtinuta este de 572386 tone

Minimum = 14334 -> cea mai mica productie de grau obtinuta este de 14334 tone

Efectuati grafice specifice pentru cele doua distributii si pentru indicatorii

calculati.

11

Suprafata cultivata

Histograma

Histograma realizatǎ pentru variabila suprafaţa cultivatǎ cu grau prin comanda: Graphs ->

Legacy Dialogs ->Histogram

12

Interpretarea rezultatelor: Distributia seriei dupǎ nivelul suprafeţei cultivate cu grau prezintǎ o

asimetrie spre dreapta, predominând suprafeţele mai mici cultivate cu grau.

13

Boxplot

Boxplot realizat pentru variabila suprafaţa cultivatǎ cu grau prin comanda: Graphs -> Legacy

Dialogs ->Boxplot

14

Interpretarea rezultatelor: distributia seriei dupa nivelul suprafetei cultivate cu grau prezinta

o asimetrie puternica.

Q-Q Plot

15

Interpretarea rezultatelor: în cazul suprafeţei cultivate cu grau graficul se apropie de

normal.

16

Productia obtinuta

Histograma

17

Interpretarea rezultatelor: Distributia seriei dupǎ nivelul productiei de grau obtinute prezintǎ

o asimetrie spre dreapta, predominând productiile mai mici de grau.

Boxplot

18

Interpretarea rezultatelor: distributia seriei la nivelul productiei de grau obtinute prezinta o

asimetrie puternica.

19

Q-Q Plot

Interpretarea rezultatelor: în cazul productiei de grau obtinute graficul se apropie de normal.20

Grafic pentru ambele variabile

Scatterplot

21

Interpretarea rezultatelor: Diagrama ne arata ca intre cele 2 variabile exista o legatura

liniara, directa si stransa.

22

Efectuati o analiza bivariata a datelor selectate

Suprafata cultivata – grupare pe intervale

Pentru a cuprinde in cadrul intervalelor atat valoarea minima, cat si cea maxima, am ales ca

dimensiune a intervalului valoarea de 58000.

23

24

Productia obtinuta – grupare pe intervale

Pentru a cuprinde in cadrul intervalelor atat valoarea minima, cat si cea maxima, am ales ca

dimensiune a intervalului valoarea de 144000.

25

26

27

Construim tabelul de asociere

28

Calcularea mediilor si variaitiilor

29

Interpretarea celor mai importante rezultate din outut:

N = 41 pe total ->in analiza de fata au fost luate in calcul 41 de judete, din care spre exemplu 5 au o

suprafata cultivata cu grau cuprinsa intre 58000 si 116000 hectare;

30

Mean = 145756 tone pe total -> productia medie obtinuta pe totalul judetelor a fost de 145756 tone, in

vreme ce productia medie obtinuta in cadrul judetelor cu o suprafata cultivata cuprinsa intre 58000 si

116000 hectare a fost de 244800 tone.

Median = 72000 tone pe total -> jumatate din judetele considerate au avut o productie obtinuta sub

72000 tone, in vreme ce jumatate din judetele cu suprafata cuprinsa intre 58000 si 116000 hectare au

avut o productie de sub 216000 tone.

Std. Deviation = 125213 tone pe total -> aproximativ 68% din judetele considerate au o productie

cuprinsa intr-un interval egal cu media plus sau minus valoarea abaterii medii patratice, respectiv

145756+/-125213 tone, in timp ce aproximativ 68% din judetele cu o suprafata cuprinsa intre 58000 si

116000 hectare au o productie cuprinsa in intervalul 244800+/-64398,8 tone.

Calculul indicatorilor variatiei folosind ANOVA

31

32

Interpretarea celor mai importante rezultate din output:

Tabelul Descriptives ofera indicatorii tendintei centrale si ai dispersiei pentru o distributie

bivariata (se observa ca sunt aproximativ aceleasi informatii obtinute prin comanda Analyze-

>Reports->Case Summaries prezentata anterior)

Tabelul ANOVA ofera rezultatele analizei de variatie:

Sum of Squares Between Groups (suma patratelor abaterilor intre grupe) = 5.544E11 ->

plecand de la aceasta valoare se poate calcula dispersia si abaterea medie patratica intre

grupe. Dispersia intre grupe se calculeaza impartind Sum of Squares Between Groups la

numarul total al judetelor considerate, iar abaterea medie patratica intre grupe scotand

radical din dispersia intre grupe

Sum of Squares Within Groups (suma patratelor abaterilor de grupa) = 7.278E10 ->

plecand de la aceasta valoare se poate calcula dispersia si abaterea media patratica de

grupa. Dispersia se calculeaza impartind Sum of Squares Within Groups la numarul

total al judetelor considerate, iar abaterea medie patratica scotand radical din dispersie

Sum of Squares Total (suma patratelor abaterilor colectivitatii) = 6.271E11 -> plecand

de la aceasta valoare se poate calcula dispersia si abaterea media patratica pe total.

Dispersia se calculeaza impartind Sum of Squares Total la numarul total al judetelor

considerate, iar abaterea medie patratica scotand radical din dispersie

Testul F respectiv valoarea Sig.=0,000 -> cu aceasta valoare mai mica decat 0,05, testul

F este semnificativ, ceea ce inseamna ca exista o diferenta semnificativa intre cele 4

grupe de suprafata in raport cu productia obtinuta

Analizati legatura dintre cele doua variabile si stabiliti care este cel mai potrivit

model de regresie.

33

Analiza regresiei

Construirea corelogramei sau a norului de puncte prin comanda Graphs->Legacy Dialogs->

Interactive->Scatterplot

34

R Sq in valoare de 0.96 este mai mare decat 0.65, rezulta avem de-a facec cu o legatura

puternica.

In continuare vom aproxima forma legaturii printr-un model de regresie utilizand optiunea

Analyze->Regression->Curve Estimation

35

36

37

Cele mai bune 3 modele sunt in ordine: quadratic, cubic, liniar.

38

39

40

41

Odata cu crearea rezultatelor in output, in Data Editor, in foaia Data View, gasim noile

variabile create de SPSS ca urmare a optiunilor exprimate in fereastra Curve Estimation: Save, care

reprezinta valorile estimate ale variabilei dependente (FIT), valorile reziduale (ERR) si limitele

inferioare si superioare ale intervalului de incredere (LCL si UCL) pentru fiecare model de regresie

ales.

42

Am ales ca cel mai bun model de regresie pe cel liniar, pentru ca R Square este mare (0,960)

si gradul de semnificatie al testelor F si t este 0,000. Deci ecuatia de regresie cea mai potrivita este cea

liniara si are urmatoarea forma:

Y= 4259.623+2.659X

Interpretare: la o crestere cu 1 hectar a suprafetei, productia va creste cu 2.659 tone.

Analiza corelatiei

43

Coeficientul de corelatie Pearson este egal cu 0.980, ceea ce inseamna ca intre variabile

exista o corelatie directa, puternica, valoarea acestuia fiind foarte apropiata de 1.

Testarea semnificatiei coeficientului de corelatie este realizata cu ajutorul testului t. Valoarea

Sig. (2-tailed) corespunzatoare, egala cu 0.000 si este mai mica decat 0.001, ceea ce inseamna ca sunt

sanse mai mici de 1% de a gresi daca afirmam ca intre cele doua variabile exista o corelatie

semnificativa.

44