Post on 23-Dec-2016
transcript
UNIVERSITATEA “VASILE ALECSANDRI” BACĂU
FACULTATEA DE ŞTIINŢE ECONOMICE
SPECIALIZAREA MARKETING
PROIECT
ANALIZA INFORMAŢIILOR DE MARKETING
UTILIZÂND SPSS
Profesor StudentAsist. univ. drd. Oana Ancuţa STÂNGACIU Vlasceanu Daniel Alexandru
2
Cerintele proiectului:
Alegeti din “Anuarul Statistic al Romaniei” sau din baza de date TEMPO online – serii de timp
a I.N.S. de pe site-ul www.insse.ro 2 variabile aflate intr-o oarecare dependenta una de alta, pentru
toate cele 41 judete (fara municipiul Bucuresti).
Folosind SPSS, introduceti datele si analizati:
Indicatorii medii si ai variatiei pentru fiecare din cele doua variabile folosind metode
diferite de analiza.
Efectuati grafice specifice pentru cele doua distributii si pentru indicatorii calculati.
Efectuati o analiza bivariata a datelor selectate.
Analizati legatura dintre cele doua variabile si stabiliti care este cel mai potrivit model
de regresie.
3
Pentru proiectul de fata am ales ca variabile de pe site-ul www.insse.ro suprafata cultivata cu
grau in anul 2008 si productia de grau in acelasi an.
Am deschis o sesiune de lucru in SPSS si am definit variabilele in fereastra Variable View.
Primul pas dupa definirea variabilelor a fost stabilirea atributelor fiecarei variabile in parte. Pentru
variabila Judet am ales ca tip String (alfa numerica) cu o lungime de 50 de carcatere.
Pentru variabilele Suprafata_cultivata si Productie am stabilit tipul variabilei ca fiind
Numeric, lungimea de 16 caractere si numarul de zecimale egal cu zero.
Am introdus etichetele (Label) pentru fiecare variabila in parte.
4
Indicatorii medii si ai variatiei pentru fiecare din cele doua variabile, folosind
metode diferite de analiza.
Suprafata cultivate
5
Primul pas in calculul indicatorilor a fost deschiderea ferestrei Analyze->Descriptive Statistics-
>Frequencies. Am mutat in casuta Variable(s) suprafata cultivata, apoi am intrat in optiunea Statistics
unde am bifat urmatorii indicatori: Quartiles, Mean, Median, Mode, Sum, Std. Deviation, Variance,
Range, Minimum, Maximum si Skewness.
6
N = 41 -> baza de date cuprinde 41 de judete analizate
Mean = 49079 -> suprafata medie cultivata in cele 41 de judete este de 49079 hectare
Median = 33282 -> jumatate din judetele analizate au o suprafata cultivata sub 33282 hectare si
jumatate peste
Mode = 6836 -> avem module multiple si de aceea este indicata doar cea mai mica valoare
Std. Deviation = 50028 -> aproximativ 68% dintre judeţe au o suprafaţǎ cultivatǎ cu grau cuprinsǎ
într-un interval egal cu media plus sau minus valoarea abaterii medii pǎtratice, respectiv: 49079 +/-
50028;
Variance = 2502836064
Skewness = 2
Range = 222571 -> diferenţa dintre cea mai mare si cea mai micǎ suprafaţǎ cultivatǎ cu grau este de
222571 hectare ( amplitudinea);
Maximum = 229407 -> cea mai mare suprafaţǎ cultivatǎ cu grau este de 229407 hectare
Minimum = 6836 -> cea mai mica suprafaţǎ cultivatǎ cu grau este de 6836 hectare
7
Optiunea Analyze->Descriptive Statistics-> Descriptives.
Optiunea Analyze->Reports-> Case Summaries.
8
Se observa ca prin toate cele 3 metode rezultatele sunt aceleasi.
Productie de grau
9
Primul pas in calculul indicatorilor a fost deschiderea ferestrei Analyze->Descriptive Statistics-
>Frequencies. Am mutat in casuta Variable(s) productia, apoi am intrat in optiunea Statistics unde am
bifat urmatorii indicatori: Quartiles, Mean, Median, Mode, Sum, Std. Deviation, Variance, Range,
Minimum, Maximum si Skewness.
10
N = 41 -> baza de date cuprinde 41 de judete analizate
Mean = 134769 -> productia medie obtinuta in cele 41 de judete este de 134769 tone
Median = 76221 -> jumatate din judetele analizate au obtinut o productie de grau de sub 76221 tone si
jumatate peste
Mode = 14334-> avem module multiple si de aceea este indicata doar cea mai mica valoare
Std. Deviation = 135764 -> aproximativ 68% dintre judeţe au o productie de grau cuprinsǎ într-un
interval egal cu media plus sau minus valoarea abaterii medii pǎtratice, respectiv: 134769 +/- 135764;
Variance = 18431817509
Skewness = 2
Range = 558052 -> diferenţa dintre cea mai mare si cea mai micǎ productie de grau obtinuta este de
558052 tone ( amplitudinea);
Maximum = 572386 -> cea mai mare productie de grau obtinuta este de 572386 tone
Minimum = 14334 -> cea mai mica productie de grau obtinuta este de 14334 tone
Efectuati grafice specifice pentru cele doua distributii si pentru indicatorii
calculati.
11
Suprafata cultivata
Histograma
Histograma realizatǎ pentru variabila suprafaţa cultivatǎ cu grau prin comanda: Graphs ->
Legacy Dialogs ->Histogram
12
Interpretarea rezultatelor: Distributia seriei dupǎ nivelul suprafeţei cultivate cu grau prezintǎ o
asimetrie spre dreapta, predominând suprafeţele mai mici cultivate cu grau.
13
Boxplot
Boxplot realizat pentru variabila suprafaţa cultivatǎ cu grau prin comanda: Graphs -> Legacy
Dialogs ->Boxplot
14
Interpretarea rezultatelor: distributia seriei dupa nivelul suprafetei cultivate cu grau prezinta
o asimetrie puternica.
Q-Q Plot
15
Interpretarea rezultatelor: în cazul suprafeţei cultivate cu grau graficul se apropie de
normal.
16
Productia obtinuta
Histograma
17
Interpretarea rezultatelor: Distributia seriei dupǎ nivelul productiei de grau obtinute prezintǎ
o asimetrie spre dreapta, predominând productiile mai mici de grau.
Boxplot
18
Interpretarea rezultatelor: distributia seriei la nivelul productiei de grau obtinute prezinta o
asimetrie puternica.
19
Q-Q Plot
Interpretarea rezultatelor: în cazul productiei de grau obtinute graficul se apropie de normal.20
Grafic pentru ambele variabile
Scatterplot
21
Interpretarea rezultatelor: Diagrama ne arata ca intre cele 2 variabile exista o legatura
liniara, directa si stransa.
22
Efectuati o analiza bivariata a datelor selectate
Suprafata cultivata – grupare pe intervale
Pentru a cuprinde in cadrul intervalelor atat valoarea minima, cat si cea maxima, am ales ca
dimensiune a intervalului valoarea de 58000.
23
24
Productia obtinuta – grupare pe intervale
Pentru a cuprinde in cadrul intervalelor atat valoarea minima, cat si cea maxima, am ales ca
dimensiune a intervalului valoarea de 144000.
25
26
27
Construim tabelul de asociere
28
Calcularea mediilor si variaitiilor
29
Interpretarea celor mai importante rezultate din outut:
N = 41 pe total ->in analiza de fata au fost luate in calcul 41 de judete, din care spre exemplu 5 au o
suprafata cultivata cu grau cuprinsa intre 58000 si 116000 hectare;
30
Mean = 145756 tone pe total -> productia medie obtinuta pe totalul judetelor a fost de 145756 tone, in
vreme ce productia medie obtinuta in cadrul judetelor cu o suprafata cultivata cuprinsa intre 58000 si
116000 hectare a fost de 244800 tone.
Median = 72000 tone pe total -> jumatate din judetele considerate au avut o productie obtinuta sub
72000 tone, in vreme ce jumatate din judetele cu suprafata cuprinsa intre 58000 si 116000 hectare au
avut o productie de sub 216000 tone.
Std. Deviation = 125213 tone pe total -> aproximativ 68% din judetele considerate au o productie
cuprinsa intr-un interval egal cu media plus sau minus valoarea abaterii medii patratice, respectiv
145756+/-125213 tone, in timp ce aproximativ 68% din judetele cu o suprafata cuprinsa intre 58000 si
116000 hectare au o productie cuprinsa in intervalul 244800+/-64398,8 tone.
Calculul indicatorilor variatiei folosind ANOVA
31
32
Interpretarea celor mai importante rezultate din output:
Tabelul Descriptives ofera indicatorii tendintei centrale si ai dispersiei pentru o distributie
bivariata (se observa ca sunt aproximativ aceleasi informatii obtinute prin comanda Analyze-
>Reports->Case Summaries prezentata anterior)
Tabelul ANOVA ofera rezultatele analizei de variatie:
Sum of Squares Between Groups (suma patratelor abaterilor intre grupe) = 5.544E11 ->
plecand de la aceasta valoare se poate calcula dispersia si abaterea medie patratica intre
grupe. Dispersia intre grupe se calculeaza impartind Sum of Squares Between Groups la
numarul total al judetelor considerate, iar abaterea medie patratica intre grupe scotand
radical din dispersia intre grupe
Sum of Squares Within Groups (suma patratelor abaterilor de grupa) = 7.278E10 ->
plecand de la aceasta valoare se poate calcula dispersia si abaterea media patratica de
grupa. Dispersia se calculeaza impartind Sum of Squares Within Groups la numarul
total al judetelor considerate, iar abaterea medie patratica scotand radical din dispersie
Sum of Squares Total (suma patratelor abaterilor colectivitatii) = 6.271E11 -> plecand
de la aceasta valoare se poate calcula dispersia si abaterea media patratica pe total.
Dispersia se calculeaza impartind Sum of Squares Total la numarul total al judetelor
considerate, iar abaterea medie patratica scotand radical din dispersie
Testul F respectiv valoarea Sig.=0,000 -> cu aceasta valoare mai mica decat 0,05, testul
F este semnificativ, ceea ce inseamna ca exista o diferenta semnificativa intre cele 4
grupe de suprafata in raport cu productia obtinuta
Analizati legatura dintre cele doua variabile si stabiliti care este cel mai potrivit
model de regresie.
33
Analiza regresiei
Construirea corelogramei sau a norului de puncte prin comanda Graphs->Legacy Dialogs->
Interactive->Scatterplot
34
R Sq in valoare de 0.96 este mai mare decat 0.65, rezulta avem de-a facec cu o legatura
puternica.
In continuare vom aproxima forma legaturii printr-un model de regresie utilizand optiunea
Analyze->Regression->Curve Estimation
35
36
37
Cele mai bune 3 modele sunt in ordine: quadratic, cubic, liniar.
38
39
40
41
Odata cu crearea rezultatelor in output, in Data Editor, in foaia Data View, gasim noile
variabile create de SPSS ca urmare a optiunilor exprimate in fereastra Curve Estimation: Save, care
reprezinta valorile estimate ale variabilei dependente (FIT), valorile reziduale (ERR) si limitele
inferioare si superioare ale intervalului de incredere (LCL si UCL) pentru fiecare model de regresie
ales.
42
Am ales ca cel mai bun model de regresie pe cel liniar, pentru ca R Square este mare (0,960)
si gradul de semnificatie al testelor F si t este 0,000. Deci ecuatia de regresie cea mai potrivita este cea
liniara si are urmatoarea forma:
Y= 4259.623+2.659X
Interpretare: la o crestere cu 1 hectar a suprafetei, productia va creste cu 2.659 tone.
Analiza corelatiei
43
Coeficientul de corelatie Pearson este egal cu 0.980, ceea ce inseamna ca intre variabile
exista o corelatie directa, puternica, valoarea acestuia fiind foarte apropiata de 1.
Testarea semnificatiei coeficientului de corelatie este realizata cu ajutorul testului t. Valoarea
Sig. (2-tailed) corespunzatoare, egala cu 0.000 si este mai mica decat 0.001, ceea ce inseamna ca sunt
sanse mai mici de 1% de a gresi daca afirmam ca intre cele doua variabile exista o corelatie
semnificativa.
44