+ All Categories
Home > Documents > 001-Statistica Descriptiva

001-Statistica Descriptiva

Date post: 20-Jul-2015
Category:
Upload: cabaniuc-dianna
View: 106 times
Download: 0 times
Share this document with a friend

of 21

Transcript

31.01.2012

CERCETRI DE MARKETINGTESTUL TEORETIC LUCRARE LABORATOR (SPSS)

60%

40%

TEMA 1: Statistica descriptiv1. 2. 3.

4.

Organizarea datelor Tendina central Variaia (mprtierea) datelor Asimetria i boltirea distribuiei

1

31.01.2012

1. Organizarea datelor scalate proporional (scale)Sa presupunem ca au fost obtinute urmatoarele date ale variabilei studiate: X = (7, 5, 7, 8, 4, 9, 8, 10, 5 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7). n total sunt 35 de date colectate.

1. n cazul unei distributii simple a frecventei sunt necesari urmatorii pasi:Se cauta valorile extreme din irul de date (valoarea cea mai mare si cea mai mica); Se scriu toate valorile cuprinse ntre cele doua extreme ntr-o ordine descendenta pe o coloana; Se numara de cte ori apare fiecare valoare n sirul de date; Se trece apoi n tabel, frecventa de aparitie a fiecarui numar.

2

31.01.2012

1. Obinem:Valoarea X 1 2 3 4 5 6 7 8 9 10 Frecventa f 2 0 1 3 4 4 9 7 3 2

(N=35)

2. Organizarea datelor de tip nominal sau ordinalDe exemplu, la ntrebarea cercettorului referitoare la caracteristicile produselor pe care clientii le pretuiesc cel mai mult s-au primit 20 de raspunsuri: X = (calitatea, pretul, cantitatea, calitatea, pretul, calitatea, pretul, pretul, pretul, utilitatea, calitatea, pretul, utilitatea, utilitatea, cantitatea, pretul, calitatea, calitatea,pretul, pretul). N=20

3

31.01.2012

2. Tabelul distributiei caracteristicilor produsului: (N=20)Caracteristica (x) Cantitate Calitate Utilitate Pret Frecventa (f) 2 6 3 9

3. Gruparea datelor pe intervale

Exemplu: De ordonat pe intervale, rezultatele intervievrii a 48 de subiecti. X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).

4

31.01.2012

METODA 1 (Spatz): reguliNumarul de intervale trebuie sa fie ntre 10 si 20. Stabilirea marimii intervalului (notat cu i sau h). Trei sau cinci constitue marimea cel mai des ntlnita a intervalelor. Daca un i de 5 produce mai mult de 20 de clase, atunci se trece la o marime a intervalului superioara, de obicei 10 sau un multiplu de 10. Exista si cazuri n care este nevoie de un interval i=2 pentru a pastra minimul de 10 intervale. Primul interval ncepe, de regul, cu o valoare multiplu de i ales. De exemplu, daca 22 este cel mai mic numr, iar marimea intervalului este 3, atunci vom ncepe cu valoarea 21 deoarece este multiplu de trei. Cazul i=5 este unul special. n acest caz se obisnuieste sa se utilizeze o valoare de start astfel nct mijlocul intervalului sa fie un multiplu de 5. n cazul de mai sus, n care 22 este cel mai mic rezultat, ar fi indicat sa se porneasca de la 18 (intervalul ar fi 18-22), iar mijlocul su - 20 (multiplu de cinci).

METODA 1: exemplu1. 2. 3.

Notam valorile extreme (4 si 31) Calculam diferenta dintre cele doua valori = 27 Stabilim marimea intervalului astfel nct sa obtinem ntre 10 si 20 de intervale. Daca mpartim 27 la 5 vom obtine 5,4 intervale, fapt de nedorit deoarece este prea departat de numarul intervalelor dorite (10-20). Daca mpartim 27 la o alta marime (i=3) vom obtine 9 intervale. Deoarece patru (cea mai mica valoare) nu este multiplul lui trei va trebui sa ncepem de la valoarea trei (chiar daca aceasta nu exista), ca urmare distanta dintre valorile extreme se va mari cu o unitate si va deveni 28. mpartind din nou 28 la trei vom obtine 9,33, o valoarea care ne lasa noua posibilitatea de a alege ntre o distributie cu 9 clase sau una cu 10.

5

31.01.2012

METODA 1: continuare exemplu4. 5.

6.

Vom alege distributia cu 10 intervale, pentru a asigura minumul necesar. Sa ncepe de la capatul de jos al tabelului (de la valorile mai mici). n cazul de fata vom porni de la trei, ca multiplu al marimii intervalului i=3) si vom scrie intervalele gasite. n coloana a doua a tabelului vor fi trecute valorile centrale ale intervalelor. Toate intervalele sunt egale n marime nsa pot diferi n ce priveste frecventa. Fiecare interval ncepe cu o valoare divizibila cu marimea intervalului (i=3). Se calculeaza frecventa de aparitie a tuturor valorilor cuprinse ntrun interval si le trecem n tabel n coloana trei.

METODA 1: rezultate exempluIntervalul (I) Mijlocul clasei Frecventa (f) 30-32 31 1 27-29 28 2 24-26 25 2 21-23 22 6 18-20 19 9 15-17 16 11 12-14 13 8 9-11 10 4 6-8 7 3 3-5 4 2

6

31.01.2012

4. Indicatori ai tendinei centrale Media Mediana Modul

MediaMedia este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al unei caracteristici studiate. Exista mai multe notari pentru medie: M si X barat reprezinta media unui esantion, iar (miu) este media unei populatii. Media aritmetic a unui sir de date se calculeaz astfel: X=X/N Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.

7

31.01.2012

n cazul n care sirul de date este prezentat ntr-un tabel de frecvente se aplic formula mediei ponderate: fi * Xi X = -----------------fi Unde: fi reprezinta frecventa grupata, iar Xi centrul intervalului (exemplu slide-ul urmtor).

exemplu (cazul unui tabel de frecvene) Intervalul (i) Centrul (Xi) Frecventa (fi) 30-32 31 1 27-29 28 2 24-26 25 4 21-23 22 6 18-20 19 10 15-17 16 9 12-14 13 5 9-11 10 5 6-8 7 3 3-5 4 2 = 47 Xi * fi 31 56 100 132 190 144 65 50 21 8 = 797

fi = 47

=Xi*fi= 797

X = 797 / 47 = 16,6

8

31.01.2012

MedianaMediana este acel parametru care prin pozitia sa, se afla n mijlocul seriei de date. Ea reprezinta punctul central al seriei, deoarece la stnga si la dreapta ei se situeaza cte 50% din totalitatea datelor. Mediana coincide cu media n cazul unei distributii teoretice normale si se ndeparteaza mult de aceasta daca distributia este asimetrica. Pentru a calcula mediana n cazul distributiei simple a datelor exista doua situatii: Cnd n este impar locul medianei se stabileste astfel: Loc mediana = (n+1) / 2 Cnd n este par sunt adunate valorile din centrul seriei si se mpart la doi.

1.

2.

Mediana- cazul unui ir simpluDe exemplu, irul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) Mai nti datele sunt aranjate n ordine crescatoare sau descrescatoare. Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). n acest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam cele doua valori gasite si mpartim rezultatul la doi. Astfel, Md = (8+9) / 2 = 8,5 Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). n acest caz, locul medianei este stabilit dupa formula: (n+1) / 2, (deci, poziia cinci). Respectiv, mediana Me = 8.

9

31.01.2012

Mediana cazul sirului de date sub form de tabel de frecvente

N +1 ncpm Me = x0 + h 2 nmunde: x0 este limita inferioar a intervalului median h este mrimea intervalului median (ceea ce am notat mai sus cu i) N este numarul total al cazurilor nm este frecvena intervalului median ncpm este frecvenele cumulativ pn la intervalul median

exempluIntervalul 30-32 27-29 24-26 21-23 18-20 15-17 12-14 9-11 6-8 3-5 Frecventa (fi) Frecventa cumulata 1 47 2 46 4 44 6 40 10 34 9 24 5 15 5 10 3 5 2 2 47 + 1 15 Me = 14,5 + 3 2 = 17,5 9 Centrul i 31 28 25 22 19 16 13 10 7 4

10

31.01.2012

etapele procesului de calculStabilirea punctului deasupra si dedesubtul caruia se situeaza cte 50% din cazuri (N+1)/2. n problema de fata vom avea (47+1)/2=24; Stabilirea intervalului care contine mediana. Se cauta n coloana frecventelor cumulate intervalul care corespunde locului medianei (24). Pozitia 24 din sirul de date este ocupata de o valoare cuprinsa n intervalul 15-17; Se stabileste limita inferioara a intervalului care cuprinde mediana (16+13)/2 = 14,5 ct si frecventa datelor sale (9); Se stabileste valoarea lui N/2 (23,5) Se calculeaza frecventele cumulate, care preced clasa care contine mediana si se obtine 15; Se calculeaza marimea intervalului (h=3) - care cuprinde valorile 15,16 si 17 sau altfel - diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a intervalului ce contine mediana este 3 (17,5 -14,5).

Cuartilele i decilele

Cuartilele sunt acele valori ale caracteristicii, care separ seria n patru pri egale: cuartila inferioar, notat cu Q1, este mai mare sau egal de 25% din termenii seriei i mai mic sau egal de 75% dintre ei; cuartila a doua Q2 i decila a cincea D5 coincide cu Me i separ seria n dou pri egale; cuartila superioar Q3 este mai mare sau egal de 75% din numrul termenilor i mai mic sau egal de 25% din numrul lor. n cazul n care se calculeaz decilele, seria se divide n zece pri egale folosind n acest scop nou decile (D1, D2 D9).

11

31.01.2012

Cuartilele i decileleN +1 ncpq 4 Q1 = x0 + h nq ( N + 1) ncpq 4 Q 3 = x0 + h nq 3unde: Q1, Q3 cuartila 1 (25%) i 3 (75%) x0 este limita inferioar a intervalului cuartilei, decilei h este mrimea intervalului cuartilei, decilei N este numarul total al cazurilor nq i nd frecvena intervalului cuartilei, decilei ncpq i ncpd - frecvenele cumulative pn la intervalul cuartilei, decilei

( N + 1) ncpd 10 D1 = x0 + h nd 1

exempluIntervalul 30-32 27-29 24-26 21-23 18-20 15-17 12-14 9-11 6-8 3-5 Frecventa (fi) Frecventa cumulata 1 47 2 46 4 44 6 40 10 34 9 24 5 15 5 10 3 5 2 2 47 + 1 3 34 4 Q3 = 20,5 + 3 = 21,5 6 Centrul i 31 28 25 22 19 16 13 10 7 4

12

31.01.2012

ModulModul este parametrul care corespunde celei mai mari frecvente, adica este valoarea cea mai frecvent ntlnita. Astfel, pentru sirurile de date simple modul se afla cautnd valoarea cel mai des ntlnita. Pentru sirul dat drept exemplu: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7). Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea mai ntlnita este 9 (apare de trei ori). Ca urmare modul pentru acest sir este: Mo = 9

Modul- cazul sirului de date sub form de tabel de frecventePentru date grupate, se cauta intervalul care are cea mai mare frecventa. n cazul nostru, acest interval este 18-20 n interiorul caruia se afla 10 valori. Valoarea modala este egala cu valoarea gasita n centrul acestui interval, n cazul de fata Mo = 19.Intervalul (i) Frecventa (f) Intervalul (i) 30-32 (31) 1 15-17 (16) 27-29 (28) 2 12-14 (13) 24-26 (25) 4 9-11 (10) 21-23 (22) 6 6-8 (9) 18-20 (19) 10 3-5 (4) Frecventa (f) 9 5 5 3 2

13

31.01.2012

Indicatori ai variaiei (dispersiei) Indicatorii sintetici ai variaiei sunt: 1. Amplitudinea A 2. Abaterea medie ptratic ( pentru populaie i S pentru eantion) 3. Dispersia (2 pentru populaie i S 2 pentru eantion) 4. Coeficientul de variaie (v). 1. AMPLITUDINEA: A = (Xmax Xmin) Pentru a calcula amplitudinea sirului de date: X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: 10 - 4 = 6.

Abaterea medie patratic: cazul unui ir simplu

=

(x )i =1 i

N

2

N

S=

(x x)i =1 i

n

2

n

Unde: Xi sunt valorile individuale; X este media esantionului; este media populatiei N, n este numarul de subiecti observati (mrimea populaiei i respectiv, a eantionului)

14

31.01.2012

ExempluDe calculat S pentru urmatorul sir de date: X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6X 4 6 7 9 8 5 8 3 10 6 X-X -2,6 -0,6 0,4 2,4 1,4 -1,6 1,4 -3,6 3,4 -0,6 (X-X) 2 6,76 0,36 0,16 5,76 1,96 2,56 1,96 12,96 11,56 0,36

(X-X)2 = 44,40

S=

44,40 = 2,10 10

Abaterea medie patratic: cazul seriilor cu frecvente

=

(x ) n2 i =1 i k

k

i

S=i

(x x) n2 i =1 i k

k

i

ni =1

ni =1

i

Unde: Xi sunt valorile individuale; X este media esantionului; este media populatiei n reprezint frecvenele observate

15

31.01.2012

ExempluDe calculat S pentru urmatoarele date:(i) 30-32 27-29 24-26 21-23 18-20 15-17 12-14 9-11 6-8 3-5 Xi 31 28 25 22 19 16 13 10 7 4 ni 1 2 4 6 10 9 5 5 3 2 (Xi-X) 14,04 11,04 8,04 5,04 2,04 -0,96 -3,96 -6,96 -9,96 -12,96 (Xi-X)2 197,12 121,88 64,64 25,40 4,16 0,92 15,68 48,44 99,20 167,96 ni * (Xi-X)2 197,12 243,76 258,56 152,40 41,60 8,28 78,40 242,20 297,60 335,92

X = 17,5 ni = 47 ni *(X-X)2 = 1855,84

S=

1855,84 = 6,28 47

Coeficientul de variabilitateEste utilizat n scopul stabilirii gradului de omogenitate a unui esantion si se obtine prin raportarea abaterii standard la media esantionului. Rezultatul obtinut se raporteaza apoi n procente.

V=

S 100 x

Unde: S este abaterea standard a esantionului studiat; X este media eantionului. Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea: V = (2,7/11,4)*100 = 23,68% Pentru cazul de mai sus V = (6,28/17,5)*100 = 36%

16

31.01.2012

Interpretarea coeficientului de variabilitatedaca coeficientul este cuprins ntre 0 si 15%, nseamna ca mprastierea datelor (variaia) este foarte mica, iar media este reprezentativa, deoarece esantionul masurat este omogen; daca valoarea lui este ntre 15 si 30%, variaia datelor este mijlocie, media fiind nca suficient de reprezentativa; daca coeficientul depaseste 30%, media nu este reprezentativa pentru esantionul n cauza, fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului.

Indicii de asimetrie si boltireExista situatii destul de frecvente cnd media nu corespunde cu mediana. Daca ele ar coincide am vorbi despre o distributie complet simetrica, specifica unei distributii normale teoretice. Indicele de asimetrie (de oblicitate) ne arata n ce masura media se ndeparteaza de mediana, si implicit, n ce masura curba de distributie normala a datelor se departeaza de mijloc, deplasndu-se spre stnga sau spre dreapta. Sunt considerate distributii relativ normale cazurile n care acesti indicatori nu depasesc 1,96 abateri medii patratice. Vorbim despre o asimetrie pozitiva n situatia n care media este mai mare dect mediana, caz n care indicele de asimetrie ia valori pozitive si apare o deplasare a datelor spre stnga. Vorbim despre o asimetrie negativ n situatia n care media este mai mic dect mediana, caz n care indicele de asimetrie ia valori negative si apare o deplasare a datelor spre dreapta.

17

31.01.2012

Reprezentarea grafic

fi fmax

fi fmax

fi fmax

xi x =Me=Mo serie perfect simetric Mo Me x

xi x Me Mo

xi

asimetrie pozitiv

asimetrie negativ

Asimetrie (skewness)

Formula de calcul a coeficientului de asimetrie Ca:

Ca =

( xi x )3 n 3

unde este abaterea medie patratic de sondaj Dac Ca =0 serie simetric. Dac Ca>0 serie cu asimetrie pozitiv (deplasare spre stnga). Dac Ca0, atunci distribuia are forma ascuit iar dac Cb


Recommended