+ All Categories

Curs 5

Date post: 02-Oct-2015
Category:
Upload: andreea-deea
View: 216 times
Download: 0 times
Share this document with a friend
Description:
g
20
1 STATISTICĂ CURS 5 Măsuri statistice descriptive pentru date univariate (II) A. Măsurarea tendinţei centrale
Transcript
  • *STATISTIC CURS 5 Msuri statistice descriptive pentru date univariate (II)Msurarea tendinei centrale

  • *Indicatori ai poziiei relative cuantilele

    Cuantilele (percentile, n engl.) reprezint niveluri ale variabilei care caracterizeaz poziia relativ a unui nivel individual n setul de date

    Cuantilele au aceeai unitate de msur ca i caracteristica studiat

    Cuantilele realizeaz o divizare a distribuiei ntr-un numr de k pri egale

    Cuantilele pot fi folosite pentru a analiza forma distribuiei

  • *Indicatori ai poziiei relative cuantilelen caracterizarea unui set de date, cele mai uzuale cuantile sunt:Cuantila de ordin 2 ( mediana )Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care mpart seria n patru pri egale, delimitnd cte 25% din observaii, Q2=Me) Cuantilele de ordin 10 (decile, notate D1, ...., D9 i care delimiteaz cte 10% din observaii, D5 = Me)Cuantilele de ordin 100 (centile, care delimiteaz cte 1% din observaii)

    Cuantilele de ordin mai mare dect 2 se folosesc n cazul seturilor de date de volum mare ( )

  • *Indicatori ai poziiei relative cuantilele

  • *Indicatori ai poziiei relative cuantileleSe utilizeaz cinci indicatori, din categoria indicatorilor medii de poziie care ofer informaii privind tendina central, variabilitatea i forma distribuiei variabilei studiate:

    - valoarea minim -xmin (numit i percentila 0);- cuartila inferioar -Q1 (delimiteaz cele mai mici 25% din valori);- mediana -Me (delimiteaz 50% din valori);- cuartila superioar -Q3 (delimiteaz cele mai mari 25% din valori);- valoarea maxim -xmax (numit i percentila 100)Cele cinci valori se reprezint grafic prin intermediul diagramei Box-Plot

  • *Indicatori ai poziiei relative cuantileleDiagrama Box-Plot

  • *Indicatori ai poziiei relative cuantileleValorile extreme (outliers, n engl.) ale unei serii de date se determin, pe baza diagramei Boxplot, astfel:

    IQR se numete abatere intercuartilic (InterQuartile Range)

  • *ModulModul (Mo, mode n engl.) reprezint valoarea cel mai des ntlnit ntr-o serie de date (valoarea care are cea mai mare frecven de apariie)

    Valoarea modal se poate determina pentru orice tip de variabil (nenumeric sau numeric), indiferent de scala de msurare. Modul este singurul indicator ce poate fi determinat pentru variabilele msurate pe scala nominal.Grafic, ntr-o histogram ori poligon al frecvenelor, modul reprezint valoarea de pe abscis, corespunztoare vrfului reprezentrii. O serie de date statistice poate s aib una sau mai multe valori modale.

    O distribuie cu un singur mod se numete unimodal (a), o distribuie este bimodal (b) dac are dou valori dominante i multimodal (c) dac are mai mult de dou valori modale.

  • *Modul

  • *ModulI. Determinarea modului pentru o variabil nenumeric

    Considerm exemplul referitor la distribuia muzeelor dup tipul acestora:

    Sursa: Anuarul Statistic al Romniei, 2008.

    Tipul muzeuluiNr. muzeelor (la sf. anului)tiinele naturii44Istoria tehnicii i tiinei21Istorie117Etnografie115Mo = Istoria culturii= 152Art149Mixte70Total668

  • *ModulII. Determinarea modului pentru o variabil numeric a) Serie simpl (date nesistematizate)

    Pentru o serie numeric de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41}, Mo = 32, deoarece valoarea 32 apare de cele mai multe ori. Dac toate valorile apar cu aceeai frecven spunem c seria nu are mod.

    b) Serie de distribuie de frecvene (date sistematizate) Dac datele sunt sistematizate pe intervale de variaie modul se determin, prin interpolare astfel:

  • *MODUL 1. Se identific intervalul modal (intervalul cu frecvena maxim)

    2. Se calculeaz modul, ca centrul intervalului modal sau prin relaia:

    unde:x0 este limita inferioar a intervalului modal;h este mrimea intervalului modal;

    este diferena ntre frecvena intervalului modal i frecvena intervalului anterior celui modal;

    este diferena ntre frecvena intervalului modal i frecvena intervalului urmtor celui modal;

  • *ModulExempluSe cunoate distributia a 200 de agenti economici in functie de cifra de afaceri:Cele mai multe firme au realizat o cifr de afaceri de aproximativ 30,67 zeci mii euro.

    Intervale de variaie a cifrei de afaceri (zeci mii euro)Numr de ageni economici (ni) 5-15515-251525-3512035-454045-5520Total200

  • *Analiza comparativ a indicatorilor tendinei centralePentru a obine o imagine complet asupra unui fenomen economico-social se determin i analizez att cei trei indicatori ai tendinei centrale, ct i relaia dintre ei.

    Media poate fi utilizat cnd setul de date este (cel puin aproximativ) normal distribuit i, n acest caz, este cel mai potrivit indicator pentru a caracteriza tendina central.Media este indicatorul care va fi utilizat cel mai des deoarece rspunde cel mai bine scopului inferenei statistice.Media este mai stabil i mai puin sensibil la fluctuaiile de selecie dect mediana Media poate fi supus cu uurin calculelor algebrice, spre deosebire de median

    Dac seria se compune din mai multe subserii componente, mediana seriei rezultante nu se poate exprima prin medianele subseriilor componente.

  • *Analiza comparativ a indicatorilor tendinei centraleModul poate fi calculat pentru orice set de date univariate Modul poate fi afectat de modalitatea de construire a intervalelor, pentru date numerice grupate.

    Mediana poate fi calculat pentru orice tip de date, cu excepia celor nominale (care nu pot fi ordonate).Mediana este indicat atunci cnd:

    - datele sunt profund asimetrice - exist valori extreme - datele sunt msurate pe scala ordinal

  • *Analiza comparativ a indicatorilor tendinei centraleCei trei indicatori medii (de calcul i de poziie) ofer, informaii pertinente privind forma distribuiei ntr-o serie de date statistice: pentru o distribuie simetric, media, mediana i modul coincid (a). dac distribuia este cu tendin de normalitate, dar asimetric spre dreapta, adic spre valori mari (cu coada mai lung a distribuiei spre valorile mari), atunci (b);dac distribuia este cu tendin de normalitate, dar asimetric spre stnga, adic spre valori mici (cu coada mai lung a distribuiei spre valorile mici), atunci (c).

  • *Analiza comparativ indicatorilor tendinei centralePentru repartiii moderat asimetrice, exist o relaie:

  • *Alte tipuri de medii 1. MEDIA ARMONIC =medie de calcul, cu aplicaii speciale, care se determin, ca valoarea invers a mediei aritmetice, calculat din inversele valorilor seriei:

    Media armonic este folosit:

    - n situaia n care distribuia este profund asimetric, n forma de J, cu predominan a valorilor mici;- la calculul nivelului mediu al unei caracteristici derivate, cu caracter de mrime relativ sau mrime medie (preurile (n u.m./kg), vitezele (n km/h) sau productivitatea (cantitate/factor de producie));- dac ntre dou variabile exist o relaie de invers proporionalitate, atunci, dac pentru una folosim media aritmetic drept indicator al tendinei centrale, pentru cealalt vom folosi media armonic

  • *Alte tipuri de medii2. MEDIA PTRATIC = medie de calcul cu aplicaii speciale i reprezint valoarea care, nlocuind termenii seriei, nu modific suma ptratelor lor:

    Media ptratic este folosit:

    - n situaia n care distribuia este asimetric, predominnd valorile mari;- n determinarea unor indicatori ai mprtierii fa de tendina central, atunci cnd dorim s acordm o importan crescut abaterilor mari ale termenilor de la tendina central.

  • *Alte tipuri de medii3. Media geometric se calculeaz ca rdcina de ordinul n din produsul celor n valori ale unei serii de date:

    Media geometric este zero dac una dintre valorile variabilei este zeroMedia geometric nu se determn dac variabila ia i valori negative. n practic, media geometric se folosete pentru calculul indicelui mediu de modificare a unui fenomen.

    ntre mediile de calcul prezentate exist relaia: .


Recommended