+ All Categories

Download - Statistic A

Transcript

Alexandru Mircea Imbroane Statistic-suport de cursPARTEA ISTATISTIC DESCRIPTIV Scurt istoricntr-o prim concepie, statistica echivala cu descrierea statului, expunerea situaiei geografice, economice i politice.Acest gen de statistic a fost cultivat mai nti de italieni. nc dinsec. XIII -XIVnRepublicaVeneia se elaborau diferite rapoarte care conineau informaii privitoare la partenerii si comerciali i au fost utilizate n politica comercial oficial.Curentul "descriereastatului"a atins apogeul n sec. XVII- XVII cnd, n Germania, s-a constituit o adevrat coal cunoscut sub denumirea de coala descriptiv german.Descrierea statului adevenit disciplin depredare acadamic, ncadrat ntr-unsistem construit dup norme teoretice i practice, care s-au elaborat i dezvoltat n universitile germane. Noua disciplin (Staatskunde), a primit numele de statistic (Statistik).Pe vremea constituirii statisticii ca disciplin descriptiv a statului, se ntea n Anglia, n afarauniversitilor, ostatisticcunoscutsubnumeledearitmeticapolitic, acrui scopera: analiza datelor de observaie prin procedee matematice, desprinderea regularitilor n fenomenul social i chiar formularea de previziuni. Studiile demografice lsau s se ntrevad c previziunea fenomenelor colective ar putea avea o nsemntate practic; dealtfel tabelele de mortalitate, ntocmitensec. XVIII auconstituit punctul deplecareal nfloritoarei industrii deasigurri. Folosirea metodei statistice, recurgerea la instrumentul matematic i cutarea legitilor marcau un substanial progres, prefigurnd statistica modern.Estedificil ssedeaodefiniiesatisfctoarestatisticii. nlimbaj uzual termenul este folosit pentruadesemnaocoleciedenumerereferitoarelaunanumit domeniu(demografie, precipitaii, debite).n sens tehnic (mai precis matematic) statistica este un instrument al matematicii utilizat pentru prelucrarea i interpretarea informaiilor numerice.Scopul statisticiiStatistica poate fi clasificat n dou mari categorii:- statistica descriptiv- statistica analitic.1Alexandru Mircea Imbroane Statistic-suport de cursStatistica descriptivse ocup de prezentarea, clasificarea i sintetizarea datelor de observaie. Aceastaconcentreazinformaiaexistentndatelerespectivecuajutorul anumitor indicatori statistici care, nfond, sunt nitenumereceexprim caracteristici sautendine ale fenomenului studiat.Statistica analiticfolosete metode matematice (teoria probabilitilor) pentru extragerea i prelucrea informaiei statistice; n multe cazuri aceste metode pun n eviden legiti statistice.Depireastadiului descriptiv, alsimplei metodecantitative, ansemnat, istoricvorbind, deplasareagndirii statisticespreinterpretareaanaliticafenomenului iobinereadeconcluzii inductive, pe baza observaiilor empirice. Aceast schimbare de coninut a fcut ca statistica s se ntreptrund n mod constant cu matematica, n cutarea de metode corespunztoare obiectivelor sale.Transpusntr-unlimbaj matematic statistica s-aconstruit ntr-oteorie numit teoria corelaiei statistice, ale crei aplicaii au permis identificarea unor noi legi de dependen, specific statistice i adaptatelaformelecomplexe i variatepecareleofernaturandiferitelesale manifestri.n cercetrile moderne se pornete de la ipoteze statistice asupra fenomenului sau procesului observat, consecinelelor logicdedusesecomparapoi cudateledisponibilei dacsunt n concordan, ipotezele sunt justificate, cel puin pn la noi observaii mai riguroase.Unul dinobiectiveleesenialealestatisticii seconsidertocmai msurareaincertitudinii concluziilorinductive. Delauntimpns,gndirea statistictindes sepreocupe mai puinde msurarea incertitudinii i mai mult de determinarea riscului de eroare i a pierderilor implicate de orice decizie ntemeiat pe o informaie care, prin natura sa, nu poate fi exhaustiv.Aplicarea calculelor statistice la datele empirice, oferite de observarea fenomenului, permite desprinderea de legiti statistice.Fenomenele sunt n interconexiune unele cu altele, n sensul c se genereaz i se influeneazreciproc. Acest fapt conducelanoiuneadecauzalitatecareexpriminteraciunea dintre cauz i efect astfel nct ntotdeauna cauza s precead efectul. Desfurarea fenomenelor constastfel ntr-unir nentrerupt demomente, ntr-osuccesiunecauz-efect, efectul fiindla rndul lui cauz pentru un alt efect .a.m.d. Astfel se formeaz un lan cauzal. Orice ntrerupere a lanului cauzal nseamn de fapt existena unui efect care s nu aib cauz. Nici un fenomen nu se abate de la acest principiu care poart numele de principiul cauzalitii. Cunoaterea desfurrii 2Alexandru Mircea Imbroane Statistic-suport de cursevenimentelor este asigurat de cunoaterea legilor care guverneaz fenomenul i a ansamblului de condiii ncaresedesfoar acesta. Deci legea este unelement primordial ncunoaterea fenomenelor deoarece exprim raporturile eseniale, necesare, generale, relativ stabile i repetabile ale fenomenelor i ale desfurrii lor. Putem deosebi dou mari categorii de legi: -legi fizice, care se aplic fenomenelor i proceselor individuale luate n parte (ex. legea atraciei universale, legile I, II, III ale dinamicii etc.) i -legi statistice, care se aplic numai fenomenelor de mas, ansamblurilor de obiecte (ex. legea gazelor perfecte, legea dezintegrrii radioactive, etc.) i care exprim anumite caracteristici ale ansamblului considerat.Legilefizicepermit cunoatereaperfectadesfurrii viitoareafenomenelor pebaza cunoaterii lamomentul iniial aunor mrimi. Astfel, nmecanic, legeaaII-aalui Newton permitecunoatereaperfectamicrii unui obiect atunci cndsecunosclamomentul iniial poziia (trei coordonate) i viteza sau impulsul (trei proiecii) obiectului.Legilestatisticepermit cunoatereadesfurrii viitoareafenomenelor doar ntermeni probabilistici (probabiliti, valori medii, erori statistice etc.). Acest lucru indic de la nceput c informaia pe care o d o lege statistic este mai srac dect cea dat de legea dinamic. Cu toate acestea, legea statistic permite cunoaterea desfurrii viitoare a fenomenelor i poate fi tot att de determinist ca i cea dinamic.Particularitatea esenial a legilor statistice izvort din faptul c ele acioneaz n fenomenele de mas, unde ntregul este determinat de unitatea prilor componente, o constituie exprimarea comportrii ansambluluide uniti omogene i nu a fiecrei uniti n parte.n mod corespunztor, legeastatisticserealizeazcaotendinpredominant, caonecesitatecarei croiete drum printr-un numr foarte mare de contingene i care se manifest n aceste contingene camediaunui numr maredeabateri ntmpltoare. Deaici i principiul verificat deseori n practic: legea statistic poate fi evideniat dac i numai dac este considerat i supus observrii un numr mare sau suficient de mare de uniti elementare ale ansamblului considerat.3Alexandru Mircea Imbroane Statistic-suport de cursNoiuni elementareInvestigarea statistic presupune, prin definiie, considerarea fenomenelor n multiplicitatea i variabilitatea lor. Un ansamblu de fenomene formeaz un fenomen de mas, sau, ceea ce numim populaie statistic, n msura n care elementele componente (indivizi) sunt de aceai natur, adic au toate o proprietate comun i se deosebesc unele de altele n raport cu aspectele sau valorile caracteristice luate n studiu. Populaia cu care lucreaz statistica trebuie s fie global omogen - s includ doar elementele similare, aparinnd de aceeai "categorie" i intern structurat - elementele ei s poat fi ordonate potrivit unui sistem de clasificare.Aa cum rezult din cele de mai sus, o nsuire specific statisticii este aceea c statistica nu se ocup cu un element (individ) luat ca atare, ci cu colectiviti, cu grupuri de elemente ce posed o anumit trstur comun. Aceast trstur se numete caracteristic. Denumirea de "populaie" s-a pstrat din timpurile n care statistica se ocupa cu precdere de populaii n sensul propriu al cuvntului. Opopulaiepoatefi mpitnsubpopulaii saupopulaii pariale, caresunt:clase, grupe i eantioane.Oclas este un subansamblu de elemente ale unei populaii care conin o variabli determinat de aceeai msur.Ungrupesteunsubansambludeelementealeunei populaii caresedistingeprintr-o manier de tratare comun.Uneantionesteunsubansambludeelementealeunei populaii aleslantmplare. Se apeleaz la acest gen de populaie parial atunci cnd populaia n studiu este prea mare pentru a fi tratat n ansamblul ei. Studiul asupra eantionului va fi atribuit ntregii populaii.Indivizii unei populaii statisticesunt cercetai pentruunasaumai multecaracteristici. Caracteristicile ntlnite se clasific n caracteristicicantitativeicalitative.Caracteristicile cantitative sunt cele care se a cror msur au o exprimare numeric (nlime, greutate, lungimea unui ru etc.) i se mai numesc variabile statistice. Caracteristicile calitative nu se msoar numeric (culoare, sexul unei persoane etc.). Ele nu reprezint o msur a unei entiti. Dac se convine s se reprezinte unele din ele prin numere ataate la categoriile ce le determin, nu este vorba dect de o "codificare", procedeul nejustificndoperaiile aritmetice. Acestecaracteristici semai numesc atribute.La rndul lor, caracteristicile cantitative pot fidiscretesau continue. Variabilele discrete sunt cele care pot lua un numr finit (sau cel mult numrabil) de valori distincte (ntregi, 4Alexandru Mircea Imbroane Statistic-suport de cursfracionare), cumarfi numrul membrilorunei familii, nr. destaii hidrologiceetc. Variabilele continuesunt celecarepot luaoricevaloaredintr-unanumit interval (nlimeaunui individ, nivelul unui ru etc.). Totui, n practic nu se ntlnete o informaie privind adncimea unui ru de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va ntmpla fie c precizia aparatelor cu care efectummsurtorileestelimitat, fiecoprecizieexageratnuestentotdeaunafolositoare pentru ceea ce urmrim n investigaie. Astfel, msurtorile sau datele de observaie se grupeaz n cadrul unei anumite uniti i deci din punct de vedere practic se lucreaz cu forma discret chiar dac variabilele sunt de tip continuu. Distincia ntre caracterul cantitativ i cel calitativ, precum i ntre variabilele discrete i variabilelecontinue este fundamental deoarece ele recurg la tehnici de analiz foarte diferite.Aici trebuie s lmurim un lucru care d deseori natere la confuzii: muli sunt nclinai s cread c variabilele discrete trebuie s ia numai valori ntregi i c numerele fracionare sunt tipice pentruvariabilelecontinue; cualtecuvintediferenadintrecontinuui discret seconfundcu diferenadintre msurtorile cu numere ntregi i cele fracionare.S lum exemplul urmtor: o variabil ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabil discret deoarece trecerea de la o valoare la alta se face fr vreo alt valoare intermediar.Cercetarea statistic a unei colectiviti poate fi:-exhaustiv (total), cnd fiecare individ este analizat, de exemplu n cazul recensmintelor;-parial(selectiv), cnd sunt examinai numai anumii indivizi, alei aleator. Ea este cea mai frecvent folosit, n majoritatea cazurilor fiind i singura posibil.Parteaexaminatdincolectivitatesenumeteseleciesaueantion. Numrul indivizilor examinai se numete volumul seleciei.5Alexandru Mircea Imbroane Statistic-suport de cursAnaliza seriilor statisticeEvaluarea anumitor indicatori (parametri) statistici implic stabilirea caracteristicilor (proprietilor) principale ale seriilor statistice.Acestea sunt: variabilitatea, omogenitatea, independena i concentrarea/mprtierea (dispersia) ctre/fa de un una sau mai multe valori ale seriei.Variabilitateatermenilor unei serii statistice este determinat de faptul c fenomenul pe carelreprezintnuesteunivocdeterminat,ci apare ca un rezultat al aciunii combinate a mai multor cauze(permanentesauntmpltoare). Cuct aciuneacauzelor ntmpltoareestemai mare, cu att variabilitatea este mai mare i gradul de omogenitate mai mic.Omogenitatea presupune o variaie minim ntre termeni. Dac n urma analizei se constat c o serie nu prezint omogenitate,nseamn c n acest caz colectivitatea este format din mai multe tipuri calitative i seria trebuie descompus n subserii componente.Independenatermenilor unei serii provine din faptul c fiecare valoare individual reprezint un element distinct i obiectiv al unei populaii statistice. Termenii ce aparin aceleiai colectiviti se supun acelorai legi care se manifest sub form de tendin.Concentrarea/mprtierea (dispersia) ctre/fa de un una sau mai multe valori ale seriei apare ca rezultat al intensitii unui efect produs de cauze eseniale i ntmpltoare. Acest lucru determin frecvenele diferite de apariie a diferitelor valori din serie. Dac intensitatea factorilor esteuniform, frecveneledeapariiesunt apropiate. ncazcontrar, frecveneledeapariiese concentreaz fie la un singur capt al seriei, fie ctre o valoare central.Repartiii de frecveneExist diferene ntre analiza seriilor dinamice i problemele legate de gruparea i analizarea materialelor pentru care factorul timp nu are importan. La cercetarea seriilor dinamice problema de baz o reprezint analiza variabilei timp.Metodele de analiz folosite n aceste dou cazuri se deosebesc sensibil. n cele ce urmeaz ne vom ocupa de problemele gruprii i analizei prealabile a datelor numerice pentru care ordinea de aezare n timp nu conteaz.Datele statistice n stare brut reprezint o mas dezordonat de materiale. Prima problem este aceea de a face o asemenea grupare a datelor cu ajutorul creia s se poat aprecia valoarea lor n legtur cu problema propus, s se poat nlesni comparaia cu alte date de acelai gen i s se 6Alexandru Mircea Imbroane Statistic-suport de curspoat obine posibilitatea unei analize ulterioare. nainte camaterialul statistic s fie supus analizei ulterioare igeneralizrilorcarevorpermite s se fac anumite deducii, el trebuie s capete o anumit form i o structur clar. Cu alte cuvinte n cadrul analizei datelor statistice trebuie s se ia n considerare att valorile individuale ct i frecvenele de apariie ale acestora.nurma observrii caracteristicii cantitative X n n probe se obin urmtoarele date primare:x1, x2,..., xn(1)n cazul n care volumul seleciei este mic aceste date sunt uor de manipulat i nu este nevoie de o grupare a lor. Dac ns avem o selecie de volum mare este greu de lucrat cu aceste date. n plus tabelele de date primare nu sugereaz nimic referitor la referitor la repartiia variabilei X. De aceea este nevoie de o grupare (centralizare) a datelor.Grupareadatelor se face n funcie de tipul caracteristicii X. Astfel, dac X este o variabil discretcepoateluavaloriledistinctev1,v2,...,vn,atuncinloculdateloriniiale seva reine repartiia empiric:

,`

.|mmn n nv v v. . . .. . . .2 12 1(2)Undeni, (i=1,m)reprezintfrecvenaapariiei (numrul deapariii) valoriivi, iarnreprezint numrul valorilor dinirul iniial (1) i senumetefrecvenabsolutavaloriiv. Valoarem reprezint numrul de clase.Raportulfj=nj/ndintre frecvena absolut i numrul total de probe se numete frecven relativ. Se observ cf1 + f2 ++ fm =1 ntruct n1 +n2 + ... +nm = n.7Alexandru Mircea Imbroane Statistic-suport de cursFrecvenele relative, numite impropriu i probabiliti de apariie, stau la baza calculrii densitii derepartiieafrecvenelor i aindicatorilor careexprimgradul deconcentrare. Deasemenea permit compararea a dou repartiii construite pe aceeai variabil, care difer numai prin numrul unitilor pe grupe.DacXesteovariabilcontinu care poatelua valorintr-un interval [a,b]atunciacest interval este mprit n msubintervale [aj, aj+1], j=1, m , cu a1 = ai am+1= b. Pentru fiecare din aceste subintervale se determin numrulnal valorilor din irul (1) care se afl n acest interval numit frecven absolut a subintervalului.Subintervalele [aj,aj+1] sepot luaarbitrar.Decelemai multeori extremitile seiau echidistante, deci subintervalele au lungimi egale. ns numrul m al subintervalelor nu se alege la ntmplare.Este important ca prin gruparea datelor s nu se piard caracterul global al repartiiei (dacmesteprea mic se poatedenatura repartiia real a variabilei X).Astfel,dup unii autori numrul subintervalelor, m, trebuie alese n conformitate cu formula lui Sturges:m=[1 + 3,322logn] Mrimea intervalului va fi dat de formula:mx ximin max Reprezentarea grafic a repartiiilor statisticeExist mai multe tipuri de reprezentri grafice a datelor statistice. Dintre acestea prezentm histograma, poligonul frecvenelor i graficul frecvenelor cumulate.Histograma este o figur ntr-un sistemde coordonate rectangualre care reprezint distribuia empiric prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor, reprezint subintervalele folosite n centralizarea datelor. nlimea hj a dreptunghiului cu baza (aj, aj+1) este proporional cu raportul dintre frecvena relativ a intervalului i lungimea sa:8Alexandru Mircea Imbroane Statistic-suport de cursj jjja afC h+1constantaCfiindunfactor descar. ncazul cndsubintervalele gruprii aulungimi egale, nlimea hj va fi proporional cu frecvena relativ, deci hj =C*fj .Poligonul frecveneloresteo diagram n care pe axa absciselor se iau mijloacelevjale intervalelor (aj,aj+1) folosite n grupare, iar pe axa ordonatelor valorile hjdefinite n construirea histogramei.Linia frnt care unete punctele de coordonate (vj,hj) se numete poligonul frecvenelor. El se poate obine din histogram unind mijloacele laturilor superioare ale drptunghiurilor. n fig 1 poligonul frecvenelor este trasat printr-o linie punctat.Mrimile c1, c2, ..., cm definite prin:jii jf c1se numesc frecvene cumulate.Linia frnt obinut prin unirea punctelor de coordonate (aj+1, cj ] se numete graficul frecvenelor cumulate.Modaliti de clasificare a datelorModul de stabilire a claselor determinarea pragurilor minime i maxime ale fiecrei clase determinmanierancaresunt atribuitevalorilefiecrei clasei deci felul ncarevaarta distribuia. Prin schimbarea claselor se creaz diagrame cu aspect diferit. n general se urmrete ca valori similare s fie n aceeai clas.Exist doi factori cheie n clasificarea datelor: schema de clasificare utilizat i numrul de clasecesedoreteafi creat. Dacdatelesunt binecunoscutesepoatepredeterminamanual numrul declase. ncazcontrar seutilizeazschemeleclasice. Celemai frecventeschemede clasificare sunt: natural breaks, quantile, intervale egale i deviaia standard. Acestea sunt descrise n cele ce urmeaz.9Alexandru Mircea Imbroane Statistic-suport de cursScheme standard de clasificareNatural breaks (Jenks)Datele se clasific pe baza gruprii naturale a valorilor. Se identific punctele de ruptur cutnd acele modele de grupare implicite ale datelor. Valorile sunt mprite n clase acolo unde graniele sunt marcate prin salturi mari de la o valoare la alta.QuantileFiecare clas conine un numr egal de valori. O astfel de clasificare este foarte potrivit n cazul datelor liniare. Dincauzcdatelesunt grupatedupnumr nfiecareclas, diagrama rezultat poate fi neltoare. Datele similare pot fi plasate n clase diferite, sau valori foarte diferite pot fi grupate mpreun. Aceast distorsiune poate fi evitat mrind numrul de clase.10Alexandru Mircea Imbroane Statistic-suport de cursIntervale egaleAceast schem de clasificare divide irul de valori atribut n subiruri egale. Spre exemplu n cazul unui ir de valori de la 1 la 300 i a trei clase, fiecare clas reprezint un ir de 100 ( 1-100, 101-200, 201-300). Aceastmetodaccentueazcantitateadevalori atribut relativlacelelalte valori, spre exemplu pentru arta c un magazin este parte a unui lan de magazine care a realizat o treime din vnzri. Cel mai bine se utilizeaz pentru iruri de date dintr-un anumit domeniu cum ar fi temperatura i procentele.11Alexandru Mircea Imbroane Statistic-suport de cursDeviaia standardAceastschemdeclasificarearatcuct variazovaloaredelamedie. Secalculeaz media i apoi se genereaz clasele adugnd sau scznd din ea deviaia standard. Caracterizarea repartiiilor de frecvenDatele (care se refer la diferite domenii ale cunoaterii) odat aranjate ntr-o repartiie de frecvene, scot n eviden trsturile commune ale tuturor curbelor de repartiie i care se supun unor legi generale.Acest lucrunepermitecaexperienactigatntr-unanumit domeniual cunoaterii s poat fi extins i n alt domeniu.La toate curbele ns trebuie s observm variabilitatea mrimilor care se obin ca rezultat al unor msurtori. Cu toate c exist variabilitate, se observ o tendin a datelor de a se grupa n centrul curbei (tendina central).Dac se msoar mrimea abaterii de la punctul de concentrare maxim a frecvenelor, se constat c sunt mai frecvente abaterile mici dect cele mari, c abaterile nambelepri fadepunctul deconcentraremaximseechilibreazaproapecomplet i c abaterile foarte mari sunt foarte rare. Deoarece frecvena variaz, vom alege acea mrime care se ntlnete cel mai des. Ea va fi msura tendinei centrale a repartiiei. Aceast mrime, ca i altele asemntoare se numesc indicatori (sau parametrii) de poziie, deoarece arat poziia elementelor principale ale repartiiei pe axa absciselor.Caracterul reprezentativ al oricrui indicator de poziie depinde de ct de strns i se altur celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor n jurul tendinei centrale. 12Alexandru Mircea Imbroane Statistic-suport de cursIndicatorii tendinei centraleAtenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaie statistic se face prin calcularea unor medii,n felul acesta fcndu-se o compensare a valorilor individuale. Acest calcul ne arat o anumit tendin a fenomenului studiat, media statistic fiind o valoare ce sintetizeazntr-osingurexpresienumerictoatevaloriledinseriamsurtori sauobservaii. Termenii seriei difer de medie deoarece au fost influenai de diferii factori.Media aritmeticMedia aritmetic simpl exprim un nivel mediu, anihilnd abaterile individuale, netipice. Ea este cuprins ntre valoraea cea mai mare i cea mai mic. Definiia 1. Dac n urma unei selecii apar valorile distincte x1,x2,...,xn, atunci media aritmetic este dat de formula:+ + +niinxn nx x xx12 11 ...n cazul datelor centralizate (n care avem repartiia de frecven (2)):+ + +nii in nv nn nv n v n v nx12 2 1 11 ...care se mai numete medie aritmetic ponderat. Numrul care arat de cte ori se repet fiecare valoare (nj) este "ponderea" valorii respective.Observaia 1. Media aritmetic are dezavantajul c este sensibil la valori extreme, iar dac termenii sunt prea "mprtiai", tinde s devin o valoare nereprezentativ. Media aritmetic este o valoare lipsit de coninut dac elementele sunt deosebite din punct de vedere calitativ, caz n care este mai util s se fac medii pariale pentru fiecare tip de colectivitate.Observaia2.Dacavemmai multemedii, fiecarereferindu-selaoanumitcategorie, fiecare medie va fi ponderat n funcie de importana categoriei sale.13Alexandru Mircea Imbroane Statistic-suport de cursMedia geometricMedia geometric este mai puin sensibil la valorile extreme dect celelalte medii, deci se ntrebuineaz cnd dorim s atenum divergenele mari dintr-o serie de determinri cu frecvene egale, fiind dup o expresie "cea mai exact medie".Se utilizeaz cnd valorile au o evoluie (de cretere sau scdere)permanent,nentrerupt,sau o raie din ce n ce mai mare, termenii fiind legai ntre ei printr-o relaie de produs. De asemenea se mai ntrebuineaz cnd vrem s dm o importan mai mare termenilor mai mici, n valoare absolut, sau cnd diferenele ntre termeni sunt foarte mari. Are dezavantajul c nu se poate ntrebuina cnd avem valori nule sau negative.Definiia 2. Dac x1, x2,..., xn sunt n valori, media geometric se definete prin nn gx x x M ...2 1Calculul se face mai uor cu ajutorul logaritmilor:nii gxnM1lg1lgDatorit faptului c se calculeaz mai uor cu ajutorul logarimilor, se mai numete "medie logaritmic". Easeutilizeazi lacalcularearitmului (decreteresaudescretere) numindu-se astfel i "medie de ritm". n rezumat, se ntrebuineaz cnd:- seria are o mare dinamicitate;- termenii au variaii mari;- distribuia are un caracter pronunat de asimetrie.Observaia3.Mediageometricsefoloseteatunci cndprezintimportanvariaiile relative. De asemenea media geometric poate fi folositoare pentru calculul unor rapoarte.Media ptratica se ntrebuineaz cnd valorile prezint creteri din ce n ce mai mari. Ea constituie modelul matematic pentru abaterea medie ptratic.Media este sensibil la valori extreme, din care cauz este ntotdeauna mai mare dect celelalte medii. Are avantajul c se poate 14Alexandru Mircea Imbroane Statistic-suport de cursaplicai ncazul valorilor nulesaunegative (careprinridicarelaptrat devinpozitive). Se ntrebuinzeaz cnd dm importan valorilor mari.Definiia 3. Media ptratic este definit prin formula:nii s patrxnx12,1sau n cazul datelor centralizate (media ponerat):nii i p patrv nnx12,1Media ArmonicDefiniia 4. Media armonic este valoarea invers a mediei aritmetice ale valorilor inverse datelor de observaie:ni ihxnM11Exprimcaracterul sintetical unorvalori ceseaflnraport invers.Seutilizeazcnd frecvenele sunt egale. Pentru orepartiie de frecven, media armonic se folosete rar. Se utilizeaz cu predilecie n economie.Mediaglisantnumiti "mediemobil", seutilizeazncazul ncareirul valorilor prezintfluctuaii mari, brutei egreudeapreciat tendina(trendul). Sepresupunecmedia glisant corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori alturate.Definiia 5. Media glisant pentru 3, respectiv 5 valori alturate sunt date de formulele31 13 ,+ + +i i iglisx x xx15Alexandru Mircea Imbroane Statistic-suport de curs52 1 1 25 ,+ + + + + +i i i i iglisx x x x xxMedianaDefiniia 6. Mediana este elementul dintr-un ir de date statistice care ar mpri intervalul n dou grupeegale ca numr,dupceacestea au fost ordonate dup mrimea lor.Dac seria are 2n+1 elemente, atunci mediana este elementul n+1, iar dac are 2nelemente mediana este media aritmetic a celor doi termeni din mijloc.Indicatorii variaieiO medie este reprezentativ numai atunci cnd se calculeaz din valori omogene ntre ele. Cu ct fenomenele sunt mai complexe (dependente de mai multi factori), cu att variaia este mai mare i utilizarea mrimilor medii devine insuficient. De aceea este important de cunoscut ct de departe sunt valorile sumei statistice fa de medie. Comparaia se face cu media seriei, considerat ca fiind valoarea cea mai reprezentativ pentru populaia statistic. Analizastatisticauneirepartiii poate fi aprofundat prin calcululindicatorilor de variaie. Aceti indicatori trebuie s serveasc la:-verificarea reprezentativitii mediei ca valoare tipic a unei populaii statistice;-verificarea gradului de omogenitate a seriei;-caracterizarea statistic a formei i gradului de variaie a unui indicator;-cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor observate.Indicatorii simpli ai variaieiIndicatorii simpli ai variaiei servesc la caracterizarea gradului de mpratiere a mrimilor seriei statistice. Se pot exprima att n mrimi absolute ct i n mrimi relative.Din aceasta grup fac parte:-amplitudinea variaiei (absolut i relativ);-abaterile individuale (absolute i relative).16Alexandru Mircea Imbroane Statistic-suport de cursAmplitudinea absolutse calculeaza ca diferena dintre valoarea maxim i valoarea minim al caracteristicii:Aa = xmax xminAmplitudinearelativseexprima deregulnprocente i secalculeaz ca unraport ntre amplitudinea absolut i media aritmetic:Ar=100 xAaAbaterile individuale absolute (di) se calculeaz ca diferena ntre fiecare valoare i media aritmetic:di = xi -x, i = 1,...,nAbaterile individuale relative (dr) se calculeaz ca raportul dintre abaterile individuale absolute i media aritmetic (se exprima n procente):dr =100 xdi , i = 1,...,nGradul de variaie al unei caracteristici depinde de toate abaterile variantelor nregistrate i de frecvena lor de apariie i prin urmare indicatorii simpli ai variaiei nu pot exprima ntreaga variaie a unei populaii statistice.De aceea a fost necesar introducerea indicatorilor sintetici ai variaiei.Indicatorii sintetici ai variaieiIndicatorii sintetici ai variaiei, la fel ca i indicatorii tendintei centrale trebuie s se bazeze petoateobservaiile, safieuordecalculat, uordentelesi sfiect mai puinafectai de fluctuaiile de selecie.Indicatorii sintetici ai variaiei sunt:-abaterea medie liniar ;-abaterea medie patratic;-dispersia;-coeficientul de variaie.17Alexandru Mircea Imbroane Statistic-suport de cursAbaterea medie liniar se calculeaz ca o medie aritmetic simpl sau ponderat, luate n valoare absolut:Pentru o serie simplnx xdnii 1| |Abatereamedieliniarprezint dezavantajul c nu ine seama de faptul c abaterile mai mari n valoare absolut influenteaz n mai mare masur gradul de variaie a unei caracteristici, n comparaiecuabaterilemici. nplus, nuesteindicat sserenunenmodarbitrar lasemnul valorilor din care se calculeaz o valoare medie. Din aceste considerente se folosete ca principal indicator sintetic al variaiei abaterea medie patratic.Abaterea medie patratic sau abaterea standard () se calculeaz ca o medie patratic din abaterile tuturor elementelor seriei de la media lor aritmetic: = nx xnii 12) (Acest indicator este mai concludent dect abaterea medie liniar. Prin ridicarea la ptrat se d o importanmai mareabaterilor mari nvaloareabsolut, acesteainfluenndntr-omsuramai mare gradul de variaie al variabilelor analizate.n literaturadespecialitatese apreciaz ca pentru o serie de distribuie normal abaterea medie liniar este egal cu 4/5 din valoarea abaterii medii ptratice.Abaterea medie ptratic este un indicator de baz, care se folosete la analiza variaiei, la estimarea erorilor de selecie n calculul de corelaie.La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de masur a variabilei a crei variaie o caracterizeaz.Prin urmare cei doi indicatori nu se pot folosi pentru comparareagradului devariaiei naceastasituaieserecurgelaunalt indicator devariaie: coeficientul de variaie.18Alexandru Mircea Imbroane Statistic-suport de cursCoeficientul devariaie(v)secalculeazacaunraport ntreabatereamedieptratici media aritmetic. De obicei se exprim sub form de procente:v = 100 xSemnificaie. Cuct valoarealuivestemai aproapedezerocuatt variaiaestemai slab, colectivitatea este mai omogen, media avnd un grad ridicat de reprezentativitate. Cu ct valoarea lui v este mai mare cu att variaia este mai intens, colectivitatea este mai eterogen, iar media are un nivel de semnificaie sczut.Se apreciaz c la un coeficient de peste 35-40%, media nu mai este reprezentativ i datele trebuie separate n serii de componente, pe grupe, n funcie de variaia unei alte caracteristici de grupare.Se poate afirma c acest indicator poate fi folosit ca un test n aplicarea metodei gruprii. Dac media aritmetic este aproape de zero, coeficientul de variaie nu are semnificaie.Dispersia (2 ) este media ptratelor abaterilor de la media aritmetic:( )221 x xni.Msura dispersiei se refer la mprtierea valorilor dintr-un set de date. Media nu are semnificaiedacseaplicpeunsetde date foarte dispersate. De exemplu dac lum valoarea medie a oraelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorit Bucuretiului care are 2.000.000. ns rezultatul nu are nici o semnificaie (nici un ora nu area aceast valoare).Msurile dispersiei, exprimate sub forma unitilor de msur ale fenomenului cercetat, nu sunt ntotdeauna utile atunci cnd se compar dispersiile a dou sau mai multe serii. Compararea dispersiilor a dou sau mai multe serii d rezultate n urmtoarele 2 situaii:a) irurile care se compar pot fi exprimate n aceleai uniti, iar mediile pot fi aceleai sau au dimensiuni aproape egale.b) irurile care se compar pot fi exprimate n aceleai uniti, ns mediile difer.Dac seriile se exprim n uniti diferite, dispersiile nu pot fi comparate direct. De aceea de multe ori se folosete abaterea medie ptratic n loc de dispersie.19Alexandru Mircea Imbroane Statistic-suport de cursn unele lucrri aceast mrime se numete varian (din l. engl. variance). Variana este o msur important n special cnd se studiaz variaia a dou sau mai multe eantioane. O tehnic statistic foarte puternic este cunoscut sub numele de analiza de variani utilizeaz dispersia pentru a decide dac un numr de eantioane difer semnificativ unul de altul.Skewness i kurtosisSkewnessAbaterea medie ptratic i dispersiasunt indicatori care dauomsur a mprtierii valorilor ntr-o distribuie de frecven.ntr-un anume sens ele ofer o msur a limii distribuiei. Aceastansnuofernici o informaie privind caracteristicile formei distribuiei de frecven. Figura de mai jos nfieaz 6 distribuii utiliznd histograma. Aceasta reprezint un set de date care au acelai numr de valori. Pe orizontal avem o unitate de msur exprimat n abateri medii patratice ( ), iar pe vertical avem media aritmetic. Dup cum se observ, se poate face o comparaie direct.Aparent cele ase distribuii de frecven sunt foarte diferite. Cele din partea dreapt (b, d, i f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, vrful este plasat n stngasaudreaptamediei.Spunemc avem odistribuie distorsionatsau asimetric(skewed). Cele din stnga (a,c,e) au un grad mic de distorsiune (asimetrie). n toate cazurile vrful este n apropierea mediei. Toate acestea sunt distribuite simetric.Pe de alt parte cele dou distribuii de pe fiecare rnd pot fi considerate similare, n sensul c au un anumit grad de ascuire sau kurtosis. Cele din primul rnd sunt foarte ascuite; ele au aceleai grad de kurtosis. Cele din al doilea rnd au ascuimea mai moderat, iar cele din al treilea rnd sunt relative plate. Distorsiunea msoar, deci, volumul de valori din distribuia concentrat de o parte i de altaa mediei. Dac acestvolumdevalori este mai mic dect media,spunem c distribuia este pozitiv distorsionat (b). Dac exist mai multe valori mai mari dect media, spunem c distribuia este negativ distorsionat (d). 20Alexandru Mircea Imbroane Statistic-suport de cursO distribuie perfect simetric nu are distorsiune (skewness=0).Exist mai multe metode de msurare a distorsiunii. Cea mai uzitat este formula: 33) ( nx xSundelanumrtor avemdeviaiacubicavalorilor fademedie, iar esteabatereamedie ptratic.n rezumat, avem urmtoarele situaii:-dac S 0 avem distorsiune pozitiv.Skewness este un concept cuaplicaii importante n geografie deoarece foarte multe variabile n geografie au o distribuie accentuat distorsionat. Cu alte cuvinte distribuia de frecven seamn foarte mult cu cele nfiate n b, d sau f.nal doilearndali indicatori cum ar fi media sau dispersia pot conduce la interpretri greite dac se folosesc izolat.KurtosisKurtosis d omsur a extinderii nspre valorile care sunt concentrate ntr-oparte a distribuiei de frecven. Dac o clas ntr-o distribuie de frecven conine o foarte mare parte din 21Alexandru Mircea Imbroane Statistic-suport de cursvaloriledindistribuie, atunci distribuiaprezintunmaregraddekurtosis, iarformaestemai ascuit.ntr-odistribuie cuungradmicdekurtosis (distribuie plat) fiecareclasconineo proporie similar din toate valorile.Formula folosit pentru Kurtosis (K) este:44) ( nx xKPentru distribuia normal avemK=3, pentru o distribuie ascuitaK>3, iar pentru o distribuie plat K3). Cnd se aplic acestor variabile media aritmetica i dispersia, acestea pot conducelainformaii eronate.Mai mult nacestecondiii datelenuprezintodistribuie normal astfel c nu pot fi aplicate testele parametrice.22Alexandru Mircea Imbroane Statistic-suport de cursRepartiii de frecvenAsocierea dintre distribuia observat i cea teoretic a fost mult timp neglijat n geografie. Unstudiustatisticnupoatefi fcut (nuaresens) fraceastasociere.Formaunei distribuii permite gsirea parametrilor descriptivi cei mai potrivii pentru fenomenul urmrit. Recunoaterea formei unei distribuii este un indiciu pentru procedurile de transformare a datelor n mod corespunztor. Totodat ncadrarea ntr-olegededistribuie teoretic permite att operaii de interpolare ct i de extrapolare. Ajustareauneidistribuii observatelaodistribuieteoretic-adiclamodeleprobabiliste propriu-zise-implic acceptarea a priori c legile se ncadreaz n repartiia observat/msurat a fenomenului n cauz.O cantitate msurabila care poate varia de la un element la altul se numete caracteristic cantitativ. Uneori se mai folosete termenul de variabil. Ansamblul noiunilor consacrate acestor caracteristici poart numele generic de teoria caracteristicilor cantitative.Reamintim c, caracteristicile care pot lua orice valoare numeric ntre anumite limite sunt numitecaracteristici cantitative(variabile)continue. Caracteristicilecarepot luanumai anumite valori se numesc caracteristici cantitative (variabile) discrete (discontinue).Dac mai multe sute sau mii de valori ale unei variabile au fost notate ntr-o ordine cu totul arbitrarncareauaprut elenrealitate, vafi dificil stragemvreoconcluziecuprivirela semnificaia acestor date. De aceea va trebui s condensm datele cu ajutorul unor anumite metode deordonaresaugrupareastfel caproprietailedatelor spoatfi uor evideniate. Deregul valorile alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din observaii i care aparin la diferite grupe s poat fi comparabile.Modul ncarefrecveneledegrupsunt repartizatenintervalesuccesivesenumete repartiia de frecven a variabilei.23Alexandru Mircea Imbroane Statistic-suport de cursReprezentarea grafica: poligonul frecvenelor i histograma.Deseori este convenabil s reprezentm o repartiie de frecven cu ajutorul unei diagrame care s sugereze configuraia observaiilor.Histograma-poligonul frecvenei: unirea punctelor marcate pe vertical pe mijlocul intervalului.De observat c oricare ar fi aceste diagrame (orice form ar avea), o anumitariereprezint un numr de observaii.24Alexandru Mircea Imbroane Statistic-suport de cursNumarul de observaii care cad n intervalul [x1,x2] este proporional cu aria delimitat de curb i cele dou drepte.Dac intervalele de grup sunt micorate, n acelai timp numrul de observaii crete, astfel nct frecvenele de grup s rmn finite, poligonul i histograma se apropie din ce n ce mai mult de o curb neted.O astfel de linie ideal a poligonului i histogramei se numete curb de frecven. Este un concept esenial n statistic.Cnd vom aborda teoria seleciei va trebui s privim curba de frecven ca reprezentnd o populaie din care datele reale reprezint un eantion. Poligonul frecvenelor i histograma vor fi aproximate cu o curb, dar se vor ndeprta de ea n anumite poriuni, datorit fluctuaiilor seleciei. Atuncicndnumruldeobservaiieste considerabil,s zicem 1000, poligonul frecvenelor este suficient de neted pentru a da o bun imagine a formei repartiiei ideale.25Alexandru Mircea Imbroane Statistic-suport de cursCteva tipuri uzuale de repartiii de frecven.Formele histogramelor corespunzatoare diferitelor date statistice sunt aproape fr sfrit n varietatea lor, dar printre ele putem distinge un numr relativ mic de tipuri fundamentale.1)Repartiia simetric.Valoarea medie este valoarea maxim i centrat,iar extremele descresc i tind spre zero (distribuia normal) ideal.2)Repartiia moderat-asimetric (oblic).Frecvenele de grup descresc cu mare rapiditate ntr-o parte i mai lent n cealalt parte. Este cazul cel mai frecvent.26Alexandru Mircea Imbroane Statistic-suport de curs3) Repartiia n forma de U. Frecvenele maxime sunt la capetele intervalului de variaie. Este rar.4) Repartiia extrem asimetric.27Alexandru Mircea Imbroane Statistic-suport de cursRepartiii teoretice importanteRepartiia binomialLegea binomial permite descrierea probabilitilor asociate cu privire la dou experimente exclusive. Pentru evitarea unor exemple particulare (monede, zaruri), vom folosi termenul de succes pentru apariia unui eveniment (probabilitatea_1=p) i insucces pentru neapariia sa (probabilitatea_2=q). Evident vom avea p+q=1.Considermctoateevenimentelentr-unnumr dencercri sunt independente, adic probabilitilepiqsunt aceleai pentru fiecare eveniment i rmn constante de-a lungul ncercrilor.Presupunem c efectum un numar de N serii n care efectum cte n ncercri n fiecare din cele N serii i determinm numrul de succese din fiecare serie (ex. aruncm o moneda de 10 ori pentru fiecare serie, observnd de cte ori apare stema la fiecare serie).n general, vor exista unele serii la care nu vom observa succese, altele la care vom observa un succes, altele cu dou succese .a.m.d. Prin urmare dac grupm seriile n raport cu numrul de succese vom obine o repartiie de frecven.Ex. 12 zaruri aruncate de 4096 de ori, apariia lui 6 fiind considerat un succes, conduce la urmtorul rezultat.Nr. succese 012 34 567 i mai mult.Nr. aruncri44711451181 796380 115 24 8 Vomartac, folosindipotezeledeindependenaexperienelor succesivevomputea determina teoretic natura acestei repartiii.ncazul seriilor cuosingurncercare, estimmcanNastfel deserii sobinem Np succese i Nq insuccese.Cnd avem dou ncercri, posibilitile sunt:28Alexandru Mircea Imbroane Statistic-suport de cursSS SI IS II p2+2pq+q2 deN oriCnd avem trei ncercri:SSSSSI ISSIIS ISI SII III Deoarece nu conteaz ordinea n care au aprut succesele i insuccesele, putem scrieSSS 3SSI 3SIIIIIp3+3p2q +3pq2 + q3 saup3+ C31p2q + C32pq2+q3Pentru n ncercri, obinem formula general (dezvoltarea binomial):N{pn+1nCpn-1q+...+knCpn-kqk+...+1 nnCpqn-1+qn}Exmplul1.Dac lum 100 de serii cu cte10 aruncri ale unei monezi perfecte, n cte cazuri ne ateptm s obinem de 7 ori stema i de 3 ori valoarea?R. Aici avem p=21, q=21.Frecvenele a celor0,1,...,10 succese sunt termenii din dezvoltarea binomial, 100 .212110

,`

.|+ Termenul care d frecvena a 7 succese i a 3 insuccese este:100 1221213 7710 ,`

.|

,`

.| C29Alexandru Mircea Imbroane Statistic-suport de cursE Exemplul 2. Acelai text cu ntrebarea: n cte cazuri ne ateptm s obinem cel puin de 7 ori stema.R. Cutm suma termenilor corespunzatori la 7,8,9 i 10 succese:{ 1721001010910810710 10 + + + C C C CFormageneralarepartiiei binomialdepindedevalorileluipiqi devalorile exponentului n (numrul de ncercri din fiecare serie).Dac p i q sunt egali, repartiia este evident simetric, deoarece p i q pot fi permutai ntre ei, fraschimbavaloareavreunuitermeniprinurmaretermenii echidistani delaceledou capete ale seriei sunt egali. Dac p i q nu sunt egali, repartiia este asimetric.Forma limit a repartiiei binomial.Cndncrete, fiecare termen al repartiiei binomial scade. ns suma unor termeni care cad ntre anumite limite nu va fi mic.Chiar dac p nu este egal cu q, cnd n devine din ce n ce mai mare, repartiia binomial tinde ctre forma unei curbe continue simetrice.n figura de mai jos am exemplificat (Yule, Kendal, 1969) tendina spre simetrie pe care o are repartiia binomial (0,9+0,1)n pentru diferite valori ale lui n.30Alexandru Mircea Imbroane Statistic-suport de cursSe demonstreaz c valoarea maxim este atins ntr-un anumit punct pe care l vom nota cu pk i care este dat denpqpk 21Astfel funcia care aproximeaz foarte bine valorile repartiiei binomiale estenpqnp xenpqx f2) (221) (unde np= valoarea medieinpq = = abaterea medie patraticAstfel la modul general putem scrie funcia sub forma2220xe y yAceast funcie se numete curba normal. De parametrimi i se noteazN(m, ). Reprezentarea grafic a acestei distribuii este o curb n form de clopot simetric fa de axa Oy 31Alexandru Mircea Imbroane Statistic-suport de cursi a crei forme este determinat de valoarea lui . Aceast curb mai este numit i curba lui Gauss. n figura de mai jos sunt prezentate dou curbe normale pentru diferite valori ale lui m i .Proprieti ale curbei normale.Curbanormalestesimetricnjurul punctuluix=0, nacest punct i atingevaloarea maxim. Curba normal este complet specificat dac se definete media (originea lui x), abaterea standard i valoarea 0y. n practic, dac dorim s obinem o curb normal cu ajutorul unor datecunoscute, valoarealui 0ynuseddirect,cisecalculeaz folosind faptulcariacurbei trebuie s fie egal pe scala aleas, cu numarul total de observaii.Aria determinat de curba normal i axa Ox este: 202022y dx e yx Dac lum 210 y, aria este egal cu unitatea.naceastsituaieputemobineimediat formacorespunztoareunei repartiii deorice frecven dat. Astfel, dac frecvena este N, curba normal corespunzatoare este:2222 xeNy .Media curbei normale, aa cum am vzut, este localizat n origine. Dac dorim s scriem expresia curbei, n raport cu un alt punct ca origine, obinem forma:( )222121m xe y ,Unde m este abaterea de la medie a valorii alese ca origine.32Alexandru Mircea Imbroane Statistic-suport de curs2este dispersia; este abaterea medie ptratic (abaterea standard).Proprietile curbei normale.Curbanormal este evident simetric njurul punctuluix=0, deoarece ecuaia ei este independent de semnul lui x. n acest punct ordonata i atinge valoarea maxim. Valoarea medie, mediana i modulul coincid. Este considerat o curba simetric ideal.Curba normal este complet specificat dac se definete media (originea luix), abaterea medie ptratic i valoarea0y. n practic, dac dorim s obinem o curb normal cu ajutorul unor date cunoscute, valoarea lui 0y nu se d direct, ci se calculeaz folosind faptul c aria curbei trebuie sa fie egal, pe scara aleas, cu numrul total de observaii.33Alexandru Mircea Imbroane Statistic-suport de cursSondajul statisticUna dintre cele mai importante probleme este investigarea unei populaii mari ntr-un timp redusicurezultatedecunoatereimediat. Dinansamblul populaiei sealegeoparte, numit colectivitatedeseleciesaueantion, partecarevafi supusnmodnemijlocit investigaiei. Alegereatrebuiefcutdeaamaniernct prinintermediul acestui studiuredussseobin concluzii cu valabilitate general asupra ntregii populaii. Eantionul trebuie s aib capacitatea de a reproduce ct mai fidel structurile i caracteristicile populaiei din care este extras. n cele mai multe situaii, studiile selective constituie o soluie necesar deoarece o investigare complet a ntregii populaii este imposibil de fcut. Cu alte cuvinte, n loc s se culeag informaii de la toi indivizii din populaie, se face o prelevare de la o mic parte a ei. Acest gen de studiu, aacumvomvedea, asiguruncontrol mai bunal activitii conducndlaoanumit superioritate pe planul cunoaterii. Dei pare paradoxal, o investigare selectiv poate conine mai multecaracteristici, spredeosebiredeabordareaunei populaii mari careimplicoinvestigare simplificat. Pe de alt parte studiile arat c dac eantionul este ales corespunztor acesta se va confunda cu populaia. Un exemplu de anchet naional exhaustiv este recensmntul.n studiul statistic al fenomenelor se folosete foarte frecvent perechea de noiunivaloare calculativaloareestimat.Valorilecalculatesunt rezultatuluneicercetriempirice. Acestea sunt folosite pentru a evalua indicatorii din eantioane care vor deveni estimatori ai colectivitii generale.Pentrucacercetareaselectivsfieeficienteantionul trebuiesposedeocalitatenumit reprezentativitate, care const n capacitatea lui de a reproduce ct mai fidel structurile i carcateristicile populaiei din care a fost extras. Aceast definiie este destul de imprecis, dar ea capt osemnificaie exact prinaplicarea tehnicilor teoriei probabilitilor.nacest context exprimarea cantitativ a gradului de reprezentativitate a unui eantion se face prin dou mrimi:Eroareamaxim(E)careexprimdiferenadintrevaloareacalculatdineantion(ve) i valoarea corespunztoare v a populaiei totale (necunoscut).E=|v-ve|Nivelul dencrederesaunivelul deprobabilitate(P)careexprimomsuraansei ca eroarea comis s nu depeasc valoarea E.34Alexandru Mircea Imbroane Statistic-suport de cursPentru a evalua eroarea E trebuie s avem n vedere o caracteristic a populaiei ce urmeaz a fi estimat. Aceasta poate fi de exemplu vrsta, iar valoarea poate fi media aritmetic. n acest caz eroarea Ene spune cu ct se abate vrsta medie a indivizilor din populaia general de la vrsta medie a indivizilor din populaia de selecie. Cu alte cuvinte, cu ajutorul erorii E se construiete un interval (ve-E, ve+E) n interiorul cruia se afl valoarea cutat v. Ali indicatori statistici caremaipot fi evaluai sunt abaterea medie ptratic,coeficientul de corelaie, dar mai pot fi evaluate i proporii, diferene etc.Pentru nelegerea corect a reprezentatitivitii unui eantion vom detalia cteva aspecte privind aceast noiune.1. Niciodat nu putem fi siguri c eroarea de eantionare este mai mic de o valoare E, sau altfel spusplasarealuivpeintervalul menionatnu este niciodat cert.Aceasta nseamnctrebuie evaluat att eroarea E ct i nivelul de probabilitate P. Deci nivelul de reprezentatitivitate este dat de cuplul (E,P).2. Nu se poate vorbi de o reprezentativitate a unui eantion n general, ci numai n raport cu o caracteristic dat. Aadar un eantion are o reprezentativitate n raport cu vrsta, (adic un cuplu (E,P)), o alt reprezentativitate n raport cu numrul de turiti, (adic un alt cuplu (E,P)) .a.m.d.3. Reprezentativitateaesteo noiune relativ, n sensul c un eantion este mai mult sau mai puin reprezentativ i nu reprezentativ sau nereprezentativ. De exemplu, pentru o aceeai caracteristic i un nivel de probabilitate dat avem o eroare micEntr-un eantion dect n alt eantion. Atunci primul eantion este mai reprezentativ. Dac la o aceeai eroare, P este mai mare ntr-un eantion acesta este din nou mai reprezentativ. Dac pentru un eantion avem o eroare mic i o probabilitate mare acesta va fi mai reprezentativ fa de cel cu care se compar. Desigur c pot s existe situaii care nu pot fi comparate cum ar fi o eroare mare i o probabilitate mare. Aceste situaii vadeterminacercettorul saduclucrurilelaacelai numitor, pentruuniformizarea idicatorilor.4. Cele dou mrimi E i P nu sunt independente, astfel c nu se poate spune direct ce nivel de probabilitate i corespunde unei erori date. Fixnd una din ele, cealalt rezult din calcul. n condiii egalescdereaerorii antreneazscdereaprobabilitii, adicunctigdobndit pedeoparte constituie o pierdere de cealalt parte. Nu putem ameliora simultan i precizia estimrii i sigurana acesteia, pstrnd totodat restul condiiilor identice.35Alexandru Mircea Imbroane Statistic-suport de curs5. n activitatea practic se folosete expresia eantion reprezentativ sau eantion nereprezentativ chiar dac, aa cum am precizat este vorba de o nsuire gradual a reprezentativitii. nconformitatecuexigenelestudiului seacceptcoanumiteroareeste suficient demiciar oanumitprobabilitateesteestesuficient demare. Pentrunivelul de probabilitate valoarea minim acceptat este de obicei 0,95 ceea ce nseamn c ansa de a grei estimarea trebuie s fie mai mare sau egal cu 5%.n majoritea studiilor se obinuiete s se evidenieze aceast probabilitate de a grei notat cu p care este complementar adicp=1-P.nconsecinfolosireaexpresiei eantionreprezentativestejustificatdacprinaceastase nelege c, n raport cu toate caracteristicile cercetate eroarea Eeste sub o limit acceptabil, iar mrimea p se afl sub pragul de 5%.Gradul dereprezentativitate al eantionului depindede: caracteristicile populaiei, mrimea eantionului i procedura de eantionare.Pentru a caracteriza nivelul de omogenitate (eterogenitate) a unei populaii se folosete indicatorul abaterea medie ptratic ( ). Majoritatea formulelor prin care se exprim eroarea de eantionare arat c aceasta este direct proporional cu , deci cu nivelul de mprtiere fa de medie.n ceea ce privete mrimea eantionului reprezentativitatea crete odat cu creterea numrului deindivizi dineantion. Numai csporul dereprezentativitatenuestedirect proporionalcu creterea volumului eantionului, adic dependena nu este liniar. S-au fcut numeroase studii i s-a ajuns la concluzia c dependena dintre reprezentativitatea i mrimea eantionului este o curb (vezi figura de mai jos)36Alexandru Mircea Imbroane Statistic-suport de cursDup cum se vede n figur reprezentativitatea atinge foarte repede un nivel suficient de ridicat, aa nct o cretere suplimentar a numrului de indivizi din eantion nu mai aduce un spor notabil de reprezentativitate. Cu alte cuvinte valorile calculate nu se mai schimb aproape deloc.Trebuie fcut remarca important: eantionul format dinnindivizi are aceeai reprezentativitate indiferent de mrimea populaiei din care el a fost extras. De aceea expresii de genul ceproporiedinpopulaietrebuiesreprezinteuneantionbunsunt lipsitedesens. Mrimea absolut a eantionului este deciziv.Procee clasice de eantionareExist dou metode de eantionare:aleatoare(probabilist) iseleciile subiectiv organizate sau seleciile dirijate (nealeatoare).Reprezentativitatea se poate calcula numai pentru eantioane strict probabilistice i fiecare tehnic de eantionare aleatoare presupune formule specifice de estimare a erorii.1.Eantionarea aleatoare simpl.Indivizii sunt alei cuoprobabilitateidentic. Proceduratipicestetragerealasori. Acest luru se face atunci cnd avem la dispoziie ntreaga populaie i putem stabili o regula pentru tragerea la sori.Procedeul tragerii la sori este bazat pe schemele de probabilitate: al bilei revenite i cel al bilei nerevenite.Schemabilei revenite presupuneourncuNbiledeNculori, evenimentul constnd din extragerea unei bile. Probabilitatea de a extrage o bil de o anumita culoare este 1/N. dup ce s-a efectuat evenimentul, se introduce bila napoi i experimentul se repet. ntotdeauna vom avea probabiliti 1/N. n cazul schemei cu bila nerevenit, experimentul const n extragerea unei bile (probabilitatea_1 este =1/N), nu mai punembila napoi i repetmexperimentul (probabilitatea_2=1/(N-1)). Laaltreilea experiment vom avea probabilitatea_3=1/(N-3). Datorit faptului cncazul seleciei nerepetateesteexclusposibilitateaextragerii demai multeori a aceleai unitai, erorile sunt mai mici.O alt tehnic este generarea de numere aleatoare care se asociaz cu populaia n studiu. Se presupune c exist o list cu toi indivizii din populaie i fiecruia i se atribuie un numr de ordine i apoi se face asocierea cu tabelul generat automat.37Alexandru Mircea Imbroane Statistic-suport de curs2.Eantionareaprinstratificare.Procedeul, nformasaceamai simpl, arelabaz urmtoarea idee: se efectueaz o diviziune a populaiei dup caracteristici, n s clase: N1, N2, ..., Ns ( Ni=N). Alegerea eantionului de volum n se va face n s etape selectnd cu o procedur aleatoare simpl s subeatioane de mrime n1, n2, ..., ns, fiecare provenind din cte o clas, fiind proporional cu mrimea clasei respective:n1/N1 = n2/N2 = ... = ns/Ns3.Eantionarea multistadial.Acestprocedeuesteasociatcustatisticaspaialadicostatisticalecrorelementeau referinspaial. Esenaprocedeului se bazeaz pe urmtoarea idee.ntreaga populaie poate fi privit ca fiind format din grupuri repartizate pe unteritoriu. ntr-un primstadiu se alege (probabilistic) un eantion de grupuri de cel mai nalt rang (1), apoi din fiecare din acestea se alege un eantion de grupuri de rang 2 .a.m.d. n final se va ajunge la un eantion de indivizi. Denumirea multisadial provine de la faptul c exist mai multe stadii n alegerea eantionului final corespunztor fiecrui nivel de eantionare.Exemplu. Dac populaia studiat este ntreaga ar, primul pas este alegerea unuiu eantion de judee, apoi de comune etc.De remarcat este faptul c dintr-o anumit populaie pot fi extrase mai multe eantioane, care difer ntre ele att ca volum ct i ca structur. Din aceast cauz indicatorii statistici cu care caracterizm colectivitatea de sondaj pot fi considerai de forma unor variabile aleatoare pentru care se pot stabili distribuii de frecven cunoscute, spre deosebire de media i dispersia din colectivitatea general, pentru care exist o singur valoare.Cercetarea selectiv se face pe baza unui plan care trebuie s cuprind:- delimitarea ntimpi spaiu a colectivitii generale prinidentificarea tuturor cazurilor individuale sub care se manifest fenomenul respectiv;- verificarea gradului de omogenitate al colectivitii generale (se utilizeaz studii vechi);- alegerea sau stabilirea bazei de sondaj;(Prinbazdesondaj sentelegeoricesistematizareaunitilor -liste, hri-astfel nct s permit alegerea ntmpltoare a unitilor ce vor fi supuse prelucrrii n eantion).- alegerea tipului i a procedeului de selecie;38Alexandru Mircea Imbroane Statistic-suport de curs- stabilirea periodicitii efecturii sondajului;- stabilirea planului observrii;- stabilireaplanului deprelucrareadatelor deseleciedinpunct devederemetodologici organizatoric;- alegerea procedeelor deverificare a semnificaiei indicatorilor de selecie i de extindere a rezultatelor seleciei asupra ntregului ansamblu.Etapele importante n cercetarea prin sondaj sunt.Etapa 1. Se stabilete modul de eantionare.Etapa 2. Se culeg i se prelucreaz date statistice din eantioane din care rezult indicatori derivai: mrimi relative, medii, indici etc. care descriu statistic eantionul folosit.Etapa 3.Indicatorii obinui se extind, cu o anumit probabilitate Pi o eroare E, asupra ntregii colectiviti.39Alexandru Mircea Imbroane Statistic-suport de cursEstimarea parametrilorParametrii calculai pentru o colectivitate de selecie pot fi generalizai la ntreaga colectivitate n anumite condiii. Aceast generalizare se refer, n particular, la estimarea parametrilor necunoscui ai colectivitii iniiale (generale). Determinnd un anumit parametru, ne propunem s obinem o mrime, care ntr-o msur oarecare s fie ct mai apropiat de valoarea realaparametrului necunoscut. ncazcontrar cutmnitelimiteninteriorul crora, cuo anumit probabilitate, putem afirma c se afl mrimea real a parametrului necunoscut.nacest caz avem de-a face cu un interval de ncredere pentru parametrul necunoscut.Considerm c populaia statistic satisface legea normal. Astfel toi parametri estimai fac referire la o distribuie normal de frecven.Estimarea medieiVom nota cu 2 dispersia colectivitii generale, cu s2dispersia colectivitii de selecie (a eantionului).Msura erorii standard pentru medie estensEm Unde n este mrimea eantionului (nr. elementelor care formez eantionul).n aceast situaie estimarea pentru media colectivitii generale este:mE x X t cu o probabilitate de 0,68240Alexandru Mircea Imbroane Statistic-suport de cursmE x X 2 t cu o probabilitate de 0,954mE x X 3 t cu o probabilitate de 0,997Estimarea pentru abaterea medie ptratic ()Limiteledeconfidenpentruoabateremedieptraticpot fi estimatentr-omanier similar. Pentru aceasta introducem noiunea de eroare standard a abaterii medii ptraticensEs2n mod analog intervalele de ncredere sunt date de sE s t cu o probabilitate de 0,682sE s 2 t cu o probabilitate de 0,954sE s 3 t cu o probabilitate de 0,997Estimarea proporiilorFormulelepentruerorilestandardpot fiaplicatedoarpentruaestimamediai abaterea medie ptratic.Suntsituaiicndavem exprimri procentuale,cum ar fi procentul de persoane careauoptatpentruoanumitsituaie (care au votat pentru un partid).Astfel eroarea standard pentru estimarea procentelor este:npqE %unde p este procentul din eantion care posed un anumit atribut, q este procentul din eantion care nu posed acel atribut, iar n este numarul de indivizi din eantion.41Alexandru Mircea Imbroane Statistic-suport de cursExemplu. Pe un eantion de 50 indivizi s-a evaluat c 86% dintre acetia au televizoare (p). Procentul pentrucei carenuautelevizoare(q)estede10086=14(nuaufost numrai ci dedui). Avem:91 , 4 08 , 245014 86% EAa cum am procedat la celelalte estimri aceast eroare standard pote fi folosit pentru a stabili limitele de confiden a procentului estimat al colectivitii generale. Astfel avem :Populaia gen % = eantion % E% cu probabilitate 0,682Populaia gen % = eantion %2 E% cu probabilitate 0,954Populaia gen % = eantion %3 E% cu probabilitate 0,997Pentru exemplul de mai sus semnificaia este urmtoarea. Avem o probabilitate de 0,682 ca deintorii de aparate TV s fie undeva ntre 81,09% i 90,91% (adic 86-4,91 i 86 + 4,91). La un nivel de confiden de 0,954, procentele vor fi ntre 76,18% i 95,82% (86-2 4,91 i 86+2 4,91).Mrimea eantionuluincele expusemai sus amintrodus erorile standardpentruanumite mrimi estimate. Acesteapermit evaluarea limitelor deconfiden pebazaunor ipoteze (distribuia normala populaiei i uneantionobinut ntr-omanieraleatoare). Pentruevaluareaefectivaacestora trebuie s tim doar dou lucruri : mrimea (n) i abaterea medie ptratic (s) a eantionului. n cele ce urmeaz vom revedea problema invers : ct de mic trebuie s fie eantionul (n) astfel nct media i abaterea medie ptratic s aibe nite limite de confiden specificate.Din formula erorii pentru mediensEm explicitm pe n:2

,`

.|mEsnEx. Dac vrem s avem o eroare pentru medie de 0,25 i o dispersie de 2 => n = 6442Alexandru Mircea Imbroane Statistic-suport de cursEstimri provenite din eantioane micingeneral cel carefaceestimri pebazdeeantioaneesteopersoanprudent. Dac eantioanelesunt mici aceastprudentrebuiemrit. Aacumamvzut pnacumabaterea medie ptratic a eantionului (s) este foarte important pentru stabilirea limitelor de confiden ale mediei iabaterii mediiptraticepentrucolectivitateageneral. Cndselucreazcueantioane mici, de 10 sau mai mici, trebuie s adoptm nite limite de confiden mai mari.Astfel estimareaabaterii standardvafi nlocuitcuceamai bunestimareaabaterii notat cu i care se calculeaz din formula1nns sau dac calculm direct din eantion1) (12nx xniiSe observ c pentru eantioane mari aceast valoare nu difer prea mult de s, dar pentru valori mici ale luinaceast diferen poate fi semnificativ. Valoarea lui este ceva mai mare dect s i astfel limitele de confiden vor fi mai largi. Toate calculele privitoare la erori se vor face cu i nu cu s.43Alexandru Mircea Imbroane Statistic-suport de cursCorelaia statisticn procesul de cercetare a legturilor cauzale existente ntre fenomenele naturale avem de-a facecucontopireaaciunilor unei multitudini defactori (cauze), dintrecareunii eseniali, alii neeseniali, unii pot fi determinai, alii nu. Tocmai de aceea, n cercetarea legturii reciproce dintre dou fenomene apar dificulti mari deoarece pot s existe cauze necunoscute. n astfel de situaii este util s determinm gradul de corelare i apoi s analizm separat unele din aceste cauze. Cu alte cuvinte, trebuie s definimrelaii posibile ntre diferii factori, evenimente, atribute sau caracteristici care ar putea avea o influen, cel puin parial asupra datelor experimentale. n acest modesteposibilstabilireaunui tabloualcondiiilor ncaresedesfoarunanumit fenomen natural, fapt care ducela modelarea matematic a sa. Astfel de probleme se cerceteaz cu mult succes prin metodele statisticii, unde teoria corelaiei are o pondere nsemnat.Eficiena aplicrii metodei corelaiei depinde de punerea (enunarea) corect a problemei n studiu precum i de aplicarea corect a statisticii matematice.Caracterul complexal dependenei statisticepunepeprimul planproblemaidentificrii existenei legturilor. Calculul indicatorilor de corelaie este admis cu condiia stabilirii anticipate a uneilegturi cauzalerealentrefenomenelecercetate. Statisticanupoatesrezolveoastfel de problem fr ajutorul tiinei din domeniul creia face parte fenomenul studiat. Cu alte cuvinte, specialistul din domeniul respectiv trebuie s cunoasc temeinic noiunile analizei statistice implicatepentruadaointerpretarecorect a rezultatelor.Pentru a asigura deducii suficient de ntemeiate, estenecesarincludereancercetare,dac este posibil,a tuturor factorilor cu aciune esenial.n multe procese naturale,pe lng complexa ntreptrundere cu alte fenomene (procese), acestea mai sunt supuse unor evoluii care la prima vedere pot fi considerate probabiliste (aleatoare). De aceea, pentru cunoaterea modului de evoluie probabil n viitor - prognoza unui anumit fenomen- trebuiesnebazmpecunoatereaevoluiei trecute, precumi pesituaia prezent. Experiena unui mare numr de observaii (probe) au dus la concluzia c ntre diferitele mrimi variabile pot exista urmtoarele tipuri de relaii:a) Relaia de dependen, Y depinde de X sau invers. O modificare a unei variabile duce la omodificareacelei de-adoua.ncazul unei astfel de relaii s-ar putea aminti existena relaiei 44Alexandru Mircea Imbroane Statistic-suport de curscauzalencareovariabilestecauza, iarcealaltesteefectul, cauzafiindunfenomensauun complex de fenomene care provoac, genereaz sau determin un alt fenomen - efectul. Operaia logic prin care efectul este dedus din cauz se numete inferen cauzal.b) Relaia de interdependen, Y depinde de X iXdepinde de Y. n acest caz modificarea unei variabile provoac modificarea celei de-a doua variabile, iar modificarea acesteia din urm are influen asupra primei variabile.c) Relaia de tranziie, X se transform parial sau total n Y i invers.d) Corelaia statistic sau covariana. Pentru X exist ntotdeauna Y i invers. Este o relaie reciproc dintre dou variabile,dintre care una n mod logic apeleaz la alta i pe baza analizei datelor experimentale se poate pune n evidenz o asociere ntre ele.e) Relaia stochastic; dac se realizeaz X atunci cu o anumit probabilitate se realizeaz i Y, sau invers.n cele ce urmeaz vom analiza cu precdere corelaia statistic.O problem important pentru cercetarea corelaiilor este problema determinrii funciei de regresie, caresexprimerelaiacantitativdintrefenomenul efect i fenomenul cauz. Forma legturii dintre fenomene i descrierea printr-o ecuaie analitic, pe baza crora se definesc valorile fenomenului efect, n funcie numai de factorul sau factorii luai n considerare (cauze).Pentru ajustarea seriei de valori empirice trebuie s se aleag acea ecuaie care oglindete n modul cel mai corespunztor caracterul legturii cercetate. De buna alegere a funciei de regresie depinderezultatele analizei decorelaie, valoarea estimaiilor variabilei dependente. Stabilirea formei legturii ineseamadenaturadependenei fenomenului cercetat (deobiceisereprezint grafic).Lafenomenelesimple, undecauzeleacioneazseparat, relaia dintre fenomenul-efecti fenomenul-cauz se reprezint sub forma:y=f(x)unde x reprezint cauza, iar y efectul.La fenomenele complexe, dependena se exprim sub forma general:y = f(x1 , x2 ,..., xn)45Alexandru Mircea Imbroane Statistic-suport de cursFenomenul y este generat de aciunea comun a factorilor x1 ,x2 ,.., xn (cauze), din care lum ns n calcul numai o parte.S admitem c am luat n calcul factorul x1. ntrebarea care se pune este urmtoarea: n ce condiii indicatorii corelaiei obinui exprim msura real a influenei variabileix1asupra variabileiy? Numai cu condiia ca factorulx1s fie hotrtor n determinarea luiy, ceilali fiind nesemnificativi. n cazul n care fenomenul este sub aciunea unui complex de factori eseniali i aceasta este situaia obinuit, pentru a exprima influena i gradul de intensitate a legturilor n raport cu un singur factor trebuie s eliminm influena celorlai.S considerm o colectivitate statistic caracterizat prin mrimile X i Y. Efectund o serie dedeterminri experimentale(sauobservaii) asupraacestei colectiviti, putemntocmi tabela datelor respective:X | x1, x2 , ..., xnY | y1 , y2 , ..., ynRepartiia empiric a celor dou variabile se poate afia grafic, ntr-un sistem de axe XOY, unde vom reprezenta punctele de coordonate xii yi.Un ansamblu de astfel de puncte se numete cmp de corelaie, tabel de corelaie sau nor statistic.Dac punctele Mi(xi,yi) sunt distribuite de-a lungul unei fii, care n general, urmeaz o curbdeterminat, spunemcntremrimilerespectiveexistodependenfuncional. Dac punctele Mi(xi ,yi) nu arat o dependen funcional strict, dar exist o tendin ca valorile lui Y s depind de cele ale lui X dei nu n mod riguros, ntre mrimile X i Y exist o corelaie Aceasta poate s fie liniar(fig. 1) sau neliniar(fig. 2). n cazul cnd ntre X i Y nu exist nici un fel de dependen, cmpul de distribuie se va prezenta asemntor cu acela artat n fig. 3, 4. Cele dou caracteristici sunt independente.46Alexandru Mircea Imbroane Statistic-suport de curs 47Figura 1 Distribuie liniarFigura 2 Distribuie neliniarFigura 3 Distribuie aleatoareFigura 4 Distribuie grupatAlexandru Mircea Imbroane Statistic-suport de cursntr-un caz particular, dependena corelaionar se poate transforma ntr-o dependen funcional, dar cu un anumit grad de certitudine. Apare problema de stabili cantitativ (numeric) n ce msur dependena corelaional se apropie sau se deprteaz de dependena funcional.n foarte multe cazuri, din observarea fenomenelor naturale sau a proceselor sociale, fr a cunoate natura exact a acestora i nici cauzele prin care este pus neviden oanumit caracteristic, sepot trageconcluzii foarteimportanteprinexaminareacorelaiei dintreaceste trsturi i alte evenimente. n acest mod se poate aprecia existena unei relaii statistice ntre dou sau mai multe variabile, adic, n astfel de cazuri se vorbete despre corelaii dintre mrimile care indic o dependen reciproc.ncazulcnd se consider numai dou variabile,se pot stabilicorelaii simple, iar cnd numrul variabilelor este mai mare de doi, avem corelaii multiple.Din punct de vedere al formei unei relaii statistice, spunem c ea este direct atunci cnd cretereaunei variabile, ducelaocretereaceleilaltevariabile, i odenumiminverscndo cretere a unei variabile duce la o descretere a celeilalte.Relaiile statistice definite prin corelaii pot avea aspect liniar sau neliniar; prin urmare vom distinge corelaii liniare i corelaii neliniare sau curbilinii.ncazul ncaresuntimplicatemai multevariabilevomaveacorelaieparialcndse consider constante unele variabile i corelaie parial cnd se iau n considerare variaiile tuturor mrimilor.Metoda celor mai mici ptrate.Dependena funcional a unei variabile yfa de alt variabil xpoate fi studiat empiric, pe cale experimental, efectundu-se o serie de msurtori asupra variabilei y pentru diferite valori ale lui x. Rezultatele se pot prezenta sub form de tabel sau grafic.Problemacaresepunenacest cazestedeagsi reprezentareaanaliticadependenei funcionale cutate, adic de a alege o formul care s descrie rezultatele experimentului.Formula se alege dintr-o mulime de formule de tip determinat, de exemplu.y = ax + b , y = ax2 + bx + c , y = aebx + c , y = a + h sin( t + )48Alexandru Mircea Imbroane Statistic-suport de cursCu alte cuvinte, problema const n a determina parametriia,b,c, ai formulei, n timp ce tipul formulei estecunoscut dinaintecaurmareaunor considerenteteoreticesaudupforma prezentrii grafice a materialului empiric.S notm, la modul general cnd avem n parametrii, dependena funcional prin:y = f(x; a0 ,a1 ,...,an)Parametriia0, a1,..., annu se pot determina exact pe baza valorilor empirice y1, y2,...,ynale funciei, deoarece acestea din urm conin erori aleatoare.Este vorba de obinerea unei estimaii "suficient de bune".Formularea problemeiDac toate msurtorile valorilor funciei sunt y1, y2,...,ynatunci estimaiile parametrilor a0, a1,...,anse determin din condiia ca suma ptratelor abaterilor valorilor msurate yk de la cele calculate f(xk; a0, a1,..., an), adic expresia nkn k ka a a x f y S121 0)] ,..., , ; ( [s ia valoarea minim.Consideraiaformulatsepstreazipentrudeterminareaestimaiilor parametrilor unei funcii de mai multe variabile. Adic un efect i dou cauze. De exemplu, pentru funcia z de dou variabile xiy,estimaiile parametrilor a0, a1,..., anse determin din condiia ca expresia: nkn k k ka a a y x f z S121 0)] ,..., , ; , ( [s fie minim.Aflarea valorilor parametrilor a0, a1,..., an, care conduc la cea mai mic valoare a funciei ) ,..., , (1 0 na a a s s revine la rezolvarea sistemului de ecuaii00 aS, 01 aS,, 0 naSDac formula empiric depinde liniar de parametrii necunoscui atunci sistemul de mai sus va fi de asemenea liniar.49Alexandru Mircea Imbroane Statistic-suport de cursDreapta de regresie.ncazul cel mai simplusestudiaznumai douvariabileX, Yi sedoretegsirea dependenei:Y = aX + bn ipoteza c X este cauza i Y este efectul.n urma celor n probe se cunosc datele (xi ,yi), i=1,..., n i trebuie s determinm coeficienii a i b astfel nct suma + nii iy b ax b a S12) ( ) , (s fie minim.Se obinexyxyy xxyxyxxyrc ca 2x a y b unde x2 este dispersia variabilei x, iar y2 este dispersia variabilei y.Mrimea y x y x cxy semumetecorelaiavariabilelor Xi Y. Raportul y x xy xyc r / senumetecoeficient de corelaie a variabilelor X, Y i msoar intensitatea dependenei liniare dintre variabilele X i Y.n n final se va obine ecuaia de regresie:) ( x X r y Yxyxy Aceastdependenreprezintodreaptnumitdreaptderegresieavariabilei Ynraport cu variabila X.Dreapta de regresie50Alexandru Mircea Imbroane Statistic-suport de cursObservaie. Sepoatevorbi i dedependenavariabilei XnfunciedeY. Urmnduncalcul asemntor se ajunge la dreapta de regresie a variabilei X n raport cu Y:) ( y Y r x Xxyyx Se observ c cele dou drepte de regresie coincid dac i numai dac12xyr.Observaii.1. Trebuie s facemobservaia c, indiferent de gradul de mprtiere al punctelor, ntotdeaunasepoategsi odreaptderegresie, darncazul unei dispersiimari aceastadevine inutil. Deaceeaunstudiupreliminar adistribuiei punctelor nplansauspaiuseimpunecu necesitate.2. Coeficientul de corelaie este o mrime foarte important n cadrul regresiei liniare. El msoar gradul de dependen liniar ntre cauz i efect i are o valoare cuprins ntre 1 i 1. Apropierea de 1 implic o dependen liniar puternic ntre mrimi, iar apropierea de zero indic o lips a corelatiei. Valorile negative semnific o corelaie invers.EXEMPLEn cele ce urmeaz vom lua dou exemple. n primul exemplu vom determina o dreapt de regresie, corespunztoare debitului i al pH-ului, msurate n perioada ianuarie -decembrie 1993 pe rul Arie. Datele au fost obinute de la R.A. Apele Romne.PH 8.7 7.8 6.6 7.9 7.3 7.5 7.5 7.3 6 7.6 7.8 7 6.8 6.6 6.4Debit 13 40 80 23 50 30 25 60 10 28 15 74 45 59 68Figura 45Dreapta de regresie51Variatia debit-pHy = -32.633x + 284.030204060801001200 5 10debitLinear (debit)Alexandru Mircea Imbroane Statistic-suport de cursSeobservcpH-ul scadeodatcucretereadebitului. Ladebitemai mari proceselehidrice (dizolvare, diluie etc) fiind mai accentuate. La valori mai mici ale debitului, pH-ul crete devenind uor acid(7,67,9) sauacid(8,7). Coeficientul decorelaieester=-0,87946; avemastfel o corelaie invers strns.n al doilea exemplu am determinat curba de regresie corespunztoare variaiei debitului i suspensiilor. Datele au fost obinute n urma analizelor fizico-chimice efectuate pe Valea Zalului, de pe teritoriul municipiului Zalu n anul 1995.debit 251 190 308 375 165 357 369 280 469 640 215 150 169 550 460susp. 75 68 157 200 69 134 125 67 205 270 48 90 88 125 145Figura 46Curba exponenial de regresien figura 46 se distinge faptul c odat cu creterea debitului cantitatea de suspensii din ap creteexponenial. Datoritcurentului, particulelededimensiuni mari depefundul albiei sunt antrenate n micare, devenind suspensii. n cazul unor debite mai mici, cnd scurgerea este mai lin, doar particulele de dimesiuni mici sunt antrenate n micare. Facem observaia c acest lege nu este att de reprezentativ ca i cea din exemplul precedent.Calculele au fost fcute cu programul de calcul tabelar Excel.Regresia multipl.Considerm cazul n care variabila Z depinde de dou variabile X i Y. Se dorete obinerea dependeneiZ = a X + b Y + castfel nct suma + + nii i iz c by ax c b a S12) ( ) , , (s fie minim. Se obine52Variatia debit-suspensiiy = 46.436e0.0026x0501001502002503000 500 1000susp.Expon. (susp.)Alexandru Mircea Imbroane Statistic-suport de cursxzxyyz xy xyxy y xyz xy xz yssrr r rc s sc c c sa 2 2 2 221xzxyzx xy xyxy y xyz xy yz xssrr r rc s sc c c sb 2 2 2 221i ecuaia de regresie:) ( ) ( y Y b x X a z Z + Reprezentat geometric aceastecuaie esteunplannspaiul oxyz. Interpretareaeste urmtoatrea: acest plan este planul care ajusteaz cel maibine irurilexiiyi,i=1,...,n. Cu alte cuvinte, dacZreprezintefectul, Xi Y reprezintcauzele, nconsecin,Z aratdependena liniar de cele dou variabile X i Y luate mpreun.53Alexandru Mircea Imbroane Statistic-suport de cursCorelaia rangurilorExist cazuri n care ne intereseaz gradul de corelaie dintre dou serii de mrimi, dar cnd nuputemefectua msurtorile respective. nanumite tipuri deprobleme avemde-aface cu caracteristici care nu pot fi exprimate prin cifre, dar pot fi ordonate dup un aumit criteriu. n astfel de cazuri vom lua n considerare ordinea lor i nu evaluarea numeric.n cazul n care rangul anumitor caracteristici este mai accesibil dect msurtorile efective, pentru examinarea legturilor dintre anumii parametrii, putemcerceta corelaia rangurilor respective. Prezentmmai josctevaprocedeedeevaluareaanumitor corelaii ncareseine seama de ordonarea mrimilorcaracteristice, adic n care se utilizeaz rangul sau poziia pe care leauanumitemrimi, unanraport cualta. Vomdeterminadecicoeficientul decorelaiealrangurilor.Coeficientul lui SpearmanFiennumruldeelemntealeunei mulimiordonate dup caracteristicicalitativ diferite. Pentru c avem n uniti statisticeA1, A2, ... , An,fiecare dintre ele avnd dou caracteristici (x1, y1), (x2 , y2),...,(xn, yn)Pentru caracteristica x dispunem de ordonarea: x1 , x2 ,...,xn, iar pentru caracteristica y avem: y1, y2 ,...,yn, unde x i y sunt simple permutari ale celornnumere naturale. Notm:di = xi yi(k=1, 2,...,n)undevectorul decomponentediesteomrimeagradului deapropierepecareopoateavea corespondena dintrexiy. Dacd=0, nseamn c toi indivizii considerai au cele dou caracteristici n aceeai ordine, avem deci o coresponden perfect. Cu ct diferenele di sunt mai mari, cu att mai mare este discordana ntre cele dou caracteristici.Pentruocercetareacorelaieirangurilor, vom considera scrise n ordine cresctoare sau descresctoare toate valorile lui xi iar alturi scriem valorile corespunztoare ale lui yi, acestea din urm putnd fi sau nu nvreoanumit ordine. Prin urmare, n cadrul ordonrii dup rang,x ia valorile: 1,2,3,..., n ntr-o anumit ordine, pe cnd y ia aceleai numere dar ordonate dup aceast caracteristic.Pentru ca s nu existe compensri ntre valorile dise va lua ptratul acestor valori. Astfel sedefinetecoefficient decorelaieal rangurilor(coeficientul lui Spearman) cafiind expresia: 54Alexandru Mircea Imbroane Statistic-suport de curs) 1 (6122 n ndiDac =1 avem concordan maxim, iar dac =-1 avem discordan maxim.Pentru oilustrare maisugestiv vomlua un exeplu.ConsidermcA1, A2, ... , An reprezintnpersoane, caracteristicilex1,x2,...,xn, fiind nlimea lor msurat n cm, iar caracteristicile y1,y2,...,yngreutatea lor msura n kg. Se pune problema dac exist o corelaie ntre aceste dou caracteristici. Pentru simplificare vom lua n=10. Aceast clasificare are urmtorul rezultat.A1A2A3A4A5A6A7A8A9A10 3 1 10 6 2 5 7 8 4 91 2 9 7 4 3 6 10 5 8n prima linie sunt cele 10 persoane, n linia a doua ordinea pe care o ocup fiecare persoan dupnlime(cresctoare), iar nliniaatreiaordinealor dupgreutate.Aceastordonarene permite s dm un criteriu privind legtura ntre aceste dou caracteristici.Vom deosebi dou situaii extreme. Situaia cea mai strns legat (cel mai nalt este cel mai mare n greutate):A1A2A3A4A5A6A7A8A9A10 3 1 10 6 2 5 7 8 4 93 1 10 6 2 5 7 8 4 9i situaia cu legtura cea mai slab (cel mai nalt este cel mai mic n greutate).A1A2A3A4A5A6A7A8A9A10 3 1 10 6 2 5 7 8 4 98 10 1 5 9 6 4 3 7 2Rangurile obinute n cele dou clasificri pot oferi o indicaie asupra corelaiei dintre cele dou caracteristici. Diferenele dintre cele dou valori sunt (primul ir minus al doilea ir):2 -1 1 -1 -2 2 1 -2 -1 155Alexandru Mircea Imbroane Statistic-suport de cursiar suma ptratelor diferenelor este dat de221012 iid iar coeficientul lui Spearman =0,862Apropierea de 1 lui indic o corelaie destul de mare ntre carcatristicile luate n considerare.56Alexandru Mircea Imbroane Statistic-suport de cursPARTEA IIaINTRODUCERE N TEORIA PROBABILITATILORNoiunea de probabilitate este un concept fundamental n statistic. Toate testele statistice implic calculul probabilitilor, fie direct, fie indirect. Statistica nu lucreaz cu certitudini, ci cu probabiliti. Ipotezele statistice nu pot fi considerate n totalitate adevrate sau false.Raionamentul probabilist explic evenimentele fundamentale ale universului fizic n care trim precum i o mare parte din evenimentele petrecute n lumea fiinelor vii. Utilitatea aproape nelimitat a raionamentului probabilist este unul din aspectele cele mai importante i mai izbitoare ale tiinei moderne. Acest punct de vedere a fost dezvoltat i acceptat mai ales n ultimii 80 de ani, cu toate c teoria probabilitilor s-a nscut cu peste trei secole n urm.Vom examina n acest capitol numai acel tip de raionament, n care un pas conduce n mod ordonat la pasul urmtor, ntregul proces succesiv conducnd n final la o concluzie. Acest gen de gndire ajunge la un nivel foarte rafinat n matematic, precizia sa depinznd de mai muli factori: modul precis n care sunt definii termenii, rigoarea cu care definiiile sunt respectate i atenia cu caretoatereguliledeaciunesunt pusenevideni clar exprimate. Acest moddeagndi constituiegndirealogic, iar logicansi poatefi definit astfel drept studiul sistematic al condiiilor i procedeelor care permit o judecare valabil, cu alte cuvinte care permit s se porneasc de la una sau mai multe afirmaii i s se deduc din aceasta una sau mai multe concluzii, sau propoziii noi care s fie valabile, n sensul justificrii lor de ctre propoziiile iniiale ale cror consecinesuntdefapt. Esteextremdeimportant faptulclogicanuafirmcevadinnimicci scoate la iveal afirmaii, propoziii i relaii cuprinse n propoziiile iniiale. Ceea ce are importan, prinurmare, ntr-ontr-oastfel degndirelogicnuesteadevrul, ci mai degrab valabilitatea sa. O concluzie logic poate s merite pe drept cuvnt adjectivele : corect, sntoas sau precis, toate acestea nsemnnd c ea a fost dedus n mod riguros din materialul iniial. Dar faptul c a fost dedus prin metode logice corecte nu nseamn ctui de puin c ea este n mod necesaradevrat. Dacafirmaiile(ipotezele) iniiale sunt adevrate, atunciconsecinele logice deduse trebuie s fie adevrate.Logica probabilist ia n considerare o serie ntreag de afirmaii, dintre care nici una nu este total fals sau total adevrat, ordonndu-le n raport cu gradul lor de adevr, spunnd cu ct 57Alexandru Mircea Imbroane Statistic-suport de curseste mai plauzibil sau mai puin plauzibil una fa de cealalt. Logica probabilist nu se limiteaz numai la dou valori de adevr 0 i 1, ci utilizeaz o infinitate de valori exprimate ca numere situate ntre 0 i 1.Teoria probabilitilor poate s analizeze acele situaii n care nu avem suficiente informaii care s permit aplicarea logicii clasice; ea este capabil s ne dea un cel mai bun tip de rspuns pe care-l justific o informaie incomplet. ntr-un mare numr de cazuri, teoria probabilitilor nu ne spune numai "sfatul meu este aa i aa", ci poate s ne indice gradul de ncredere pe care suntem ndreptii s-l acordm sfatului dat.n diferite stadii ale dezvoltrii tiinei se poate considera un ansamblu de fenomene reale i se poate cuta pentru el un model matematic. De exemplu o familie de ipoteze plus teoria pur care rezult pe baza acestora i care se aplic cu strict precizie unui sistem fizic idealizat - suficient de asemntor sistemului fizic real - n aa fel nct teoria sistemului idealizat va "explica" sau mcar va organiza i simplifica fenomenele reale. Primii experi n teoria probabilitilor vorbeau despre extragerea de bile colorate din urne. Aceasta nu pentru c lumea ar fi ntr-adevr interesat n urne cu bile ci pentru c deseori acestea puteau fi folosite ca modele utile ale unor situaii reale. Calculele probabilistice se aplic strict la modele fictive pe care ele sunt bazate. Dac ele se aplic sau nu n mod util situaiilor reale este o chestiune la care trebuie s reflectm cu grij.Cmp de evenimenten teoria probabilitilor sunt studiate experienele cu rezultat ntmpltor, numite experiene aleatoare; pe scurt experiene (experimente).Definiie. Prinexperiennteoriaprobabilitilor senelegeoriceact carepoatefi repetat n condiii date.Nusepoateprecizarezultatul exact al unei experiene. Deexemplulaaruncareaunei monede nu se poate ti dinainte ce fa a monedei va apare. De asemenea la aruncarea unui zar nu sepoateti dinaintecefaazarului vaapare. Oriceeveniment aleator depindedeaciunea combinat a mai multor factori ntmpltori.Rezultatele posibile ale experienei se numete prob.58Alexandru Mircea Imbroane Statistic-suport de cursDefiniie. Orice situaie legate de experien i despre care putem spune c s-a produs sau nu, dup efectuarea experienei, poart numele de eveniment. aleator Cu alte cuvinte, un eveniment aleator sau pe scurt eveniment (ataat experienei) este orice situaie care se poate realiza prin una sau mai multe probe.Deci uneveniment estedeterminat prinmulimeaprobelor princareserealizeaz, prin urmare l putem interpreta ca o submulime a mulimii tuturor probelor experienei.Exemple1. Aruncarea unei monezi este un experiment. Apartiia oricrei fee o prob. Apariia unei anumite fee este un eveniment.2. Aruncarea zar este un experiment.Apartiia oricrei fee o prob. Apariia unei anumite fee este un eveniment. Apariia feelor 2, 3, 4, este de asemenea un eveniment.Evenimentele aleatoare se supun unor legi, cunoscute sub numele de legi statistitice, teoria probabilitilor stabilind forma lor de manifestare i permind s se prevad desfurarea lor.Evenimentele care se realizeaz printr-o singur prob se numesc evenimente elementare, celelalte se numesc evenimente compuse.Evenimentul care se realizeaz prin oricare din probe se numeteeveniment sigur(notat prin E).Exemplu. Apariia oricrei fee la o moned sau la un zar.Evenimentul care nu se realizeaz prin nici o prob se numete eveniment imposibil, notat cu .Exemplu. Apariia niciunei fee la o moned sau la un zar.Evenimentul contrar lui A sau non-A (sau ) este evenimentul care se realizeaz atunci i numai atunci cnd nu se realizeaz A.Exemplu. Apariia unei fee cu numr par la un zar i apariia unei fee cu numr impar sunt evenimente contrare.ntotdeauna unui eveniment i corespunde un eveniment contrar, a crui producere nseamn nerealizarea primului.Definiie.Spaiul de selecie asociat cu o expereien este mulimea de elemente cu proprietateacoriceeveniment rezultat nurmaexperienei corespundeunui singurelement al acestei mulimi.59Alexandru Mircea Imbroane Statistic-suport de cursDefiniie. Fie mulimea E={E1, E2,...,En} mulimea tuturor evenimentelor elementare corespunztoare unei experiene. Se numetecmp finit de evenimente, mulimea tuturor submulimilor lui E, la care se adaug mulimea E nsi i .Exemple: La aruncarea unei monezi avem urmtoarele situaii (evenimente): apariia unei fee, apariia celeilalte fee, apariia oricrei fee (E) i apariia nici uneia din fee (). n total sunt 4 evenimenteUn cmp de evenimente se noteaz cu {E,K} unde prin E nelegem evenimentele, iar K semnific numrul evenimentelor.Observaie: Ori de cte ori ntr-o relaie vor intra mai multe evenimente, vom presupune c ele aparin aceluiai cmp i nu vom mai specifica acest lucru.Operaii cu evenimente.Cnd n cadrul unei experiene ne fixm atenia asupra unui eveniment, de fapt, ne fixm atenia asupra unei pri din mulimea rezultatelor experienei.Exemplu. La aruncarea unui zar ne intereseaz evenimentul A care const n apariia uneia din feele 2, 4 sau 6. Evenimentul A este perfect determinat de mulimea format din aceste dou rezultate i deci l putem identifica cu aceasta. Vom scrieA={2,4,6}Considerm c evenimentul B const numai din apariia feei 2 i 4.Se observ c evenimentul A se produce ori de cte ori se produce evenimentul B. Astfel putem scrie:BADefiniie. Fiind date dou evenimente A i B, numim reuniunea lor, AB, evenimentul a crei producere const n producerea a cel puin unul din cele dou evenimente.Exemplu. La aruncarea unui zar se consider evenimentele:A={1,2,4}, B={2,4,5}Evenimentul A se produce dac obinem unul din rezultatele {1}, {2} sau {4}, iar B dac se obine unul din rezultatele {2}, {4} sau {5}AB={1,2,4,5}Definiia 3. Intersecia evenimentelor A i B const n producerea simultan a evenimentelor A i B.60Alexandru Mircea Imbroane Statistic-suport de cursPentru exemplul de mai sus, avem urmtoarea expresie:AB={2,4}Definiia 4. Spunem c dou evenimente sunt compatibile dac se pot produce simultan.Exemplu. Apariia feei {1} i apariia feelor impare.Definiia5. Spunemc dou evenimente sunt incompatibile dac nuse pot produce simultan.Exemplu. Apariia unei fee pare i apariia unei feelor impare.Se folosete expresiaAB=Definiie. Fie A un eveniment; dac ntr-o serie de n probe, evenimentul A s-a realizat de nA ori, numim frecven relativ a evenimentului A numrul f(A) = nA/n.Cmp de probabilitateConsiderm o experien cu nevenimente elementare (deci nprobe) egal posibile i fie A un eveniment oarecare, care se poate realiza prin m probe; m n.Definiie(definiiaclasicaprobabilitii).Senumeteprobabilitateaevenimentului A, numrul P(A)=m/n, adicraportul dintrenumrul cazurilorfavorabileinumrul cazurilor egal posibile.Probabilitatea unui eveniment elementar este1/n(n fiind numrul probelor).Proprieti:1) 0 P(A) 12) P()=03) P(E)=1, m=n4) P() = 1-P(A)5) P(AB) = P(A)+P(B), dac AB= (evenimente incompatibile)6) P(A) P(B) dac AB.Definiie(definiiaaxiomaticaprobabilitii). OprobabilitatePdefinitpecmpul de evenimente {E,K} este o funcie care asociaz fiecrui eveniment A{E,K} un numr real P(A) care satisface urmtoarele axiome:1) P(A) 0 , A{E,K}61Alexandru Mircea Imbroane Statistic-suport de curs2) P(E)=1, E fiind elementul sigur3) P(AB)=P(A)+P(B), A,B{E,K}, AB=Observaie. Definiia clasic a probabilitii satisface toate axiomele definiiei de mai sus.Definiia 8. Numim cmp finit de probabilitate un cmp finit de evenimente {E,K} nzestrat cu o probabilitate; se noteaz {E,K,P}.Evenimente independente. Dou evenimente A, B sunt independente dac:P(AB) = P(A) P(B)Evenimente incompatibile. Dou evenimente se numesc incompatibile dacAB=deciP(AB) = P() = 0 Scheme calsice de probabilitate.Calculul probabilitilor de apariie a unor evenimente este acelai pentru o clas larg de experimente. Din acest motiv se construiete un model matematic pentru o astfel de clas, care se numeteschem de probabilitate. Pentru o astfel de schem se determin formulele corespunztoare de calcul, ce depind de anumii parametri, formule care se aplic pentru fiecare experimentdinclasarespectiv, prin particularizarea acestor parametri.n cele ce urmeaz vom prezenta principalele scheme de probabilitate cele mai de ntlnite.1. Schema lui Bernoulli (schema binomial sau schema bilei revenite)nurmaefecturii unei experienepoateapreaevenimentul Acuprobabilitateap, sau evenimentul contrar () cu probabilitatea q=1-p. Se repet experiena de n ori n condiii identice. Probabilitatea P(n;m) ca n cele n experiene evenimentul A s apa de m ori estem n m mnq p C m n P ) ; (Deoareceprobabilitatea P(n;m) estecoeficientul luixmdindezvoltarea (q+px)nacesat schem se mai numete schema binomial. Schema lui Bernoulli mai poate fi realizat printr-o urn cu bile de dou culori (albe i negre), se extrage pe rnd cte o bil din urn, dar de fiecare dat bila se pune napoi, motiv pentru care se mai numete schema bilei revenite (ntoarse).2. Schema bilei nereveniteDintr-o urn cu a bile albe i b bile negre se extrag n bile, n a+b. Probabilitatea Pa,b( , ) ca din bilele extrase s fie albe i negre, + =n, este62Alexandru Mircea Imbroane Statis


Top Related