Matematici speciale Seminar StatisticaTestarea ipotezelor statistice In procesul decizional...

Post on 04-Feb-2020

33 views 0 download

transcript

Matematici speciale

Seminar Statistica

Mai 2018

ii

โ€Statistica este arta de a minti prin intermediul cifrelor.โ€

Wilhelm Stekel

12Notiuni de statistica

Datele din dreapta arata tempera-turile de racire ale unei cesti de cafea,care tocmai a fost preparata. Temper-atura la care ajunge aparatul de cafeaeste 180 de grade Fahrenheit (aproxi-mativ 82โˆ˜๐ถ).

In anul 1992 o femeie a dat in judecata McDonaldโ€™s pentru ca au servitcafeaua la temperatura 180โˆ˜๐น si aceasta i-a cauzat arsuri serioase in momentulin care a incercat sa o bea (vezi Liebeck vs. McDonaldโ€™s ). Un expert adus dinpartea acuzarii a sustinut la proces ca lichidele care se afla la aceasta temper-atura pot cauza distrugerea totala a pielii umane in doua pana la sapte secunde.S-a stabilit ca daca ar fi fost servita la 155โˆ˜๐น (68โˆ˜๐ถ) s-ar fi racit la timp si arfi fost evitat tot incidentul. Femeia a primit in prima instanta o despagubire de

1

2.7 milioane de dolari. Ca urmare a acestui caz faimos multe restaurante servescacum cafeaua la o temperatura de aproximativ 155โˆ˜๐น . Cat de mult ar trebuisa astepte restaurantele din momentul in care cafeaua este turnata in ceascadin aparat si pana cand ea poate fi servita, pentru a se asigura ca nu este maifierbinte de 155โˆ˜๐น ?

โˆ™ Determinati ecuatia unui model de regresie exponentiala pentru a reprezentadatele

โˆ™ Reprezentati grafic curba obtinutaโˆ™ Decideti daca ecuatia obtinuta este buna pentru a reprezenta datele exis-

tente in tabelโˆ™ Interpolare: Cand ajunge temperatura cafelei la 106โˆ˜๐น ?โˆ™ Extrapolare: Care este temperatura prezisa, de modelul gasit, peste o ora?

2

Notiuni teoretice:

โˆ™ Statistica descriptiva: populatie statistica, esantion statistic, serie sta-tistica, frecventa abosluta, frecventa relativa, histograma, media ๏ฟฝ๏ฟฝ, mediana๐‘š3, amplitudinea ๐ด, dispersia ๐œŽ2, deviatia standard ๐œŽ, moda (modulul) ๐‘š๐‘œ,dispersia de selectie ๐‘ 2, deviatia standard de selectie ๐‘ , cuartilele ๐‘„1, ๐‘„2, ๐‘„3,indicatorul de asimetrie ๐‘ ๐‘˜ (skewness), indicatorul de aplatizare ๐‘˜ (kurtosis)

Intervale de incredere

โˆ™ intervalele de incredere sunt folosite cand vrem sa estimam un parametru alunei populatii folosind un esantion. Parametrul poate fi estimat printr-o singuravaloare (estimare punctuala) dar de obicei e preferabil sa fie estimat printr-uninterval care va da unele indicii asupra gradului de incertitudine al estimarii.

โˆ™ notatia obisnuita pentru acest parametru este ๐œƒ. Deseori, acest parametrueste media populatiei ๐œ‡, care este estimata prin media esantionului ๏ฟฝ๏ฟฝ.

โˆ™ nivelul de incredere C al unui interval de incredere reprezinta probabilitateaca intervalul construit sa contina valoarea adevarata a parametrului.

โˆ™ acest nivel de incredere este ales a priori si valorile cele mai utilizate sunt0.90, 0.95, sau 0.99. Aceste nivele corespund procentajelor din aria curbei luiGauss, data de densitatea de probabilitate a unei variabile aleatoare normalstandard distribuita.

โˆ™ de exemplu, un interval de incredere cu un nivel de incredere ๐ถ = 95%acopera 95% din curba lui Gauss. Probabilitatea ca valoarea reala sa fie in afaraacestui interval este mai mica de 0.05. Pentru ca aceasta curba este simetricajumatate de arie se afla in partea din stanga a curbei si cealalta jumatate inpartea dreapta.

โˆ™ dupa cum arata diagrama de mai jos, pentru un interval de incredere cunivelul C, aria din fiecare extremitate a curbei este 1โˆ’๐ถ

2 . Pentru un nivel deincredere 95%, aria din fiecare extremitate este 0.05/2 = 0.025.

Valoarea ๐‘ง*, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ๐‘ง* este egala cu ๐‘, este denumitavaloarea critica superioara a distributiei normale standard.

3

De exemplu, pentru ๐‘ = 0.025, valoarea ๐‘ง* pentru care ๐‘ƒ (๐‘ > ๐‘ง*) = 0.025,sau ๐‘ƒ (๐‘ < ๐‘ง*) = 0.975, este egala cu 1.96 conform tabelului cu scorurile Z cititin sens invers.

โˆ™ pentru un interval de incredere cu nivelul de incredere C, valoarea lui ๐‘este (1 โˆ’ ๐ถ)/2.

Medie necunoscuta si deviatie standard cunoscuta

Teorema:Pentru o populatie cu media ๐œ‡ necunoscuta si deviatie standard ๐œŽ cunos-

cuta, un interval de incredere pentru media populatiei, construit pe baza unuiesantion de volum ๐‘›, este:

(๏ฟฝ๏ฟฝโˆ’ ๐‘ง*๐œŽโˆš๐‘›, ๏ฟฝ๏ฟฝ + ๐‘ง*

๐œŽโˆš๐‘›

)

unde ๐‘ง* este valoarea critica corespunzatoare lui1 + ๐ถ

2pentru distributia nor-

mala standard, adica ฮฆ(๐‘ง*) = 1+๐ถ2 .

Medie necunoscuta si deviatie standard necunoscuta

โˆ™ cand deviatia standard ๐œŽ este necunoscuta este estimata de obicei prin ๐‘ numita eroarea standard /deviatia standard de selectie , unde:

๐‘ 2 =

๐‘›โˆ‘๐‘–=1

(๐‘ฅ๐‘– โˆ’ ๏ฟฝ๏ฟฝ)2

๐‘›โˆ’ 1

si ๐‘› este volumul selectiei.Teorema:Pentru o populatie cu media necunoscuta ๐œ‡ si deviatia standard ๐œŽ ne-

cunoscuta, un inteval de incredere pentru media populatiei, construit pe bazaunui esantion de volum ๐‘›, este:

(๏ฟฝ๏ฟฝโˆ’ ๐‘ก*๐‘ โˆš๐‘›, ๏ฟฝ๏ฟฝ + ๐‘ก*

๐‘ โˆš๐‘›

)

unde ๐‘ก* este valoarea critica corespunzatoare lui1 โˆ’ ๐ถ

2pentru distributia ๐‘ก-

Student cu n-1 grade de libertate.โˆ™ Pasul final consta in interpretarea rezultatului: pe baza datelor avute

suntem ๐ถ% siguri ca adevarata medie a populatiei se afla intre valorile date deintervalul gasit

โˆ™ valorile critice ๐‘ง* si ๐‘ก* se pot gasi in tabelul urmator z-t-tableโˆ™ distributia ๐‘ก sau distributia Student este data de catre urmatoarea

densitate de probabilitate:

๐‘“(๐‘ก) =ฮ“(๐‘›+1

2 )โˆš๐‘›๐œ‹ฮ“(๐‘›

2 )

(1 +

๐‘ก2

๐‘›

)โˆ’๐‘›+12

unde ๐‘› este numarul de grade de libertate si ฮ“ este functia lui Euler.

De retinut

4

Presupunem ca un student care masoara temperatura de fierbere a unuianumit lichid observa urmatoarele valori (exprimate in grade Celsius)102.5, 101.7, 103.1, 100.9, 100.5, si 102.2 pentru 6 esantioane diferite delichid. Pe baza acestor dare el calculeaza media ๏ฟฝ๏ฟฝ a esantionului ca fiind101.82. Daca stie ca deviatia standard a acestei proceduri este 1.2 grade,care este intervalul de incredere pentru media populatiei la un nivel deincredere de 95% ?

Cu alte cuvinte, studentul doreste sa estimeze adevarata valoare mediea temperaturii de fierbere a lichiduluui folosind rezultatele masuratorilorlui. Daca masuratorile urmeaza o distributie normala atunci esantionul

ca avea o distributie ๐‘(๐œ‡,๐œŽ2

๐‘›). Deoarece volumul esantionului este 6,

deviatia standard a mediei esantionului este egala cu 1.2โˆš6

= 0.49.

Valoarea critica ๐‘ง* pentru un nivel de increder de 95% este 1.96, unde(1 โˆ’ ๐ถ)/2 = (1 โˆ’ 0.95)/2 = 0.025. Astfel un interval de incredere pentrumedia ๏ฟฝ๏ฟฝ la un nivel de incredere 95% este:

(101.82 โˆ’ 1.96 ยท 0.49, 101.82 + 1.96 ยท 0.49) = (100.86, 102.78)

Pe masura ce nivelul de incredere descreste, lungimea intervaluluidescreste. Sa presupunem ca studentul era interesat de obtinereaunui nivel de incredere de 90% pentru intervalul de incredere a tem-peraturii de fierbere. In acest caz, ๐ถ = 0.90, si (1 โˆ’ ๐ถ)/2 = 0.05.Valoarea critica ๐‘ง* pentru acest nivel este 1.645, deci un astfel deinterval ca fi:

(101.82 โˆ’ 1.645 ยท 0.49, 101.82 + 1.645 ยท 0.49) = (101.01, 102.63)

O crestere a volumului esantionului va determina o descrestere alungimii intervalului de incredere atunci cand pastram nivelul de in-credere cosntant. Marja de eroare ๐‘’ a unui interval de incredere estedefinita ca fiind valoarea adunata sau scazuta la media esantionului,care determina lungimea intervalului: ๐‘’ = ๐‘ง* ๐œŽโˆš

๐‘›.

Remarca:

Sa presupunem ca in exemplul de mai sus studentul doreste sa aibe omarja de eroare egala cu 0.5 grade la un nivel de incredere de 95%. Facandcalculele necesare se obtine ๐‘› = (1.96 ยท 1.2/0.5)2 = 22.09. Asadar, pentrua obtine un interval de incredere de 95%, pentru temperatura medie defierbere, cu lungimea de 1 grad, studentul ca avea de facut 23 masuratori.๏ฟฝ

Exemplu:

5

Testarea ipotezelor statistice

In procesul decizional managerii emit ipoteze care apoi pot fi testate cuintrumentele statisticii matematice. Un test statistic examineaza doua ipotezeopuse legate de o populatie statistica: ipoteza nula si ipoteza alternativa. Felulin care sunt construite depinde de ceea ce se incearca a se arata.

Ipoteza nula ๐ป0

โˆ™ ipoteza nula afirma ca un parametru al unei populatii statistice este egal cuo valoare fixa. Ipoteza nula este de obicei o afirmatie facuta de catre manageripornind de la cercetarile si cunostintele anterioare.

Ipoteza alternativa ๐ป๐‘Ž

โˆ™ ipoteza alternativa afirma ca parametrul populatiei este diferit de cel pre-supus in ipoteza nula. Ipoteza alternativa este ceea ce s-ar putea sa crezi ca eadevarat sau speri sa se dovedeasca a fi adevarat.

Cele mai comune ipoteze sunt referitoare la media unei populatii statisticeTestarea unor astfel de ipoteze, a determina daca media ๐œ‡ a unei populatii

este egala cu o anumita valoare tinta ๐œ‡0, presupune urmatorii pasi:

โ‡’ pentru un volum mare ๐‘› al esan-tionului sau ๐œŽ cunoscuta

ยท folosim testul z si calculam:

๐‘ง๐‘๐‘Ž๐‘™๐‘ =๏ฟฝ๏ฟฝโˆ’ ๐œ‡0

๐œŽโˆš๐‘›

โ‡’ pentru volumul ๐‘› < 30 al esan-tionului si ๐œŽ necunoscuta

ยท folosim testul Student ๐‘ก si calcu-lam:

๐‘ก๐‘๐‘Ž๐‘™๐‘ =๏ฟฝ๏ฟฝโˆ’ ๐œ‡0

๐‘ โˆš๐‘›

Two-tailed test:

๐ป0 : ๐œ‡ = ๐œ‡0

๐ป๐‘Ž : ๐œ‡ = ๐œ‡0

โ‡’ regiunea critica/ regiunea de respingere, cand respingem ๐ป0, este datade:

๐‘ง๐‘๐‘Ž๐‘™๐‘ < โˆ’๐‘ง*๐›ผ2sau ๐‘ง๐‘๐‘Ž๐‘™๐‘ > ๐‘ง*๐›ผ

2๐‘ก๐‘๐‘Ž๐‘™๐‘ < โˆ’๐‘ก*๐›ผ

2 ,๐‘›โˆ’1 sau ๐‘ก๐‘๐‘Ž๐‘™๐‘ > ๐‘ก*๐›ผ2 ,๐‘›โˆ’1

Upper-tailed test:

๐ป0 : ๐œ‡ = ๐œ‡0

๐ป๐‘Ž : ๐œ‡ > ๐œ‡0

โ‡’ regiunea critica/ regiunea de respingere, cand respingem ๐ป0, este datade:

6

๐‘ง๐‘๐‘Ž๐‘™๐‘ > ๐‘ง*๐›ผ ๐‘ก๐‘๐‘Ž๐‘™๐‘ > ๐‘ก*๐›ผ,๐‘›โˆ’1

Lower-tailed test:

๐ป0 : ๐œ‡ = ๐œ‡0

๐ป๐‘Ž : ๐œ‡ < ๐œ‡0

โ‡’ regiunea critica/ regiunea de respingere, cand respingem ๐ป0, este datade:

๐‘ง๐‘๐‘Ž๐‘™๐‘ < โˆ’๐‘ง*๐›ผ ๐‘ก๐‘๐‘Ž๐‘™๐‘ < โˆ’๐‘ก*๐›ผ,๐‘›โˆ’1

โ‡’ in toate aceste exemple ๐›ผ este nivelul de semnificatie corespunzator unuinivel de incredere ๐ถ = 1 โˆ’ ๐›ผ

โ‡’ valorile critice ๐‘ง* si ๐‘ก* pentru diferite intervale de incredere sunt afisatein z-t-table

Estimarea parametrilor prin metoda momentelor

Metoda momentelor este o metoda de estimare a parametrilor unei populatiistatistice. Metoda este bazata pe presupunerea ca momentele esantionului suntestimatori buni pentru momentele corespunzatoare ale populatiei.

โˆ™ pentru o populatie ๐‘‹ momentele ๐œ‡๐‘˜ de ordin ๐‘˜ (sau ๐‘€๐‘˜) sunt definite ca:

๐œ‡๐‘˜ = ๐‘€(๐‘‹๐‘˜) =

โŽงโŽชโŽชโŽชโŽชโŽชโŽชโŽจโŽชโŽชโŽชโŽชโŽชโŽชโŽฉ

โˆžโˆซโˆ’โˆž

๐‘ฅ๐‘˜๐‘“(๐‘ฅ)๐‘‘๐‘ฅ, daca ๐‘‹ este continua

โˆ‘๐‘–โˆˆ๐ผ

๐‘ฅ๐‘˜๐‘– ๐‘๐‘–, daca ๐‘‹ este discreta

โˆ™ momentele de ordin ๐‘˜ ale esantionului, notate ๐‘š๐‘˜, pentru un esantion devolum ๐‘› sunt:

๐‘š๐‘˜ =1

๐‘›

๐‘›โˆ‘๐‘–=1

๐‘‹๐‘˜๐‘–

Estimarea prin metoda momentelor pur si simplu presupune egale cele douatipuri de momente ๐œ‡๐‘˜ = ๐‘š๐‘˜ si urmareste apoi aflarea parametrilor lispa.(distributiatrebuie sa aiba momente finite)

Metoda momentelor:

1. vrem sa estimam un parametru ๐œƒ

2. calculam momente de ordin mic ๐œ‡๐‘˜ ca functii de ๐œƒ

7

3. realizam un sistem de ecuatii pornind de la presupunerea ca momentelepopulatiei ๐œ‡๐‘˜ sunt egale cu cele ale esantionului ๐‘š๐‘˜, si exprimam dinaceste ecuatii parametrul ca functii de momentele exantionului ๐‘š๐‘˜.

Fie ๐‘‹1, ๐‘‹2, . . . ๐‘‹๐‘› un esantion dintr-o populatie care are o distributie bi-nomiala ๐‘‹ โˆผ ๐ต๐‘–(๐‘›0, ๐‘) cu parametrii ๐‘›0 si ๐‘. Estimati acesti parametrifolosind metoda momentelor.

Solutie: Deoarece

๐‘€(๐‘‹) = ๐‘›0 ยท ๐‘ (vezi fisa variabile aleatoare discrete)

si๐ท2(๐‘‹) = ๐‘›0๐‘(1 โˆ’ ๐‘)

obtinem:

๐‘€2(๐‘‹) = ๐‘€(๐‘‹2) = ๐ท2(๐‘‹) + ๐‘€(๐‘‹)2 = ๐‘›0๐‘(1 โˆ’ ๐‘) + ๐‘›20๐‘

2,

putem scrie ๐‘›0๐‘(1 โˆ’ ๐‘) = ๐‘€2(๐‘‹) โˆ’๐‘€(๐‘‹)2.Egaland:

๐‘€(๐‘‹) = ๐‘š1

(=

๐‘‹1 + ๐‘‹2 + . . . + ๐‘‹๐‘›

๐‘›

)si

๐‘€2(๐‘‹) = ๐‘š2

(=

๐‘‹21 + ๐‘‹2

2 + . . . + ๐‘‹2๐‘›

๐‘›

)se poate observa ca:

1 โˆ’ ๐‘ =๐‘š2 โˆ’๐‘š2

1

๐‘š1

astfel:

๐‘ =๐‘š1 + ๐‘š2

1 โˆ’๐‘š2

๐‘š1

poate fi folosit ca un estimator pentru parametrul ๐‘.In acelasi context:

๐‘›0 =๐‘š1

๐‘=

๐‘š21

๐‘š1 + ๐‘š21 โˆ’๐‘š2

.

๏ฟฝ

Exemplu:

8

Analiza regresiva prin metoda celor mai mici patrate

โˆ™ in sectiunile anterioare am considerat experimente pentru care am observato singura cantitate (variabila) aleatoare, iar esantioanele respective au constatdin date reprezentate de numere reale ๐‘ฅ1, ๐‘ฅ2, . . . , ๐‘ฅ๐‘›

โˆ™ in aceasta sectiune vom considera experimente ฤฑn care suntem interesati dedoua cantitati (variabile) aleatoare, deci esantioanele respective vor fi reprezen-tate de perechi de numere reale (๐‘ฅ1, ๐‘ฆ1), (๐‘ฅ2, ๐‘ฆ2), . . . , (๐‘ฅ๐‘›, ๐‘ฆ๐‘›)

โˆ™ in analiza regresiva una din cele doua variabile (spre exemplu ๐‘‹) esteprivita ca o variabila ce poate fi masurata (determinata) cu precizie, numitavariabila independenta si suntem interesati de modul cum cealalta variabila๐‘Œ (numita variabila dependenta) depinde de aceasta: spre exemplu sunteminteresati de modul de aportul de crestere ๐‘Œ al animalelor ฤฑn functie de cantitateazilnica de hrana ๐‘‹.

โˆ™ in general, intr-un anumit experiment alegem valorile ๐‘ฅ1, ๐‘ฅ2, . . . , ๐‘ฅ๐‘› apoiobservam valorile ๐‘ฆ1, ๐‘ฆ2, . . . , ๐‘ฆ๐‘› ale unei variabile aleatoare ๐‘Œ , obtinand astfelun esantion (๐‘ฅ1, ๐‘ฆ1), (๐‘ฅ2, ๐‘ฆ2), . . . , (๐‘ฅ๐‘›, ๐‘ฆ๐‘›)

Se pune problema gasirii unei curbe care sa aproximeze cat mai bine dateleobitnute experimental (norul de puncte)

โˆ™ aceasta aproximare se face de obicei impunand conditia ca suma patratelordistantelor de la puncte la curba sa fie minima (metoda celor mai mici patrate)

๐ธ =

๐‘›โˆ‘๐‘–=1

(๐‘ฆ๐‘– โˆ’ ๐‘“(๐‘ฅ๐‘–))2 = minim

unde ๐‘“ este functia care da curba de regresie. In functie de forma norului sepoate alege una din urmatoarele functii de regresie:

9

Regresia liniara

โˆ™ estimam norul de puncte printr-o dreapta ๐‘ฆ = ๐‘“(๐‘ฅ) = ๐‘Ž + ๐‘๐‘ฅโˆ™ impunand conditia data de metoda celor mai mici patrate se obtine sis-

temul: {๐‘Ž + ๐‘ ยท

โˆ‘๐‘›๐‘–=1 ๐‘ฅ๐‘–

๐‘› =โˆ‘๐‘›

๐‘–=1 ๐‘ฆ๐‘–

๐‘›

๐‘Ž ยทโˆ‘๐‘›

๐‘–=1 ๐‘ฅ๐‘–

๐‘› + ๐‘ ยทโˆ‘๐‘›

๐‘–=1 ๐‘ฅ2๐‘–

๐‘› =โˆ‘๐‘›

๐‘–=1 ๐‘ฅ๐‘–๐‘ฆ๐‘–

๐‘›

care are solutia:

๐‘ =๐‘›โˆ‘

๐‘ฅ๐‘ฆ โˆ’โˆ‘

๐‘ฅ ยทโˆ‘

๐‘ฆ

๐‘›โˆ‘

๐‘ฅ2 โˆ’ (โˆ‘

๐‘ฅ)2

si:

๐‘Ž =

โˆ‘๐‘›๐‘–=1 ๐‘ฆ๐‘–๐‘›

โˆ’ ๐‘

โˆ‘๐‘›๐‘–=1 ๐‘ฅ๐‘–

๐‘›= ๐‘Œ โˆ’ ๐‘๏ฟฝ๏ฟฝ.

Regresia parabolica

โˆ™ estimam norul de puncte printr-o parabola ๐‘ฆ = ๐‘“(๐‘ฅ) = ๐‘Ž + ๐‘๐‘ฅ + ๐‘๐‘ฅ2

โˆ™ impunand conditia data de metoda celor mai mici patrate se obtine sis-temul: โŽงโŽชโŽจโŽชโŽฉ

๐‘Ž ยท ๐‘› + ๐‘ ยทโˆ‘

๐‘ฅ + ๐‘ ยทโˆ‘

๐‘ฅ2 =โˆ‘

๐‘ฆ

๐‘Ž ยทโˆ‘

๐‘ฅ + ๐‘ ยทโˆ‘

๐‘ฅ2 + ๐‘ ยทโˆ‘

๐‘ฅ3 =โˆ‘

๐‘ฅ๐‘ฆ

๐‘Ž ยทโˆ‘

๐‘ฅ2 + ๐‘ ยทโˆ‘

๐‘ฅ3 + ๐‘ ยทโˆ‘

๐‘ฅ4 =โˆ‘

๐‘ฅ2๐‘ฆ

Regresia hiperabolica

โˆ™ estimam norul de puncte printr-o hiperbola ๐‘ฆ = ๐‘“(๐‘ฅ) = ๐‘Ž + ๐‘๐‘ฅ

โˆ™ impunand conditia data de metoda celor mai mici patrate se obtine sis-temul: {

๐‘Ž ยท ๐‘› + ๐‘ ยทโˆ‘

1๐‘ฅ =

โˆ‘๐‘ฆ

๐‘Ž ยทโˆ‘

1๐‘ฅ + ๐‘ ยท

โˆ‘1๐‘ฅ2 =

โˆ‘ ๐‘ฆ๐‘ฅ

Regresia exponentiala

โˆ™ estimam norul de puncte printr curba ๐‘ฆ = ๐‘“(๐‘ฅ) = ๐‘Ž ยท ๐‘๐‘ฅโˆ™ se logaritmeaza relatia si obtinem:

ln ๐‘ฆ = ln ๐‘Ž + ln ๐‘ ยท ๐‘ฅ

care are forma unui model de regresie liniara pentru datele (๐‘ฅ๐‘–, ln ๐‘ฆ๐‘–), ๐‘– = 1, ๐‘›deci ๐‘Ž si ๐‘ se determina din:

ln ๐‘ =๐‘›โˆ‘

๐‘ฅ ln ๐‘ฆ โˆ’โˆ‘

๐‘ฅ ยทโˆ‘

ln ๐‘ฆ

๐‘›โˆ‘

๐‘ฅ2 โˆ’ (โˆ‘

๐‘ฅ)2

si:

ln ๐‘Ž =

โˆ‘๐‘›๐‘–=1 ln ๐‘ฆ๐‘–๐‘›

โˆ’ ln ๐‘ ยทโˆ‘๐‘›

๐‘–=1 ๐‘ฅ๐‘–

๐‘›.

prin intermediul formulelor ๐‘Ž = ๐‘’ln ๐‘Ž si ๐‘ = ๐‘’ln ๐‘

10

Probleme rezolvate

Problema 1. Calculati cuartilele ๐‘„1, ๐‘„2, ๐‘„3 pentru urmatoarea seriestatistica simpla

๐‘‹ : 1, 2, 5, 7, 11, 21, 22, 23, 29

si abaterea cuartilica.

Solutie: Facem mai ฤฑntai observatia ca mediana ๐‘š๐‘’ coincide cu cuartila ๐‘„2.Deoarece seria statistica data are un numar impar de termeni (9 mai exact),

vom folosi formula corespunzatoare pentru a determina cuartila ๐‘„2 si avem

๐‘ฅ 9+12

= ๐‘ฅ5 = 11 โ‡’ ๐‘š๐‘’ = ๐‘„2 = 11.

Mai departe pentru a determina prima cuartila tinem cont de seria statisticasimpla

1, 2, 5, 7, 11

care are tot un numar impar de termeni si obtinem

๐‘ฅ 5+12

= ๐‘ฅ3 = 5 โ‡’ ๐‘„1 = 5.

Analog procedam pentru a treia cuartila tinand cont de seria statisticasimpla

11, 21, 22, 23, 29

care are tot un numar impar de termeni si rezulta

๐‘ฅ 5+12

= ๐‘ฅ3 = 22 โ‡’ ๐‘„3 = 22.

Atunci rezulta ca abaterea cuartilica este

๐‘„ = ๐‘„3 โˆ’๐‘„1 = 22 โˆ’ 5 = 17.

Problema 2. Fie seria statistica

๐‘‹ : 1, 5, 4, 20, 3, 16.

Determinati:a) amplitudinea absoluta ๐ด.b) abaterea medie patratica ๏ฟฝ๏ฟฝ (๐‘‹).c) dispersia ๐œŽ2 (๐‘‹).d) deviatia standard ๐œŽ (๐‘‹).e) coeficientul de variatie ๐‘๐‘ฃ(๐‘‹).

Solutie: a) Amplitudinea absoluta ๐ด este

๐ด = ๐‘‹max โˆ’๐‘‹min = 20 โˆ’ 1 = 19.

11

b) Abaterea medie patratica ๏ฟฝ๏ฟฝ (๐‘‹) se obtine astfel

๐‘Ž (๐‘‹) =|1 โˆ’ ๐‘ฅ| + |5 โˆ’ ๐‘ฅ| + |4 โˆ’ ๐‘ฅ| + |20 โˆ’ ๐‘ฅ| + |3 โˆ’ ๐‘ฅ| + |16 โˆ’ ๐‘ฅ|

6,

unde media ๐‘ฅ este

๐‘ฅ =1 + 5 + 4 + 20 + 3 + 16

6= 8, 16.

Atunci rezulta๏ฟฝ๏ฟฝ (๐‘‹) โ‰ƒ 6, 55.

c) Dispersia este

๐œŽ2 (๐‘‹) =1

6

6โˆ‘๐‘–=1

(๐‘ฅ๐‘– โˆ’ ๐‘ฅ)2

=

=1

6

(7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842

)= 51, 138 โ‰ƒ 51.

d) deviatia standard rezulta imediat de mai sus

๐œŽ (๐‘‹) =โˆš๐œŽ2(๐‘‹) =

โˆš51 = 7, 14 โ‰ƒ 7.

e) Din cele de mai sus, rezulta coeficientul de variatie

๐‘๐‘ฃ(๐‘‹) =๐œŽ (๐‘‹)

๐‘ฅยท 100 = 85, 78.

Problema 3. Pe o perioada de mai multi ani, un profesor a ฤฑnregistratrezultatele elevilor si a obtinut ca media ๐œ‡ a acestor rezultate este 72 siabaterea standard ๐œŽ = 12. Clasa de 36 de elevi pe care-i ฤฑnvata ฤฑn prezentare o medie ๐‘ฅ = 75, 2, iar profesorul afirma ca ea este superioara celorde pana acum. Intrebarea care se pune este daca media clasei ๐‘ฅ este unargument suficient pentru a sustine afirmatia profesorului la un nivelulde semnificatie dat ๐›ผ = 0, 05 (95% sigur).

Solutie: Etapa 1: Formularea ipotezei nule ๐ป0

๐ป0 : ๐‘ฅ = ๐œ‡ = 72 โ‡” clasa nu este superioara.

Etapa 2: Formularea ipotezei alternative ๐ป๐‘Ž

๐ป๐‘Ž : ๐‘ฅ = ๐œ‡ > 72 โ‡” clasa este superioara.

Etapa 3: Metodologia de verificare a ipotezelora) Cand ฤฑn ipoteza nula media populatiei si deviatia standard sunt cunos-

cute, atunci folosim scorul standard ๐‘ง ca si test statistic.b) Nivelul de semnificatie este dat si este ๐›ผ = 0, 05.

c) In baza teoremei limita centrala distributia mediilor esantioanelor esteaproape normala, deci prin urmare distributia normala va fi folosita pentru

12

determinarea regiunii critice. Regiunea critica este egala cu multimea valorilorscorului standard ๐‘ง care determina respingerea ipotezei nule si este situata laextremitatea dreapta a distributiei normale. Regiunea critica este la dreaptadeoarece valori mari ale mediei esantionului sustin ipoteza alternativa ฤฑn timpce valori apropiate valorii 72 sustin ipoteza nula.

Valoarea critica ce desparte zona valorilor โ€nu este superiorโ€de zona valorilorโ€este superiorโ€este determinata de probabilitatea ๐›ผ = 0, 05 de a comite o eroarede tip ๐ผ (eroarea de tip ๐ผ apare cand ipoteza nula este adevarata si tot ea esterespinsa).

Etapa 4: Determinarea valorii testului statisticValoarea testului statistic este data de formula

๐‘ง๐‘๐‘Ž๐‘™๐‘ =๐‘ฅโˆ’ ๐œ‡๐œŽโˆš๐‘›

=75, 2 โˆ’ 72

12โˆš36

= 1, 6.

Etapa 5: Luarea unei decizii si interpretarea eiDaca comparam valoarea gasita cu valoarea critica observam ca:

1, 6 < 1, 65

Conform celor stabilite in sectiunea ipotezelor statistice respingem ipoteza ๐ป0

daca:๐‘ง๐‘๐‘Ž๐‘™๐‘ > ๐‘ง*๐›ผ

Decizia: nu putem respinge ipoteza nula !In final, tragem concluzia ca probele nu sunt suficiente pentru a sustine ca

actuala clasa este superioara celor anterioare.

Problema 4. Noua dintre studentii unei facultati cu profil sportiv au fostselectati pentru a da un test de alergare pe distanta mare. Masuratorilepentru acest grup au condus la un timp mediu de 12, 87 minute cu oabatere standard ๐‘  = 1, 3. Sa se aproximeze, cu o probabilitate de 90%,timpul mediu pe care studentii intregii facultati il vor inregistra pe aceadistanta .

Solutie: Deoarece nu se cunoaste dispersia populatiei iar esantionul are volu-mul mai mic dacat 30, intervalul de ฤฑncredere este dat de formula(

๐‘ฅโˆ’ ๐‘ โˆš๐‘›๐‘ก๐‘›โˆ’1,๐›ผ2

, ๐‘ฅ +๐‘ โˆš๐‘›๐‘ก๐‘›โˆ’1,๐›ผ2

),

unde ๐‘ฅ = 12, 87 ; ๐‘  = 1, 3 ; ๐‘› = 9 ; ๐›ผ = 0, 10 ; iar ๐‘ก๐‘›โˆ’1,๐›ผ2este valoarea critica a

repartitiei Student (statisticianul William Sealy Gosset folosea acest pseudonim

in articolele sale ) cu ๐‘›โˆ’1 grade de libertate corespunzatoare valorii๐›ผ

2=

1 โˆ’ ๐ถ

2care ฤฑn cazul nostru este ๐‘ก9โˆ’1, 0.05 = ๐‘ก8, 0,05 = 1, 860 conform tabelului z-t-table

Obtinem intervalul(12.064, 13.676)

In concluzie suntem 90% siguri ca timpul mediu inregistrat de un studentpe acea distanta va fi in acest interval !

13

Probleme propuse

Problema 1. Fiind date seriile statistice simple

๐‘‹ : 1, 5, 7, 8, 10,

๐‘Œ : 1, 6, 100, 135

determinati mediana ฤฑn ambele cazuri.

Problema 2. Intr-o colectivitate s-au ales date statistice numerice obtinandu-se

๐‘‹ : 4, 1, 1, 5, 6, 3, 2, 1,

๐‘Œ : 100, 90, 40, 80, 70, 50, 100, 70.

Aflati dupa care din variabilele de mai sus, colectivitatea este mai omogena.

Problema 3. Diagrama Herzsprung-Russell arata dependenta dintre magnitu-dinile absolute si temperaturile efective de la suprafata stelelor:

Pentru un grup de stele din sirul principal al diagramei astronomii au inregistratcu ajutorul telescopului Keck urmatoarele date:

(+5, 5000โˆ˜๐พ), (+10, 3000โˆ˜๐พ), (0, 10000โˆ˜๐พ), (โˆ’5, 25000โˆ˜๐พ), (+6, 7500โˆ˜๐พ)

Cautati un model de regresie adecvat pentru aceste date.

14

Problema 4. Directorul de operatiuni al unei uzine ar dori sa estimeze timpulmediu de care are nevoie un muncitor pentru a asambla o noua componentaelectronica. Presupunem ca deviatia standard a timpului de asamblare este de3.6 minute.

a) Dupa cronometrarea a 120 de muncitori, managerul observa ca timpul lormediu de asamblare a componentei este de 16.2 minute. Construiti un intervalde incredre cu un nivel de incredere de 95% pentru timpul mediu de asamblarea componentei.

b) Cati muncitori ar trebui sa fie implicati in studiul managerului pentru aobtine timpul mediu real de asamblare cu o eroare de ยฑ15 seconde si un nivelde incredere de 95% ?

Problema 5. Pentru a asigura folosirea eficienta a unui server, este necesaraestimarea numarului mediu de useri simultani. Conform datelor disponibile me-dia si deviatia standard a numarului de utilizatori simultani, inregistrati in 100momente de timp aleator alese, este de 37.7, respectiv 9.2.

Construiti un interval de incredere, cu un nivel de incredere de 90%, pentrumedia utilizatorilor concurenti.

Problema 6. Fie ๐‘‹1, ๐‘‹2, ..., ๐‘‹๐‘› variabile aleatoare normal distribuite cu media๐‘š si dispersia ๐œŽ2. Care sunt estimarile date de metoda momentelor pentru media๐‘š si dispersia ๐œŽ2?

Problema 7. Un grup de consumatori, preocupati de procentajul mediu degrasime al unui anumit steakburger trimite la un laborator independent un esan-tion de 12 steakburgeri pentru analize. Procentajul de grasime gasit in fiecaresteakburger este dat mai jos:

21 18 19 16 18 24 22 19 24 14 18 15

Producatorul afirma ca procentajul mediu de grasime al unui steakburger esteaproximativ 20%. Presupunand ca procentajul de grasime este normal distribuitcu o deviatie standard de 3, testati ipoteza producatorului, la un nivel de sem-nificatie ๐›ผ = 0.05.

Problema 8. Pe parcursul unei anumite saptamani, 13 copii s-au nascut la omaternitate. O parte a procedurii standard e reprezentata de masurarea lungimiiacestora. Mai jos aveti o lista a lungimilor masurate, exprimate in centimetri:

49 50 45 51 47 49 48 54 53 55 45 50 48

Presupunand ca lungimile la nastere ale bebelusilor sunt normal distribuite, tes-tati, la un nivel de semnificatie de 5%, ipoteza ca media lungimii la nastere aunui bebelus este de 50 cm.

Problema 9. ๐‘‹1, ๐‘‹2, . . . ๐‘‹๐‘› reprezinta o selectie dintr-o populatie ๐‘‹ cu dis-tributie exponentiala, adica cu densitatea de repartitie:

๐‘“(๐‘ฅ) =

{๐œ†๐‘’โˆ’๐œ†๐‘ฅ, if ๐‘ฅ โ‰ฅ 0,

0, otherwise

Estimati parametrul ๐œ† folosind metoda momentelor.

15

Problema 10. ๐‘‹1, ๐‘‹2, . . . ๐‘‹๐‘› reprezinta o selectie dintr-o populatie ๐‘‹ cu odistributie Poisson, adica cu densitatea de repartitie:

๐‘ƒ (๐‘‹ = ๐‘˜) =

{๐‘’โˆ’๐œ† ๐œ†๐‘˜

๐‘˜! , if ๐‘˜ = 0, 1, . . .

0, otherwise

Estimati parametrul ๐œ† folosind metoda momentelor.

16