Variabile aleatoare continue

transcript

”Stiinta se cladeste cu fapte, asa cum o casa se construieste cu pietre.Dar o colectie de fapte nu e stiinta, la fel cum un morman de pietrenu e o casa.”

Henri Poincare

9Variabile aleatoare continue

Sistemul Elo de calculare a ratingului

In jocurile cu suma nula, de exemplu sah, poker, fotbal, apare nevoia dea cuantifica performanta, de a masura nivelul relativ al abilitatilor jucato-rilor/echipelor. Din aceasta cauza s-a ajuns la ideea unui sistem de coeficientipentru a putea realiza o ierarhizare mondiala sau pentru a putea indica nivelulrelativ de performanta atins.

In sah, maestrul Arpad Elo, in dorinta de a realiza un astfel de sistem, apornit de la urmatoarele presupuneri

1. Performanta este o variabila aleatoare2. Performanta medie a unui jucator se modifica greu3. Rezultatul anticipat in fiecare joc are o distributie normala

Prin urmare, acesta a propus prin anii ’60 un sistem care se baza pe odistributie normala a rezultatelor anticipate. Ulterior federatia americana desah (USCF) si cea internationala (FIDE) au argumentat ca datele culese dinistoria jocului sugereaza ca performanta in sah este mai bine modelata de odistributie logistica.

Sistemul propus a primit numele de sistem Elo si in prezent asigura creareade ierarhii in: sah, baschet, fotbal, fotbal american, chiar si e-sports. In par-ticular in sah, puterea unui jucator este estimata pe o scara de la 1200 (noviciisunt sub 1200) pana la un maxim, atins de actualul campion mondial MagnusCarlsen, de 2882. Ca un punct de referinta, cel mai bun jucator roman al ul-timelor decenii Liviu-Dieter Nisipeanu a atins un nivel maxim al coeficientuluiElo de 2707. Celebrul soft Chessmaster, in cea mai buna versiune a sa, a ajunsla un coeficient Elo de aproximativ 2718. Cele mai cunoscute softuri de sah alemomentului au ajuns la ratinguri de peste 3000. De exemplu, Stockfish 12 areun rating estimat de aproximativ 3500. O crestere a calitatii jocului poate fiobtinuta si prin cresterea puterii de calcul. In anii 2000 supercomputerul Hydraparea de neinvins, chiar daca nu dispunea de cel mai bun soft de sah.

Creativitatea umana este insa greu de cuantificat. In anul 2001, intr-o seriede meciuri memorabile, psihiatrul american (!!) Ernest Pecci a anihilat unuldintre cele mai bune softuri ale acelor vremuri. Cheia succesului: in spateleoricarui soft se afla mintea omului, care este predispusa la generarea unor tiparece pot fi speculate. In acelasi timp, programele de tipul AlphaZero, care au labaza inteligenta artificiala, sunt greu de incadrat cu ajutorul coeficientului Elo,atat din cauza modului in care gandesc jocul (analizeaza mai putine variante, instilul caracteristic omului) cat si datorita conditiilor in care se realizeaza testareaacestora.

Presupunerea fundamentala a sistemului Elo este ca fiecare jucator are unnivel al jocului necunoscut, dar care poate fi estimat printr-un rating 𝑅. Acestrating se modifica de la meci la meci si dupa un numar suficient de mare dejocuri va converge la nivelul adevarat al jucatorului. Intr-un meci intre doiadversari, 𝐴 contra lui 𝐵, avand nivelul 𝑅𝐴 si 𝑅𝐵 estimat prin ratingul lor,rezultatul preconizat al jocului va fi

𝐸𝐴𝐵 =1

1 + 10−(𝑅𝐴−𝑅𝐵)/400(1)

Valoarea 𝑠 = 400 este scara logistica corespunzatoare lumii sahului, in altesporturi fiind adecvate alte valori. Functia logistica va transforma orice diferentade ratinguri 𝑅𝐴 −𝑅𝐵 intr-o valoare din intervalul [0, 1]. De amintit ca in sah ovictorie valoreaza 1 punct, o remiza 0.5 puncte iar infrangerea 0 puncte. Prinurmare, scorul preconizat 𝐸𝐴𝐵 trebuie interpretat in modul urmator: valoareaobtinuta reprezinta probabilitatea de a castiga plus jumatate din probabilitateade a realiza o remiza. Din aceasta cauza 𝐸𝐴𝐵 = 0.75 poate insemna ca 𝐴 are75% sanse sa castige si 0% sanse sa obtina o remiza sau 50% sanse sa castige si50% sanse sa obtina o remiza.

In figura de pe pagina urmatoare, pentru diverse valori ale lui 𝑠, sunt esti-mate sansele de castig in functie de diferenta de valoare dintre jucatori, folosindfunctia logistica corespunzatoare.

Dupa terminarea unui turneu ratingul unui jucator se modifica conform for-mulei

𝑅𝑛𝑜𝑢 = 𝑅𝑝𝑟𝑒 + 𝐾 · (𝑆 − 𝑆𝑎𝑛𝑡𝑖𝑐𝑖𝑝𝑎𝑡) (2)

unde 𝑅𝑝𝑟𝑒 este ratingul dinaintea inceperii turneului, 𝑅𝑛𝑜𝑢 este noul rating,𝑆 este scorul inregistrat si 𝑆𝑎𝑛𝑡𝑖𝑐𝑖𝑝𝑎𝑡 este scorul preconizat inaintea turneului.Scorul anticipat se calculeaza folosind ratingul jucatorului dinaintea turneului siratingurile adversarilor. Acest scor se calculeaza adunand valorile rezultatelor𝐸𝐴𝐵𝑖 anticipate impotriva fiecarui adversar 𝐵𝑖, conform formulei (1).

Pentru constanta 𝐾 se considera ca pentru jucatori cu ratingul peste 2400(marii maestri) o valoare buna este 𝐾 = 16. Pentru cei cu rating intre 2100 si2400 se alege standard valoarea 𝐾 = 24 iar pentru ratinguri mai mici 𝐾 = 32.Ideea de baza este ca jocul marilor maestri este stabil si forma lor sportiva nusufera multe fluctuatii intr-un timp scurt. In prezent, unele federatii preferaalegerea unei valori 𝐾 care sa depinda de numarul de meciuri jucate intr-unturneu sau de numarul de jocuri pe baza caruia s-a estimat ratingul anterior.

Sistemul Elo prezinta si unele defecte. Printre altele s-a remarcat o inflatie aratingurilor la nivelul superior. In anii ’70 unul sau doi jucatori aveau un ratingmai mare de 2700, insa in prezent sunt 38 de jucatori cu un astfel de ratingconform clasamentului actual al FIDE. Aceasta inseamna ca un rating de 2700in anul 2021 nu este la fel de impresionant precum ar fi fost in anul 1980.

Sistemul utilizat in sah ofera un avantaj nedorit jucatorilor care doresc sa-sicreasca in mod artificial ratingul, pentru a putea participa la turneele puternice.Acestia pot alege sa participe la multe turnee mai putin renumite, unde vorintalni adversari mai slab cotati, impotriva carora sunt favoriti. In acest fel sepoate obtine o creste artificiala, cu cateva zeci de puncte, a ratingului.

In ultima perioada au aparut sisteme de rating superioare dar si mai sofisti-cate, cum ar fi sistemul TrueSkill dezvoltat de Microsoft, sistemul Glicko dez-voltat de statisticianul Mark Glickman sau sistemul Chessmetrics. Oricat deprecise ar fi aceste sisteme toate se bazeaza pe acelasi principiu: evalueaza abili-tatile relativ la o populatie (de exemplu jucatorii de sah ai federatiei de careapartine respectivul jucator). In consecinta, sunt greu de comparat jucatoriifara experienta internationala, care au jucat doar la nivel national.

In profida acestor limitari, aceasta abordare matematica pentru masurareaperformantei este mai buna decat cea bazata pe opinie. ”Toate modelele suntgresite, unele sunt folositoare” spunea marele statistician George Box.

Variabile aleatoare continue

O variabila aleatoare continua poate avea ca valori orice numar dintr-uninterval dat, de exemplu: variabila aleatoare 𝑋 care masoara timpul necesarpentru a realiza ceva. Daca pentru variabilele aleatoare discrete verbul era ”anumara”, acum acesta devine ”a masura”.

∙ 𝑋 este o variabila aleatoare continua daca exista o functie 𝑓(𝑥), numitadensitate de probabilitate, astfel ca pentru orice −∞ ≤ 𝑎 ≤ 𝑏 ≤ ∞

𝑃 (𝑎 < 𝑋 < 𝑏) =

𝑏∫𝑎

𝑓(𝑥)𝑑𝑥

∙ densitatea de probabilitate satisface proprietatile definitorii

∞∫−∞

𝑓(𝑥)𝑑𝑥 = 1 si 𝑓(𝑥) ≥ 0

∙ functia de repartitie definita prin 𝐹 (𝑥) := 𝑃 (𝑋 ≤ 𝑥) poate substituirolul densitatii de probabilitate in calculul probabilitatilor

𝑃 (𝑎 < 𝑋 ≤ 𝑏) = 𝐹 (𝑏) − 𝐹 (𝑎)

∙ pentru o variabila aleatoare continua 𝑋, cand 𝐹 va fi continua, vom avearelatiile

𝑃 (𝑎 ≤ 𝑋 < 𝑏) = 𝑃 (𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃 (𝑎 < 𝑋 < 𝑏) = 𝑃 (𝑎 < 𝑋 ≤ 𝑏) = 𝐹 (𝑏) − 𝐹 (𝑎)

In general avem∙ 𝐹 ′(𝑥) = 𝑓(𝑥) (unde derivata exista)

∙ 𝐹 (𝑥) =

𝑥∫−∞

𝑓(𝑡)𝑑𝑡

∙ 𝐹 (𝑥1) ≤ 𝐹 (𝑥2) daca 𝑥1 < 𝑥2

∙ lim𝑥→∞

𝐹 (𝑥) = 1 si lim𝑥→−∞

𝐹 (𝑥) = 0

∙ de remarcat faptul ca 𝑃 (𝑋 = 𝑐) = 0 pentru orice constanta 𝑐 ∈ R, spredeosebire de cazul discret

∙ valoarea medie 𝑀(𝑋) si dispersia 𝐷2(𝑋) unei variabile aleatoare continuecu densitatea de probabilitate 𝑓(𝑥) se calculeaza prin:

𝑀(𝑋) =

∫ ∞

−∞𝑥𝑓(𝑥) 𝑑𝑥,

𝐷2(𝑋) =

∫ ∞

−∞(𝑥−𝑀(𝑋))2𝑓(𝑥) 𝑑𝑥.

∙ momentele de ordin 𝑘 notate prin 𝑀𝑘 sunt

𝑀𝑘(𝑋) =

∫ ∞

−∞𝑥𝑘𝑓(𝑥) 𝑑𝑥

iar momentele centrate de ordin 𝑘

𝑚𝑘(𝑋) =

∫ ∞

−∞(𝑥−𝑀(𝑋))𝑘𝑓(𝑥) 𝑑𝑥

∙ se pastreaza proprietatile valorii medii sau ale dispersiei din cazul discretiar covarianta si coeficientul de corelatie se definesc la fel

Variabile aleatoare continue clasice

∙ cele mai utilizate distributii ale unei variabile aleatoare continue suntprezentate pe scurt in cele ce urmeaza

1. Variabile aleatoare uniforme

∙ daca 𝑋 are densitatea de probabilitate

𝑓(𝑥) =

𝑏−𝑎 , daca 𝑥 ∈ [𝑎, 𝑏]

0, in rest

spunem ca 𝑋 are distributia uniform continua si scriem 𝑋 ∼ 𝑈(𝑎, 𝑏).

∙ 𝑎 se numeste parametru de localizare iar 𝑏− 𝑎 de scara

∙ se verifica prin calcul ca 𝑀(𝑋) = 𝑎+𝑏2 si 𝐷2(𝑋) = (𝑏−𝑎)2

Aplicatii=⇒ utila in simularea variabilelor aleatoare, discutie in seminariile viitoare=⇒ daca numaru 𝜋 nu era suficient de misterios, aflati ca cifrele sale sunt

distribuite uniform=⇒ timpul de asteptare dupa un autobuz, intr-o statie, este distribuit

uniform

2. Variabile aleatoare normal distribuite

𝑓(𝑥) =1√

2𝜋𝜎2𝑒−

(𝑥−𝑚)2

2𝜎2

spunem ca 𝑋 are distributia normala si scriem 𝑋 ∼ 𝑁(𝑚,𝜎2).

∙ functia de repartitie 𝐹𝑋(𝑥) este exprimata prin intermediul functiei derepartitie Φ corespunzatoare unei distributii standard normale

∙ pentru o astfel de variabila avem 𝑀(𝑋) = 𝑚 si 𝐷2(𝑋) = 𝜎2.

3. Variabile aleatoare normale standard distribuite

∙ o variabila cu distributia normala standard 𝑍 este o variabila normal dis-tribuita corespunzatoare valorilor 𝑚 = 0 si 𝜎 = 1, 𝑍 ∼ 𝑁(0, 1).

∙ functia ei de repartitie merita o notatie distincta

Φ(𝑥) =1√2𝜋

∫ 𝑥

−∞𝑒−

2 𝑑𝑡

si are valorile intr-un tabel al scorurilor 𝑧.∙ in manevrarea variabilelor aleatoare normal distribuite folosim frecvent

urmatorul argument de standardizare∙ pentru o variabila 𝑋 ∼ 𝑁(𝑚,𝜎2) calculam probabilitatile in felul urmator

𝑃 (𝑥1 ≤ 𝑋 ≤ 𝑥2) = 𝑃

(𝑥1 −𝑚

𝜎≤ 𝑍 ≤ 𝑥2 −𝑚

(𝑥2 −𝑚

)−Φ

(𝑥1 −𝑚

unde 𝑍 :=𝑋 −𝑚

𝜎este o variabila aleatoare cu distributia normala standard

iar valorile Φ

(𝑥2 −𝑚

(𝑥1 −𝑚

)se citesc din tabelul scorurilor 𝑧.

∙ de fapt, identitatile de mai sus afirma ca valorile functiei de repartitie aleunei variabile aleatoare normal distribuite

𝑋 ∼ 𝑁(𝑚,𝜎2)

se calculeaza prin

𝐹𝑋(𝑥) = Φ

(𝑥−𝑚

Aplicatii=⇒ inaltimea sau greutatea indivizilor sunt considerate a fi normal dis-

tribuite=⇒ IQ-ul populatiei este considerat a fi normal distribuit=⇒ tensiunea arteriala corespunzatoare unei populatii este normal dis-

tribuita=⇒ erorile de masurare sunt in general normal distribuite

4. Variabile aleatoare exponential distribuite

𝑓(𝑥) =

{𝜆𝑒−𝜆𝑥, pentru 𝑥 ≥ 0

0, in rest

spunem ca 𝑋 are distributia exponentiala si scriem 𝑋 ∼ 𝐸𝑥𝑝(𝜆).

∙ functia de repartitie este

𝐹 (𝑥) =

{1 − 𝑒−𝜆𝑥, pentru 𝑥 ≥ 0

0, in rest

∙ prin calcul se verifica 𝑀(𝑋) = 1𝜆 si 𝐷2(𝑋) = 1

Aplicatii

=⇒ timpul necesar dezintegrarii unei particule radioactive, sau timpulscurs intre doua clickuri ale unui contor Geiger

=⇒ timpul scurs pana la urmatorul tau apel telefonic urmeaza o distributieexponentiala

=⇒ cat timp ii ia unui functionar bancar sa serveasca un client ? putemestima folosind o distributie exponentiala

5. Variabile aleatoare logistic distribuite

𝑓(𝑥) =𝑒−(𝑥−𝜇)/𝑠

𝑠(1 + 𝑒−(𝑥−𝜇)/𝑠

)2spunem ca 𝑋 are distributia logistica si scriem 𝑋 ∼ 𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝜇, 𝑠).

∙ 𝜇 ∈ R se numeste locatie iar 𝑠 > 0 se numeste scara∙ functia de repartitie este functia logistica

𝐹 (𝑥) =1

1 + 𝑒−(𝑥−𝜇)/𝑠

∙ media unei astfel de variabile este 𝑀(𝑋) = 𝜇 iar varianta 𝐷2(𝑋) = 𝑠2𝜋2

Aplicatii=⇒ in hidrologie modeleaza debitul raurilor in decursul unei luni/an=⇒ in sah e utilizata pentru calculul ratingului sahistilor=⇒ spre deosebire de variabilele normal distribuite, are avantajul ca valorile

functiei de repartitie pot fi calculate analitic nu doar aproximate prin metodenumerice

6. Variabile aleatoare Erlang si gamma

𝑓(𝑥) =

{𝑟𝑠𝑥𝑠−1𝑒−𝑟𝑥

Γ(𝑠) , pentru 𝑥 > 0

0, in rest

spunem ca 𝑋 are distributia gamma si scriem 𝑋 ∼ Γ(𝑠, 𝑟).

∙ parametrul 𝑟 > 0 se numeste rata iar 𝑠 > 0 se numeste forma (shape)∙ pentru 𝑠 intreg se obtine distributia Erlang∙ functia de repartitie este functia gamma incompleta regularizata

𝐹 (𝑥) =𝛾(𝑠, 𝑟𝑥)

Γ(𝑠)

𝛾(𝑠, 𝑥) =

∫ 𝑥

𝑡𝑠−1𝑒−𝑡 𝑑𝑡

este functia gamma incompleta inferioara∙ prin calcul se verifica 𝑀(𝑋) = 𝑠

𝑟 si 𝐷2(𝑋) = 𝑠𝑟2

Aplicatii=⇒ in comunicatiile wireless, distributia gamma este folosita pentru a

modela fadingul propagarii multicale=⇒ in exprimarea genetica bacteriala (fluxul de informatie de la acizii

nucleici la proteine), numarul de proteine intr-o populatie de celule de obiceiurmeaza o distibutie gamma, unde parametrii rata (r) si forma (s) sunt, respec-tiv, numarul mediu de citolize per ciclu celular si numarul mediu de moleculede proteina produse de un singur ARN mesager in timpul vietii sale

7. Variabile aleatoare beta

∙ este o variabila care are o distributie flexibila si valori nenule restrictionatela un interval [0, 1], fiind utila in multe modele probabiliste.

∙ proportia de radiatie solara absorbita de un material sau proportia (dintimpul maxim) necesara realizarii unei sarcini sunt exemple de variabile continuecu valori in intervalul [0, 1]

𝑓(𝑥) =

{Γ(𝜇+𝜈)Γ(𝜇)Γ(𝜈)𝑥

𝜇−1(1 − 𝑥)𝜈−1, pentru 𝑥 ∈ [0, 1]

0, in rest

spunem ca 𝑋 are distributia beta si scriem 𝑋 ∼ 𝛽(𝜇, 𝜈).

∙ functia de repartitie este functia beta incompleta regularizata

𝐼𝑥(𝜇, 𝜈) =𝛽(𝜇, 𝜈, 𝑥)

𝛽(𝜇, 𝜈)

𝛽(𝜇, 𝜈, 𝑥) =

∫ 𝑥

𝑡𝜇−1(1 − 𝑡)𝜈−1 𝑑𝑡

este functia beta incompleta∙ prin calcul se verifica 𝑀(𝑋) = 𝜇

𝜇+𝜈 si 𝐷2(𝑋) = 𝜇𝜈(𝜇+𝜈)2(𝜇+𝜈+1)

Aplicatii=⇒ distributia beta poate fi folosita pentru a modela evenimente care sunt

restrictionate sa aiba loc intr-un interval definit de o valoare minima si unamaxima

Aproximari normale ale variabilelor discrete

∙ teorema limita centrala are un rol practic deosebit in teoria probabilitatilorpermitand aproximarea unor variabile discrete prin intermediul uneia normaldistribuita

∙ daca 𝑋 este o variabila aleatoare cu distributie binomiala 𝑋 ∼ 𝐵𝑖(𝑛, 𝑝) si 𝑛este suficient de mare, atunci 𝑋 poate fi aproximata printr-o variabila aleatoarenormal distribuita 𝑌 ∼ 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝))

∙ de obicei se aplica si corectiile de continuitate pentru a imbunatati esti-marea

𝑃 (𝑋 = 𝑘) ≈ 𝑃

(𝑘 − 1

2< 𝑌 < 𝑘 +

)intrucat aici 𝑋 este discreta are sens sa calculam probabilitatea evenimentului𝑋 = 𝑘, in plus avem

𝑃 (𝑋 ≤ 𝑘) = 𝑃 (𝑋 < 𝑘 + 1) ≈ 𝑃

(𝑌 < 𝑘 +

𝑃 (𝑋 ≥ 𝑘) = 𝑃 (𝑋 > 𝑘 − 1) ≈ 𝑃

(𝑌 > 𝑘 − 1

)𝑃 (𝑘1 ≤ 𝑋 ≤ 𝑘2) ≈ 𝑃

(𝑘1 −

2< 𝑌 < 𝑘2 +

)∙ daca 𝑋 este o variabila aleatoare cu distributie Poisson de parametru 𝜆 si

𝜆 este mare, atunci 𝑋 poate fi aproximata printr-o variabila aleatoare normaldistribuita 𝑌 ∼ 𝑁(𝜆, 𝜆)

=⇒ se pot aplica aceleasi corectii de continuitate=⇒ pentru a putea exploata aceasta aproximare normala, in ambele cazuri,

va fi nevoie de argumentul de standardizare descris in sectiunea dedicata varia-bilelor normal standard distribuite

Probleme rezolvate

Problema 1

Suprarezervarea locurilor pentru zborurile intercontinentale este o prac-tica comuna in cadrul companiilor aeriene, vezi cazul United Airlines.Aeronave care sunt capabile sa transporte 300 de pasageri accepta panala 320 de rezervari. Daca 10% dintre pasagerii care au o rezervare nu seimbarca in cele din urma in avion, care este probabilitatea ca cel putinun pasager, care are bilet de avion, sa sfarseasca fara un loc in avion ?Care este probabilitatea ca intre 25 si 45 de pasageri cu loc rezervat sanu se prezinte la poarta de imbarcare ?

Solutie: Inainte de toate trebuie sa recunoastem ca este vorba despre unexperiment binomial. Sunt 𝑛 = 320 de repetari: un pasager cu o rezervare facutaincearca sa se imbarce in avion la fiecare asa-zisa repetare. Numim ”success”situatia in care un pasager care are o rezervare nu reuseste sa se imbarce pentruzborul sau. Probabilitatea unui succes este 𝑝 = 0.10

Notam prin urmare cu 𝑋 variabila aleatoare care numara pasagerii cu re-zervare care nu reusesc sa se imbarce in avion. 𝑋 este o variabila aleatoarediscreta cu distributie binomiala 𝑋 ∼ 𝐵𝑖(320, 0.10) si va trebui sa calculam𝑃 (𝑋 ≤ 19) si 𝑃 (25 ≤ 𝑋 ≤ 45).

Putem face asta folosind distributia binomiala dar va conduce la o muncade chinez batran, de exemplu

𝑃 (𝑋 ≤ 19) =

19∑𝑘=1

𝐶𝑘320(0.10)𝑘(0.90)320−𝑘

O idee mai buna este sa aproximam variabila discreta 𝑋 printr-una continua 𝑌care este normal distribuita

𝑌 ∼ 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝)) = 𝑁(32, 28.8)

conform teoremei limita centrala.Folosim apoi corectiile de continuitate:

𝑃 (𝑘1 ≤ 𝑋 ≤ 𝑘2) ≈ 𝑃

(𝑘1 −

2< 𝑌 < 𝑘2 +

𝑃 (𝑋 ≤ 𝑘) ≈ 𝑃

(𝑌 < 𝑘 +

𝑃 (25 ≤ 𝑋 ≤ 45) ≈ 𝑃

(25 − 1

2< 𝑌 < 45 +

𝑃 (𝑋 ≤ 19) ≈ 𝑃

(𝑌 < 19 +

Avem nevoie si de o reducere a lui 𝑌 la o variabila aleatoare cu distributia

standard normala prin tranformarea𝑌 −𝑚

𝜎= 𝑍. Au loc relatiile

𝑃 (𝑥1 ≤ 𝑋 ≤ 𝑥2) = 𝑃

(𝑥1 −𝑚

𝜎≤ 𝑍 ≤ 𝑥2 −𝑚

(𝑥2 −𝑚

)−Φ

(𝑥1 −𝑚

)pentru 𝑍 ∼ 𝑁(0, 1).

𝑃 (24.5 < 𝑌 < 45.5) = 𝑃

(24.5 − 32

5.36≤ 𝑍 ≤ 45.5 − 32

)= Φ (2.51) − Φ (−1.39)

= 0.9940 − 0.0823 = 0.92 = 92%

(𝑌 < 19 +

)= 𝑃

(𝑍 ≤ 19.5 − 32

)= Φ (−2.33) = 0.0102 = 1%

Mai sus am citit scorurile 𝑧 din tabelul scorurilor z.

Problema 2

Variabila aleatoare 𝑋 are densitatea de probabilitate

𝑓(𝑥) =

{12 , if − 1 < 𝑥 < 1

0, otherwise

a) Aflati functia de repartitie 𝐹b) Aflati densitatile de probabilitate corespunzatoare variabilelor 𝑌 = 𝑒𝑋

si 𝑍 = 2𝑋2 + 1.

Solutie: a) Functia 𝑓 este o densitate de probabilitate deoarece satisfaceproprietatile definitorii

∞∫−∞

𝑓 (𝑥) 𝑑𝑥 =

1∫−1

2𝑑𝑥 =

2|1−1= 1

si are doar valori pozitive. Prin definitie functia de repartitie va fi

𝐹𝑋 (𝑥) =

𝑥∫−∞

𝑓 (𝑡) 𝑑𝑡 =

⎧⎪⎪⎪⎨⎪⎪⎪⎩0, 𝑥 < −1

𝑥+12 , −1 ≤ 𝑥 < 1

1, 1 ≤ 𝑥

deoarece

𝑥 < −1 ⇒ 𝐹 (𝑥) =

𝑥∫−∞

0 𝑑𝑡 = 0,

𝑥 ∈ [−1, 1) ⇒ 𝐹 (𝑥) =

−1∫−∞

0 𝑑𝑡 +

𝑥∫−1

2𝑑𝑡 =

𝑥 + 1

1 ≤ 𝑥 ⇒ 𝐹 (𝑥) =

−1∫−∞

0 𝑑𝑡 +

1∫−1

2𝑑𝑡 +

∞∫1

0 𝑑𝑡 = 1.

b) Pentru inceput sa aflam functia de repartitie 𝐺 (𝑥) corespunzatoare lui𝑌 . Intrucat 𝑌 > 0 pentru orice 𝑥 ≤ 0, obtinem 𝐺 (𝑥) = 𝑃 (𝑌 ≤ 𝑥) = 0. Daca𝑥 > 0 atunci

𝐺 (𝑥) = 𝑃 (𝑌 ≤ 𝑥) = 𝑃(𝑒𝑋 ≤ 𝑥

)= 𝑃 (𝑋 ≤ ln𝑥) = 𝐹 (ln𝑥)

Asamblate impreuna

𝐺 (𝑥) =

⎧⎪⎨⎪⎩0, ln𝑥 < −1 si 𝑥 ≤ 01+ln 𝑥

2 , −1 ≤ ln𝑥 < 1

1, 1 ≤ ln𝑥

⎧⎪⎨⎪⎩0, 𝑥 ∈

(−∞, 1

)1+ln 𝑥

2 , 𝑥 ∈[1𝑒 , 𝑒

)1, 𝑥 ∈ [𝑒,∞)

Densitatea de probabilitate corespunzatoare va fi

𝑔(𝑥) = 𝐺′(𝑥) =

{12𝑥 , 𝑥 ∈

(1𝑒 , 𝑒

)0, altfel

Deoarece 𝑋 este nenul doar pe intervalul (−1, 1), 𝑍 = 2𝑋2 + 1 va fi nenulape intervalul (1, 3). Pentru 𝑥 ∈ (1, 3), functia de repartitie 𝐻 (𝑥) a lui 𝑍 va fi

𝐻 (𝑥) = 𝑃 (𝑍 ≤ 𝑥) = 𝑃(2𝑋2 + 1 ≤ 𝑥

)= 𝑃

(𝑋2 ≤ 𝑥− 1

= 𝑃

[−√

𝑥− 1

2≤ 𝑋 ≤

√𝑥− 1

]= 𝐹

[√𝑥− 1

]− 𝐹

[−√

𝑥− 1

√𝑥− 1

]− 1

[1 −

√𝑥− 1

Densitatea de probabilitate, obtinuta prin ℎ (𝑥) = 𝐻 ′ (𝑥), e data de

ℎ (𝑥) =

2√2𝑥−2

, 𝑥 ∈ (1, 3)

0, altfel

Problema 3

Densitatea de probabilitate corespunzatoare unei variabile aleatoare con-tinue 𝑋 este data prin

𝑓 (𝑥) =

⎧⎨⎩1

2cos𝑥, 𝑥 ∈

(−𝜋

2,𝜋

)0, altfel

a) Calculati valoarea medie si dispersia lui 𝑋.

b) Aflati functia de repartitie si calculati probabilitatea 𝑃(𝜋

4< 𝑋 <

Solutie: a) Valoarea medie

𝑀 (𝑋) =

+∞∫−∞

𝑥 · 𝑓 (𝑥) 𝑑𝑥 =1

𝜋2∫

−𝜋2

𝑥 cos𝑥⏟ ⏞ f este impara

𝑑𝑥interval

=simetric

iar dispersia

𝐷2 (𝑋) =

+∞∫−∞

[𝑥− 𝐸 (𝑋)]2𝑓 (𝑥) 𝑑𝑥 =

𝜋2∫

−𝜋2

(𝑥− 0)2𝑓 (𝑥) 𝑑𝑥 =

𝜋2∫

−𝜋2

𝑥2 cos𝑥⏟ ⏞ f e para

𝑑𝑥interval

=simetric

2 · 1

𝜋2∫

𝑥2 cos𝑥𝑑𝑥,

prin urmare

𝐷2 (𝑋) =𝜋2

4− 2.

b) Functia de repartitie este definita prin

𝐹 (𝑥) =

𝑥∫−∞

𝑓 (𝑡) 𝑑𝑡.

Astfel, pentru 𝑥 < −𝜋

2=⇒ 𝐹 (𝑥) =

𝑥∫−∞

0 𝑑𝑡 = 0.

Pentru 𝑥 ∈[−𝜋

2,𝜋

)se obtine

𝐹 (𝑥) =

𝑥∫−∞

−𝜋2∫

−∞

0 𝑑𝑡 +

𝑥∫−𝜋

2cos 𝑡 𝑑𝑡 =

2sin𝑥.

iar daca 𝑥 ≥ 𝜋

𝐹 (𝑥) =

𝑥∫−∞

−𝜋2∫

−∞

0 𝑑𝑡 +

𝜋2∫

−𝜋2

2cos 𝑡 𝑑𝑡 +

𝑥∫𝜋2

0 𝑑𝑡 = 1.

𝐹 (𝑥) =

⎧⎪⎪⎪⎨⎪⎪⎪⎩0, 𝑥 ≤ −𝜋

2sin𝑥, 𝑥 ∈

(−𝜋

2,𝜋

)1, 𝑥 ≥ 𝜋

Pentru o variabila aleatoare continua putem folosi densitatea de probabilitatesau functia de repartitie pentru a calcula probabilitati

𝑃(𝜋

4< 𝑋 <

𝜋3∫

𝑓 (𝑥) 𝑑𝑥 =

𝜋3∫

2cos𝑥 𝑑𝑥 = 𝐹

(𝜋3

)− 𝐹

(𝜋4

√3 −

Problema 4

Lipsa memoriei unei variabile exponential distribuiteFie 𝑋 timpul scurs intre detectarea particulelor cu un contor Geiger si sapresupunem ca 𝑋 are o distributie exponentiala cu 𝑀(𝑋) = 1.4 minute.Aflati probabilitatea de a detecta o particula in primele 30 de secundede la pornirea contorului. Sa presupunem ca am asteptat 3 minute farasa fi detectat o particula. Care este probabilitatea sa detectam apoi oparticula in urmatoarele inca 30 de secunde ?

Solutie: Pentru o variabila cu distributia exponentiala 𝑋 ∼ 𝐸𝑥𝑝(𝜆) stim ca𝑀(𝑋) = 1

𝜆 . Prin urmare 𝜆 = 11.4 si apoi probabilitatea de a detecta particula

in primele 30 de secunde va fi estimata prin

𝑃 (𝑋 < 0.5) =

∫ 0.5

−∞𝑓(𝑥) 𝑑𝑥 =

∫ 0.5

𝜆𝑒−𝜆𝑥 𝑑𝑥 = 1 − 𝑒−0.51.4 ≈ 30%

unde am folosit minutul ca unitate de masura si formula densitatii de proba-bilitate pentru variabilele exponential distribuite. Vom folosi pentru compararevaloarea exacta 1 − 𝑒−

0.51.4 si nu cea aproximativa, afectata de erorile de aproxi-

mare.Daca nu vom detecta nicio particula timp de trei minute, senzatia generala

este ca probabilitatea de detectare ar trebui sa fie mai mare in cele 30 de secundescurse dupa aceste trei minute. Insa vom demonstra matematica contrariu.Probabilitatea ceruta se exprima matematic prin 𝑃 (𝑋 < 3.5|𝑋 > 3) =? Adicatimpul scurs sa fie mai mic decat 3min 30 sec daca stim ca e sigur mai maredecat 3min. Conform formulei probabilitatilor conditionate

𝑃 (𝑋 < 3.5 | 𝑋 > 3) =𝑃 (3 < 𝑋 < 3.5)

𝑃 (𝑋 > 3)

caci consideram cele doua evenimente 𝑋 > 3 si 𝑋 < 3.5 iar intersectia lor seexprima prin evenimentul 3 < 𝑋 < 3.5. Folosind densitatea de probabilitate adistributiei exponentiale gasim

𝑃 (3 < 𝑋 < 3.5) =

∫ 3.5

1.4𝑒−

𝑥1.4 𝑑𝑥 = −𝑒−

3.51.4 + 𝑒−

𝑃 (𝑋 > 3) =

∫ 3.5

1.4𝑒−

𝑥1.4 𝑑𝑥 = 𝑒−

In consecinta

𝑃 (𝑋 < 3.5 | 𝑋 > 3) =−𝑒−

3.51.4 + 𝑒−

𝑒−3

= 1 − 𝑒−0.51.4 = 𝑃 (𝑋 < 0.5)

Aceasta lipsa de memorie reprezinta o proprietate specifica variabilelor expo-nential distribuite, fiind singurele variabile aleatoare continue cu aceasta pro-prietate, si poate fi exprimata general prin relatia

𝑃 (𝑋 < 𝑡1 + 𝑡2 | 𝑋 > 𝑡1) = 𝑃 (𝑋 < 𝑡2).

Problema 5

Cand se defecteaza proiectorul?Timpul pana la defectarea unui proiector (in ore) este modelat printr-o variabila aleatoare Weibull de parametrii 𝛽 = 1

2 si 𝛿 = 5000 de ore.Determinati timpul mediu pana la defectare si estimati probabilitatea caacesta sa functioneze cel putin 12000 de ore, fara sa se defecteze.

Solutie: O distributie Weibull este utilizata pentru o modelare satisfacatoarea fiabilitatii unui produs. O variabila aleatoare cu o distributie Weibull aredensitatea de probabilitate

𝑓(𝑥) =

{𝛽𝛿

(𝑥𝛿

)𝛽−1𝑒−( 𝑥

𝛿 )𝛽

, pentru 𝑥 > 0

0, in rest

Parametrii 𝛽 si 𝛿 ai distributiei furnizeaza o mare flexibilitate in modelareasistemelor a caror deterioare creste in timp (uzura rulmentilor), descreste intimp (unii semiconductori), sau ramane constanta in timp (avarii cauzate desocuri externe). Cateva posibile comportari ale lui 𝑓(𝑥) sunt afisate mai jos.

Fie 𝑋 variabila aleatoare care masoara timpul pana la defectarea proiectoru-lui. Valoarea medie a variabilei 𝑋 este

𝑀(𝑋) =

∫ ∞

−∞𝑥𝑓(𝑥) 𝑑𝑥 =

∫ ∞

𝑥 · 1

( 𝑥

) 12−1

𝑒−( 𝑥5000 )

12𝑑𝑥

intai facem schimbarea de variabila 𝑦 =(

𝑥5000

) 12 si aplicand a doua metoda de

schimbare a variablei obtinem 𝑑𝑥 = 10000𝑦 𝑑𝑦 apoi

𝑀(𝑋) = 5000

∫ ∞

𝑦2𝑒−𝑦 𝑑𝑦 = 5000 · Γ(3) = 10000 (ore)

Probabilitatea cautata se estimeaza folosind aceeasi schimbare de variabila

𝑃 (𝑋 ≥ 12000) =

∫ ∞

( 𝑥

) 12−1

𝑒−( 𝑥5000 )

12𝑑𝑥

∫ ∞

√2.4

𝑒−𝑦 𝑑𝑦 = 𝑒−√2.4 ≈ 0.21 = 21%

Probleme propuse

B. Tehnica de calcul

Problema B.1. Un radar masoara vitezele masinilor pe o autostrada. Vitezelesunt normal distribuite cu media de 90 km/ora si deviatia standard 10 km/ora.Care este probabilitatea ca o masina aleasa aleator sa circule cu o viteza maimare de 100 km/ora?

Problema B.2. Consideram functia

𝑓(𝜃) =

{𝑎 cos2 𝜃, daca 𝜃 ∈ (−𝜋

2 ,𝜋2 )

0, in rest

i) Aflati 𝑎 astfel ca 𝑓 sa fie densitatea de probabilitate a unei variabile aleatoarecontinue 𝑋

ii) Determinati valoarea medie 𝑀(𝑋) si dispersia 𝐷2(𝑋) acestei variabilealeatoare

iii) Aflati functia de repartitie 𝐹 (𝑥) si calculati probabilitatea 𝑃 (−1 < 𝑋 < 1)

Problema B.3. Densitatea de probabilitate pentru amplitudinea ruliului uneinave are urmatoarea forma, conform legii lui Rayleigh

𝑓(𝑥) =𝑥

𝑎2𝑒−

2𝑎2 , 𝑥 ≥ 0

Daca nava ar transporta oi, am dori ca acestea sa calatoreasca in conditiilipsite de stres, vezi in link la ce situatii se poate ajunge. Aflati probabilitatea caamplitudinea miscarii sa depaseasca o valoarea critica 𝑐0. Determinati valoareaasteptata a amplitudinii 𝐸(𝑋), deviatia standard 𝜎(𝑋) si momentul centrat 𝑚3.

Problema B.4. Intrarea la Universitatea Politehnica University se realizeazain urma unui test de selectie. Punctajele sunt normal distribuite cu o mediede 500 si o deviatia standard de 100. Popescu vrea sa fie admis la aceastauniversitate si el stie sa trebuie sa obtina un punctaj mai bun decat cel putin70% dintre contracandidatii sai. Popescu da testul si obtine 585 puncte. Va fiadmis la universitate cu acest punctaj ?

Problema B.5. Functia de repartitie corespunzatoare unei variabile aleatoarecontinue 𝑋 este

𝐹 (𝑥) =

⎧⎪⎨⎪⎩0 𝑥 < −5(𝑥+5)2

144 −5 ≤ 𝑥 < 7

1, 𝑥 ≥ 7

Aflati media, dispersia, deviatia standard si momentul de ordin 3 al lui 𝑋.Aflati apoi mediile 𝑀(𝑋3) si 𝑀(𝑒𝑋 + 1).

Problema B.6. O persoana arunca de 1000 ori o moneda. Aflati probabilitateaca numarul de ”steme” obtinute sa fie intre 475 si 525, inclusiv.

Problema B.7. Biletele pentru festivalul ”Untold” sunt vandute online potrivitunei distributii Poisson cu o medie de 25 pe zi. Care este probabilitatea ca:

a) mai mult de 20 de bilete sa fie vandute intr-o zi ?

b) intre 20 si 30 de bilete sa fie vandute intr-o zi ?

Problema B.8. Un club de fotbal asigura transportul cu autobuzul al fanilorsai. Un autobuz soseste intr-o anumita statie la fiecare 15 minute intre ora4 si 12 p.m. in ziua meciului. Fanii sosesc in statie in momente de timpaleatoare. Timpul petrecut de catre un fan in asteptarea autobuzului este o vari-abila aleatoare uniform distribuita cu valori de la 0 la 15 minute. Care estetimpul mediu de asteptare ? Care este probabilitatea ca un fan sa astepte maimult de 12 minute ? Care este probabilitatea ca un fan sa fie nevoit sa astepteintre 5 si 10 minute ?

Problema B.9. Timpul maxim disponibil pentru a realiza o sarcina intr-unproiect este de 2.5 zile. Presupunem ca timpul necesar realizarii sarcinii, caproportie din timpul maxim, este o variabila aleatoare beta cu 𝜇 = 2 si 𝜈 = 3.

Cat se estimeaza ca va dura realizarea sarcinii? (Valoarea asteptata)Care este probabilitatea ca realizarea sarcinii sa dureze mai mult de doua

Bibliografie

[1] R. Yates and D. Goodman. Probability and Stochastic processes,Wiley&Sons, 2005.

[2] D. Montgomery and G. Runger. Applied Statistics and Probability forEngineers, Wiley, 2014.

[3] R. Negrea. Curs Matematici Speciale, 2021.

[4] C. Hedrea. Notite seminar Matematici Speciale, 2021.

Variabile aleatoare continue

Documents