+ All Categories
Home > Documents > 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu,...

5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu,...

Date post: 29-Aug-2019
Category:
Upload: leduong
View: 227 times
Download: 0 times
Share this document with a friend
79
31 5. Elemente de statistică 5.1. Introducere O caracterisitică importantă a lumii înconjurătoare este dată de existenţa incertitudinii. Din punct de vedere matematic incertitudinea este modelată statistic şi lingvistic. Aceste două perspective sunt analizate de două teorii distincte, şi anume: teoria probabilităţilor şi teoria sistemelor şi mulţimilor fuzzy. În continuare, în acest capitol ne propunem să prezentăm, să analizăm şi să caracterizăm incertitudinea din punct de vedere statistic, folosind pentru aceasta teoria probabilităților. În analiza semnalelor (de exemplu, în cazul situaţiilor practice când analizăm secvenţe finite de semnal) acestea se reprezintă, în mod obişnuit, ca vectori. Prin reprezentarea vectorială se obţine un câştig materializat în special în uşurinţa: manipulării numerice, şi respectiv a formalizării matematice. Figura 5.1. Eşantionarea unui semnal respirator x(t) Spre exemplu, o secvenţă x[n], obţinută prin eşantionarea unui semnal respirator x(t) (vezi Figura 5.1) definit pe intervalul 0 n N – 1, poate fi reprezentată ca un vector x compus din eşantioanele x[n] ale semnalului (a se vedea relaţia din Figura 5.2(a)). Deoarece eşantioanele secvenţei sunt variabile aleatoare (care în această situaţie particulară iau numai valori -1.7 -1.5 -1.3 -1.1 -0.9 -0.7 -0.5 0 1 2 3 4 5 N-1 N-2 N-3 x[n] – volţi ........ N – eşantioane x(t) x [5] x [4]
Transcript
Page 1: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

31

5. Elemente de statistică

5.1. Introducere O caracterisitică importantă a lumii înconjurătoare este dată de existenţa

incertitudinii. Din punct de vedere matematic incertitudinea este modelată statistic şi lingvistic. Aceste două perspective sunt analizate de două teorii distincte, şi anume:

teoria probabilităţilor şi teoria sistemelor şi mulţimilor fuzzy.

În continuare, în acest capitol ne propunem să prezentăm, să analizăm şi să caracterizăm incertitudinea din punct de vedere statistic, folosind pentru aceasta teoria probabilităților.

În analiza semnalelor (de exemplu, în cazul situaţiilor practice când analizăm secvenţe finite de semnal) acestea se reprezintă, în mod obişnuit, ca vectori. Prin reprezentarea vectorială se obţine un câştig materializat în special în uşurinţa:

manipulării numerice, şi respectiv a formalizării matematice.

Figura 5.1. Eşantionarea unui semnal respirator x(t)

Spre exemplu, o secvenţă x[n], obţinută prin eşantionarea unui semnal respirator x(t) (vezi Figura 5.1) definit pe intervalul 0 ≤ n ≤ N – 1, poate fi reprezentată ca un vector x compus din eşantioanele x[n] ale semnalului (a se vedea relaţia din Figura 5.2(a)). Deoarece eşantioanele secvenţei sunt variabile aleatoare (care în această situaţie particulară iau numai valori

-1.7

-1.5

-1.3

-1.1

-0.9

-0.7

-0.5

0 1 2 3 4 5 N-1 N-2

N-3

x[n] – volţi

........ N – eşantioane

x(t) x [5] x [4]

Page 2: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

32

reale, în cazul cel mai general putând lua şi valori complexe) rezultă în mod direct că toate componentele vectorului sunt, de asemenea, variabile aleatoare, vectorul x devenind astfel un vector aleator (vezi Subcapitolul 5.4., „Vectori aleatori”).

Figura 5.2. (a) Reprezentarea sub forma unui vector aleator a semnalului din Figura 5.1 şi (b) sistemul utilizat în achiziţia semnalului

respirator din Figura 5.1, [Dobrea, 2003a]

Figura 5.3. Variabilitatea spectrală a semnalului respirator pentru un subiect odihnit [Dobrea, 2003a]

Timpul [secunde]

Fundamentala semnalului respirator - 0.176 Hz

Armonica de ordin 2 a semnalului respirator - 0.356 Hz

0.00

0.75

0.37

Fre

cven

ţa [

Hz]

0

-50

Am

pli

tud

inea

[d

B]

Am

pli

tud

inea

[V

]

O nouă componentă spectrală

1

...

2

1

0

Nx

x

x

x

x

(a) (b)

Page 3: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

33

Într-o altă abordare, des întâlnită în practică, vectorul aleator este obţinut alegând ca şi componente ale vectorului, Figura 5.4(a), diferite trăsături ale obiectului ce urmează a fi caracterizat. Aceste trăsături constituie un spaţiu multidimensional denumit în cadrul cursului spaţiul trăsăturilor. Acest mod de construcţie a vectorului aleator este similar cu abordarea prezentată în Subcapitolul 3.3. Această ultimă metodă de construcţie a vectorilor aleatori o vom exemplifica în continuare pe următoarea aplicație concretă de clasificare.

Figura 5.4. (a) Vectorul aleator x al trăsăturilor şi (b) spaţiul trăsăturilor În cadrul acestei probleme dorim să determinăm starea de oboseală a

unui subiect care lucrează la un calculator folosindu-ne pentru atingerea acestui obiectiv numai de semnalul respirator. Semnalul respirator este, în cazul particular al acestei aplicații, achiziţionat cu ajutorul unui senzor noncontact înglobat în spătarul unui scaun, Figura 5.2(b), [Dobrea, 2003a]. Acest senzor înregistrează mişcările cavităţii toracice ale subiectului. Iar secvenţa de semnal obținută cu ajutorul lui este una similară cu cea prezentată în Figura 5.1.

Conceptual, starea de oboseală poate fi diferenţiată de starea odihnită a subiectului prin valorile particulare luate de anumite trăsături ale diferitelor semnale fiziologice înregistrate de la subiectul în cauză. În cazul problemei de faţă avem la dispoziţie doar un singur semnal fiziologic – semnalul respirator. Posibilele trăsături ce ar putea fi utilizate în determinarea stării de oboseală sunt în acest ultim caz: frecvenţa activităţii respiratorii, puterea

3

2

1

trasatura

trasatura

trasatura

x

(a) trasătura2 = frecvenţa SR

trasătura1 = deviaţia standard a SR

trasătura3 = puterea componentei principale a SR

- subiect obosit - subiect odihnit SR - semnal respirator

(b)

Page 4: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

34

spectrală a componentei principale, amplitudinea maximă a semnalului, deviaţia standard a amplitudinii semnalului etc.

Dintre aceste trăsături – potențiale utile a fi folosite în clasificare – am selectat, pentru exemplificare, următoarele 3 trăsături:

frecvenţa semnalului respirator (frecvenţa componentei spectrale de amplitudine maximă – a fundamentalei –, Figura 5.3),

deviaţia standard a eşantioanelor dintr-o fereastră de semnal şi puterea componentei spectrale principale,

Cu ajutorul acestor trăsături am definit în continuare un vector aleator x conform cu Figura 5.4(a). Componentele acestui vector determină un spaţiu al trăsăturilor tridimensional în care cele două clase (odihnit versus obosit) pot avea o reprezentare spaţială potenţială ca în Figura 5.4(b).

Problema 5.1.: Scrieţi o relaţie matematică de obţinere a puterii componentei spectrale principale1.

Deoarece vectorii aleatori sunt modalităţi foarte convenabile de reprezentare şi manipulare a secvenţelor aleatoare (de exemplu, a seriilor de timp) şi a vectorilor de trăsături (ce caracterizează anumite stări, obiecte etc.) este foarte important ca anterior parcurgerii capitolelor în care se prezintă în mod efectiv diferite tipuri de clasificatori statisitici să înţelegem ce presupune caracterizarea vectorilor aleatori din punct de vedere statistic2.

5.2. Elemente fundamentale de statistică

În natură fenomenele se manifestă în mod determinist sau în mod aleatoriu. Fenomenele deterministe sunt caracterizate printr-o evoluţie după o lege determinată matematic (aşa cum este, de exemplu, legea mişcării rectilinii uniforme) în timp ce fenomenele aleatorii sunt fenomenele în care

1 Orice termen pătratic are semnificaţia unei puteri. Dar, pentru ca acest termen pătratic

să aibă şi o semnificaţie fizică mai este necesar să fie multiplicat cu un coeficient de scalare (de exemplu: P = R I 2 – în această relaţie R este coeficientul de scalare).

2 Informaţiile prezentate în acest capitol (capitol ce deține o pondere considerabilă din această carte) țin strict de caracterizarea statistică a secvențelor aleatoare. Acest lucru ar putea părea în contradicție cu tematica asumată prin titlul prezentei cărți – respectiv, prezentarea de metode și tehnici inteligente utilizate în clasificarea pattern-urilor şi în procesarea semnalelor. Această îndepărtare este însă temporară şi numai aparentă, conceptele prezentate în acest capitol fiind fundamentale și reprezentând baza înţelegerii tuturor celorlalte capitole.

Page 5: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

35

stările nu sunt cunoscute în mod determinist dar pot fi interpretate prin intermediul noţiunii de probabilitate, putându-se prezice o distribuţie a stărilor. Astfel de fenomene aleatoare sunt şi fenomenele şi procesele termodinamice, precum şi cele biologice, metereologice, economice etc.

Teoria probabilităţilor, ce reprezintă studiul matematic al probabilităţilor (respectiv, al fenomenelor/evenimentelor caracterizate de incertitudine şi de întâmplare) şi care se ocupă cu mediile fenomenelor în masă ce au loc fie secvenţial, fie concomitent, joacă un rol critic în dezvoltarea teoriilor statistice. La baza acestor teorii stă observaţia conform căreia mediile calculate empiric pe un număr de observaţii se apropie tot mai mult de o valoare constantă pe măsură ce numărul observaţiilor creşte. O cerinţă de bază în analiza acestor fenomene aleatoare (caracterizate de incertitudine) constă în aceea ca ele să se repete, în general, de multe ori şi în condiţii foarte asemănătoare.

Ca ramură a matematicii aplicate, statistica se ocupă de colectarea, analiza şi interpretarea datelor, prezentarea datelor, precum şi de predicţia pe baza unui istoric al datelor. Funcţie de obiectul de studiu, statistica se împarte în: statistica matematică (sau teoria statistică3) şi statistica aplicată.

Statistica aplicată (asupra căreia ne vom opri şi noi în paginile ce urmează) se împarte, la rândul ei, în: statistică descriptivă, statistică inferenţială (analitică) şi statistică predictivă. În doar câteva cuvinte putem spune că:

statistica descriptivă cuprinde un set de tehnici şi metode folosite pentru descrierea unei populaţii statistice4 (de exemplu, prin volum, structură, nivel mediu, grad al împrăştierii datelor etc. – aceasta ne asigură o descriere a tendinţelor fenomenului studiat);

statistica inferenţială extrage informaţii din datele empirice iar pe baza acestora face inferenţe (trage concluzii) privind procesul sau populaţia analizată;

statistica predictivă utilizează un model predictiv, obţinut cu ajutorul statisticii inferenţiale, pentru a prezice valoarea cea mai probabilă a unei variabile aleatoare.

Aşa după cum s-a menţionat mai sus, statistica inferenţială se ocupă cu extragerea – prin procesul numit inferenţă statistică – a informaţiilor relevante din datele culese de la doar o parte din populaţia de interes, urmată apoi de extrapolarea rezultatelor la întreaga populaţie. În general, din raţiuni

3 Teoria statistică, ramură a matematicii aplicate, utilizează teoria probabilităţii şi analiza

matematică pentru a cerceta baza teoretică a statisticii.

4 Populaţia statistică reprezintă o colectivitate sau grup de elemente de aceeaşi natură, ce posedă o anumită proprietate sau trăsătură comună, numită şi caracteristică.

Page 6: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

36

fie economice, fie de logistică, fie de altă natură, pentru urmărirea unui anumit fenomen/eveniment/proces nu se poate lua în studiu o întreagă populaţie (totalitatea unităţilor simple sau complexe care formează obiectul cercetării). Aici intervine rolul statisticii inferenţiale care realizează un studiu pe un eşantion (parte a unei populaţii) ales la întâmplare, pe o perioadă determinată de timp.

Observaţia 5.1: Prin populaţie în statistică nu se înţelege doar o mulţime de oameni sau alte fiinţe vii ci ea poate desemna o mulţime de obiecte sau date numerice obţinute prin măsurători şi ale căror proprietăţi urmează să fie analizate. De exemplu, mulţimea celulelor sangvine ale unei persoane poate constitui o astfel de populaţie. Eşantionul în acest caz este dat de un număr de celule selectate în mod aleator (de exemplu, printr-o probă de sânge) din întreaga populaţie considerată.

Indivizii unei populaţii statistice sunt studiaţi în raport cu una sau mai multe caracteristici. Acestea din urmă pot fi cantitative sau calitative. Caracteristicile cantitative, numite şi variabile statistice, sunt cele care se măsoară numeric (de exemplu: înălţimea, vârsta, temperatura unei persoane, diametrul unei piese sau al unei celule etc.) în timp ce caracteristicile calitative, numite şi atribute (de exemplu, forma geometrică, culoarea ochilor sau a părului etc.), nu se măsoară numeric; pentru acestea din urmă însă se pot ataşa numere categoriilor/claselor ce le determină printr-un procedeu numit „codificare”; în urma acestui procedeu se obţin variabile statistice cu care se lucrează mai departe.

Există două forme tradiţionale de inferenţă statistică, şi anume: estimarea (prezicerea celei mai probabile valori a parametrului ce caracterizează populaţia) şi testarea ipotezelor (ce presupune o prezumţie privind parametrii populaţionali urmată de testarea statistică de semnificaţie sau, altfel spus, decizia dacă o asociere observată este reală sau datorată întâmplării). Prin ambele forme inferenţa statistică urmăreşte să generalizeze – cu un grad de (in)certitudine calculat – la întreaga populaţie, concluziile trase din eşantionul studiat.

Observaţia 5.2: După cum s-a observat, mai sus s-a introdus o noţiune nouă, cea de parametru. Indiferent de metoda inferenţială utilizată este foarte important pentru noi să distingem clar între cele două noţiuni ce sunt legate între ele însă nu şi interschimbabile, şi anume, parametrii (pe care-i inferăm) şi estimările (prin care inferăm parametrii). Astfel:

Parametrii statistici Estimările statistice

Page 7: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

37

Sumarizează populaţia Sumarizează eşantioanele

Sunt necunoscuţi Sunt calculate

Sunt ipotetici Sunt „reale”

Sunt numere „constante” Sunt variabile aleatoare5

Spre deosebire de noţiunea de variabilă statistică, ce desemnează o anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică o altă noțiune larg utilizată este și cea de parametru. Prin parametru se înţelege o proprietate numerică a unei populaţii (vezi Observaţia 5.1). Un astfel de parametru al populaţiei ar putea fi, de exemplu, media populaţiei în raport cu caracteristica studiată (respectiv, media diametrului hematiilor, media de vârstă, media înălţimilor indivizilor dintr-o populaţie etc.). Astfel, valoarea adevărată a unui parametru (cea calculată pe întreaga populaţie) nu este cunoscută6 însă ea se poate estimea prin valoarea unei statistici (estimatorul parametrului calculată pe un eşantion – vezi subcapitolul 5.5.). Astfel, o statistică (estimare statistică) are o valoare calculată în mod concret, deci este reală, şi mai mult, ea este o valoare numerică ce caracterizează eşantionul. Pornind de la această valoare estimată generalizăm apoi rezultatul la întreaga populaţie, ceea ce este echivalent cu a face o ipoteză privind valoarea reală a parametrului statistic; din acest motiv spunem că parametrii statistici sunt aşadar ipotetici (noi vom cunoaşte întotdeauna parametrul statistic prin valoarea lui ipotetică şi nu prin valoarea lui reală). De asemenea, mai spunem că parametrii statistici sunt numere „constante”, lucru perfect adevărat dacă ne gândim că în situaţia în care am putea cunoaşte întreaga populaţie, valoarea paramerului s-ar putea calcula printr-o simplă formulă de calcul iar valoarea determinată astfel ar fi unică. Nu acelaşi lucru putem spune şi despre estimările statistice care, prin însăşi modul lor de calcul, presupun mai întâi selectarea unui eşantion din întreaga populaţie. Continuând cu un exemplu, în care parametrul statistic ales este media, m, constatăm că un singur eşantion extras din populaţie ne poate furniza o singură valoare – fie aceasta media de eşantion7, 1m̂ .

5 Un estimat statistic reprezintă după cum vom vedea şi în Subcapitolul 5.5.1. valoarea

unui estimator calculată pentru eşantionul luat în studiu. 6 Nu avem acces la întreaga populație pentru a o calcula. 7 În general, pentru reprezentarea estimărilor statistice se utilizează aceeaşi notaţie ca şi

pentru parametrul statistic la care se adaugă simbolul „^”.

Page 8: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

38

Datorită modului aleator de selecţie a eşantionului8, diferitele eşantioane de mărime n elemente, construite din aceeaşi unică populaţie, vor conduce în general la rezultate diferite; astfel, un al doilea eşantion ar putea să indice media 2m̂ , un al treilea eşantion

media 3m̂ ş.a.m.d. O definiţie larg acceptată pentru variabila

aleatoare este aceea că ea reprezintă o cantitate ale cărei valori sunt aleatoare şi căreia îi este asignată o distribuţie de probabilitate (a se vedea şi Subcapitolul 5.3.). În exemplul nostru, dacă am considera situaţia cu foarte multe eşantioane selectate (toate de aceeaşi mărime n) atunci s-ar putea construi o distribuţie de frecvenţe relative pentru m̂ . Întrucât numărul eşantioanelor considerate este unul mare frecvenţele relative ni aferente mediilor de eşantion, im̂ , pot fi

interpretate ca probabilităţi (vezi definiţia de mai jos pentru probabilitate). În acest caz putem vorbi de distribuţia de probabilitate a statisticii m̂ , denumită şi distribuţie a mediei de selecţie pentru eşantionul aleator de mărime n, cu rol important în inferenţa statistică. În practică, nu vom întâlni însă prea des astfel de distribuţii de selecţie întrucât, în general, se lucrează cu un singur eşantion extras din populaţia de interes. În concluzie, din modul cum este definită noţiunea de variabilă aleatoare (vezi Subcapitolul 5.3) şi din cele prezentate mai sus deducem că estimarea statistică m̂ este aşadar o variabilă aleatoare.

Inferenţa statistică lucrează, după cum vom vedea şi în aplicaţiile practice, cu câteva noţiuni de bază pe care le prezentăm în Tabelul 5.1.

Tabelul 5.1. Noţiuni fundamentale utilizate în inferenţa statistică

experiment – „Procedeu de cercetare ştiinţifică ce constă în provocarea intenţionată a unor fenomene în condiţiile cele mai propice pentru studierea lor şi a legilor care le guvernează (Dicţionarul explicativ al limbii Române” [Academia Româna, 1998]). Practic, experimentul manipulează şi manevrează variabile alese, în condiţii controlate, în ideea de a testa ipotezele9 enunţate. Variabilele pe care le

8 Despre un eşantion de mărimea n se spune că este aleatoriu atunci când orice

combinaţie de n unităţi ale unei populaţii are şanse egale de a intra în eşantionul care este prelevat.

9 Ipoteza afirmă existenţa unei relaţii între variabilele independente şi cele dependente; altfel spus, o variaţie a variabilelor independente va produce o variaţie în variabilele

Page 9: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

39

manipulează experimentul, numite şi variabile independente, sunt acele caracteristici ale experimentului ale căror valori pot fi modificate pentru a crea diferite condiţii necesare comparaţiei. Proces repetabil, experimentul are un rezultat fie identificabil, fie măsurabil.

Rezultat – Valorile (ieşirile) identificate/măsurate în cadrul experimentului şi care corespund celui de-al doilea tip de variabile cu care lucrăm, şi anume, variabilele dependente. Variaţia valorilor acestor variabile se măsoară în funcţie de valorile impuse variabilelor independente.

spaţiul rezultatelor (spaţiul de selecţie)

– Notat în teoria probabilităţilor cu S, Ω sau U, el este dat de setul tuturor rezultatelor (ieşirilor) elementare posibile ale unui experiment sau, anticipând puţin, el este dat de setul tuturor evenimentelor elementare, ζi, posibile; el poate fi finit sau infinit.

eveniment – Noţiune de bază în teoria probabilităţilor, el exprimă producerea sau neproducerea unui fenomen (obţinerea unui anumit rezultat) în cadrul unui experiment. Putem vorbi de evenimente sigure (S, care se produc de fiecare dată, în mod obligatoriu, în cadrul experimentului realizat), evenimente imposibile (Φ, care nu se produc niciodată la realizarea unui experiment) şi evenimente aleatoare (sunt cele care pot sau nu să se realizeze în cadrul efectuării unui experiment).

– Reuniunea A+B a două evenimente aleatoare A şi B este evenimentul care apare atunci când fie evenimenul A, fie evenimentul B, fie ambele evenimente se produc în cadrul efectuării experimentului. Spunem că evenimentele aleatoare A şi B sunt mutual exclusive sau disjuncte atunci când producerea unuia dintre ele exclude producerea celuilalt eveniment (nu au elemente în comun, AB = { }).

dependente. Scopul experimentului este de a arăta dacă predicţia făcută este corectă sau nu.

Page 10: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

40

probabilitate – Noţiunea de probabilitate încearcă să exprime numeric (sub forma unui număr P(∙)[0, 1] asociat fiecărui eveniment) „şansele” ca un eveniment A să apară ca rezultat al unui experiment particular. Probabilitatea oricărui eveniment aleator – altul decât evenimentul sigur S (de probabilitate 1) sau evenimentul imposibil (de probabilitate 0) – nu este, în general, cunoscută, ea fiind de aceea estimată. Estimarea se poate face, în principal, prin trei metode: a) clasică, b) practică sau c) computaţională.

– Probabilitatea realizării unui eveniment aleator este, conform definiţiei clasice, raportul dintre numărul de cazuri favorabile şi numărul de cazuri posibile, unde toate cazurile posibile se presupun a fi echiprobabile10. Aceasta reprezintă şi metoda clasică de calcul al probabilităţii.

– În practică, dacă experimentul este realizat de n ori (unde n este suficient de mare) iar evenimentul dorit, A, se produce de nA ori, atunci se poate afirma cu un mare grad de certitudine că probabilitatea evenimentului A, P(A), este aproximativ dată de frecvenţa relativă, nA/n. (o definiţie mai riguroasă, cunoscută şi sub numele de definiţie frecvenţială a probabilităţii, ar fi: P(A) =

nlim nA/n). Această

definiție corespunde metodei practice (empirice) de calcul al probabilităţii.

– Metoda computaţională (deductivă) de calcul presupune cunoaşterea probabilităţilor altor evenimente legate de evenimentul A (probabilităţi estimate anterior) pe seama cărora se deduce P(A). De exemplu, cunoscând probabilităţile P(B) şi

10 Dacă nu există nici un motiv să presupunem că realizarea unuia dintre evenimentele

elementare, {i}, este favorizată prin raport cu celelalte evenimente elementare atunci spunem că evenimentele {i} (cu ni ,1 ) sunt egal probabile (sau echiprobabile) iar

P({i}) = 1/n (n este numărul finit de evenimente elementare, sau, echivalent, numărul de cazuri posibile); în plus, P(A) = nA/n, unde nA reprezintă numărul de cazuri favorabile pentru realizarea evenimentului A echivalent, numărul evenimentelor elementare ce compun evenimentul A (a se vedea distincţia dintre noţiunile de eveniment şi eveniment elementar).

Page 11: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

41

P(C), unde B şi C sunt două evenimente disjuncte care reunite dau evenimentul A, atunci P(A) = P(BC) = P(B) + P(C).

– Legat de noţiunea de probabilitate (şi folosind notaţiile de mai sus) avem următoarele trei postulate fundamentale (definiţia axiomatică a probabilităţii):

P(A) ≥ 0, (5.1)

P(S) = 1, (5.2)

P(A+B) = P(A) + P(B), (5.3)

unde evenimentele aleatoare A şi B sunt disjuncte.

Ideea unui experiment include exemple precum: aruncarea unui zar sau a unei monede, extragerea unei bile dintr-o urnă (cel mai des folosite în cărţile şi cursurile de statistică pentru o înţelegere facilă a noţiunilor de statistică), tragerea cu arma într-o ţintă, măsurarea numărului de angajaţi sau chestionarea managerului unei firme în legătură cu obţinerea de profit sau pierdere (în economie), măsurarea înălţimii unei persoane, măsurarea tensiunii arteriale sistolice, măsurarea semnalului de tremur al mâinii, a semnalului cardiac sau electroencefalografic (în biologie), durata de funcţionare a unei maşini etc.

Variabila, ca şi concept din matematică, desemnează orice caracteristică (calitate, atribut, proprietate) ce îşi poate schimba valoarea în timp. Aşa după cum am văzut, în cercetarea experimentală s–a vorbit până acum de două tipuri de variabile, respectiv: variabile independente şi variabile dependente. Primele desemnează acele fenomene ce reprezintă cauze, factori sau condiţii (ce pot fi modificate de experimentator) în timp ce ultimele desemnează efectele, rezultatele produse de acţiunea variabilelor independente (modificările operate). În practică însă, adesea fenomenele studiate sunt destul de complexe, cauzele implicate pot fi multiple iar experimentatorul, fie din cauze independente de el (necunoaştere), fie din dorinţa de a simplifica problema, ignoră parte din variabilele independente cu influenţă asupra rezultatului final al experimentului. În aceste condiţii se poate vorbi de o a treia categorie de variabile – aşa-numitele variabile parazite – ce nu reprezintă altceva decât acele variabile independente ce au efecte neintenţionate asupra variabilelor dependente. Datorită efectelor neintenţionate induse asupra rezultatelor şi din dorinţa de afla cât mai corect legitatea care guvernează relaţia cauză-efect în cadrul fenomenului studiat, o condiţie ce se impune în legătură cu aceste variabile parazite este aceea ca ele fie să fie menţinute constante, fie, dacă e posibil, să li se

Page 12: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

42

determine gradul de influenţă asupra variabilelor dependente. Modalităţile prin care se încearcă ţinerea sub control a variabilelor parazite variază de la o situaţie experimentală la alta şi ele sunt alese/impuse de experimentator funcţie de experienţa acestuia, de înţelegerea intrinsecă a fenomenului studiat şi de natura variabilelor parazite considerate (variabile parazite de tip aleatoriu, respectiv, variabile parazite cu caracter sistematic). Dacă în cazul variabilelor parazite de tip aleatoriu – care ţin în general de situaţie (de exemplu condiţiile fizice în care se desfăşoară experimentul), fără a se reduce însă la ele – efectele lor pot fi minimizate/anulate prin proiectarea unor condiţii experimentale egale, identice sau cât mai apropiate pentru toate grupurile de unităţi studiate din eşantion, în cazul variabilelor parazite cu caracter sistematic, unde efectele lor sunt mai mari putând chiar „masca” influenţa reală a unei variabile independente, se pot folosi de ea diferite tehnici de selecţionare a unităţilor statistice din eşantion (în particular, a subiecţilor) în vederea constituirii grupelor ce se vor compara.

Observaţia 5.3: Pentru a exemplifica cazul variabilelor parazite cu caracter sistematic vom face referire aici la un studiu [Dobrea, 2004], [Dobrea, 2005] ce a fost realizat în scopul identificării stării de oboseală a subiecţilor umani folosind pentru aceasta doar semnalul de tremur fiziologic al mâinii.

Se ştie că tremurul fiziologic – cel mai răspândit tremur nepatologic, de amplitudine foarte mică şi greu observabil cu ochiul liber – creşte, devenind uneori chiar vizibil cu ochiul liber în cazul anumitor stări emoţionale sau mentale specifice, a oboselii, a anumitor stări metabolice (febră, hipoglicemie, hipocalcemie etc.), a opririi administrării anumitor sedative, în cazul administrării unor medicamente, când se consumă alcool, droguri, cafea etc. Acest tip crescut de tremur fiziologic dispare însă în momentul în care factorul care l-a potenţat este înlăturat, el nefiind generat de nici o afecţiune neurologică.

În acest studiu toate înregistrările de detecţie a mişcării au fost efectuate cu ajutorul unui Joystick Virtual compus din trei senzori rezonanţi, dezvoltat şi prezentat detaliat în [Dobrea, 2002b], [Dobrea, 2005]. Pentru identificarea stării de oboseală folosind semnalul de tremur au fost selectaţi subiecţi sănătoşi, fără probleme cunoscute endocrine, neuronale sau alte afecţiuni acute sau cronice cunoscute (diabet, SIDA, cancer, diferite alergii etc.) şi fără deficienţe de Ca2+ sau Mg2+ cunoscute care ar fi putut determina şi influenţa caracteristicile tremurului. Toate aceste limitări au fost impuse deoarece starea de oboseală pentru persoanele cu diferite afecţiuni este

Page 13: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

43

net diferită faţă de aceeaşi stare existentă la subiecţii sănătoşi [Dobrea, 2004]. Protocolul şi metodologia înregistrărilor semnalului de tremur (realizarea experimentului) au urmărit două obiective majore. Primul obiectiv a urmărit înregistrarea seriilor de timp în acele condiţii şi momente de timp pentru care starea de odihnă sau oboseală a existat şi a fost manifestă în subiecţi; respectiv, au fost făcute înregistrări dimineaţa cu şi fără inducerea în mod artificial a unei stări de oboseală (prin ţinerea în mână de către subiect, timp de 4 minute, a unei greutăţi de 4 kg) şi înregistrări făcute după amiaza, în aceleaşi două condiţii. În toată perioada dintre cele două sesiuni de înregistrări subiecţii au fost rugaţi să-şi desfăşoare activităţile lor zilnice, normale. Cel de-al doilea obiectiv a vizat limitarea tuturor influenţelor – altele decât cele date de starea de oboseală – care s-ar fi putut reflecta în semnalul de tremur în mod nedorit. Rezultatele obţinute pentru clasificarea subiecţilor funcţie de semnalul de tremur în cele două clase, odihnit versus obosit, au fost mediocre. Acest lucru s-a dovedit ulterior, din analizele întreprinse, ca fiind datorat faptului că rezultatele au fost contaminate de cel puţin o variabilă parazită, rezultată din neechivalenţa grupurilor de subiecţi. Mai exact, s-au luat în considerare doar două clase: clasa odihnit asociată acelor înregistrări făcute în cele două sesiuni (dimineaţa, respectiv, după-amiaza) şi pentru care nu s-a indus în mod artificial oboseala neuro-musculară, respectiv, clasa obosit asociată înregistrărilor făcute în cele două sesiuni (dimineaţa, după-amiaza) în care oboseala neuro-musculară a fost una indusă. În prezent însă se ştie că clasificarea tremurului fiziologic este oarecum „oarbă” deoarece puţine lucruri se cunosc despre posibilele stări psihice care sunt reflectate în acest tip de mişcare şi care pot fi privite în mod corespunzător ca tot atâtea clase distincte în procesul de clasificare. Modul în care aceste stări influenţează tremurul – informaţie utilă mai ales în procesul de extragere a trăsăturilor folosite în clasificarea semnalului de tremur – rămâne unul necunoscut în cea mai mare parte. Se ştie însă dintr-un studiu anterior, [Chalder, 1993], că s-a evidenţiat existenţa a două componente distincte ale stării de oboseală şi anume: (1) cea mentală şi (2) cea fizică. Aceste rezultate au fost confirmate şi peste câţiva ani când, dintre cele cinci dimensiuni evidenţiate ale stării de oboseală două au fost: oboseala fizică şi cea mentală [Smets, 1995]. Într-un alt studiu, aceleaşi două manifestări ale stării de oboseală (fizică şi mentală) au fost puse din nou în evidenţă [Aaronson, 2003]. Din această perspectivă, determinarea – într-o primă fază – a numărului corect de clase care se regăsesc în setul de date devine o necesitate şi,

Page 14: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

44

chiar mai mult, o prioritate pentru o corectă realizare a sistemului de clasificare. Din această nouă perspectivă s-a recurs ulterior la o nouă grupare a subiecţilor corespunzător celor trei clase distincte, şi anume cele corespunzătoare: stării de odihnit (presupusă a se regăsi dimineaţa la toţi subiecţii), stării de oboseală fizică/musculară (indusă în mod artificial atât în cazul înregistrărilor de dimineaţă cât şi al celor de după-amiază) şi, respectiv, stării de oboseală psihică/mentală (presupusă a se fi instalat, în mod natural şi firesc, la sfârşitul unei zile normale de muncă). Rezultatele obţinute în această nouă ipoteză au fost în mod evident mult îmbunătăţite ceea ce ne îndreptăţeşte să considerăm starea de oboseală psihică a subiecţilor ca şi variabilă parazită ce trebuie luată în considerare în cadrul problemei de clasificare de mai sus.

Legat de noţiunea de eveniment facem menţiunea că rezultatele posibile ale unui experiment constituie în fapt evenimentele elementare în timp ce evenimentul compus (sau simplu, eveniment) reprezintă o colecţie de evenimente elementare. Din această perspectivă spunem că evenimentul sigur, S, este format din totalitatea evenimentelor elementare în timp ce subseturile sale reprezintă, în concepţia dată mai sus, simplu, evenimente. O noţiune cu care ne vom reîntâlni de mai multe ori în paginile acestei cărţi este și cea de partiţie, U = [A1, ..., An], a unui set S. Astfel, prin partiţia U a unui set S înţelegem o colecţie de subseturi (evenimente) disjuncte, Ai (cu

ni ,1 ), ale lui S, a căror reuniune formează S:

SAA n ...1 și ∩ ∅ pentru (5.4)

Observaţia 5.4: Pentru exemplificarea noţiunii de eveniment luăm în discuţie cazul experimentului constând în extragerea unei bile dintr-o urnă cu bile albe, bile negre şi bile roşii. Pentru acest experiment evenimentele A1 = {bilă albă}, A2 = {bilă neagră}, A3 = {bilă roşie} constituie evenimente elementare în timp ce evenimentele A4 = {bilă albă, bilă neagră} (a se citi „bilă albă sau bilă neagră”), A5 = {bilă neagră, bilă roşie} constituie exemple de evenimente compuse sau, mai simplu, evenimente. Evenimentele, aşa cum s-a prezentat mai sus, pot fi de mai multe tipuri:

Sigure – de ex., evenimentul {bilă albă, bilă roşie, bilă neagră};

imposibile – de ex., evenimentul {bilă verde}; – orice eveniment diferit de evenimentul

imposibil este o reuniune de

Page 15: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

45

evenimente elementare; aleatoare:

compatibile – evenimente care se pot realiza simultan;

– de ex., evenimentele {bilă albă, bilă neagră} şi {bilă albă, bilă roşie} sunt compatibile întrucât extragerea unei bile albe înseamnă realizarea ambelor evenimente.

incompatibile – evenimente care nu se pot realiza simultan;

– de ex., evenimentele {bilă albă} şi {bilă neagră, bilă roşie};

complementare – două evenimente incompatibile care reunite conduc la evenimentul sigur; notaţia folosită: complementarul lui

AA . – de ex., evenimentele {bilă albă, bilă

neagră} şi {bilă roşie};

disjuncte – de ex., evenimentele {bilă albă} şi {bilă neagră}.

Caracterul aleator al unui eveniment aleator depinde de acţiunea combinată a mai multor factori ce nu au fost luaţi în considerare atunci când s-au stabilit condiţiile de efectuare ale experimentului. Astfel de factori sunt, de exemplu, pentru experimentul aruncării zarului sau a monedei (experimente cu rezultate elementare identificabile – respectiv, feţele {1, 2, 3, 4, 5, 6} şi {stemă, cap}): poziţia în care se găseşte zarul/moneda în momentul aruncării, modul în care mişcăm mâna, particularităţile constructive ale zarului/monedei ş.a.m.d. În cazul experimentelor cu rezultate măsurabile, pe lângă caracterul aleator dat de factori mai mult sau mai puţin cunoscuţi vor fi şi incertitudini adiţionale introduse de însăşi procesul de măsurare care nu este, în general, unul perfect, cu atât mai puţin ideal. Aici putem da ca exemplu măsurarea diamentrului unei celule (în microni), măsurarea semnalului electroencefalografic (unde semnalul fiind de voltaj foarte mic este trecut mai întâi printr-un sistem de preamplificare înainte de a fi înregistrat) etc.

În ceea ce priveşte probabilitatea, în problemele reale se foloseşte interpretarea acesteia ca frecvenţă (frecvenţă relativă); această interpretare este una compatibilă cu axiomele probabilităţii (vezi

Page 16: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

46

Anexa: Axiomele probabilităţii). Pentru a calcula raportul nA/n aşa cum apare el în definiţia frecvenţială a probabilităţii trebuie mai întâi să înţelegem ce înseamnă „realizarea evenimentului aleator A”. Se ştie că la fiecare realizare (numită şi încercare) a unui experiment se obţine un singur rezultat, ζi. Spunem că un eveniment A s-a produs în cadrul unei încercări dacă el conţine elementul ζi. Mai mult, dacă A şi B sunt două evenimente astfel încât A B şi se realizează evenimentul A atunci se realizează şi evenimentul B (se mai spune că evenimentul A implică evenimentul B). Alături de probabilitatea interpretată ca frecvenţă relativă am spus că mai întâlnim probabilitatea clasică (aplicată în cazul proceselor/sistemelor aşa-zis ideale şi care se calculează înaintea realizării evenimentului), și respectiv, probabilitatea estimată prin metoda computaţională. În fapt, aşa după cum vom vedea în Anexa: Interpretarea noţiunii de probabilitate, în locul acestei din urmă probabilităţi dacă ar fi fost să fim mai riguroşi, ar fi trebuit să vorbim de probabilitatea aşa-zis subiectivă sau bayes-iană; termenul de probabilitate subiectivă este unul mai cuprinzător, el incluzând şi ideea de probabilitate estimată prin metoda computaţională. Întrucât însă o discuţie mai detaliată asupra acestui subiect ar presupune cunoştinţe de care nu dispunem încă la acest nivel, ne mulţumim deocamdată cu nivelul de prezentare făcut în Tabelul 5.1.

Problema 5.2.: Fie experimentul de aruncare a zarului ce are un spaţiul de selecţie asociat S dat de: S = {{1}, {2}, {3}, {4}, {5}, {6}} (cele 6 feţe ale zarului). Fie evenimentele: A = {5}, B = {{2},{5}}, C = {{1}, {3}, {5}} şi D = {{2}, {4}, {6}}. Se ştie că din 100 de aruncări ale zarului s-au obţinut: de 15 ori faţa 1, de 19 ori faţa 2, de 14 ori faţa 3, de 21 de ori faţa 4, de 13 ori faţa 5 şi de 18 ori faţa 6. Să se calculeze: 1. prin metodele clasică şi practică, probabilităţile evenimentelor A,

B şi C iar, 2. prin metoda computaţională (deductivă) probabilitatea

evenimentului D.

Rezolvare: 1. Fie {i} ( 6,1i ) cele 6 evenimente elementare ce constituie spaţiul

de selecţie S. Conform metodei clasice, pentru că aceste evenimente sunt egal probabile, evaluăm şansa fiecăruia de a se produce cu P({i}) = 1/6 (inversul numărului de evenimente posibile, n, din S). Conform aceleiaşi metode, evaluăm probabilităţile evenimentelor compuse B şi C ţinând cont de numărul evenimentelor favorabile (respectiv, de numărul evenimentelor elementare ce le compun): nB = 2 şi nC = 3.

Page 17: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

47

Acestea se raportează apoi la numărul tuturor evenimentelor posibile, n. Rezultatele sunt date în tabelul de mai jos.

Tabelul 5.2. Rezultatele calculării probabilităţilor diferitelor evenimente prin metoda clasică şi practică

Eveniment Probabilitate

(metoda clasică) Probabilitate

(metoda practică)

A = {5} P(A) = 6

1 ≈ 0.17 P(A) =100

13 = 0.13

B = {{2}, {5}} P(B) = n

nB =6

2 ≈ 0.33 P(B) = 100

)1319( = 0.32

C = {{1}, {3}, {5}}

P(C) = n

nC = 6

3 = 0.5 P(C) =100

)131415( = 0.42

Prin metoda practică determinăm probabilitatea ca raport între numărul de realizări ale evenimentului analizat raportat la numărul total de realizări ale experimentului. Pentru evenimentul elementar A probabilitatea este P(A) = 13/100 = 0.13. Evenimentul B se realizează ori de câte ori apare faţa 2 sau 5 a zarului, adică de (19+13) ori iar evenimentul C se realizează ori de câte ori apare faţa 1, 3 sau 5 a zarului, adică de (15+14+13) ori. Din Tabelul 5.2 se pot observa valorile relativ comparabile obţinute prin cele două metode de calcul al probabilităţilor.

2. Prin metoda computaţională calculăm probabilitatea evenimentului D, folosind observaţia că D este complementar evenimentului C iar P(C) = 0.42:

P(C+D) = P(C) + P(D) = P(S) = 1 P(D) = 1- P(C) = 0.58.

Estimarea statistică – prima din cele două forme de inferenţă statistică – este una din problematicile ce ne interesează în mod deosebit, ea ocupând un loc important în domeniul procesării de semnal.

Estimarea statistică (pentru mai multe informaţii vezi Subcapitolul 5.5.1.) se implementează cu ajutorul unui estimator şi ea poate îmbrăca mai multe forme, putând fi o estimare parametrică, neparametrică sau semiparametrică, funcţie de particularităţile problemei ce se doreşte a fi rezolvată. Estimarea parametrică poate fi, la rândul ei:

a) estimare punctuală: Estimările punctuale ale parametrilor populaţiei sunt exprimate printr-o singură valoare considerată de verosimilitate maximă. Mai exact, o estimare punctuală a parametrului p al unei

Page 18: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

48

populaţii este o valoare p̂ a unei statistici corespunzătoare.

b) estimare pe intervale de încredere:

Întrucât alegerea unui eşantion dintr-o populaţie are o anumită valoare de reprezentativitate, aceasta face ca şi caracteristicele eşantionului să aproximeze cu o anumită probabilitate caracteristicile întregii populaţii. Astfel, nu putem spune cu siguranţă care este valoarea exactă a parametrului populaţiei ci doar care este probabilitatea ca el să se regăsească într-un anumit interval, numit interval „de încredere”.

Observaţia 5.5: Pentru exemplificarea celor de mai sus considerăm o populaţie a cărei medie mx nu o cunoaştem şi ne punem problema s-o găsim. În acest sens considerăm un eşantion aleator de dimensiune n pentru care determinăm media xm̂ . Spunem în acest caz că media xm̂ a eşantionului este o estimare punctuală a mediei mx a populaţiei, fără ca acest lucru să implice faptul că xm̂ = mx. Ba mai mult, în general

xm̂ ≠ mx iar cel mult ne putem aştepta ca cele două valori să fie apropiate.

Pentru a fi mai riguroşi putem recurge la estimarea prin intervale de estimare (a, b). Estimarea prin interval ne oferă un interval care are o verosimilitate calculată de a „captura” parametrul statistic. De exemplu, vom spune că un interval de încredere de 95% pentru mx va captura valoarea adevărată a mediei populaţiei în 95% din cazuri; altfel spus, dacă vom repeta în mod identic şi independent experimentul de un număr suficient de mare de ori, 95% dintre intervalele obţinute vor reuşi „capturarea” parametrului necunoscut mx, iar 5% nu vor reuşi. Valorile a şi b (ce reprezintă capetele intervalului de estimare) se calculează folosind datele furnizate de fiecare eşantion particular luat în considerare. Astfel, intervalele diferă de la eşantion la eşantion însă mx rămâne fix. Nu insistăm însă să prezentăm modul de calcul al acestor valori întrucât ele nu prezintă interes pentru problematica pe care o tratează prezenta carte.

Reprezentativitatea eşantionului – capacitatea eşantionului de a reproduce cât mai fidel structurile şi caracteristicele populaţiei din care este extras – este o măsură ce ne permite să apreciem în ce măsură putem generaliza la nivelul întregii populaţii investigate rezultatele obţinute pe eşantion. Această măsură se apreciază doar în raport cu o caracteristică dată

Page 19: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

49

a eşantionului, ea variind de la o caracteristică la alta (de exemplu, ea poate fi diferită în raport cu caracteristica de vârstă a indivizilor dintr-un eşantion faţă de caracteristica de greutate a aceloraşi subiecţi). De asemenea, reprezentativitatea variază de la eşantion la eşantion.

Reprezentativitatea unui eşantion

Se apreciază prin două mărimi (d, P):

eroarea maximă, d, dată de diferenţa cea mai mare acceptată între o valoare găsită pe eşantion şi valoarea corespunzătoare din populaţie pentru caracteristica studiată;

nivelul de probabilitate sau încredere, P, care indică şansele ca eroarea reală să nu depăşească limita d.

Depinde de:

mărimea (volumul) eşantionului;

omogenitatea sau eterogenitatea populaţiei analizate, apreciate cu ajutorul mărimii numite abatere standard (nivelul de dispersie a indivizilor în jurul mediei).

În studiile empirice un eşantion este considerat reprezentativ (bun) atunci când eroarea d este „suficient de mică” iar probabilitatea P este „suficient de mare” (un nivel de probabilitate de 0.95 este, de exemplu, unul acceptabil; în acest caz şansele de a rata estimarea nu trebuie fie mai mari de 5%). Reprezentativitatea eşantionului creşte o dată cu mărimea eşantionului însă relaţia de depedenţă între reprezentativitate şi numărul unităţilor statistice din eşantion nu este una liniară. Mai mult, eroarea de eşantionare trebuie să fie direct proporţională cu mărimea abaterii standard.

Am insistat să punctăm aici câteva aspecte de bază privind noţiunea de reprezentativitate a unui eşantion datorită importanţei deosebite pe care o are în practică, în construirea clasificatorilor statistici. Mai exact, atunci când construim un clasificator statistic ne folosim, de regulă, aşa după cum vom vedea în secţiunile următoare, de un eşantion numit şi set de date de învăţare (training data set). Dacă acest set de învăţare nu este unul reprezentativ pentru populaţia căreia i se adresează sistemul de clasificare atunci rezultatele clasificării obţinute pe un nou eşantion (numit de această dată set de date de test), vor fi unele nesatisfăcătoare. Acest lucru poate conduce la concluzii eronate, şi anume că tipul de clasificator folosit nu este unul potrivit pentru problema de clasificare ce trebuie rezolvată. În realitate, ne confruntăm cu ceea ce în ştiinţa calculatorului este cunoscut sub dictonul „gunoi bagi, gunoi scoţi” („garbage in, garbage out”, abreviat GIGO).

Page 20: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

50

Altfel spus, nu putem obţine la ieşire rezultate foarte bune atât timp cât datele de intrare folosite nu sunt adecvate (nu conţin întreaga informaţie utilă). Întrucât această carte se doreşte a fi şi un îndrumar practic în rezolvarea problemelor de clasificare, fără a avea însă pretenţia de a acoperi întreaga problematică pe care o presupune ea, vom lăsa în seama cititorilor documentarea şi aprofundarea problemei reprezentativităţii eşantionului, tratată în cărţile de statistică de specialitate.

5.3. Variabile aleatoare

Teoria probabilităţilor şi statistica matematică sunt fundamentate pe

noţiunea de variabilă aleatoare. Variabila, ca şi concept din matematică, desemnează orice caracteristică

(calitate, atribut, proprietate) ce îşi poate schimba valoarea în timp. În accepţiunea acestui capitol printr-o variabilă aleatoare vom înţelege

orice caracteristică, trăsătură ce poate fi măsurată sau determinată dintr-un set de date oarecare. Termenul aleator în acest caz subliniază doar modalitatea de caracterizare a acestei cantităţi ce va fi guvernată, în principal, de legi statistice.

Deci, o variabilă aleatoare este o entitate ce poate lua diferite valori. Întâlnim trei mari clase de variabile aleatoare:

discrete – atunci când variabila aleatoare poate lua doar un număr finit de valori situate într-un anumit interval,

continue – atunci când variabila aleatoare poate lua orice valoare situată într-un interval mărginit, şi

mixte – o variabilă aleatoare mixtă este, aşa cum o spune şi numele, o combinaţie de celelalte două tipuri de variabile aleatoare (parte din valorile sale sunt continue, parte sunt valori discrete).

În cele ce urmează ne vom concentra atenţia doar pe primele două tipuri de variabile aleatoare.

O variabilă aleatoare (v.a.) este – aşa după cum vom vedea în continuare – mai mult decât o simplă variabilă. În primul rând ea se defineşte în strânsă legătură cu noţiunea de experiment aleator, valoarea ei fiind un număr determinat de evenimentul elementar rezultat în cadrul experimentului. Atributul aleator al unei variabile aleatoare provine de la faptul că valoarea ei depinde de rezultatul experimentului – rezultat care

Page 21: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

51

este, de asemenea, aleator –, el neputând fi prezis cu siguranţă înainte ca experimentul să fi fost realizat.

Formal, variabila aleatoare se definește ca o funcţie matematică, x(∙), de valoare unică, ce mapează ieşirile (realizările) unui experiment aleator (realizat în aceleaşi condiţii fixe) în numere reale. Mai exact, x(∙) este o aplicaţie de forma:

x: S → R (5.5)

definită pe mulţimea dată de spaţiul de selecţie S al experimentului aleator şi care ia valori în mulţimea numerelor reale. Pentru fiecare realizare, ζ, a experimentului, se obţine o singură valoare asociată11, x(ζ).

În cele ce urmează, pentru simplitate, vom nota variabila x(∙) cu x iar prin a vom înţelege valoarea lui x.

Exemplul 5.1.: Un prim exemplu de v.a. poate fi rezultatul aruncării unui

zar. În acest caz, experimentul îl constituie aruncarea zarului, funcţia x(∙) este funcţia identică a mulţimii numerelor reale, 1R, iar valorile variabilei aleatoare, x, coincid cu rezultatele experimentului (x S = {{1}, {2}, {3}, {4}, {5}, {6}}).

Exemplul 5.2.: Un alt exemplu de v.a. este şi cazul variabilei aleatoare ce

descrie rezultatul măsurării semnalului EEG (electroencefalografic) folosind pentru aceasta un singur canal de achiziţie, plasat, de exemplu, frontal. Datorită faptului că semnalul EEG are o amplitudine foarte mică (de ordinul microvolţilor), în procesul de achiziţie se foloseşte, înaintea blocului de afişare/stocare, un etaj de preamplificare a semnalului. În acest caz identificăm următoarele elemente:

1. experimentul – ce constă în măsurarea semnalului EEG;

2. rezultatul experimentului

– este valoarea semnalului EEG măsurată la nivelul electrodului de achiziţie (altfel spus, este unul din evenimentele elementare, {ζ});

3. valoarea variabilei – este valoarea finală, x, afişată şi/sau stocată, obţinută în urma

11 Reciproca nu e valabilă, în sensul că se poate întâmpla ca aceeaşi valoare a a v.a. x să

fie obţinută pentru două sau mai multe evenimente elementare diferite, ζi (vezi exemplul 5.4.).

Page 22: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

52

aleatoare x amplificării, cu factorul de amplificare Q, a semnalului;

– x(ζ) = Q ∙ ζ. Exemplul 5.3: Variabila x care descrie rezultatele posibile ale alegerii

aleatoare a unei persoane dintr-un eşantion şi măsurarea greutăţii ei (rotunjită la numere întregi) este şi ea un exemplu de v.a. În această situaţie: (a) experimentul îl constituie alegerea aleatoare a unei persoane dintr-un eşantion, (b) rezultatul ζ al experimentului îl reprezintă persoana aleasă iar (c) funcţia x(∙) este funcţia care asociază fiecărei persoane ζ selectate, greutatea sa, x(ζ).

Exemplul 5.4.: Dintr-o urnă care conţine acelaşi număr de bile albe (A) şi negre (N) se extrag aleator 2 bile, după fiecare extragere bila punându-se înapoi în urnă. Variabila x ce descrie numărul de bile albe care pot să apară reprezintă o v.a. În acest caz: (a) experimentul este dat de extragerea aleatoare, în condiţiile date mai sus, a celor 2 bile, (b) rezultatul experimentului îl constituie perechea de bile extrase, spaţiul de selecţie fiind dat de S = {{A, A}, {A, N}, {N, A}, {N, N}}şi (c) funcţia x(∙) reprezentând v.a. este funcţia ce atribuie fiecărui eveniment elementar din S una din valorile {2, 1, 0}. În acest caz particular se poate observa că valoarea 1 a variabilei aleatoare este una obținută pentru 2 evenimente elementare diferite, respectiv evenimentele {A, N} și {N, A}.

Observaţia 5.6.: Din exemplele de mai sus observăm faptul că o v.a. poate fi nu doar rezultatul unui experiment aleator, aşa cum este cazul variabilei aleatoare din exemplul 5.1 şi din exemplul 5.2 (pentru cazul particular Q = 1), ci ea poate fi şi o codificare numerică a rezultatului experimentului aleator asociat, aşa cum este cazul variabilei aleatoare din exemplul 5.4, codificarea fiind asigurată prin funcţia de asociere x(∙) pe care o menţionează definiţia v.a. În exemplul 5.1 funcţia x(∙) cunoaşte particularizarea x(∙) = 1R.

Întrucât v.a. este caracterizată de incertitudine, valorile ei pot fi interpretate prin intermediul noţiunii de probabilitate. Probabilităţile, însă, sunt după cum ştim atribuite numai evenimentelor, lucru care ne determină să încercăm să exprimăm – ca evenimente – diversele condiţii impuse variabilei aleatoare, x. Astfel:

Page 23: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

53

Tabelul 5.3. Condiţiile impuse unei v.a. şi evenimentele asociate

Condiţii impuse lui x

Evenimentele asociate

B1 = { x ≤ a0 } A1 = submulţimea lui S constând în toate acele

rezultate (evenimente elementare) ζ pentru care x(ζ) ≤ a0.

B2 = { a1 ≤ x ≤ a2 } A2 = submulţimea lui S constând în toate acele

rezultate ζ pentru care a1 ≤ x(ζ) ≤ a2, cu a1, a2

R şi a1 < a2.

B3 = { x = a0 } A3 = submulţimea lui S constând în toate acele

rezultate ζ pentru care x(ζ) = a0.

B4 = { x C } A4 = submulţimea lui S constând în toate acele

rezultate ζ pentru care x(ζ) C12.

După cum se observă, fiecare dintre condiţiile de mai sus impuse lui x nu reprezintă atât o mulţime de numere, Bi, cât mai curând o mulţime, Ai, de rezultate (evenimente elementare) ale experimentului. În mod corespunzător, probabilitatea ca v.a. x să ia anumite valori revine la a calcula probabilitatea evenimentelor asociate:

P(xBi) = P(Ai) = P({ζ | ζ Ai }) (5.6)

Figura 5.5. Reprezentarea noțiunii de variabila aleatoare

În Figura 5.5 se prezintă o interpretare intuitivă atât a noţiunii de variabilă aleatoare cât şi a datelor prezentate în Tabelul 5.3 şi sumarizate de către relaţia (5.6).

12 C este o mulţime de numere de pe axa x, reală.

R

ζ

x

S

x(ζ)

Bi

Ai

x(Ai)

Page 24: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

54

Problema 5.3: Să se determine probabilităţile pentru ca variabilele aleatoare din Exemplul 5.1, Exemplul 5.3 şi Exemplul 5.4 să ia una din valorile posibile corespunzătoare.

Rezolvare: În Tabelul 5.4 de mai jos prezentăm:

pe prima coloană – spaţiile de selecţie aferente celor 3 experimente,

pe a 2-a coloană – valorile posibile ale variabilei aleatoare, x, obţinute corespunzător evenimentelor elementare din spaţiile de selecţie, iar

pe ultima coloană – probabilităţile aferente evenimentelor elementare.

Tabelul 5.4. Rezultatele problemei anterioare

În cazul aruncării zarului toate cele (n = 6) evenimente elementare

din spaţiul de selecţie, S, sunt echiprobabile şi, de aceea, probabilitatea fiecăruia dintre acestea o estimăm ca fiind 1/n. Întrucât valorile lui x

Spaţiul de selecţie

a Probabili-

tatea

Exemplul 5.1 1 2 3 4 5 6

1 2 3 4 5 6

1/6 1/6 1/6 1/6 1/6 1/6

Exemplul 5.3 ζ1 ζN

G1

GN

1/N

1/N Exemplul 5.4

{A, A} {A, N} {N, A} {N, N}

2 1 1 0

1/2∙1/2 = 1/4 1/2∙1/2 = 1/4 1/2∙1/2 = 1/4 1/2∙1/2 = 1/4

a = Faţa i a zarului 1 2 3 4 5 6

P(x = a) 6

1

6

1

6

1 6

1 6

1 6

1

a = greutatea Gi G1 ∙∙∙ Gk ∙∙∙ GM

P(x = a) N

n1 ∙∙∙ N

nk

∙∙∙

N

nM

a = Nr. bile albe 0 1 2

P(x = a) 4

1 2

1 4

1

Page 25: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

55

sunt chiar rezultatele experimentului,

x (S) = {1, 2, 3, 4, 5, 6} (5.7)

probabilităţile calculate pentru x vor fi, de fapt, însăşi probabilităţile evenimentelor elementare.

Pentru experimentul din Exemplul 5.3 avem spaţiul de selecţie, S, format din N evenimente elementare echiprobabile (ζ1, ..., ζN – persoane distincte din eşantion), fiecare având probabilitatea de selecţie de 1/N. Corespunzător celor N evenimente (persoane) vom avea N greutăţi măsurate iar dintre acestea doar M (M ≤ N) vor fi valori distincte reprezentând mulţimea valorilor posibile ale lui x. Altfel spus, din definiţia variabilei aleatoare avem că pentru orice eveniment elementar ζ obţinem o singură valoare x(ζ) R, însă pentru o valoare particulară a a lui x este posibil să avem mai multe evenimente elementare ζi pentru care x(ζi) = a. În cazul nostru, putem întâlni situaţia ca nk persoane să aibă aceeaşi greutate, Gk, k≤ M. În acest caz: {x = Gk} corespunde evenimentului Ak=({ ,

1i ...,

kni }), cu {

}...,,1{}...,,1 Niikn iar

P({x = Gk}) = P(Ak) = P( }{1i

) + ... + P( }{kni

) = N

n

NNk

1...

1 .

În Exemplul 5.4 calculul probabilităţilor pentru variabila x se face în mod similar cu calculul prezentat pentru Exemplul 5.3. Spaţiul de selecţie asociat experimentului este format din 4 evenimente elementare echiprobabile, fiecare eveniment având probabilitatea de 1/4. În acest caz avem:

{x = 2} corespunde evenimentului A1 = {A, A}; {x = 1} corespunde evenimentului A2 = {{A, N}, {N, A}}; {x = 0} corespunde evenimentului A3 = {N, N};

P(A1) = P({A, A}) = 1/4; P(A2) = P({A, N},{N, A}) = P({A, N})+ P({N, A})=1/4+1/4 = 1/2; P(A3) = P({N, N}) = 1/4.

Observaţia 5.7: În Exemplul 5.2 calculul probabilităţilor asociate se face în mod similar ca în Exemplul 5.3. Anticipând puţin, vom face remarca aici că, în mod normal, valorile semnalului EEG sunt valori continue însă prin modul său de achiziţie şi stocare are loc discretizarea şi cuantizarea semnalului; în consecinţă, v.a. asociată este o variabilă discretă şi nu una continuă pentru care nu putem vorbi de probabilităţi punctuale. În cazul unei v.a. continue, probabilităţile punctuale ar fi

Page 26: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

56

toate egale cu zero (px(a) = P (x = a ) = 0, a R) şi din acest motiv se recurge, așa după cum vom arăta în subcapitolul 5.4.4, la lucrul cu funcţia densitate de probabilitate, fx(a) = P( x = a ).

Pentru lucrul cu numere complexe se defineşte şi variabila aleatoare complexă, z, ca o sumă de forma:

z = x + jy (5.8)

unde x şi y sunt variabile aleatoare reale. Datorită faptului că aplicaţiile reale presupun, în general, lucrul cu numere reale, toate variabilele aleatoare cu care vom lucra în cele ce urmează vor fi implicit variabile aleatoare reale.

Page 27: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

57

5.4. Vectori aleatori

Variabilele şi vectorii aleatori sunt caracterizaţi în mod fundamental de funcţia de repartiţie şi funcţia densitate de probabilitate. Conceptele care stau la baza acestor două funcţii vor fi definite în continuare doar pentru forma reală a vectorilor aleatori iar ulterior în Anexa: Funcţiile de repartiţie şi de densitate pentru vectori aleatori complecşi şi în Anexa: Funcţiile de distribuţie şi densitate comune pentru doi vectori aleatori complecşi se va prezenta şi generalizarea acestor două funcţii pentru forma complexă a vectorilor. Am ales această abordare în cadrul cărţii deoarece în problemele lumii reale ne vom confrunta în special cu valori reale ale parametrilor diferitelor fenomene analizate. În plus, ne dorim ca această carte să se adreseze în mod direct practicienilor şi, din această perspectivă, căutăm să reducem complexitatea matematică a problemelor abordate fără însă a diminua și rigurozitatea matematică a lor.

5.4.1. Noţiunea de vector aleator real

Un vector aleator real va fi notat în cadrul acestei cărţi sub forma:

Nx

x

x

x...2

1

(5.9)

cu x1, x2, …, xN reprezentân variabile aleatoare reale13. Funcţie de tipul problemei aflată în analiză, deci a domeniului de lucru (continuu/discret), xk

va fi dat fie de x[k], fie de x(tk), cu Nk ,1 .

Observaţia 5.8: Dacă în Exemplul 5.2 în loc de un singur canal de achiziţie avem N canale de achiziţie simultană a semnalului EEG, atunci nu mai vorbim de o singură variabilă aleatoare. Aceste variabile aleatoare le putem grupa sub forma unui vector aleator, x = [x1, ..., xN]T RN, ce reprezintă o secvenţă de N variabile aleatoare. În acest caz particular, fiecare v.a., xl ( Nl ,1 ), mapează în R valorile obţinute de canalul l de

13 Notaţia folosită în această carte va fi: vectori aleatori (sau variabile aleatoare văzute ca

vectori aleatori de dimensiune 1) – caractere mici, italice, de exemplu x, y; valori reale arbitrare pentru vectori aleatori – caractere mici, italice, de exemplu a, b asociate v.a. x și, respectiv, y; valori reale particulare pentru vectori aleatori – caractere mici, italice, cu superscript, de ex. a0, a1, b0, b1; componente ale unui vector aleator – caractere mici, italice cu subscript, de exemplu [x1, x2, ..., xN]T.

Page 28: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

58

achiziţie.

Definiţia vectorului aleator o obţinem prin extrapolare din definiţia v.a.. Astfel, un vector aleator x de dimensiune N este, prin definiție, o funcţie de la spaţiul de selecţie S la mulţimea RN:

x : S → RN (5.10) În exemplul discutat anterior, spaţiul de selecţie S este format din

evenimentele elementare ζi = ( iN

i xx ,...,1 ) iar valorile vectorului aleator x vor fi

secvenţele x(ζi)=( ik

i xQxQ ,...,1 ) de măsurători. În general, când vorbim de un vector aleatoriu, x, vorbim și de

amplitudinea acestuia care este dată de norma sa Euclidiană14:

2/12/1

1

2|||| xxxx TN

kk

def

(5.11)

5.4.2. Funcţiile de repartiţie şi de densitate pentru un vector aleator

1. Funcţia de repartiţie a unui vector aleator Dacă a este un vector valoare arbitrar, real, N-dimensional al vectorului

aleator x (5.9) (ale cărui componente aleatoare iau valorile reale arbitrare a1, a2, …, aN) atunci putem scrie:

Na

a

a

a...

2

1

(5.12)

Probabilitatea evenimentului {x a} este definită drept probabilitatea ca următoarele evenimente să se întâmple simultan15:

P{x a} = P{x1 a1, x2 a2, … , xN aN} (5.13)

14 Relaţia (5.11) este similară, ca formă, cu valoarea efectivă a amplitudinii unei serii

discrete ( Ni ief x

NV 1

21 ). Datorită existenţei acestei similitudini relaţia (5.11) are

semnificaţia unei amplitudini.

15 Notaţia echivalentă folosită aici: {x1 a1}∩{x2 a2}∩ … ∩{xN aN} = {x1 a1, x2 a2, … , xN aN}.

Page 29: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

59

Fiind, astfel, o funcţie dependentă de valoarea particulară a lui a. Probabilitatea ca x a este cunoscută în statistică sub numele de funcţia

de repartiţie sau funcţia de distribuţie a vectorului aleator x. Funcţia de repartiţie multidimensională a vectorului aleator real x

este, prin definiție, o funcţie Fx : R N [0, 1] dată de:

axPaaaFaF Nxxx

def

x N ,...,, 21,...,, 21

(5.14)

În relaţia anterioară funcţia de repartiţie pentru un vector aleator real este dată de funcţia de repartiţie a componentelor sale. Pentru punerea în evidenţă şi a numărului de componente (variabile aleatoare) ale vectorului x, relaţia (5.14) mai este denumită funcţia de repartiţie de ordin N.

Din definiția funcţiei de distribuţie rezultă următoarele două proprietăţi fundamentale:

1)(lim).(

},...,1{)(,0)(lim).(

aFb

NipentruaFa

xa

xai (5.15)

Din relaţia (5.15) înţelegem că funcţia de repartiţie este zero atunci când cel puţin o componentă a vectorului arbitrar a tinde la minus infinit şi, respectiv, ea ia valoarea 1 atunci când fiecare componentă a vectorului real arbitrar a tinde la plus infinit.

Problema 5.4: Să se demonstreze relaţiile (5.15)(a) şi (b).

Pentru o variabilă aleatoare reală x funcţia de distribuţie a ei se obţine în mod direct din particularizarea relaţiei (5.14), alegând x un vector aleator unidimensional şi a R , o valoare reală arbitrară a sa:

axPaFdef

x (5.16)

Observaţia 5.9: Elementele spaţiului de selecţie, S, ce alcătuiesc evenimentul {x ≤ a} se schimbă pe măsură ce variabila arbitrară a ia diferite valori. În mod corespunzător, probabilitatea P{x ≤ a}, reprezentând valoarea funcţiei de distribuţie în punctul a, este un număr ce depinde de a.

Page 30: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

60

2. Funcţia densitate şi funcţia masă de probabilitate a unui vector aleator

Ca şi în cazul variabilelor aleatoare, când discutăm de vectori aleatori va

trebui să facem distincţie între vectorii aleatori discreţi şi cei continui. Definiţia pentru aceştia din urmă este una similară celei pentru variabilele aleatoare discrete, respectiv, continue (vezi Tabelul 5.5). De asemenea, în acelaşi tabel facem o prezentare comparativă – domeniul discret versus domeniul continuu – a funcţiilor ce caracterizează complet un vector aleator.

Tabelul 5.5. Funcţia densitate de probabilitate şi funcţia de repartiţie pentru

vectori aleatori continui şi discreţi

Vectori aleatori discreţi versus Vectori aleatori continui

Definiţie

Vectorul aleator x = [x1 x2 … xN]T se numeşte vector aleator discret atunci când el are o mulţime cel mult numărabilă de valori posibile.

Definiţie

Vectorul aleator x = [x1 x2 … xN]T se numeşte vector aleator continuu atunci când el are o mulţime continuă (nenumărabilă) de valori posibile.

Funcţia masă de probabilitate16

Funcţia px : R N [0, 1] definită de:

},...,,{

}{)(

2211 NN

x

axaxaxP

axPap

(5.17)

unde a este vector valoare arbitrar, real N-dimensional pentru un vector discret x = [x1 x2 … xN]T, se numeşte funcţie masă de probabilitate (fmp) a vectorului x.

O scriere echivalentă pentru funcţia px (care mai este cunoscută şi sub numele de funcţie densitate de probabilitate discretă) este şi:

i

iixx aaapaf )()()( (5.19)

Aici, δ(x) reprezintă funcţia continuă impuls unitate iar ai reprezintă valorile particulare pe care le ia vectorul aleator x.

Funcţia densitate de probabilitate

Funcţia fx : R N [0, 1] definită de:

N

xN

Nax

aaa

aF

aaa

aaxaPaf

Nii

21

21|0

)(

...lim)(

,1

(5.18)

(derivata funcţiei de repartiţie, Fx(a), în raport cu toate componentele vectorului a) se numeşte funcţie densitate de probabilitate (fdp) a vectorului aleator x.

Aici, vectorul Δa = [Δa1 Δa2 … ΔaN]T reprezintă un increment pentru vectorul valoare a (cu Δai = increment pentru componenta ai din vectorul a).

Proprietăţile fmp: Proprietăţile fdp:

16 Numită şi funcţie masă de probabilitate comună pentru variabilele aleatoare x1, x2, …,

xN ce reprezintă componentele vectorului x.

Page 31: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

61

1. px(a) ≥ 0 pentru orice a RN (5.20)

2. 1)(1

i

ix ap (5.22)

1. fx(a) ≥ 0, pentru orice a RN (5.21)

2. 1)( daaf x (5.23)

Funcţia de repartiţie

Exprimată în termenii fmp, px(a), funcţia de repartiţie devine:

NiN

iN

i

aaaa

iN

ixx

aa

ix

x

aap

ap

axPaF

...,,...,,1,...,

11

1)...,,(

)(

}{)(

(5.24)

Funcţia de repartiţie

Exprimată în termenii fdp, fx(a), funcţia de repartiţie devine17:

1 2

12...)(...

)(

}{)(

a a

Nx

a

a

x

x

N

dududuuf

duuf

axPaF

(5.25)

Observaţia 5.10: În Figura 5.31(b) se prezintă, în mod grafic, diferite

funcţii de repartiţie asociate funcţiilor densitate de probabilitate Gauss-iene prezentate în Figura 5.31(a). Din aceste figuri unidimensionale se observă caracterul monoton crescător al funcţiei de repartiţie. Cu toate că aceste grafice sunt doar nişte reprezentări unidimensionale ale funcţiei de repartiţie ele reflectă o proprietate importantă a tuturor funcţiilor de repartiţie: caracterul monoton crescător al acestora [Therrien, 1992].

Observaţia 5.11: În timp ce funcţia de repartiţie se poate considera ca punct fundamental de plecare, ea fiind de altfel o cantitate definită în mod implicit, funcţia densitate de probabilitate este o cantitate derivată din funcţia de repartiţie. Funcţia densitate de probabilitate este utilizată în mod frecvent, în principal datorită posibilităţii de estimare directă a ei din setul de date.

Observaţia 5.12: Relaţia (5.23), ca şi relaţia (5.22), deduse din relaţiile (5.15).b şi (5.25), evidenţiază o proprietate foarte importantă a oricărei funcţii masă, respectiv, densitate de probabilitate – şi anume, suma/integrala unei funcţii masă/densitate de probabilitate pe întreg domeniul de definiţie va fi întotdeauna egală cu valoarea 1. Proprietatea dată de cele două relaţii ne furnizează totodată şi o metodă de verificare a legitimităţii tuturor funcţiilor masă/densitate de probabilitate. În concluzie, o funcţie px (sau fx)

17 Definiţia integralei pe un vector aleator real este o integrală multiplă pe fiecare element

al vectorului.

Page 32: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

62

este o funcţie masă (sau densitate) de probabilitate legitimă dacă sunt îndeplinite simultan următoarele două condiţii: relaţia (5.22), respectiv, relaţia (5.23) este satisfăcută şi px ≥ 0 (respectiv, fx ≥ 0) pentru orice valoare particulară a vectorului aleator x.

Interpretarea funcţiei densitate de probabilitate din punct de vedere al probabilităţii unor evenimente este foarte importantă. După cum s-a prezentat anterior, funcţia de distribuţie este definită ca probabilitatea evenimentului x a. Pentru o interpretare intuitivă a funcţiei densitate de probabilitate vom pleca de la definiţia fdp în care considerăm evenimentul {a < x a + Δa}, definit prin:

{a < x a + Δa}: {a1 < x1 a1+ Δa1, …, aN < xN a+ ΔaN} (5.25)

Condiţia ca incrementele Δai să fie foarte mici (Δai → 0) ne permite să facem aproximarea18 din relaţia (5.26) – relaţie pe care o deducem din (5.14) şi (5.25) precum şi din definiţia derivatei parţiale:

aa

a

Nxx aaaafduufaaxaP

0

0

...)()( 21000

(5.26)

Ţinînd cont de condiţia suplimentară impusă în obţinerea relaţiei de mai sus, şi anume Δai → 0, vom rescrie relaţia (5.26) astfel:

Na

x aaa

aaxaPaf

Nii

...lim)(

21|0,1

(5.27)

Această relaţie punctează foarte bine faptul că funcţia densitate de probabilitate evaluată în punctul a tinde spre o probabilitate punctuală (aşa cum este cazul fmp), însă nu va lua niciodată o astfel de valoare, ea rămânând, aşa după cum a fost şi definită, o densitate într-o vecinătate foarte mică a acestui punct. În cazul oricărei funcţii continue densitate de probabilitate, probabilităţile punctuale sunt întotdeauna egale cu zero, P{x = a} = 0, fapt uşor demonstrabil prin trecerea la limită, Δai → 0, în relaţia (5.26). În aceste condiţii funcţia densitate evaluează nu probabilitatea punctuală ci probabilitatea ca vectorul aleator să ia valori într-o regiune foarte mică în jurul punctului a raportată la unităţile de distanţă, Δai. Reamintim aici că incrementul Δa s-a ales suficient de mic astfel încât pe intervalul (a, a+Δa], funcţia fx(∙) să poată fi considerată a fi în mod esenţial

18 Incrementul Δa este suficient de mic astfel încât pe intervalul (a, a+Δa], funcţia fx(∙) să

poată fi considerată a fi în mod esenţial constantă şi egală cu fx(a).

Page 33: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

63

constantă şi egală cu fx(a). În ceea ce priveşte valoarea funcţiei densitate de probabilitate, cu cât aceasta este mai mare cu atât mai mult proabilitatea ca vectorul aleator să ia o valoare mai apropiată de a este mai mare.

În altă ordine de idei, revenind la expresia din relaţia (5.26) vom spune că probabilitatea ca vectorul aleator x să se găsească într-o mică regiune a spaţiului din jurul punctului a0 este direct proporţională cu:

1. densitatea punctelor din regiunea respectivă (numărul de puncte/vectori de trăsături pe unitatea de suprafaţă) – această distribuţie spaţială a elementelor este dată tocmai de funcţia densitate de probabilitate, fx(a) – şi de,

2. dimensiunile regiunii respective.

Exemplificarea acestor constatări se observă în mod intuitiv din reprezentarea grafică prezentată în Figura 5.6.

Figura 5.6. Reprezentarea grafică a unei funcţii densitate de probabilitate de ordin 2 – funcţie de tip Gauss-iană

Cu cât funcţia densitate de probabilitate atribuie o valoare mai mare

pentru un „punct” a0, cu atât mai mult există o probabilitate mai mare ca vectorul aleator să ia o valoare mai apropiată de a0. Mai trebuie observat că dacă probabilitatea ca x să se afle într-o regiune foarte mică poate fi diferită de zero, probabilitatea ca x să fie identic cu a0 este egală cu zero pentru orice funcţie continuă. Aşa cum am prezentat anterior, această afirmaţie reiese direct din relaţia (5.26) luând limita lui Δai tinzând către zero.

Tot din relaţia (5.26) se poate trage concluzia că probabilitatea ca x să se găsească într-o regiune arbitrară, , a lui RN se se poate obţine prin

Page 34: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

64

integrarea funcţiei densitate de probabilitate în regiunea respectivă (a se vedea cazul bidimensional prezentat în Figura 5.6).

Observaţia 5.13: În mod echivalent, putem spune că, funcţia masă de probabilitate, px(a), şi funcţia densitate de probabilitate, fx(a), a unui vector aleator x discret, respectiv, continuu pot fi utilizate pentru a calcula probabilitatea oricărui eveniment definit în termenii lui x = [x1 x2 … xN]T. Astfel, mai general, dacă A este o submulţime a lui R N atunci probabilitatea evenimentului { Ax } va fi:

ANNNxxx

Aaaa

Nxxx

daaddaaaaf

aaapAxP

N

N

N

1121...,,,

)...,,,(

21...,,,

)...,,,(...

)...,,,(}{

21

21

21

(5.28)

Aplicaţia 5.1: Utilizând programul din directorul TrasareDensitateGauss asociat acestui capitol:

1. Verificaţi practic care este probabilitatea ca un vector să se afle într-o anumită regiune a spaţiului plasată într-un punct a0 şi delimitată de o vecinătate Δa. Verificaţi corectitudinea rezultatelor obţinute pentru diferite valori a0 şi Δa introduse de la tastatură.

2. Modificaţi valoarea coeficientului de transparenţă a graficului funcţiei densitate de probabilitate, rotiţi imaginea şi modificaţi numărul punctelor afişate din controalele programului, urmărind în acelaşi timp influenţa asupra rezultatelor prezentate pe interfaţa grafică a aplicaţiei, Figura 5.7.

3. Aplicaţia are posibilitatea de a reprezenta simultan şi diferitele contururi ale funcţiei densitate de probabilitate19. Numărul acestora poate fi variat prin intermediul controlului grafic Levels (indicat cu 1 în Figura 5.7).

Întrebări:

1. Utilizând parametrii iniţiali existenţi când se lansează programul, pentru matricea Cx şi vectorul mx, introduceţi următoarele valori pentru a0 şi Δa: a0 = [-5, -10]T şi Δa = [16, 24]T. Prin introducerea acestor valori se va determina probabilitatea ca un vector aleator, bidimensional x, să fie poziţionat în întregul spaţiu de intrare

19 Prin contur al unei funcţii densitate de probabilitate se înţelege locul geometric obţinut

în urma intersecţiei funcţiei densitate de probabilitate cu un plan paralel cu sistemul de coordonate dat de trăsăturile supuse analizei (vezi Figura 5.7). Aceste contururi, în cazul funcţiei densitate de probabilitate gauss-iană sunt nişte elipse.

Page 35: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

65

prezentat grafic. Explicaţi atunci de ce P{ a0 < x a0 + Δa}, probabilitatea ca vectorul aleator x să se găsească în această regiune ia valoarea prezentată de program?

Figura 5.7. Interfaţa grafică a programului prezentat în această aplicaţie

2. Utilizând parametrii iniţiali existenţi la lansarea programului,

pentru matricea Cx şi vectorul mx, introduceţi următoarele valori pentru a0 şi Δa: a0 = [3, 2]T şi Δa = [8, 12]T. Valoarea obţinută pentru P{ a0 < x a0 + Δa} este de 2.700949, vezi Figura 5.7. Deoarece P{ a0 < x a0 + Δa} este probabilitatea ca vectorul x să se găsească într-o anumită regiune a spaţiului, această probabilitate va lua valori numai în intervalul [0, 1]. In această situaţie explicaţi de ce avem o valoare egală cu 2.700949. De unde apare această eroare (evident, dacă este o eroare)?

Dacă funcţia densitate de probabilitate de ordinul N pentru un vector

aleator de trăsături este, după cum am arătat anterior, uşor interpretabilă, pentru o serie de timp x(t) ea are semnificaţia prezentată în Figura 5.8.

În Figura 5.8 este reprezentată grafic semnificaţia funcţiei densitate de probabilitate generalizată pentru cazul unei serii de timp, x(t). Eşantionarea în acest caz particular nu mai este uniformă (între două eşantioane nu mai există aceeaşi distanţă temporală), funcţia densitate depinzând acum şi de momentele temporale ale fiecărei variabile aleatorii,

)t ..., ,t ,t ;a ..., ,a ,a(f NN...xxx N 212121. Semnificaţia fizică a acestei funcţii este:

Contururile funcţiei

densitate de probabilitate

1

Page 36: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

66

NNNN

NNNxxx

aatxaaatxaP

aaat ..., ,t ,t ;a ..., ,a ,afN

,,1111

21212121

(5.29)

Termenul din partea dreaptă a relaţiei (5.29) reprezintă probabilitatea ca

la momentele de timp ti, Ni ,1 , semnalul aleator să aibă valori cuprinse în intervalul ( ai, ai + ∆ai ], Figura 5.8.

Figura 5.8. Interpretarea grafică pentru funcţia densitate de probabilitate

de ordin N

5.4.3. Funcţiile de distribuţie şi densitate comune pentru doi vectori aleatori

În prezentarea din acest capitol se pleacă de la supoziţia că ambii vectori

aleatori, x şi y sunt reali şi, în plus, ei sunt definiţi de:

Nx

x

x

x...

2

1

şi

My

y

y

y...

2

1

(5.30)

După cum se poate remarca, vectorul y poate avea propria sa dimensiune, M, diferită de dimensiunea N a vectorului aleator x.

Funcţia de distribuţie comună a celor doi vectori aleatori x şi y, Fxy(a,b), este definită de probabilitatea comună a celor două evenimente {x a} şi {y b}. Această probabilitate comună a celor două evenimente este dată de relaţia:

t t1

t2

t3 t4 tN

a1 + a1

a1

a2 + a2

a2

a3 + a3

a3

a4 + a4

a4 aN + aN

aN

x(t)

Page 37: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

67

MMNN

def

xy

bybyaxaxP

byaxPbaF

,,,,,

,),(

1111 (5.31)

Observaţia 5.14: Funcţia de distribuţie a unui vector aleator poate fi văzută şi ea ca o funcţie de distribuţie comună pentru variabilele aleatoare reprezentând componentele vectorului (vezi relaţiile (5.13) şi (5.14)); în acest caz componentele vectorului pot fi, de exemplu, considerate ele însele vectori aleatori unidimensionali.

Pornind de la relaţia (5.31) putem obţine distribuţiile Fx(a) şi Fy(b) astfel:

),()(

),()(

bFbF

aFaF

xyy

xyx (5.32)

Problema 5.5: Demonstraţi relaţiile (5.32).

Când Fx(a) şi Fy(b) sunt obţinute în acest mod ele poartă numele de funcţii de distribuţii marginale pentru vectorii aleatori x şi, respectiv, y.

Prezentarea funcţiilor masă de probabilitate comună, respectiv, densitate de probabilitate comună pentru doi vectori aleatori, x şi y, precum şi a altor funcţii derivate din acestea o facem în Tabelul 5.6.

Tabelul 5.6. Prezentarea diferitelor mărimi statistice ce caracterizează doi

vectori aleatori pentru cazul continuu şi discret

Vectori aleatori discreţi versus Vectori aleatori continui

Funcţia masă de probabilitate comună

Funcţia pxy: R N x R M [0, 1] definită de:

},...,

,,...,{

},{),(

11

11

MM

NN

xy

byby

axaxP

byaxPbap

(5.33)

unde a, b sunt vectori valoare arbitrari, reali N, respectiv, M-dimensionali pentru vectorii aleatori discreţi x şi y, se numeşte funcţia masă de probabilitate comună a celor doi vectori, x şi y.

Funcţia densitate de probabilitate comună

Funcţia fxy : R N x R M [0, 1], cantitate derivată din funcţia de distribuţie, (5.31), este definită de:

MN

xyMN

MNb

a

xy

bbaa

baF

bbaa

bbybaaxaP

baf

Mkk

Nii

11

11|0

|0

),(

},{lim

),(

,1

,1

(5.34)

(derivata funcţiei de repartiţie, Fxy(a,b), în raport cu toate componentele vectorilor a şi b) se numeşte funcţie densitate de

Page 38: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

68

probabilitate comună a vectorilor aleatori x şi y.

Proprietăţile lui fmp comună:

1. pxy(a,b) ≥ 0 (5.35) pentru () (a,b) RN x RM

2. 1),( a b

xy bap (5.36)

Proprietăţile lui fdp comună:

1. fxy(a,b) ≥ 0 (5.37) pentru () (a,b) RN x RM

2.

1),( dbdabaf xy (5.38)

Funcţia de distribuţie

În termenii lui fmp comună poate fi scrisă:

bbaa

jixy

xy

ji

bap

byaxPbaF

,

),(

},{),(

(5.39)

Funcţia de distribuţie

Din relaţia (5.34) avem în mod direct şi:

a byxxy dvduvufbaF ),(,

(5.40)

Proprietăţile lui Fxy(a,b):

1),(limlim.

)(),(),(lim.

)(),(),(lim.

0),(lim),(lim.

baFd

bFbFbaFc

aFaFbaFb

baFbaFa

xyba

yxyxya

xxyxyb

xya

xyb

(5.41)

Funcţia masă de probabilitate marginală

axyy

bxyx

bapbpb

bapapa

),()()

),()() (5.42)

Funcţia densitate de probabilitate marginală

dabafbfb

dbbafafa

xyy

xyx

),()()

),()() (5.43)

Aceste două relaţii rezultă din (5.41).b şi (5.41).c.

Întotdeauna şi pentru orice funcţie masă/densitate de probabilitate comună a doi vectori aleatori vom avea pxy(a,b) ≥ 0, respectiv, fxy(a,b) ≥ 0 pentru () (a,b) RN x RM, pereche de vectori reali.

Observaţia 5.15: Ecuaţiile (5.42) şi (5.43) ne arată că funcţiile masă/densitate de probabilitate marginale pentru vectorii individuali x şi, respectiv, y, pot fi obţinute din funcţia masă/densitate comună a celor doi vectori aleatori prin sumarea/integrarea pe tot domeniul de definiţie al celuilalt vector aleator (y, respectiv, x). Când probabilităţile sau densităţile de probabilitate sunt obţinute în acest

Page 39: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

69

mod ele poartă numele de probabilităţi, respectiv, densităţi marginale pentru vectorii aleatori x şi, respectiv, y.

Problema 5.6: Demonstraţi relaţiile (5.42) şi (5.43).

Interpretarea funcţiei de densitate drept probabilitate de evenimente este similară cu discuţia făcută anterior pentru un singur vector aleator:

MNxy bbaabafbbybaaxaP ......),(, 11 (5.44)

Probabilitatea dată de relaţia (5.44), ca x să se afle într-o mică regiune în jurul lui a şi y să fie simultan într-o mică regiune în jurul punctului b este dată de funcţia densitate de probabilitate comună evaluată în vectorii reali a, b înmulţită cu toate incrementele vectorilor a şi b. Probabilitatea ca una dintre variabilele aleatoare x sau y să ia exact valorile a sau b este, de asemenea, zero.

5.4.4. Comparaţie între variabilele aleatoare discrete şi cele

continue În final ca o sinteză şi pentru o înţelegere mai facilă recurgem în

Tabelul 5.7 la o prezentare comparativă a modurilor cum se definesc şi, respectiv, cum sunt caracterizate variabilele aleatoare discrete şi, respectiv, continui. Chiar dacă prezentarea din Tabelul 5.7 este doar pentru o variabilă aleatoare, vectorii aleatori sunt formaţi dintr-un număr de variabile aleatoare deci generalizarea este directă.

Tabelul 5.7. Comparaţie între variabilele aleatoare discrete şi cele continue

V.A. discretă versus V.A. continuă20

Definiţie

Este o v.a. având o mulţime cel mult numărabilă de valori posibile.

Exemple: numărul elevilor dintr-o clasă, numărul de bile dintr-o cutie, numărul de bătăi cardiace pe minut ale unei persoane etc.

Definiţie

Este o v.a. având o mulţime continuă (nenumărabilă) de valori posibile.

Exemple: temperatura, înălţimea, lungimea, timpul, semnalul EEG, semnalul de tremur al mâinii etc.

Funcţia masă de probabilitate21 (fmp) Funcţia densitate de probabilitate (fdp)

20 În practică nu putem niciodată să măsurăm cu o precizie infinită variabilele aleatoare

continue şi, de aceea, după cum vom vedea, le aproximăm prin v.a. discrete. 21 Funcţia masă de probabilitate mai este numită şi funcţie densitate de probabilitate

discretă.

Page 40: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

70

Notată cu px(a), ea este definită ca fiind egală cu probabilitatea punctuală P(x = a), pentru a R:

Notată cu fx(a), ea este definită pentru x R şi este probabilitatea ca v.a. x să ia nu valori punctuale22 ci valori într-un interval mic, de forma (a, a+Δa], densitatea de probabilitate în punctul x fiind P(x (a, a + Δa]) pe unitate de distanţă:

px(a) = P(x = a). fx(a) =

a

aaxaP

a

0lim .

Din modul cum s-a definit fx(∙) şi din definiţia de mai jos a funcţiei de distribuţie, Fx(a0), rezultă şi următoarea definiţie a funcţiei fx(∙) ca derivata funcţiei de distribuţie:

fx(a) = aux uFdu

d)( .

Proprietăţile lui fmp:

1. px(a) ≥ 0 pentru orice a R;

2. 1)(1

i

ix ap .

Proprietăţile lui fdp:

1. fx(a) ≥ 0, pentru orice a0R;

2.

1)( duuf x

Distribuţia de probabilitate

Dacă x este o v.a. care poate lua valorile a1, a2, ..., am, cu probabilităţile px(a1), px(a2), ... , px(am) atunci mulţimea de perechi ordonate (ai, px(ai)), mi ,1 se numeşte repartiţia v.a. x.

)()( 1

1

mxx

m

apap

aax

Distribuţia de probabilitate

Dacă x este o v.a. care poate lua valorile a1, a2, ..., cu densităţile de probabilitate fx(a1), fx(a2), ..., atunci mulţimea de perechi ordonate (ai, fx(ai)), i ≥ 1, se numeşte repartiţia v.a. x.

)()( 22

21

afaf

aax

xx

Statisticile v.a. x sunt determinate în termenii lui ai şi px(ai).

Statisticile v.a. x sunt determinate în termenii lui ai şi fx(ai).

Funcţia de distribuţie 23

Dacă x este o v.a. cu distribuţia de probabilitate de mai sus iar a este un

Funcţia de distribuţie

Dacă x este o v.a. cu distribuţia de probabilitate de mai sus iar a este un

22 În cazul variabilelor aleatoare continue probabilităţile punctuale sunt toate egale cu zero (vezi Anexa: Proprietăţile funcţiei distribuţie de probabilitate).

23 Numită şi funcţie de repartiţie sau de distribuţie cumulativă.

Page 41: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

71

număr real atunci, funcţia Fx(a), definită ca „probabilitatea ca x să ia valori mai mici sau cel mult egale cu a” se numeşte funcţie de distribuţie a v.a. x:

Fx(a) )( axP

aa

ix

i

ap )(

O v.a. x spunem că este discretă dacă funcţia sa de distribuţie, Fx(a), este tip scară (de exemplu, ca cea din Figura 5.9).

număr real atunci, funcţia Fx(a), definită ca „probabilitatea ca x să ia valori mai mici sau cel mult egale cu a” se numeşte funcţie de distribuţie a v.a. x:

Fx(x) )( axP

a

x duuf )(

O v.a. x spunem că este continuă dacă funcţia sa de distribuţie, Fx(a), este o funcţie continuă. Fx(∙) se mai numeşte şi integrala probabilistă a lui x.

Fx(a), are următoarele proprietăţi:

1. Fx(-∞) = 0; 2. Fx(+∞) = 1; 3. Dacă a1, a2 R, cu a1

< a2 atunci Fx(a1) ≤ Fx(a2) (funcţie monoton nedescrescătoare);

4. Fx(a)=Fx(a+), pentru orice a R (funcţie continuă la dreapta);

5. Pentru a1, a2 R, cu a1 < a2 avem

P(a1 < x ≤ a2) = Fx(a2) - Fx(a1); 6. P(x > a) = 1 - Fx(a), aR; 7. P(x = a) = Fx(a) - Fx(a-).

Fx(a), are următoarele proprietăţi:

1. Fx(-∞) = 0; 2. Fx(+∞) = 1; 3. Dacă a1, a2 R, cu a1

< a2 atunci Fx(a1) ≤ Fx(a2) (funcţie monoton nedescrescătoare);

4. Fx(a)=Fx(a+)=Fx(a–), pentru orice a R (funcţie continuă);

5. Pentru a1, a2 R, cu a1 < a2 avem P(a1

< x ≤ a2) = Fx(a2) - Fx(a1); 6. P(x > a) = 1 - Fx(a), aR; 7. P(x = a R) = 0.

Exemplu 5.5.: Exemplificăm în cele ce urmează, pentru variabilele aleatoare discrete, x şi y, din exemplele 5.1. şi 5.4., noţiunile de: (a) funcţie de masă de probabilitate, (b) distribuţie de probabilitate şi (c) funcţie de distribuţie. Astfel:

(a) Funcţia de masă de probabilitate este dată pentru cele două exemple de:

px(a)=

.0

}6,5,4,3,2,1{6

1

restîn

apentru şi, respectiv,

py(b)=

.0

12

1

}2,0{4

1

restîn

bpentru

bpentru

(b) Repartiţiile sunt, conform definiţiei:

Page 42: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

72

6

1

6

1

6

1

6

1

6

1

6

1

654321

x şi,

respectiv,

4

1

2

1

4

1

210

y

(c) Funcţiile de distribuţie sunt după cum urmează:

Fx(a)=

.61

656

5

546

4

436

3

326

2

216

110

apentru

apentru

apentru

apentru

apentru

apentru

apentru

şi,

respectiv,

Fy(b)=

.21

214

3

104

100

bpentru

bpentru

bpentru

bpentru

În Figura 5.9 sunt date reprezentările grafice ale funcţiilor de repartiţie şi, respectiv, ale funcţiilor de masă de probabilitate pentru variabilele aleatoare discrete din exemplele 5.1. şi 5.4.

Funcţia de masă de probabilitate, px(a), mai poate fi scrisă şi astfel:

i

iixx aaapap )()()( (5.45)

unde δ(x) este funcţia impuls (Dirac).

Observaţia 5.16: Dezvoltând puţin noţiunile prezentate în Tabelul 5.7 vom spune că, în mare, o v.a. este definită ca o cantitate ale cărei valori sunt aleatoare şi căreia i se asignează o distribuţie (lege) de probabilitate. Aceasta din urmă specifică, în general, probabilităţile cu care v.a. ia valori în orice submulţime, , de numere reale. Particularizând, în cazul variabilelor aleatoare discrete, distribuţia de probabilitate este specificată prin probabilităţile cu care v.a. ia valorile posibile, ai ; aceste probabilităţi punctuale sunt date de funcţia masă de probabilitate, px(a)=P( x = a ). Pentru variabilele aleatoare continue, ce iau valori într-un interval continuu, nu mai putem vorbi de probabilităţi punctuale întrucât probabilitatea ca x să ia orice valoare particulară din acest interval este egală cu zero (vezi Anexa: Proprietăţile funcţiei distribuţie de probabilitate punctul (7)). Ca

Page 43: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

73

echivalent, însă, al f.m.p. pentru domeniul continuu s-a definit funcţia densitate de probabilitate, fx(a), ca mai sus; cu ajutorul acesteia se specifică distribuţia de probabilitate a v.a. continue. Utilitatea distribuţiilor de probabilitate se concretizează în calculul statisticilor24 unei v.a., statistici care pentru cazul discret sunt determinate în termenii lui ai şi px(ai) iar în cazul continuu în termenii lui ai şi fx(ai).

Figura 5.9. Funcţiile de repartiţie, (a) şi (b), şi funcţiile de masă de

probabilitate, (c) şi (d), pentru v.a. discrete din Exemplele 5.1. şi 5.4. Funcţia de repartiţie a unei v.a., calculată pentru a0, a fost introdusă

pentru a măsura şansa ca v.a. x să ia valori mai mici sau egale cu a0:

Fx(a0) = P(x ≤ a0) = P

})({

0

i

aaax

i (5.46)

Definită astfel, şi ţinând cont de faptul că evenimentele {{ζ}| x(ζ) = xi} sunt disjuncte25 vom avea pentru cazul discret:

Fx(a0) =

00

)())((aa

ix

aa

i

ii

apaxP (5.47)

24 Pentru definiţia unei statistici vezi Subcapitolul Estimarea 5.5.

25 Aceasta este o consecinţă a modului cum este definită v.a.: „funcţie matematică, de valoare unică”.

Fx(a) Fy(b)

px(a) py(b)

(a) (b)

(c) (d)

Page 44: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

74

Valoarea funcţiei de repartiţie în a0, Fx(a0), este dată astfel de suma probabilităţilor valorilor din stânga lui a0. Din modul cum este definită rezultă că funcţia de repartiţie a unei v.a. discrete este o funcţie în trepte (tip scară), monoton nedescrescătoare şi continuă la dreapta (vezi Anexa: Proprietăţile funcţiei distribuţie de probabilitate). Discontinuitatea (saltul) apare în fiecare punct (x = ai) de pe axa reală – unde ai reprezintă valoare pentru v.a. x – iar înălţimea saltului este px(ai) = Fx(ai) – Fx(ai–). În plus, limita la –∞ este 0 iar la +∞ este 1.

Dacă funcţia Fx(a) joacă în cazul discret un rol mai puţin important, în cazul continuu ea prezintă o importanţă ceva mai mare, funcţia densitate de probabilitate fiind definită ca o mărime derivată din Fx(a). Astfel, pornind de la definiţia lui fx(a) şi de la a cincea proprietate a funcţiei de distribuţie, Fx(a), avem că:

fx(a) = a

aaxaP

a

(

0lim =

=

a

aFaaF xx

a

)()(lim

0aux uF

du

d)( (5.48)

Incrementul Δa este suficient de mic astfel încât peste intervalul [a, a + Δa], funcţia fx(∙) să fie în mod esenţial constantă şi egală cu fx(a).

Primele 4 proprietăţi ale funcţiei de distribuţie, Fx(a), din tabelul de mai sus caracterizează complet familia de funcţii de distribuţie cumulativă.

În ceea ce priveşte proprietăţile lui fx(a), acestea derivă din proprietăţile lui Fx(a) (acestea din urmă fiind demonstrate în Anexa: Proprietăţile funcţiei distribuţie de probabilitate). Astfel, avem:

1. din Fx(a) monoton nedescrescătoare rezultă că fx(a)≥0; 2. integrând relaţia (5.48) şi trecând la limita +∞ obţinem:

)(lim0

aFxa

=

0

0)(lim

a

xa

duuf =

1)( duuf x (5.49)

Pentru cazul discret proprietăţile lui px(a) rezultă imediat din proprietăţile noţiunii de probabilitate.

Atât pentru cazul discret cât şi pentru cazul continuu, cele două proprietăţi corespunzătoare caracterizează complet familia de funcţii de masă de probabilitate, respectiv, de densitate de probabilitate. Altfel spus, dacă px(∙) (sau fx(a)) este o funcţie ce satisface cele două condiţii (funcţie de valori pozitive şi sumarea/integrarea26 funcţiei pe întreg domeniul de definiţie al v.a. este egală cu 1) atunci spunem că există un spaţiu de

26 Expresiile ce implică în cazul discret sume sunt înlocuite cu integrale în cazul continuu.

Page 45: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

75

probabilitate cu o v.a. x astfel încât px(∙) (sau fx(a)) să fie funcţia sa de masă de probabilitate (respectiv, de densitate de probabilitate).

În general, spaţiul de selecţie S este interpretat ca un model matematic ce enumeră toate rezultatele relevante ale unui experiment. În modelarea fenomenelor aleatoare pentru a evita problemele pe care le ridică construirea unor astfel de spaţii de selecţie adecvate se recurge adesea la alegerea directă a unor densităţi (mase) de probabilitate relevante. Alegerea unor astfel de funcţii – ipoteza de lucru care se face în cadrul estimării parametrice de exemplu – presupune însă folosirea unor cunoştinţe a priori privind fenomenul modelat. În practică există definite câteva astfel de funcţii, atât pentru cazul discret cât şi pentru cazul continuu. Dintre acestea în Tabelul 5.8 sunt amintite doar pe cele mai uzuale.

Tabelul 5.8. Diferite funcţii de densitate şi de masă de probabilitate pentru

cele două cazuri analizate: continuu şi discret

Domeniul discret, px(a0): Domeniul continuu, fx(a0):

f.m.p. Bernoulli f.d.p. Normală (Gauss-iană)

f.m.p. Binomială f.d.p. Uniformă

f.m.p. Poisson f.d.p. Exponenţială

f.m.p. Hipergeometrică f.d.p. Gamma

f.m.p. Geometrică f.d.p. Beta

f.m.p. Binomială negativă f.d.p. -pătrat

f.m.p. Uniformă discretă f.d.p. Rayleigh

f.d.p. Nakagami

f.d.p. Cauchy

5.4.5. Probabilitatea condiţionată. Regula produsului, a sumei şi teorema lui Bayes

1. Probabilitatea condiţionată Până acum s-a vorbit doar de probabilităţi necondiţionate. În afara

acestora însă vom avea nevoie uneori să cunoaştem şi care e probabilitatea unui eveniment dată fiind producerea unui alt eveniment. Astfel de probabilităţi poartă numele de probabilităţi condiţionate.

Page 46: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

76

Observaţia 5.17.: Pentru a înţelege cum putem deduce probabilităţile condiţionate considerăm în continuare două evenimente, A şi B, din S (vezi figura Figura 5.10). Pentru a putea vorbi de probabilitatea evenimentului A condiţionat de realizarea evenimentului B, P(A|B), avem nevoie în primul rând ca evenimentul B să se realizeze cu o probabilitate diferită de zero.

Figura 5.10. Reprezentarea grafică a operaţiilor cu evenimente, diagrame Venn

Prin limitarea, de la S la S’ = B, a mulţimii evenimentelor posibile

facem ca realizarea evenimentului A să devină şi ea una restricţionată de la P(A) la probabilitatea P(A|B).

Practic, prin limitarea mulţimii evenimentelor posibile de la:

S = {ζ1, ..., ζn} la evenimentul

},...,{1 bniiB , cu nb<n şi },...,{},...,{ 11 nii bn

înţelegem că realizarea evenimentului

},...,{1 anllA , cu na<n şi },...,{},...,{ 11 nll an

,

devine realizarea evenimentului {A|B} dat de acele evenimente elementare ζj pentru care j mulţimii evenimentelor posibile, S’

(adică lui B), şi simultan, Aj . Rezultă, deci, că evenimentul {A|B}

este, de fapt, evenimentul {AB}27 (vezi Figura 5.10.c). De aici avem că probabilitatea lui {A|B} este egală cu probabilitatea lui {AB} – ambele calculate în raport cu noul spaţiu de selecţie S’; mai mult, ambele probabilităţi sunt egale cu P(AB) în raport cu S, această ultimă

27 Pentru {AB} folosim notaţia echivalentă {AB}.

S S S

A ABB A B

(a) (b) (c)

S’

Page 47: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

77

egalitate fiind valabilă numai pentru cazul când evenimentul B este cel care se realizează întotdeauna (P(B)=1).

Întrucât însă pe noi ne interesează probabilitatea realizării evenimentului A atunci când are loc producerea, cu o anumită incertitudine, a evenimentului B (echivalent cu a spune că P(B)≤1, eveniment aleator, ce nu se obţine neapărat la fiecare realizare a experimentului aleator) vom avea:

P(A|B) = kP(AB), (5.50)

unde 0< k ≤1 este o constantă legată de incertitudinea privind realizarea lui B.

Dacă în relaţia (5.50) îl înlocuim pe A cu B obţinem:

P(B|B) = kP(BB) = kP(B) (5.51)

Din P(B|B) = P(S’| S) =1 şi din relaţia (5.51) deducem că k = 1/P(B). De aici rezultă şi definiţia probabilităţii condiţionate.

Concluzionând, vom spune că dacă A şi B sunt două evenimente din S, cu P(B)>0, atunci probabilitatea condiţionată a lui A dată de B, P(A|B) (interpretată ca probabilitatea de apariţie a evenimentului A atunci când se realizează şi evenimentul B), este definită astfel:

)(

)()|(

BP

ABPBAP

def (5.52)

În relaţia (5.52) P(AB) reprezintă probabilitatea comună a evenimentelor A şi B iar evenimentul B se presupune că se realizează cu o probabilitate, P(B), diferită de zero.

Observaţie 5.18: În general, aşa după cum se poate observa din definiţie, P(A|B) ≠ P(B|A), egalitate obţinându-se doar pentru cazul particular când P(A)= P(B).

Problema 5.7: Fie experimentul aleator de aruncare a zarului. Spaţiul de

selecţie, S, este în acest caz dat de cele 6 feţe distincte ale zarului, S = {1, 2, 3, 4, 5, 6}. Se ştie că din 14 aruncări succesive ale zarului s-au obţinut următoarele valori: {1, 4, 3, 5, 2, 1, 4, 4, 2, 6, 4, 2, 1, 3}. Să se calculeze probabilitatea P(A|B), unde B este evenimentul apariţiei unei feţe cu număr de la 1 la 3 iar A este evenimentul apariţiei unei feţe cu număr impar.

Rezolvare: Rescriind cele de mai sus avem pentru fiecare eveniment elementar din spaţiul de selecţie S:

Page 48: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

78

Eveniment elementar (faţa i): 1 2 3 4 5 6 Număr de realizări: 3 3 2 4 1 1

Evenimentul B este dat de mulţimea evenimentelor elementare {1, 2, 3}, iar P(B) =.(Număr realizări eveniment B) /(număr total de realizări experiment) = (3+3+2)/14 = 8/14 = 4/7.

Evenimentul A este dat de mulţimea evenimentelor elementare {1, 3, 5}, P(A) =.(Număr realizări eveniment A) /(număr total de realizări experiment) = (3+2+1)/14 =6/14 = 3/7.

Evenimentul {AB} = {1, 3} cu P(AB) = (Număr realizări eveniment AB) /(număr total de realizări experiment) = (3+2)/14 = 5/14.

Conform definiţiei probabilităţii condiţionate vom avea:

P(A|B) = P(AB)/ P(B) = (5/14)/(4/7) = 5/8

Pentru verificare vom spune că, într-adevăr, evenimentul {A|B} constă în realizarea evenimentului {AB} pentru care spaţiul de selecţie este S’ (S’ = B):

Eveniment elementar (faţa i): 1 2 3 Număr de realizări: 3 3 2

Evenimentul {AB} = {1, 3} are în raport cu S’ probabilitatea P(AB) = (Număr realizări eveniment AB) /(număr total de realizări experiment) = (3+2)/(3+3+2) = 5/8 = P(A|B).

După cum se arată şi în Anexa: Axiomele probabilităţii, probabilităţile

condiţionate – aşa cum au fost ele definite – sunt, într-adevăr tot probabilităţi (însă în raport numai cu primul argument), iar toate proprietăţile şi rezultatele obţinute pentru acestea din urmă sunt valabile şi pentru probabilităţile condiţionate. Astfel, rezumându-ne, de exemplu, doar la axiomele probabilităţii vom avea:

)|()|()|(

1)|(

0)|(

BCPBAPBCAP

BSP

BAP

(5.53)

unde A, şi C sunt evenimente disjuncte iar S este evenimentul sigur. În particular avem că P(A|B)=0 doar atunci când evenimentele A şi B sunt disjuncte şi P(A|B)=1 doar atunci când B A.

Dacă, de exemplu, A1, ..., An , respectiv, B1, ..., Bm sunt două repartiţii ale lui S, atunci pentru 2 evenimente oarecare, A şi B din S, întotdeauna vom avea 1)|()|( 1 BAPBAP n şi, în general, 1)|()|( 1 mBAPBAP

Page 49: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

79

Problema 5.8: Se ştie că pentru evenimentele A şi B avem P(A)=0.35, P(B)=0.60 şi P(AB)=0.20. Să se calculeze:

a) Probabilitatea ca să se realizeze evenimentul B atunci când s-a realizat evenimentul A.

b) Probabilitatea ca să se realizeze evenimentul A atunci când s-a realizat evenimentul B.

c) Probabilitatea ca să se realizeze evenimentul B atunci când nu s-a realizat evenimentul A

2. Regula produsului şi regula sumei Din formula probabilităţii condiţionate deducem imediat o serie de alte

relaţii deosebit de utile cum ar fi probabilitatea comună a două evenimente, regula multiplicării, teorema probabilităţii totale (sau regula sumei) şi teorema lui Bayes. După cum vom vedea, manipularea algebrică a funcţiilor densitate de probabilitate are la bază tocmai aceste reguli, prezentate mai jos:

Tabelul 5.9. Relaţii rezultante din formula probabilităţii condiţionate

Denumire Formulă

Probabilitatea comună a două evenimente:

)()|()()|()( APABPBPBAPABP (5.54)

Regula multiplicării/factorizării/

lanţului:

)()|(),,|(),,( 112111 APAAPAAAPAAP nnn (5.55)

Regula sumei sau teorema probabilităţii

totale: )()|(...)()|()( 11 nn APABPAPABPBP (5.56)

Teorema lui Bayes: )(

)()|()|(

BP

APABPBAP (5.57)

Relaţia (5.54) este una ce decurge imediat din relaţia (5.52). Trebuie să facem aici observaţia că dacă relaţia (5.55) se verifică pentru orice submulţime de evenimente {Ai}i=1...n din S (vezi Anexa: Regula multiplicării/factorizării/lanţului), relaţia (5.56) este valabilă numai atunci când evenimentele [A1, A2, ..., An] formează o partiţie U a evenimentului sigur S, cu B fiind un eveniment arbitrar din S, diferit de evenimentul imposibil.

Page 50: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

80

Problemă 5.9: Demonstraţi validitatea relaţiei (5.56) în conformitate cu ipoteza anterioară.

După cum putem remarca, regula multiplicării ne permite să definim probabilitatea comună a două sau mai multe evenimente ca un produs de probabilităţi condiţionate fără să se impună vreo condiţie de independenţă a evenimentelor analizate. Deoarece evenimentele sunt submulţimi ale spaţiului de selecţie S, nu există o ordine predefinită de realizare a acestora (altfel spus, nu există o noţiune a timpului), rămânând astfel la latitudinea noastră să alegem în ce ordine şi în ce combinaţie le analizăm. Cu toate acestea, regula condiţionărilor succesive, aşa cum este ea redată în relaţia (5.55) surprinde totuşi ideea de secvenţă de evenimente exprimată prin aceea că, mai întâi se realizează evenimentul A1, apoi se realizează evenimentul A2 şi aşa mai departe.

Problema 5.10: Exemplul clasic – pe care îl vom folosi şi noi aici în ideea de a facilita înţelegerea regulei produsului –, este exemplul cu pachetul standard de 52 de cărţi de joc. Să presupunem că, după ce le amestecăm bine, extragem din pachet 3 cărţi de joc (după fiecare extracţie, cartea extrasă nu se mai pune la loc în pachet). Atunci, să se calculeze probabilitatea ca prima carte să fie un as de romb, a doua carte extrasă să fie un valet de treflă iar a treia carte să fie un romb.

Rezolvare: Fie A1 evenimentul ca prima carte extrasă să fie un as de romb, A2 evenimentul ca a doua carte extrasă să fie un valet de treflă şi A3 evenimentul ca a treia carte extrasă să fie un romb. Atunci, vom avea:

realizarea lui A1 are loc cu probabilitatea P(A1) = 1/52;

după realizarea lui A1 mai rămân 51 de cărţi în pachet, printre care distingem şi un valet de treflă şi 12 cărţi de romb (iniţial erau 13); corespunzător avem P(A2| A1) = 1/51;

după realizarea lui A2 mai rămân 50 de cărţi în pachet, printre care distingem 12 cărţi de romb, adică P(A3| A1 A2) = 12/50.

Aplicând regula condiţionării succesive (a produsului) obţinem:

P(A3 A1 A2) = P(A1)P(A2| A1)P(A3| A1 A2) = = (1/52)*(1/51)*(12/50) = 1/11050.

Spre deosebire de regula lanţului, formula probabilităţii totale ne furnizează o metodă de calcul a probabilităţii de realizare a unui eveniment B o dată cu realizarea unuia din evenimentele disjuncte şi exhaustive28 A1, A2, …, An.

28 Evenimentele exhaustive sunt acelea care împreună formează spaţiul de selecţie S.

Page 51: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

81

Exemplu 5.6: Fie spaţiul de selecţie S şi A1, A2, A3, A4, A5 cinci evenimente (submulţimi de evenimente elementare) disjuncte ce împreună formează spaţiul S, respectiv:

A1A2A3A4A5= Ø şi A1A2A3A4A5= S.

În acest caz, spunem că U=[ A1, A2, A3, A4, A5] este o partiţie a lui S. Sistemul de evenimente {A1, A2, A3, A4, A5} realizează practic o „desfacere” a evenimentului sigur S în cele 5 evenimente constituiente şi el se alege în mod convenabil, funcţie de datele problemei, astfel încât şi evenimentele (A1B), (A2B), (A3B), (A4B) şi (A5B) să partiţioneze, la rândul lor, evenimentul (submulţimea) B. Această din urmă partiţionare urmăreşte, de fapt, „desfacerea” evenimentului B în evenimente mult mai specifice, despre care dispunem de mai multe informaţii.

În aceste condiţii vom putea scrie, aşa după cum arată şi graficul din Figura 5.11:

P(B) = P(A1B) + P(A2B) + P(A3B) + P(A4B) + P(A5B) (5.58)

Figura 5.11. Exemplu de partiţie a spaţiului S de selecţie

Egalitatea de mai sus, numită uneori şi legea alternativelor, exprimă faptul că într-un experiment aleator, atunci când se realizează evenimentul B, cu siguranţă se produce unul şi numai unul din evenimentele Ai, numite şi „cauze” sau „ipoteze”. Punerea între ghilimele a acestor denumiri nu este una întâmplătoare ci ea vine să sublinieze faptul că relaţiile temporale şi cele cauzale sunt noţiuni informale, ce nu se regăsesc în cadrul teoriei probabilităţii. Cu toate acestea ele se pot aplica în anumite exemple şi ele depind, în principal, după cum vom vedea în cele ce urmează, de interpretarea particulară dată evenimentelor.

Folosind relaţia (5.54) rescriem relaţia de mai sus, (5.58) astfel:

B

A1

A2

A3 A4

A5

S

Page 52: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

82

P(B) = P(B| A1)P(A1) + P(B| A2)P(A2) + P(B| A3)P(A3) + + P(B| A4)P(A4) + P(B| A5)P(A5) (5.59)

Cu ajutorul formulei probabilităţii totale de mai sus am redus practic calculul lui P(B) la calculul probabilităţilor cauzelor, P(Ai), şi a probabilităţilor condiţionate de fiecare cauză, P(B|Ai). Această formulă de calcul, vom vedea mai târziu, îşi dovedeşte utilitatea atunci când ne este mai uşor să calculăm mai întâi P(B|Ai) pentru o partiţie aleasă corespunzător şi apoi, indirect, să obţinem P(B), mai curând decât să calculăm direct P(B).

Problemă 5.11: Dintr-un pachet standard de 52 de cărţi de joc se extrag două cărţi de joc. Care este probabilitatea ca, indiferent de prima carte extrasă, a doua carte să fie o damă?

Rezolvare: Fie: A1 evenimentul ca prima carte extrasă să fie o damă, A2 evenimentul ca prima carte extrasă să fie orice carte în afară de o carte de damă iar B să fie evenimentul ca a doua carte extrasă să fie o carte de damă. Atunci, P(A1) = 4/52, P(B| A1) = 3/51, P(A2) = 48/52 şi P(B| A2) = 4/51.

Cele două evenimente, A1 şi A2, reprezintă astfel o partiţie a spaţiului de selecţie, convenabil aleasă, care ne ajută să calculăm, cu ajutorul regulei sumei, probabilitatea P(B):

P(B) = P(B| A1) P(A1) + P(B| A2) P(A2) =

= (3/51)*(4/52)+(4/51)*(48/52) = 1/13.

Alternativ, pentru a calcula direct această probabilitate, ar fi trebuit să numărăm din cele n = 51*52 = 2652 cazuri posibile acele combinaţii de 2 cărţi pentru care cea de a doua carte este o damă şi apoi să calculăm raportul (cazuri favorabile)/(cazuri posibile).

Page 53: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

83

3. Teorema lui Bayes Ţinâd cont că noţiunea de eveniment a fost descrisă în Tabelul 5.1 ca

fiind o mulţime de evenimente elementare şi având în vedere dualitatea de limbaj “eveniment – mulţime” (vezi Anexa: Dualitatea eveniment-mulţime) vom considera, în continuare, din cadrul operaţiilor cu mulţimi proprietatea de comutativitate valabilă pentru operaţia de intersecţie sau produs (A∩B, AB) dintre două mulţimi A şi B:

AB = BA (5.60)

Scriind acum probabilitatea condiţionată a lui B dată de A, P(B|A), avem:

)(

)()|(

AP

BAPABP (5.61)

Din relaţiile (5.52), (5.60) şi (5.61) obţinem:

P(AB) = P(BA) = P(A |B) P(B) = P(B |A) P(A) (5.62)

De aici rezultă mai departe regula lui Bayes:

)(

)()|()|(

BP

APABPBAP (5.63)

respectiv, o formă alternativă a acesteia, obţinută prin inserarea relaţiei (5.56) în (5.63) şi numită formula probabilităţii cauzelor sau formula probabilităţii ipotezelor:

)()|(...)()|(

)()|()|(

11 nn

iii APABPAPABP

APABPBAP

(5.64)

Din perspectiva ultimei relaţii precum şi din faptul că orice eveniment A din S, formează întotdeauna împreună cu evenimentul său complementar, Ā, o partiţie, putem rescrie relaţia (5.63) în forma (5.64) astfel:

)()|()()|(

)()|(P)|(

APABPAPABP

APABBAP

(5.65)

În acest context, cauzele sau ipotezele sunt cele două evenimente complementare, A şi Ā.

Problemă 5.12: Să se demonstreze că în relaţia (5.63), actualizarea lui P(A) conform regulei lui Bayes are loc numai atunci când P(B|A) P(B| Ā), unde Ā reprezintă evenimentul complementar lui A (evenimentul A este diferit de evenimentul sigur).

Page 54: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

84

Teorema lui Bayes leagă, conform relaţiei matematice (5.63), probabilităţile condiţionate şi cele marginale ale evenimentelor aleatoare A şi B. Fiecare termen din această relaţie, deşi este în sine o probabilitate, are asignată, după cum se arată şi în tabelul de mai jos, o semnificaţie aparte şi, corespuzător, un nume convenţional. Astfel:

Tabelul 5.xx. Semnificația termenilor din relația lui Bayes

Termen Denumire termen Mod de calcul

1. probabilitatea P(A)

probabilitate a priori a cauzei sau ipotezei A,

probabilitate marginală a lui A;

probabilitate necondiţionată a lui A;

o în engl.: prior.

Se presupune a fi: determinată (de

exemplu, vezi Problema 5.13),

cunoscută (de exemplu, vezi Problema 5.14)

pe baza experienţei anterioare (vezi Anexa: Interpretarea noţiunii de probabilitate).

Această probabilitate descrie ceea ce se cunoaşte la un moment dat (mai exact, în momentul prezent) despre evenimentul/cauza/ipoteza A, moment în care doar informaţia iniţială I este disponibilă, fără nici o altă informaţie sau probă suplimentară. Formal, aceasta se mai scrie şi P(A)= P(A|I).

Regula lui Bayes este cea care permite actualizarea acestei probabilităţi:

P(A|I) → P(A|B,I) sau, echivalent, P(A) → P(A|B) prin încorporarea informaţiei suplimentare furnizate de realizarea ulterioară a evenimentului B.

2. probabilitatea P(B |A)

verosimilitate sau, probabilitate directă29, probabilitatea

condiţionată a lui B dată de realizarea lui A;

o în engl.: likelihood.

termen ce se calculează din datele empirice.

Această probabilitate condiţionată ne arată cât este de probabil ca evenimentul B să se realizeze atunci când s-a realizat evenimentul A.

3. probabilitatea P(B) probabilitate a priori a de obicei acest termen

29 Termenii de probabilitate directă şi probabilitate inversă au fost utilizaţi până pe la

mijlocul sec. al XX-lea când termenii de „verosimilitate” (likelihood) şi „probabilitate posterioară” au devenit prevalenţi.

Page 55: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

85

probei (evenimentului B), probabilitate marginală a

lui B; o în engl.: evidence.

se caculează folosind regula sumei (vezi relaţia (5.56))

Acţionează ca un factor de normalizare (el asigură faptul că suma probabilităţilor posterioare peste toate cauzele/ipotezele sumează la unu).

4. probabilitatea P(A |B)

probabilitate posterioară, probabilitate inversă, probabilitate revizuită, probabilitatea

condiţionată a lui A dată de realizarea lui B;

o în engl.: posterior.

Se determină aplicând regula lui Bayes.

Probabilitatea P(A|B) reprezintă probabilitatea evenimentului/ipotezei A, calculată ulterior realizării lui B (care se presupune, în general, a fi nu un eveniment oarecare ci un eveniment relevant pentru A) şi ţinând cont de această realizare. Informal, în termenii cauză-efect, întrucât probabilitatea „cauzei“ A este una prestabilită pe baza observării „efectului“ B, această probabilitate a mai fost cunoscută şi sub numele de probabilitate inversă.

)(

)()|()|(

BP

APABPBAP

(evidence

priorlikelihoodposterior

)

Figura 5.12. Succesiunea temporală a evenimentelor din relaţia lui Bayes

Regula lui Bayes este o formulă matematică simplă, folosită în calculul

probabilităţilor condiţionate. Conform calculului probabilităţii bayes-iene, probabilitatea unei ipoteze atunci când se dă un set de date empirice

Estimăm P(A)

Timpul

PREZENT VIITOR

Momentul realizăriievenimentului B

Actualizarea P(A) P(A|B)

Page 56: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

86

(probabilitatea posterioară) este proporţională cu produsul dintre verosimilitate şi probabilitatea a priori.

Termeni ca probabilitate a priori şi probabilitate posterioară îi regăsim doar în vocabularul probabilităţii şi inferenţei bayes-iene, nu şi în analiza frecvenţială. În cadrul regulei lui Bayes, verosimilitatea evidenţiază efectul setului de date empirice (informaţia suplimentară) în calculul probabilităţii posterioare, în timp ce probabilitatea a priori specifică gradul de încredere în ipoteză înainte ca datele să fi fost observate.

Probabilitatea anterioară (a priori) este una bazată pe opinii subiective şi/sau, eventual, dovezi obiective, ca de exemplu, rezultatele unui studiu anterior. Această probabilitate este revizuită în momentul în care apar informaţii suplimentare (obţinute, de regulă în urma unui experiment – experiment fizic, studiu de piaţă, sondaj, consultarea unui expert sau grup de experţi ş.a.). Informaţiile suplimentare vin şi, fie susţin, fie infirmă ipoteza lansată, conducând astfel la o probabilitate posterioară.

Probabilitatea posterioară, calculată cu ajutorul formulei lui Bayes, poate juca, la rândul ei, rol de probabilitate anterioară pentru studiul următor, atunci când apar alte noi informaţii suplimentare, relevante pentru ipoteza în lucru. Se poate astfel, deci, recurge la o utilizare secvenţială a formulei lui Bayes, caz în care vorbim deja de un proces de acumulare, treptată, a informaţiilor obţinute empiric, în experimente anterioare, şi care ajung, în final să facă parte integrantă din distribuţia a priori.

Ceea ce trebuie să mai reţinem din cele prezentate până acum este faptul că, spre deosebire de abordarea frecvenţială a probabilităţii, în abordarea bayes-iană a calculului probabilităţii se ia în considerare nu numai informaţiile din datele empirice ci şi eventualele informaţii a priori de care se dispune şi care sunt mai mult sau mai puţin subiective. În cazul problemelor de clasificare bayes-iană (ce folosesc regula lui Bayes) probabilităţile a priori se determină de regulă, în mod obiectiv, ca frecvenţe relative tot din datele empirice ale eşantionului. De asemenea, important este și faptul că efectul informaţiei a priori asupra concluziilor pe care le extragem din setul de date experimentale este unul foarte important, vezi discuţiile prezentate în Problema 5.14.

Exemplul 5.7. Să presupunem că ne aflăm în situaţia descrisă în Exemplu 5.6 şi că dorim să aflăm care este probabilitatea ca să se realizeze evenimentul A4 atunci când se realizează evenimentul B. Conform teoremei lui Bayes şi având o partiţie U=[ A1, A2, A3, A4, A5] a lui S această probabilitate se poate calcula astfel:

Page 57: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

87

)()|()()|()()|(

)()|()(

)()|()|(

552211

44

444

APABPAPABPAPABP

APABPBP

APABPBAP

Problema 5.13: În cadrul unei campanii promoţionale s-a organizat un concurs în care câştigătorul final al marelui premiu urma să fie extras, prin tragere la sorţi, dintre toţi participanţii la concurs înscrişi în ultimele trei luni. Numele participanţilor au fost grupate în 3 urne diferite – u1, u2 şi u3 (corespunzător celor 3 luni), iar statistica femei versus bărbaţi30 arăta astfel: u1 (2581 M, 1869 W), u2 (3408 M şi 1917 W) şi u3 (2691 M şi 2484 W). S-a selectat aleator una din cele 3 urne şi din aceasta s-a extras mai apoi, tot aleator, un singur bileţel (cu numele câştigătorului).

a. Care este probabilitatea ca numele selectat să aparţină unei femei?

b. În condiţiile în care numele extras aparţine într-adevăr unei femei, care este probabilitatea ca el să fi fost extras din urna 2, u2 ?

Rezolvare: Ca date de lucru avem că, din cei 14950 participanţi la concurs, 8680 sunt bărbaţi iar 6270 sunt femei, repartizaţi după cum se arată în tabelul de mai jos.

Vom folosi în continuare următoarele notaţii: Mi, Wi – mulţimea participanţilor la concurs, bărbaţi şi, respectiv,

femei, introduşi în urna i, 3,1i ; Ai – evenimentul constând în toţi participanţii la concurs (Mi Wi)

introduşi în urna i, 3,1i ; B – evenimentul constând în mulţimea tuturor participantelor la

concurs (W1 W2 W3). Întrucât alegerea urnei se face în mod

aleator iar evenimentele Ai sunt egal probabile, cu

nii SA

,1 , unde S este spaţiul

de selecţie dat de toţi participanţii la concurs (bărbaţi şi femei), atunci, se poate calcula (determina):

30 Am preferat aici utilizarea iniţialelor din limba engleză (Men, Women) în locul celor din

limba română (Bărbaţi, Femei) tocmai pentru a putea folosi notaţiile Ai şi B cu care ne-am familiarizat deja, fără a naşte confuzii, şi a putea urmări uşor şi înţelege noţiunile teoretice introduse.

M W u1: 2581 1869 u2: 3408 1917 u3: 2691 2484

Page 58: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

88

3

1)()()( 321 APAPAP

Altfel spus, probabilitatea de a extrage oricare din cele 3 urne este de 1/3.

Probabilitatea ca numele extras din urna ui să aparţină unei femei este dată de raportul dintre numărul de femei şi numărul total de participanţi din respectiva urnă, respectiv:

48.05175

2484)|(

36.05325

1917)|(

42.04450

1869)|(

3

2

1

ABP

ABP

ABP

Probabilităţile a priori, P(Ai), şi verosimilităţile, P(B |Ai), cu 3,1i , au fost calculate din date, prin metoda clasică şi, respectiv, prin metoda frecvenţială de calcul al probabilităţii. Pe baza acestor rezultate şi ţinând cont de ipoteza că evenimentele A1, A2 şi A3 formează o partiţie a spaţiului de selecţie, S, deducem, mai apoi, probabilităţile:

a) P(B) – probabilitatea ca numele selectat aleator din una din cele 3 urne (aleasă, de asemenea, aleator) să aparţină unei femei. Pentru aceasta ne folosim de relaţia (5.56) care, particularizată pentru cazul nostru devine:

4.03

148.0

3

136.0

3

142.0

2)()|()()|()()|()( 332211

APABPAPABPAPABPBP

Calculul direct al lui P(B) s-ar fi putut face astfel:

42.014950

6270)(

321321

321

MMMWWW

WWW

MW

W

nnnnnn

nnn

nn

nBP

b) P(Ai|B) – probabilitatea condiţionată ca numele câştigătorului, care presupunem că aparţine unei femei, a fost extras din urna i. Regula lui Bayes dată de relaţia (5.62) ne oferă suportul pentru un astfel de calcul:

)(

)()|()|(

BP

APABPBAP ii

i

care, pentru i = 2 devine:

Page 59: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

89

.286.021

6

42.03

136.0

)(

)()|()|( 22

2

BP

APABPBAP

Figura 5.13. Partiţionarea spaţiului S conform acestei probleme În concluzie, utilizând regula lui Bayes am actualizat

probabilitatea, P(A2), ca numele extras să fie din urna u2, la P(Ai| B):

286.0)|()(333.0 22 BAPAP

încorporând, pentru aceasta, informaţia suplimentară furnizată de realizarea evenimentului B, şi anume acela că numele extras aparţine unei femei (şi nu unui bărbat) – informaţie ce a devenit disponibilă în momentul extragerii.

Problema 5.14: În continuare, pentru a pregăti trecerea către problemele de clasificare vom lua în discuţie în cele ce urmează un exemplu simplu, în care avem doar două cauze (clase posibile) pentru datele empirice măsurate. Astfel, un medic ştie că 0.5% din întreaga populaţie suferă de maladia M. Punerea de către medic a unui diagnostic (prezenţa sau absenţa bolii) la un pacient se face folosind rezultatul unei analize de laborator, Y, a sângelui. Medicul ştie că această analiză are o senzitivitate31 de 99.98% şi o specificitate32 de 99.2%. Ce răspuns îi va da medicul pacientului său legat de probabilitatea ca acesta din urmă

31 Senzitivitatea unui test este dată de proporţia subiecţilor ce au rezultat pozitiv la test din

cadrul celor ce prezintă maladia. Informal, o senzitivitate foarte mare indică capacitatea testului de a pune în evidenţă (sesiza) existenţa unor procese specifice maladiei.

32 Specificitatea unui test este dată de proporţia subiecţilor care testează negativ din cadrul celor ce nu prezintă maladia. Informal, o specificitate mică indică faptul că procesele vizate de test nu sunt neapărat procese specifice maladiei, ele putând fi datorate şi altor cauze patologice sau chiar fiziologice.

A1

A2

A3

S

B

W1

W2

W3 M1

M2

M3

Page 60: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

90

să aibă într-adevăr boala în condiţiile în care rezultatul la test al pacientului a ieşit pozitiv?

Rezolvare: Fie:

A = evenimentul ca o persoană testată să aibă maladia şi „+” = evenimentul ca rezultatul la test să fie pozitiv.

Dacă medicul nu ar dispune de nici o altă informaţie suplimentară (în particular, răspunsul la testul Y) atunci el ar putea emite părerea subiectivă şi anume aceea că pacientul are şi el aceleaşi şanse de 0.5% să aibă boala. Aceasta reprezintă, de fapt, probabilitatea a priori, P(A) = 0.005, pe care regula lui Bayes o revizuieşte în momentul în care se dispune de informaţii suplimentare relevante pentru evenimentul investigat (în particular, cunoştinţe despre realizarea unor evenimente legate din punct de vedere logic de evenimentul investigat). În cazul nostru, evenimentul investigat reprezintă cauza iar evenimentul, a cărui realizare ne furnizează informaţii suplimentare, este considerat un efect al acestei cauze.

Medicul are ca informaţie suplimentară rezultatul pozitiv la testul Y, rezultat ce îi furnizează informaţii legate de maladie. Folosind regula lui Bayes, dată de relaţia (5.62), medicul poate calcula probabilitatea dorită ca fiind probabilitatea P(A) reactualizată şi notată P(A|+):

)(

)()|()|(

P

APAPAP

Această probabilitatea calculată este, de fapt, probabilitatea condiţionată a unui subiect de a avea maladia atunci când testul său a ieşit pozitiv.

Pentru a calcula probabilitatea reactualizată, P(A|+), medicul are însă nevoie şi de următoarele informaţii (pentru detalii vezi Anexa: Explicarea probabilităţilor din Problema 5.14.):

P(A) – probabilitatea a priori de la care se porneşte, P(A) = 0.005;

P(Ā) – probabilitatea ca pacientul să nu aibă maladia, P(Ā) = 1- P(A) = 0.995;

P(+|A) – probabilitatea ca testul să fie pozitiv atunci când pacientul are boala, P(+|A) = 0.9998;

P(+|Ā) – probabilitatea ca testul să fie pozitiv atunci când pacientul nu are boala, P(+|Ā) = 1 - P(-|Ā)=1-0.992=0.008, unde P(-|Ā) reprezintă

Page 61: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

91

probabilitatea ca testul să fie negativ atunci când pacientul nu are boala;

P(+) – probabilitatea ca rezultatul unui test să fie pozitiv indiferent de orice altă informaţie (în particular, că pacientul are sau nu maladia). Ştiind că A şi Ā formează o partiţie a spaţiului S, această probabilitate se poate calcula cu regula sumei (relaţia (5.56)), astfel:

P(+) = P(+|A)P(A) + P(+|Ā)P(Ā) = 0.9998 * 0.005 + + 0.008* 0.995 = 0.012959

Cu aceste date, probabilitatea revizuită devine:

38.58%385755.0012959.0

005.0*9998.0)|( AP

Discuţii:

După cum s-a arătat şi în Anexa: Explicarea probabilităţilor din Problema 5.14., în general, P(A|B) P(B|A); în plus, pentru a calcula cu formula lui Bayes probabilitatea P(A|B) nu este suficient să cunoaştem doar P(B|A) ci trebuie să ştim şi P(B|Ā). Particularizând, de exemplu, în termenii cauză-efect (care ne permite o percepţie mai intuitivă a fenomenului) aceasta s–ar traduce astfel:

a. pentru a deduce care este probabilitatea ca evenimentul A să fie cauza care a generat evenimentul B, P(A|B)

avem nevoi simultan de ambele informaţii, b. probabilitatea ca evenimentul B să se realizeze atunci

când se realizează evenimentul A, P(B|A), şi c. probabilitatea ca B să se realizeze atunci când se

realizează şi evenimentul Ā, P(B|Ā).

În situaţia în care evenimentele A şi B, respectiv, evenimentele Ā şi B nu sunt independente (vezi Tabelul 5.10), atunci între aceste evenimente există, aşa cum am presupus, o relaţie de tip cauză-efect, respectiv, B este efect posibil al cauzei A şi, simultan, el este un rezultat posibil şi al unor cauze, altele decât A. Modul cum aceste informaţii contribuie la calculul probabilităţii posterioare este ilustrat într-un mod sugestiv în Figura A.3 pentru cazul unei partiţii formate din două evenimente complementare, A şi Ā, respectiv în Figura A.4

Page 62: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

92

pentru cazul unei partiţii formate din n evenimente disjuncte, A1,..., An.

Pentru cazul nostru particular avem P(A|+) P(+|A) iar pentru a putea calcula probabilitatea posterioară P(A|+) avem, deci, absolută nevoie, pe lângă probabilitatea a priori P(A) şi verosimilitatea P(+|A), şi de probabilitatea P(+|Ā). Pentru a evidenţia importanţa deosebită şi a acestui ultim termen luăm în discuţie următoarele exemple numerice:

Cazul

I Cazul

II Cazul

III Cazul

IV Cazul

V Cazul

VI P(A) 0.0050 0.0500 0.0050 0.0050 0.0050 0.0050

P(+|A)* 0.9998 0.9998 0.9998 0.6000 1 0.9998 P(+|Ā) 0.0080 0.0080 0.0002 0.0001 0.5000 0.9998

P(Ā) 0.9950 0.9500 0.9950 0.9950 0.9950 0.9950

P(-|Ā)** 0.9920 0.9920 0.9998 0.9999 0.5000 0. 0002 P(+) 0.0130 0.0576 0.0052 0.0031 0.5025 0.9998

P(A|+) 0.3858 0.8680 0.9617 0.9679 0.0099 0.0050

Notă: * = senzitivitatea testului; ** = specificitatea testului.

1. Prima concluzie ce se poate trage din datele de mai sus (cazul I versus cazul II) este legată de importanţa utilizării, ori de câte ori este posibil, în procesul inferenţei statistice bayes-iene, a oricărei informaţii a priori de care se dispune. În regula lui Bayes această informaţie este valorificată, după cum ştim, prin probabilitatea a priorică P(A).

Astfel, cu cât este mai rară ipoteza/cauza pentru care testăm, respectiv P(A), cu atât probabilitatea ei posterioară este mai mică – în condiţiile în care probabilităţile condiţionate P(+|A) şi P(+|Ā) rămân aceleaşi.

În cazul nostru pentru o probabilitate a priorică de 0.5% (segment din populaţie ce se cunoaşte că are maladia), probabilitatea posterioară calculată este de cca. 39% (deci, puţin probabil ca subiectul testat să aibă maladia), în timp ce dacă informaţia a priorică ar fi specificat un procentaj de 5% atunci valoarea calculată ar fi fost de 87% (şanse mari ca subiectul să aibă maladia).

2. Pentru ca un test să fie bun el trebuie să aibă atât senzitivitatea, cât şi specificitatea, ridicate (aproape de 1) – este exemplul

Page 63: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

93

cazului III. Cu alte cuvinte, probabilităţile P(A|+) şi P(Ā|-) trebuie să fie simultan mari sau, echivalent, P(Ā |+) (procent fals negativi) şi P(A|-) (procent fals pozitivi) trebuie să fie mici.

3. Cazurile IV şi V sunt cele care pun foarte bine în evidenţă importanţa cunoaşterii, pe lângă probabilitatea P(+|A), şi a probabilităţii P(+|Ā). Astfel, în cazul IV, chiar dacă senzitivitatea este oarecum scăzută, o specificitate foarte crescută, aproape de 1, conduce la o probabilitate posterioară, P(A|+), foarte crescută. Şi reciproc, în cazul V, chiar dacă senzitivitatea este chiar 1, probabilitate posterioară, P(A|+) poate fi extrem de mică dacă specificitatea este mică.

În general, o măsură a cât de mult informaţia suplimentară, obţinută prin observarea lui B, modifică probabilitatea ipotezei/cauzei A este raportul verosimilităţilor, respectiv P(+|A)/ P(+|Ā).

Până acum, după cum se poate observa, am vorbit despre probabilităţi condiţionate şi despre regula lui Bayes doar în termeni de evenimente şi probabilităţile asociate acestora. În continuare, pentru a facilita introducerea şi înţelegerea unor noţiuni noi, cum ar fi distribuţia de probabilitate condiţionată, funcţia de distribuţie condiţionată şi funcţia densitate de probabilitate condiţionată – funcţii ce caracterizează variabilele aleatoare şi vectorii aleatori – vom exprima evenimentele A şi B din relaţia (5.22) prin condiţii adecvate impuse vectorilor aleatori asociaţi, x şi y (de exemplu, A = {ζ | x(ζ) = a} şi B = {ζ | y(ζ) = b}). De asemenea, pasul următor şi firesc este acela de a extinde regula lui Bayes de la evenimente la vectori aleatori (în particular, variabile aleatoare), cazul discret şi, respectiv, continuu.

Pentru uşurinţa înţelegerii noilor noţiuni vom începe discuţia cu particularizarea că vectorul aleator x este unidimensional (adică, vom vorbi de variabile aleatoare), continuând mai apoi cu cazul general, cel al vectorilor.

5.4.6. Funcţiile de distribuţie şi de densitate condiţionată 1. Distribuţia de probabilitate condiţionată

Fie probabilitatea condiţionată dată de relaţia (5.52), exprimată în

termenii variabilei aleatoare discrete x astfel:

P(A|B) = P(x = a|B) = Px (a|B) (5.66)

Page 64: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

94

unde A = {x = a}. Se numeşte distribuţie de probabilitate condiţionată a variabilei aleatoare x dată de realizarea evenimentului B şi se notează Px(a|B) probabilitatea ca {x = a} atunci când are loc evenimentul B.

După cum ştim, evenimentul B din relaţiile de mai sus poate fi exprimat în termenii unei varibile aleatoare (atât discrete cât şi continue) – fie aceasta variabilă aleatoare y – sub una din formele următoare:

a) B = {y ≤b}, b) B = { b1 ≤ y ≤ b2}, c) B = {y = b} sau d) B = {y }33.

Dintre aceste patru cazuri distincte un interes particular îl reprezintă pentru noi cazul B = {y = b}, în care variabila aleatoare y ia o valoare fixă, b:

P(A|B) = P(a|y = b) = Px|y (a|b) (5.67)

În acest caz vorbim de distribuţia de probabilitate condiţionată a variabilei aleatoare x dată de variabila aleatoare y, notată Px|y(a|b) şi ea reprezintă probabilitatea ca {x = a} atunci când variabila aleatoare y ia o valoare particulară (fixă), {y = b}.

Dacă considerăm y o variabilă aleatoare atunci, din definiţia de mai sus şi din relaţiile (5.53) şi (5.63) rezultă, ca o consecinţă directă, următoarele:

distribuţia condiţionată P(x = a | y = b) este o distribuţie de probabilitate diferită pentu fiecare valoare particulară, fixă, a lui b (cu y variabilă aleatoare discretă sau continuă);

pentru cazul cel mai general, funcţia de masă de probabilitate condiţionată, px (a|B), este dată de relaţia:

)(

),()|(

BP

BaxPBap

def

x

(5.68)

În particular, pentru x şi y două variabile aleatoare discrete (cu y de valoare fixată), funcţia de masă de probabilitate condiţionată, px|y(a|b), este dată de relaţia:

)(

),()|(| bp

bapbap

y

xydef

yx (5.69)

văzută ca o funcţie de x, pentru un y dat (fixat), px|y(a|y=b)34 are semnificaţie de probabilitate, fiind astfel o funcţie (masă) de

33 este o mulţime de numere de pe axa reală.

Page 65: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

95

probabilitate condiţionată, pentru care suma peste toate valorile lui a este egală cu 1:

1)|(| a

yx byap (5.70)

px|y(x=a|b) văzută ca o funcţie de y, pentru un x dat (fixat), nu mai are semnificaţie de probabilitate, şi funcţia poartă numele, în acest caz, de funcţie (masă) de verosimilitate; în plus, suma, respectiv, integrala peste toate valorile lui b (când y este discret, respectiv, continuu) nu mai este în mod necesar egală cu 1:

1)|(

1)|(

|

|

dbbaxp

baxp

yx

byx

(5.71)

definind în mod similar cu (5.69) şi funcţia py|x(b|a) – pentru care se menţine restricţia impusă (şi anume, y de valoare fixată) –, obţinem teorema lui Bayes pentru perechea de variabile aleatoare discrete, x şi y:

)(

)()|()|( |

| bp

apabpbap

y

xxyyx (5.72)

În lumina definiţiilor date mai sus identificăm în regula lui Bayes, dată de relaţia (5.72), următoarele elemente componente:

px|y(a|b) = funcţie de masă de probabilitate condiţionată;

py|x(b|a) = funcţie de masă de verosimilitate;

px (a), py(b) = funcţii de masă de probabilitate.

Funcţia de distribuţie de probabilitate condiţionată, Fx(a|B), a unei variabile aleatoare x, dată de realizarea evenimentului B (pentru care probabilitatea este diferită de zero), este definită ca fiind probabilitatea condiţionată a evenimentului A = { x ≤ a } dată de realizarea lui B. Variabila aleatoare x din definiţia de mai sus poate fi atât o variabilă aleatoare discretă cât şi una continuă. Pornind de la această definiţie şi folosind definiţia probabilităţii condiţionate în care înlocuim evenimentul A cu evenimentul{x ≤ a} obţinem:

34 Scrierile px|y(x=a|y=b), px|y(a| b), px|y(a|y=b), px|y(x=a|y) sunt echivalente iar preferinţa

pentru una sau alta dintre acestea este justificată doar de nevoia de a puncta mai bine anumite aspecte discutate.

Page 66: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

96

)(

),()|()|(

BP

BaxPBaxPBaF

def

x

(5.73)

În relaţia de mai sus evenimentul {x ≤ a, B} reprezintă realizarea simultană a evenimentelor {x ≤ a} şi B, altfel spus, toate acele realizări ζ ale experimentului pentru care avem simultan x(ζ) ≤ a şi ζ B.

Având în vedere proprietăţile probabilităţilor condiţionate (date de relaţiile (5.53)) precum şi modul cum a fost definită funcţia de distribuţie condiţionată, se poate foarte uşor demonstra, urmând exemplul funcţiei de distribuţie din Anexa: Proprietăţile funcţiei distribuţie de probabilitate, că Fx(a|B) are aceleaşi proprietăţi ca şi Fx(a). Dintre acestea amintim doar:

)|()|()|(

,)(),|()|(

1)|(

0)|(

1221

2121

BaFBaFBaxaP

realenumereaapentruBaFBaF

BF

BF

xx

xx

x

x

(5.74)

Pentru domeniul continuu (cu x variabilă aleatoare continuă) locul funcţiei de masă de probabilitate condiţionată, px (a|B), este luat de funcţia de densitate de probabilitate condiţionată, fx(a|B).

Funcţia de densitate de probabilitate condiţionată, fx(a|B) este şi ea definită ca derivata lui Fx(a|B):

a

BaaxaP

da

BadFBaf

a

xdef

x

)|(

lim)|(

)|(0

(5.75)

şi ea întruneşte cele două proprietăţi: (i) este non-negativă şi (ii) aria ei este egală cu 1 (demonstraţia este similară celei pentru funcţia de densitate de probabilitate, fx(a)) .

Pentru domeniul continuu un interes aparte îl reprezintă determinarea funcţiei de densitate de probabilitate condiţionată a lui x pentru o variabilă aleatoare y dată, fx|y(a|b). Pentru calculul acesteia considerăm, în continuare, evenimentele A={a < x a+Δa} şi B={b < y b+Δb}, unde y este o variabilă aleatoare continuă. Conform relaţiilor (5.26) şi (5.44), particularizate însă pentru cazul unidimensional al vectorilor aleatori x şi y şi pentru probabilităţi condiţionate, avem (pentru Δa0 şi Δb0):

Page 67: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

97

bbfbbybP

babafbbybaaxaP

abafdubbybufbbybaaxaP

y

xy

aa

ayxyx

)(

),(,

)|()|(}|{ ||

(5.76)

Înlocuind în regula lui Bayes (5.63) evenimentele A şi B definite mai sus şi aplicând relaţiile de aproximare (5.76) obţinem:

bbf

babafabaf

bbybP

bbybaaxaPbbybaaxaP

y

xyyx

)(

),()|(

)(

),()|(

|

(5.77)

De aici deducem mai departe funcţia densitate de probabilitate condiţionată, care descrie probabilitatea unei variabile aleatoare x continuă dată fiind valoarea unei alte variabile alaeatoare y continuă şi care este definită în forma (vezi Anexa: Funcţia densitate condiţionată):

)(

)()(| bf

a,bfa|bf

y

xydef

yx (5.78)

Analog domeniului discret şi în domeniul continuu putem face următoarele discuţii:

distribuţia condiţionată fx|y(x = a|y = b) este o distribuţie de densitate de probabilitate diferită pentru fiecare valoare particulară, fixă, a lui b (cu y variabilă aleatorie discretă sau continuă);

fx|y(a|y=b) văzută ca o funcţie de x, pentru un y dat (fixat), are semnificaţe de densitate de probabilitate, fiind astfel o funcţie (densitate) de probabilitate condiţionată, pentru care integrala peste toate valorile lui a este egală cu 1:

1)|(| dabyaf yx (5.79)

Page 68: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

98

văzută ca o funcţie de y, pentru un x dat (fixat), fx|y(x=a|b) nu mai are semnificaţie de densitate de probabilitate, şi funcţia poartă numele în acest caz de funcţie (densitate) de verosimilitate; în plus, suma sau integrala peste toate valorile lui b (când y este discret, respectiv, continuu) nu mai este în mod necesar egală cu 1:

1)|(

1)|(

|

|

dbbaxf

baxf

yx

byx

(5.80)

definind în mod similar cu (5.78) şi funcţia fy|x(b|a) – pentru care se menţine restricţia impusă (şi anume, y de valoare fixată) –, obţinem teorema lui Bayes pentru perechea de variabile aleatoare continui, x şi y:

)(

)()|()( |

| bf

afabfa|bf

y

xxyyx (5.81)

În cadrul relaţiei (5.81) elementele componente ale regulei lui Bayes aplicată variabilelor aleatoare continui x şi y sunt:

fx|y(a|b) = funcţie de densitate de probabilitate condiţionată;

fy|x(b|a) = funcţie de densitate de verosimilitate;

fx (a), py(b) = funcţii de densitate de probabilitate.

Formula pentru cazul cel mai general al teoremei lui Bayes pentru domeniul continuu al variabilei aleatoare x este (Anexa: Regula lui Bayes pentru cazul continuu):

daafaxBP

afaxBPBaf

x

xx

)()|(

)()|()|( (5.82)

2. Funcţiile distribuţie şi densitate condiţionate pentru vectori

aleatori Funcţia de distribuţie de probabilitate condiţionată, Fx(a|B), a unui

vector aleator x, dată de realizarea evenimentului B (pentru care probabilitatea este diferită de zero), este definită ca fiind probabilitatea condiţionată a evenimentului A = {x ≤ a} dată de realizarea lui B; aici vectorii a şi x sunt cei daţi de relaţiile (5.12) şi, respectiv, (5.30). Pornind de la această definiţie şi folosind definiţia probabilităţii condiţionate în care înlocuim evenimentul A cu evenimentul {x ≤ a} obţinem:

Page 69: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

99

)(

},{}|{)|(

BP

BaxPBaxPBaF

def

x

(5.83)

Practic, definiţia lui Fx(a|B) este aceeaşi cu definiţia lui Fx(a) cu deosebirea că toate probabilităţile sunt înlocuite cu probabilităţi condiţionate. Din aceasta rezultă că Fx(a|B) are aceleaşi proprietăţi ca şi Fx(a). În particular, funcţia de distribuţie condiţionată are următoarele două proprietăţi fundamentale:

1)|(lim.

},...,1{)(,0)|(lim.

BaFb

NipentruBaFa

xa

xai (5.84)

Din relaţia (5.84) înţelegem că funcţia de repartiţie condiţionată este zero atunci când cel puţin o componentă a vectorului valoare arbitrar a tinde la minus infinit şi ea ia valoarea 1 atunci când fiecare componentă a vectorului real arbitrar a tinde la plus infinit.

Vectorul aleator x din definiţia (5.83) poate fi atât un vector aleator discret cât şi un vector continuu. În funcţie de tipul vectorului aleator x putem vorbi de:

funcţia de masă de probabilitate condiţionată a vectorului aleator discret x dată de relaţia,

)(

),()|()|(

BP

BaxPBaxPBap

def

x

(5.85)

funcţia de desitate de probabilitate condiţionată a vectorului aleator continuu x dată de relaţia,

)(

),()|(lim

)|()|()|(

0

21

BP

BaxP

a

BaaxaP

aaa

BaF

da

BadFBaf

a

N

xN

xdef

x

(5.86)

Relaţiile (5.85), (5.86) de mai sus îmbracă, funcţie de alegerea particulară a evenimentului B, mai multe forme ce pot fi deduse matematic. Dintre acestea ne interesează în mod deosebit evenimentele de forma B={y=b}. În aceste condiţii definiţia funcţiei de masă de probabilitate condiţionată a doi vectori aleatori discreţi, x şi y, este, de exemplu, una uşor de dedus şi ea este dată de relaţia:

Page 70: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

100

)(

),()|(| bp

bapbap

y

xydef

yx (5.87)

De asemenea, pentru cazul a doi vectori aleatori continui, x şi y, de dimensiune N şi, respectiv, M funcţia densitate de probabilitate condiţionată se obţine după cum urmează. Dacă A şi B sunt două evenimente exprimate astfel:

A: a < x a + a (5.88)

B: b < y b + b (5.89)

– deci, atât evenimentul A cât şi evenimentul B au semnificaţia poziţionării vectorilor aleatori x şi, resprctiv, y, definiţi de relaţia (5.30), într-o anumită vecinătate spaţială caracterizată de relaţiile anterioare - (5.88), (5.89) (a0, b0) atunci , folosind relaţiile (5.26), (5.44) şi aplicând regula lui Bayes într-un mod similar celui folosit pentru a deduce funcţia densitate de probabilitate pentru variabile aleatoare continui (5.76), (5.77), obţinem:

Ny

xy

My

MNxy

aabf

baf

bbbf

bbaabafBAP

...)(

),(

...)(

......),()|(

1

1

11

(5.90)

Interpretarea cantităţii fx|y (a|b)a1…aN din relaţia de mai sus este următoarea: probabilitatea ca x să fie în regiunea a < x a + a dată de probabilitatea ca şi y să fie în regiunea b < y b + b. Rezultatul direct al relaţiei (5.90) îl reprezintă definiţia funcţiei de densitate de probabilitate condiţionată a perechii de vectori aleatori continui, x şi y, şi anume:

)(

)()(

bf

a,bfa|bf

y

xydef

yx (5.91)

Corespunzător celor două cazuri menţionate mai sus (domeniul discret, respectiv, continuu) distingem urmăroarele două forme pentru regula lui Bayes exprimată în termenii vectorului aleator x (detalii în Anexa: Bayes pentru vectori aleatorii continui):

cazul discret

ax

xxx apaxBP

apaxBP

BP

apaxBPBap

)()|(

)()|(

)(

)()|()|(

(5.92)

Page 71: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

101

Observaţia 5.19: Evenimentul B din relaţiile de mai sus poate fi, la rândul

lui, exprimat, funcţie de situaţie, în termenii unui vector aleator y, discret sau continuu (5.30). Ca o consecinţă directă putem întâlni următoarele situaţii distincte de aplicare a teoremei lui Bayes:

a) ambii vectori, x şi y, sunt discreţi

axxy

xxy

y

xxyyx apabp

apabp

bp

apabpbap

)()|(

)()|(

)(

)()|()|(

|

|||

(5.94)

b) ambii vectori, x şi y, sunt continui

daafabf

afabf

bf

afabfbaf

xxy

xxy

y

xxyyx

)()|(

)()|(

)(

)()|()|(

|

|||

(5.95)

c) vectorul x este discret iar y continuu

axxy

xxy

y

xxyyx apabf

apabf

bf

apabfbap

)()|(

)()|(

)(

)()|()|(

|

|||

(5.96)

d) vectorul x este continuu iar y discret

daafabp

afabp

bp

afabpbaf

xxy

xxy

y

xxyyx

)()|(

)()|(

)(

)()|()|(

|

|||

(5.97)

În general, dintre cazurile amintite mai sus, în problemele de clasificare şi de recunoaştere de pattern-uri întâlnim adesea situaţia c), în care trăsăturile analizate sunt vectori aleatori continui iar labelurile de clase sunt vectori aleatori discreţi. Practic, datele empirice analizate reprezintă valorile posibile ale vectorului aleator, y, iar componentele acestuia se presupun independente35. Cunoaşterea datei de intrare a clasificatorului – cu alte cuvinte, cunoaşterea valorii curente, b, a vectorului de trăsături –, corespunde realizării evenimentului B={y=b}. Evenimentul A reprezintă, la rândul lui, evenimentul ca variabila aleatoare x să ia una din valorile reale, notate generic ci, din cele k clase posibile. Calculul probabilităţii posterioare, P(A|B) = P(ci|y=b), devine în ipoteza de lucru de mai sus:

35 Condiţia de neredundanţă a datelor de intrare.

cazul continuu

daafaxBP

afaxBP

BP

afaxBPBaf

x

xxx

)()|(

)()|(

)(

)()|()|(

(5.93)

Page 72: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

102

ki

ixixy

ixixy

y

ixixyiyx cpcbf

cpcbf

bf

cpcbfbcp

,1

|

||| )()|(

)()|(

)(

)()|()|( (5.98)

Deoarece, în general, o funcţie de masă de probabilitate poate fi scrisă şi ca o funcţie densitate de probabilitate (vezi relaţia (5.19)), în cele ce urmează ne vom axa atenţia în mod deosebit pe cazul mai general, în care ambii vectori aleatori, x şi y, sunt continui.

Fără a mai relua aici discuţiile făcute pentru funcţiile de probabilitate condiţionată definite pentru variabile aleatoare (cazurile discret şi continuu), vom spune doar că aceleaşi observaţii şi relaţii sunt valabile şi pentru cazul mai general, cel al vectorilor aleatori (discreţi şi, respectiv, continui), cu menţiunea că locul variabilelor aleatoare este luat de vectori aleatori.

Relaţia (5.79) este una ce se deduce din relaţiile (5.91) şi (5.43) astfel:

1)(

)(

)(

)()|(|

bf

bfdu

bf

u,bfdubuf

y

y

y

xyyx (5.99)

În concluzie, funcţia densitate de probabilitate condiţionată fx|y integrată pe tot domeniul de variaţie al variabilei x, pentru orice valoare particulară a lui y, este egală cu 1. Această observaţie accentuează faptul că fx|y este funcţie densitate de probabilitate pentru vectorul aleator x şi ea are o dependenţă de y aproape ca de aceea a unui parametru. Mai mult, integrarea funcţiei fx|y pe tot domeniul de variaţie al variabilei y nu are semnificaţie.

Din relaţia (5.54) se poate observa că probabilitatea comună pentru două evenimente se poate exprima în termenii probabilităţii condiţionate a primului eveniment sau în termenii probabilităţii condiţionate a celui de al doilea eveniment. O expresie similară poate fi dedusă din relaţia (5.91) şi pentru funcţiile densitate de probabilitate:

afabfbfbafbaf xxyyyxxy || )(),( (5.100)

Din (5.100) rezultă imediat regula lui Bayes pentru funcţiile densitate de probabilitate:

bf

afabfbaf

y

xxyyx

)()( |

| (5.101)

Conform relaţiei (5.100), putem rescrie numitorul fy(b) ca o integrală după variabila x a funcţiei de distribuţie comună a vectorilor aleatori x şi y, şi obţinem astfel următoarea formă alternativă pentru relaţia (5.101):

Page 73: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

103

daafabf

afabfbaf

xxy

xxy

yx

)()(

)()()(

|

|

| (5.102)

Exemplu 5.7: Luăm următorul exemplu (vezi Figura 5.14) în care variabila aleatoare x este starea subiectului (stare caracterizată de existenţa a două clase: odihnit, respectiv, obosit din punct de vedere fizic) iar variabila aleatoare y este pulsul subiectului, presupus a fi dependent de starea acestuia.

Analizând relaţia (5.96) şi făcând o paralelă cu exemplul prezentat în Figura 5.14 observăm că funcţia fy│x (b│a) reprezintă, în mod generic, cele două densităţi de probabilitate condiţionate: fpuls | stare (b|stare=odihnit) şi fpuls | stare (b| stare=obosit). Aceste funcţii densitate de probabilitate condiţionate pot fi estimate uşor din setul de date. Ceea ce ne interesează din punct de vedere practic este însă f x│y(a│b), adică dorim să spunem ceva despre variabila aleatoare x, ce caracterizează una din cele două clase {odihnit, obosit} funcţie de variabila aleatoare y, care caracterizeatză activitatatea cardiacă a unui subiect. Prin intermediul relaţiei (5.96) ne atingem chiar acest obiectiv.

Relaţile, (5.96), sunt utilizate în mod frecvent în problemele de tip decizie şi estimare statistică. În cadrul cărţii vom utiliza aceste două relaţii în cadrul clasificatorului Bayes-ian, ele stând la baza înţelegerii acestui clasificator.

În cel mai general caz x va fi un vector aleator care nu poate fi determinat în mod direct iar y va fi un alt vector aleator, legat de x, care poate fi observat, elementele lui putând fi determinate în mod direct; în concluzie, y este un vector aleator pe care se pot realiza estimări statistice de orice tip. În cazul nostru particular, conform exemplului anterior prezentat în Figura 5.14, y este un vector aleator monodimensional, deci o variabilă aleatoare, ce poate fi determinată în mod direct (pulsul unui subiect), în timp ce x este starea subiectului pe care vrem să o determinăm. În acest context fstare(a) este denumită densitate anterioară (densitate observată înainte de producerea evenimentului stare=a) iar fstare|puls(a|b) este denumită densitate posterioară (densitate obţinută după observarea vectorului puls=b). În acest context relaţia lui Bayes este utilizată pentru a aduce noi informaţii despre stare după ce vectorul aleator monodimensional puls a fost determinat.

Page 74: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

104

Figura 5.14. Funcţiile densitate de probabilitate condiţionate ale variabilei aleatoare puls ce caracterizează două stări (odihnit/obosit) ale unui subiect

uman

5.4.7. Independenţa vectorilor şi variabilelor aleatoare Dacă considerăm probabilitatea condiţionată din relaţia (5.52) exprimată

în termenii vectorilor aleatori x şi y astfel:

A = {x = a} şi B = { y = b} (5.103)

atunci P(A|B) = P(x = a|y = b), tradusă prin probabilitatea ca {x = a} atunci când {y = b}, ne dă o măsură a dependenţei/independenţei dintre cei doi vectori aleatori.

Noţiunea de independenţă este o noţiune deosebit de utilă în contextul realizărilor repetate ale unui experiment aleator. Astfel, independenţa a două sau mai multe evenimente – ipoteză folosită adeseori în modelare (de exemplu evenimentele generate de ieşiri consecutive ale unui experiment aleator se presupun a fi independente) –, surprinde părerea noastră intuitivă despre non-interacţie şi lipsă de informaţie. Cu alte cuvinte, cunoscând evenimentul actual realizat, B, acest fapt nu ne furnizează absolut nici o informaţie despre realizarea celui de al doilea eveniment, A.

Din punct de vedere relaţional, pentru independenţa a două evenimente, A şi B, respectiv, a doi vectori aleatori, x şi y, definiţi de (5.30), avem următoarele relaţii:

15014013012011010090807060504030

0.05

0.04

0.03

0.02

0.01

0

b – pulsul [ bătai/min.]

fy | x(b|a)

x = a {odihnit, obosit}

odihnit – subiecţi odihniţi din punct de vedere fizic

obosit – subiecţi obosiţi din punct de vedere fizic

f puls | stare ( b | odihnit) f puls | stare ( b| obosit)

f puls | stare (80.0 | odihnit)

f puls | stare (105.0 | obosit)

Page 75: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

105

Tabelul 5.10. Independenţa a două evenimente aleatoare versus independenţa a doi vectori aleatori

Independenţa a două evenimente aleatoare

versus Independenţa a doi vectori

aleatori

Definiţie

Două evenimente, A şi B, spunem că sunt statistic independente dacă şi numai dacă:

)()()( BPAPABPdef

(5.104)

sau, echivalent,

)()|( APBAP (5.105)

(probabilitatea condiţionată este egală cu probabilitatea necondiţionată/marginală).

Definiţie

Doi vectori aleatori, x şi y, spunem că sunt statistic independenţi dacă evenimentele A={

1x } şi B={2y } sunt

independente, respectiv:

)()(),( 2121 yPxPyxP (5.106)

unde NR1 iar MR 2

.

Independenţa (statistică) a vectorilor aleatori x şi y (fie aceştia discreţi sau continui) se mai defineşte, în consecinţă, şi:

[1] în termenii funcţiei de distribuţie comună a lui x şi y, respectiv:

)()()( bFaF ba,F yx

def

xy (5.107)

pentru toţi a, b R

[2] în termenii funcţiei masă/densitate de probabilitate comună a lui x şi y:

)()(),(

)()(),(

bfafbaf

bpapbap

yxxy

yxxy

(5.108)

[3] în termenii probabilităţilor/densităţilor condiţionată şi marginală:

)()|(

)()|(

bpabp

apbap

yy

xx

(5.109)

)()|(

)()|(

|

|

bfabf

afbaf

yxy

xyx

Independenţa condiţionată

)|()|()|,( CBPCAPCBAP (5.110)

Independenţa condiţionată

[1] În termenii funcţiilor de distribuţie

Fxy|z(x a,y b|z = c) = =Fx|z (x a |z = c) Fy|z (y b |z = c)

pentru toţi a, b şi c astfel încât F(z

Page 76: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

106

c)>0

[2] În termenii funcţiilor masă/densitate de probabilitate

pxy|z(a,b | c) = px|z (a | c) py|z (b | c)

pentru toţi a, b şi c astfel încât pz(c)>0

fxy|z(a,b | c) = fx|z (a | c) fy|z (b | c)

pentru toţi a, b şi c astfel încât fz(c)>0

Relaţia (5.105) – dedusă din (5.52) şi (5.104) – captează foarte bine esenţa a ceea ce se înţelege prin noţiunea de independenţă şi anume faptul că probabilitatea evenimentului A este aceeaşi indiferent dacă evenimentul B s-a realizat sau nu. Din acest punct de vedere această ultimă relaţie poate fi o definiţie chiar mai bună decât cea dată de relaţia (5.104), fiind totodată şi o modalitate de testare a independenţei a două evenimente aleatoare.

Pornind de la relaţia (5.104) putem extinde independenţa de la două la n evenimente, A1, ..., An, astfel: presupunem că avem definită independenţa a k evenimente, pentru orice k < n. Atunci, spunem că evenimentele A1, ..., An sunt independente dacă oricare k din aceste evenimente sunt independente şi, în plus:

)()()( 11 nn APAPAAP (5.110)

Relaţia (5.110) este o consecinţă directă a relaţiilor (5.55) şi (5.105).

Problemă 5.15: Dacă pentru două evenimente, A şi B, diferite de evenimentul imposibil, este adevărată egalitatea P(B|A) = P(B|Ā), atunci, să se demostreze că evenimentele A şi B sunt independente.

Observaţia 5.19: Adeseori, se face confuzie între noţiunile de evenimente disjuncte şi evenimente independente. Deosebirea între aceste evenimente este dată de:

evenimente disjuncte: P(AB) = P(Ø) = 0 evenimente independente: P(AB) = P(A)P(B).

În plus, atunci când A şi B sunt evenimente independente din S, având probabilităţi nenule atunci A∩B este o mulţime ce conţine cel puţin un eveniment elementar ζi din spaţiul de selecţie S (vezi Anexa: Evenimente indpendente).

Aplicând relaţia (5.106) evenimentelor {x a} şi {y b} deducem că, dacă vectorii aleatori x şi y sunt independenţi, atunci sunt valabile şi relaţiile (5.107) şi (5.108) (demonstraţia este una imediată). Se poate, de asemenea, arăta că şi reciproca este valabilă; respectiv, dacă este adevărată relaţia

Page 77: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

107

(5.107) sau (5.108) atunci este adevărată şi relaţia (5.106). Cu alte cuvinte, evenimentele pe care aceşti vectori aleatori le-ar putea genera ar trebui să fie şi ele, la rândul lor, independente.

Observaţia 5.20: Generalizând, vom spune că dacă avem N vectori aleatori36, xi, de dimensiune di, atunci aceştia sunt (statistic) independenţi dacă:

}{}{},,{ 1111 NNNN xPxPxxP (5.111)

Aici idi R . În particular, în cazul când d1=…= dN =1 atunci nu

mai vorbim de vectori aleatori independenţi ci de variabile aleatoare independente sau, echivalent, de un vector aleator ale cărui componente sunt (statistic) independente.

Pornind de la relaţiile (5.91), (5.87) şi folosindu-ne de relaţiile (5.108), ce reflectă independenţa statistică a vectorilor aleatori x şi y, deducem relaţiile (5.109). Aceste relaţii exprimă faptul că, pentru cei doi vectori independenţi, densităţile condiţionate fx|y(a|b) şi fy|x(b|a) sunt identice cu densităţile necondiţionate corespunzătoare, numite şi marginale, fx (a) şi, respectiv, fy

(b).

)()|(

)()|(

|

|

bfabf

afbaf

yxy

xyx (5.112)

Într-un mod mai intuitiv aceasta înseamnă că ştiind valoarea actuală pe care o ia un vector aleator din cei doi vectori analizaţi (x şi y), acest fapt nu ne furnizează absolut nici o informaţie despre valoarea pe care o va lua celălalt vector aleator analizat (y, respectiv, x).

În acest caz se spune că vectorii aleatori sunt statistic independenţi, rezultând astfel din relaţiile (5.91) şi (5.112) următoarea relaţie:

)()(),( bfafbaf yxxy (5.113)

În ceea ce priveşte independenţa condiţionată în mod intuitiv, două variabile aleatoare x şi y sunt condiţionat independente dată o a treia v.a. z dacă, o dată ce z este cunoscut valoarea lui y nu ne aduce nici o informaţie în plus despre v.a. x, vezi şi relaţia (5.110).

Observaţia 5.21: Vectorii aleatori care nu sunt independenţi se numesc vectori dependenţi. Trebuie avut grijă să nu facem confuzie între

36 În cadrul acestei relaţii a nu se face confuzie cu o componentă a unui vector aleator,

notaţie utilizată uzual în cadrul acestei cărţi. Numai în cadrul acestei observaţii xi este vectorul aleator i.

Page 78: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

108

noţiunile de dependenţă/independenţă şi noţiunea de cauzalitate. Astfel, doar pentru că doi sau mai mulţi vectori aleatori sunt dependenţi asta nu înseamnă că există şi o relaţie cauzală între aceştia.

Observaţia 5.22: Când doi vectori aleatori (sau variabile aleatoare sau evenimente) sunt independenţi (independente) atunci ei (ele) sunt simultan şi necorelaţi37 (necorelate).

Exemplul 5.6: Dacă avem următoarele două variabile aleatoare – înălţimea şi coeficientul de inteligenţă – putem afirma că acestea sunt independente. Astfel, cunoscând înălţimea unui individ nu vom putea spune nimic despre inteligenţa acestuia. Dacă, în schimb, cele două variabile sunt de data aceasta circumferinţa unui subiect la nivelul abdomenului şi greutatea acestuia, cu certitudine între aceste două variabile va exista o dependenţă şi o puternică corelare.

În general, o variabilă aleatoare independentă este o variabilă asupra căreia se presupune că avem controlul într-un experiment sau într-o analiză. Acestor variabile independente le putem „da” orice valoare fără nici o altă restricţie impusă de o altă variabilă existentă. Variabilele aleatoare independente le influenţează în mod direct pe cele dependente. Variabilele dependente pot fi doar măsurate/determinate (ele corespund rezultatelor experimentului aleator asociat). Astfel, valorile variabilelor dependente se schimbă ca rezultat al variabilităţilor variabilelor independente (vezi Subcapitolul variabile aleatoare). Aceeaşi discuţie este valabilă şi pentru cazul mai general, cel al vectorilor aleatori.

Exemplul 5.7: Reluăm aici un exemplu, şi anume acela în care am încercat printr-o analiză a activităţii cardiace (cuantizată prin numărul de bătăi pe minut al inimii) să comparăm stările odihnit, respectiv, obosit ale unor subiecţi în vederea clasificării acestora în cele două clase corespondente (clasa odihnit, clasa obosit). În acest exemplu am folosit ca şi variabilă independentă, x, starea subiecţilor (cu cele două valori posibile {odihnit, obosit}) iar ca variabilă dependentă, y, activitatea cardiacă a acestora, vezi Figura 5.14.

Exemplul 5.8: Pentru a înţelege mai bine ce presupune o dependenţă a unei v.a. de una sau mai multe v.a. vom spune că adesea, în aplicaţiile practice, se încearcă chiar găsirea unui model matematic care să modeleze cât mai bine relaţia funcţională dintre variabilele aleatoare

37 Asupra noţiunii de necorelare se va reveni şi exemplifica ulterior în cadrul cărţii,

momentan trebuie doar să reţinem această afirmaţie

Page 79: 5.1. Introducere - etc.tuiasi.ro 51-54.pdf · anumită caracteristică a populaţiei (de exemplu, diametrul hematiilor, vârsta sau înălţimea subiecţilor etc.) în statistică

109

investigate. Un exemplu de astfel de relaţie matematică este şi relaţia de forma:

z = y2 + 3 x2 + 2 x (5.114)

În această relaţie variabilele x şi y sunt independente în timp ce variabila z este variabilă aleatoare.dependentă.

Observaţia 5.23: În analiza statistică de foarte mare utilitate este ipoteza de lucru conform căreia variabilele aleatoare studiate sunt independente şi identic distribuite (i.i.d.). Aceste proprietăţi ale variabilelor aleatoare se traduc prin aceea că:

variabilele aleatoare sunt mutual independente şi, în plus, ele sunt selectate din aceeaşi distribuţie de probabilitate.

Un exemplu de variabile aleatoare i.i.d. sunt variabilele aleatoare x1,..., xN asociate rezultatelor celor N aruncări succesive cu zarul (zarul este presupus a fi unul ideal).

Observaţia 5.24: De multe ori, în multe analize se presupune că o secvenţă de eşantioane, obţinute în urma eşantionării unui anumit semnal real, este i.i.d. – ceea ce semnifică în principal faptul că nu putem cunoaşte sau extrage nici o informaţie în legătură cu un anumit eşantion al secvenţei din informaţiile pe care le cunoaştem despre celelalte eşantioane ale secvenţei. Dar, într-o situaţie reală această ipoteză de lucru este una hazardată, deoarece aceste eşantioane sunt de cele mai multe ori corelate datorită folosirii – anterior sistemului de conversie analog-digitală – a unor diferite siteme de prefiltrare.

Orice filtru trece jos determină ca eşantioanele consecutive sau cele mai apropiate temporal, ale secvenţei, să devină corelate. Cu cât frecvenţa de „tăiere” a filtrului trece jos este mai mică (mai depărtată de frecvenţa Nyquist, de eşantionare, a sistemului de achiziţie) cu atât corelaţia existentă între două eşantioane consecutive este mai mare şi, în plus, perioada de timp (extinderea temporală) a acestei corelaţii este mai mare. Dacă frecvenţa de tăiere a filtrului este apropiată de frecvenţa Nyquist de eşantionare atunci corelaţia dintre eşantioanele secvenţei nu este una importantă şi se poate considera că variabilele secvenţei sunt aproximativ mutual independente.


Recommended