Teza

UNIUNEA EUROPEANĂ GUVERNUL ROMÂNIEI

MINISTERUL MUNCII, FAMILIEI ŞI PROTECŢIEI SOCIALE

AMPOSDRU

Fondul Social European POSDRU 2007-2013

Instrumente Structurale 2007-2013

OIPOSDRU UNIVERSITATEA TEHNICĂ “GHEORGHE ASACHI”

DIN IAŞI

UNIVERSITATEA TEHNICĂ “GHEORGHE ASACHI” DIN IAŞI

Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei

Contribuţii privind Metode de Extragere a Trăsăturilor într-un Sistem de Recunoaştere

- REZUMAT TEZĂ DE DOCTORAT -

Conducător de doctorat: Prof. univ. dr. Liviu Goraş

Doctorand: Ing. Radu-Laurenţiu Vieriu

IAŞI - 2012



AMPOSDRU




DIN IAŞI

Teza de doctorat a fost realizată cu sprijinul financiar al

proiectului „Burse Doctorale pentru Performanţa în Cercetare la

Nivel European (EURODOC)”.

Proiectul „Burse Doctorale pentru Performanţa în Cercetare la

Nivel European (EURODOC)”, POSDRU/88/1.5/S/59410, ID 59410,

este un proiect strategic care are ca obiectiv general „Dezvoltarea

capitalului uman pentru cercetare prin programe doctorale pentru

îmbunătățirea participării, creșterii atractivității şi motivației pentru

cercetare. Dezvoltarea la nivel european a tinerilor cercetători care

să adopte o abordare interdisciplinară în domeniul cercetării,

dezvoltării şi inovării.”.

Proiect finanţat în perioada 2009 - 2012.

Finanţare proiect: 18.943.804,97 RON

Beneficiar: Universitatea Tehnică “Gheorghe Asachi” din Iaşi

Partener: Universitatea „Babeş Bolyai” din Cluj-Napoca

Director proiect: Prof. univ. dr. ing. Mihaela-Luminiţa LUPU

Responsabil proiect partener: Prof. univ. dr. ing. Alexandru

OZUNU



AMPOSDRU




DIN IAŞI

Acknowledgements

I would like to thank Professor Liviu Goraş for his enthusiasm, guidance and unlimited support offered over the research years. His valuable feedback and suggestions were always appreciated.

Many thanks towards Professor Nicu Sebe for giving me the opportunity of meeting and working with the whole crew from his department in Trento and also for his constructive comments during my research stage in Italy. Special thanks to Ram, Anoop, Elisa and Oswald for their kind support and friendly attitude. I keep great souvenirs from all the activities done in Italy.

I would also like to acknowledge the financial support offered by the “Doctoral Scholarship for research performance at European level (EURODOC)” project, financed by the European Social Fund and the Romanian Government.

At the same time, I would like to express my gratitude for friends, staff members, colleagues and family for all the help and understanding.

Last but not least, I would like to thank my wife for her endless moral support, love and care with which I was blessed during all my research years.

�

Contents

1 Introducere 1

2 Trasaturi si tehnici de ınvatare 32.1 Trasaturi pentru aplicatii de recunoastere . . . . . . . . . . . . . . . . . . . . 32.2 Teoria transferului de cunostinte . . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Metode de ınvatare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Recunoasterea fetelor folosind HMM 103.1 Metoda adoptata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2 Rezultate si discutii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Recunoasterea gesturilor statice folosind HMM 154.1 Metoda propusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2 Resultate si concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5 Estimarea pozitiei capului 195.1 Determinarea celei mai discriminatorii trasaturi pentru HPE . . . . . . . . . 205.2 Cazul simplu: subiecti aflati ın punctul de referinta . . . . . . . . . . . . . . 235.3 Cazul subiectilor aflati ın miscare . . . . . . . . . . . . . . . . . . . . . . . . 255.4 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6 Concluzii si abordari viitoare 32

i

1 Introducere

Un lucru pe care l-am ınvatat de-a lungul anilor de doctorat este legat de faptul canu exista un set de trasaturi generale, ci mai degraba o dependenta stransa ıntre trasaturisi aplicatia pe care o trateaza. Se pot astfel gasi trasaturi care sa functioneze remarcabilpentru o aplicatie data, dar ın acelasi timp sa fie total nepotrivite ıntr-un alt context. Totisunt interesati de trasaturi compacte si discriminatorii, care sa pastreze spatiul vectorial catmai mic posibil, usurand astfel calculul si facand algoritmul sa ruleze ın timp real. Acestultim deziderat este pastrat ın general mai spre final, datorita dezvoltarii tehnologice tot maiaccentuate, care face ca algoritmi ce durau minute cu catva timp ın urma, sa aiba nevoie desecunde pentru acelasi rezultat.

Extragerea trasaturilor este una din cele mai importante etape ıntr-un sistem de detectiesau recunoastere ce ıi poate influenta decisiv performantele. Trasaturile sunt reprezentate devectori multi-dimensionali, ın care se concentreaza cat mai multa informatie discriminatoriedespre datele din care sunt extrase. Pentru a putea realiza o combinatie optima ıntre unanumit tip de trasatura si algoritmul de ınvatare ce o foloseste, este necesara ıntelegereamecanismului de aranjare a punctelor-trasatura ın spatiul vectorial si mai important, catde bine aceste puncte reflecta caracteristici ale bazei de date. Cu alte cuvinte, este foarteimportant sa existe o legatura ıntre baza de date si trasaturile rezultate (din punct de vedereal gradului de reprezentare), iar aceasta legatura trebuie exploatata cat mai eficient de catrealgoritmul de ınvatare.

Motivatie

Acest studiu a fost impus de necesitatea de a evidentia cat mai mult din relatia dintevectorii-trasatura si metodele de ınvatare des ıntalnite ın literatura. Pentru aceasta, au fostanalizate si testate diverse tipuri de trasaturi ın diferite scenarii specifice ınvatarii artificiale,precum recunoasterea fetelor, a gesturilor statice generate de maini precum si estimareapozitiei capului. O buna parte din teza este dedicata acestei ultime aplicatii, acest lucrufiind motivat de existenta unui proiect mai amplu ce are ca scop interpretarea datelor de tipcomportamental din evenimente de tip socializare.

Structura tezei

Teza este construita ın jurul a trei directii. Prima implica analiza impactului mai multortipuri de trasaturi asupra performantelor unul sistem de recunoastere a fetelor, folosind mod-ele Markoviene. Prin urmare, Capitolul 3 prezinta analize parametrice legate de dimensiuneaspatiului, precum si gradul de imunitate la zgomot al diverselor trasaturi testate. Cea de-adoua tema propune o solutie simpla dar rapida si eficienta ın ceea ce priveste problema derecunoastere a gesturilor statice efectuate de maini, utilizand aceleasi modele Markoviene.Detalii asupra metodei sunt prezentate ın Capitolul 4.

Capitolul 5 trateaza estimarea pozitiei capului din imagini de rezolutie scazuta provenitede la mai multe camere de filmat si ofera solutii elegante pentru cateva scenarii. Pentrucazul static (ın care subiectii se afla plasati ıntr-un punct de referinta) a fost propus un nou

1

algoritm, numit Xferboost, care combina eficienta unui algoritm de tip boosting cu elementedin teoria transferului de cunostinte. Pentru cazul subiectilor aflati ın miscare a fost propusun cadru adaptiv ce ıncorporeaza o functie de tip distanta ponderata ce poate fi transferatade la un domeniu sursa la unul tinta. In acelasi capitol a fost realizat un studiu comparativasupra trasaturilor cu aplicatie pe estimarea pozitiei capului si de asemenea este prezentataınregistrarea unei baze de date pentru aceeasi aplicatie, ce contine mai mult de 60000 deelemente etichetate.

In afara de cele trei capitole, Capitolul 1 face o scurta introducere ın tematica abordataın aceasta teza, prezentand de asemenea motivatia si structura tezei, Chapter 2 reprezintao scurta trecere ın revista a ceea ce reprezinta state-of-the-art ın domeniul metodelor deextragere de trasaturi, respectiv cel al algoritmilor de ınvatare, iar concluziile si abordarileulterioare sunt discutate ın Capitolul 6.

2

2 Trasaturi si tehnici de ınvatare

In acest capitol sunt introduse cateva din cele mai uzuale metode de extragere a tra-saturilor faciale des ıntalnite ın literatura, urmand ca apoi sa fie discutate trei tehnici deınvatare utilizate ın aplicatii de recunoastere, precum cele de tip boosting, Support VectorMachines (SVMs) si modelele statistice Markoviene cu stari ascunse (HMMs). In plus,o tehnica particulara de ınvatare, ce transfera cunostinte ıntre domenii, intens folosita ınCapitolul 5, este de asemenea prezentata aici.

2.1 Trasaturi pentru aplicatii de recunoastere

Scopul acestei sectiuni este de a prezenta o serie de trasaturi discriminatorii potrivitepentru aplicatii de recunoastere a fetelor, respectiv a pozitiei capului. Sunt astfel discu-tate trasaturi provenite din Transformata Cosinus Discreta (DCT), Transformata WaveletDiscreta (DWT), cele de tip Scale Invariant Feature Transform (SIFT), Histogram of Ori-ented Gradients(HOG), Local Binary Patterns (LBP) si de asemenea cele de tip matrice decovarianta.

Transformata Cosinus Discreta

Transformata Cosinus Discreta este un mijloc eficient de compresie si reprezentare. Ase-manator analizei PCA [1], DCT concentreaza informatia ıntr-un numar restrans de coefici-enti, ceea ce permite selectia catorva pentru a forma vectori-trasatura. Eficienta acesteitransformate a fost dovedita ıntr-o mare varietate de aplicatii, de la compresie a sem-nalelor audio, respectiv a imaginilor (e.g. formatul JPEG), pana la metode spectrale pentrusolutionarea numerica a ecuatiilor diferentiale partiale.

Coeficientii DCT provenind de la imagini sunt grupati ın trei zone distincte, corespunza-toare frecventelor spatiale joase, medii, respectiv ınalte. In aplicatii de recunoastere a fetelor,frecventele joase reflecta variatii scazute ale functiei intensitate luminoasa si sunt asociateın general conditiilor de iluminare. Frecventele medii descriu principalele trasaturi ale fetei,ın timp ce frecventele ınalte contin informatie de detaliu fin respectiv zgomot. Tinand contde aceste asocieri, coeficientii reprezentand frecvente ınalte sunt evitati, ıntrucat zgomotuleste ın general o componenta perturbatoare ın astfel de aplicatii.

Odata obtinuti coeficientii DCT, o parte sunt utilizati ın formarea vectorilor de trasaturi,tinand cont de importanta lor ın rezolvarea problemei. Exista o serie de metode de selectiea coeficientilor, ın functie de relevanta, cele mai uzuale fiind metoda zig-zag, respectiv ceabazata pe masti zonale. Principalul dezavantaj al acestor doua metode deterministe esteca nu tin cont de structura bazei de date. In [2] a fost propusa o tehnica ce tine cont decaracteristicile bazei de date, intitulata Discrimination Power Analysis (DPA), ce realizeazao sortare a coeficientilor ın functie de puterea de discriminare. Aceasta metoda a condus lacresterea usoara a performantelor unui sistem de recunoastere, ınsa cu costuri suplimentarede calcul.

3

http://en.wikipedia.org/wiki/JPEG

Transformata Wavelet Discreta

Spre deosebire de DCT, ale carei functii de baza sunt cele de tip cosinus, transformataWavelet (DWT) se bazeaza pe forme de unda de durata limitata. Principala contributiea acestor functii, intitulate wavelets, este ca retin informatie temporala legata de semnalulprocesat. In domeniul inteligentei artificiale, DWT a fost folosita ın aplicatii de detectie([3, 4]) si recunoastere a fetelor ([5, 6, 7]), demonstrandu-si astfel puterea de discriminare.

Plecand de la o imagine ın nuante de gri de dimensiune M×N , o etapa de descompunerela un anumit nivel, j+1, ın coeficienti DWT duce la aparitia a patru zone, asa cum se poatevedea ın Fig. 2.1: aproximarea de nivel inferior, j, si imaginile corespunzatoare detaliilor petrei directii (orizontala, verticala si oblica). Capacitatea de a separa informatia pe directiiofera o serie de avantaje acestei transformate. Spre exemplu, o cale de a construi un sistemde recunoastere robust la variatia conditiilor de iluminare este prin alegerea coeficientilorcare sa reflecte detalii pe acele directii ın care nu se manifesta si iluminarea.

In practica, calculul coeficientilor DWT presupune utilizarea de filtre asociate functiilorde tip wavelet si celule de esantionare.

Figure 2.1: Descompunerea imaginii initiale (Wφ(j + 1)) ınaproximarea de nivel inferior(Wφ(j)) si coeficientii cu detalii pe

orizontala(WHψ (j)), verticala(W V

ψ (j)) si diagonala(WDψ (j))

Scale Invariant Feature Transform

Trasaturile de tip Scale Invariant Feature Transform (SIFT) au fost introduse de Lowe ın[8] si utilizate cu succes ın aplicatii de recunoastere[9], sisteme de ghidare a robotilor [10] [11],lipire de imagini [12], modelare a scenelor ın 3D [13] si altele. Atractivitatea spre acest tipde trasatura este motivata de robustetea sa nativa ın raport cu diferiti factori perturbatori,precum procese de scalare, rotiri, zgomot, iluminare si obturatii partiale.

SIFT presupune extragerea si retinerea de puncte cheie ale obiectelor de referinta dinimagini, utilitate ulterior ın comparatii pe baza de distanta Euclidiana cu alte puncte cheieasociate altor obiecte. Seturi de astfel de puncte sunt create, pe baza informatiei comune,apoi se calculeaza probabilitatea ca un astfel de set sa descrie obiectul analizat. Caracteristicade a compara diverse trasaturi locale ale aceluiasi obiect face din SIFT o metoda flexibilade reprezentare a informatiei, de aici rezultand ın special imunitatea la ocluzii partiale.

Histograme ale vectorilor de tip gradient

Derivate din SIFT, aceste trasaturi de tip histograma au fost propuse de Dalal si Triggs ın[14]. Autorii au raportat performante superioare pe baza de date MIT continand pietoni, ıncomparatie cu alte tipuri de trasaturi precum PCA-SIFT [15] sau shape context [16]. HOGpresupune numararea aparitiilor vectorilor de tip gradient ın diverse portiuni ale imaginii,

4

numite celule, si combinarea esantioanelor pentru a descrie forme locale. Pentru a ımbunatatiraspunsul la conditiile de iluminare, o tehnica de normalizare a contrastului prin acumulareaenergiei histogramei pe zone mai mari din imagine (numite blocuri) a fost de asemeneapropusa. Calculul trasaturii de tip HOG este unul simplu: se ımparte imaginea ın celule, secalculeaza vectorii gradient, apoi urmeaza un proces de vot al pixelilor din interiorul celulelorcu privire la orientarea vectorilor si ın final calculul histogramei cu utilizarea informatiei lanivel de bloc. Exista, prin urmare, o serie de parametri ce pot fi modificati pentru a obtine ceamai potrivita trasatura HOG: dimensiunea si forma celulelor, dimensiune si forma blocurilor,numarul de esantioane ce alcatuiesc histograma, tipul vectorilor gradient (cu sau fara semn)si altele. Autorii din [14] au descoperit ca pe aplicatia de detectie de pietoni, cea mai bunacombinatie de parametri a fost obtinuta prin utilizarea a unor histograme formate din 9esantioane si utilizand vectori gradient fara semn.

Din momentul ın care au fost prezentate, trasaturile de tip HOG au cunoscut o notorietatecrescanda ın comunitatea de cercetare, fiind preferate ın special ın aplicatii de detectie ıncare obiectul de interes este corpul uman.

Local Binary Patterns

Trasaturile de tip Local Binary Patterns (LBP) au fost propuse ınitial de Ojala et al.ın [17] pentru descrierea texturilor si de atunci au fost extinse pentru aplicatii de detectiesi recunoastere, unde s-au bucurat de o atentie deosebita, datorata imunitatii la variatiimonotone ale nivelului de gri precum si datorita efortului scazut de calcul. Aceste trasaturiau capacitatea de a capta informatia la nivel local a imaginii, facandu-le astfel potrivitepentru analize de texturi1.

Pentru a obtine o trasatura de tip LBP este necesara o fereastra de dimensiune 3 pe3 pixeli, apoi se compara valorile pixelilor cu valoarea celui din mijloc si apoi se considerarezultatul ın forma binara. Din binar, rezultatul se transforma ın zecimal. Urmeaza apoiconstructia unei histograme din astfel de valori zecimale, rezultate dintr-o anumita zona aimaginii.

Pentru a descrie ıntreaga structura a unei fete, Ahonen a propus ın [18] divizarea imaginiiın subferestre si extragerea unei histograme din fiecare fereastra, asigurand astfel pastrareainformatiei locale a imaginii. Ulterior, trasaturile de tip LBP au suferit diverse modificaripentru ımbunatatirea performantelor sistemelor de recunoastere, propunandu-se ın acest senso multitudine de versiuni. Un studiu amanuntit legat de LBP si variantele sale, cu aplicatiipe analiza imaginilor continand fete, poate fi gasit ın [19].

Trasaturi de tip matrice de covarianta

Descriptorii de tip matrice de covarianta au fost introdusi de catre Tuzel et al. ın [20]pentru aplicatii de detectie a fetelor, respectiv pentru analiza de texturi. Ideea de baza aacestor trasaturi este de a combina ın sens statistic mai multe trasaturi de nivel inferior.Setul initial continea locatii ale pixelilor, valori ale canalelor de culoare, derivate partialeale functiei intensitate, ınsa recent lista a fost extinsa si include convolutii cu filtre Gabor,distante Kullback-Leibler [21] si altele. Principala regula pentru o trasatura de nivel inferioreste ca forma de reprezentare sa fie aceeasi cu a imaginii initiale, facand astfel posibil calculul

1De asemenea si fata poate fi privita ca o colectie de tipare, asa cum reiese din [18]

5

matricelor de covarianta. Prin natura constructiei, aceste matrice capteaza corelatiile dintrediverse trasaturi componente, ımprumutand de asemenea caracteristice de la acestea.

Marele dezavantaj al trasaturilor de tip matrice de covarianta este ca nu fac parte dinspatiul Euclidian si astfel nu pot fi utilizate de algoritmi consacrati. Din fericire, faptulca matricele sunt simetrice si pozitiv semi-definite le plaseaza ıntr-un spatiu aparte, celRiemannian, unde se pot defini notiuni precum unghiuri, volume, gradienti etc. Multumitaproprietatii de derivare, se pot defini derivate ale diverselor curbe ce trec printr-un punct dat.Aceste derivate fac parte dintr-un plan tangential la punctul considerat. Proiectand toatepunctele corespunzatoare unui set pe planul tangential asociat unui punct definit a priori,autorii din [22] au reusit o operatie de vectorizare a matricelor, ceea ce a permis utilizarealor ın scheme ce contin algoritmi clasici de ınvatare. Autorii au propus o modificare aalgoritmului Logitboost pentru a lua ın calcul geometria Riemanniana folosind o functie demapare a punctelor din spatiu direct pe planul tangential, unde se aplica metrici euclidiene.

Pe fondul algoritmului Logitboost, optimizarea de tip scadere dupa gradient utilizataın [22] calculeaza, la fiecare iteratie, media punctelor clasificate gresit la etapa anterioara(aceasta medie fiind punctul la care se raporteaza planul tangential), construind astfel clasifi-catori potriviti pentru acele puncte. Aceasta tehnica functioneza foarte eficient pentru cazulunei clasificari binare, ınsa daca se considera mai multe clase, e mai dificil de ales o mediecare sa nu favorizeze o clasa ın fata alteia. Unul dintre algoritmii prezentati ın Capitolul5 se bazeaza pe studiul efectuat de Tosato et al. ın [23], unde a fost propus un algoritm,intitulat ARCO, ce utilizeaza astfel de trasaturi de covarianta. Aplicatia tratata ın [23] esteuna multi-clasa, iar ın acest context autorii au propus utilizarea unui punct neutru la caresa se raporteze planul tangential, aratand experimental ca alegerea acestuia nu influenteazaprea mult rezultatele. In consecinta, autorii au ales matricea unitate ca element de referintapentru proiectia tuturor matricelor de covaranta, ın scopul vectorizarii.

2.2 Teoria transferului de cunostinte

Teoria transferului de cunostinte descrie, ın contextul inteligentei artificiale, abilitateaunui sistem de a rezolva o problema ıntr-un domeniu nou (tinta), folosind informatii dintr-un domeniu existent (sursa), dar corelat cu cel nou. In aceasta forma se poate discutadespre algoritmi ce proceseaza date provenite din distributii diferite si chiar avand forme dereprezentare diferite. Prin transfer de cunostinte se elimina constrangerile legate de existentala antrenare a unui numar consistent de elemente etichetate, ceea ce face antrenarea ıntr-un domeniu nou mult mai putin costisitoare. Multumita evolutiei ın acest domeniu, multeaplicatii de clasificare, regresie sau clusterizare pot beneficia de aceasta teorie.

In ciuda beneficiilor aduse de transferul de cunostinte, exista totusi un dezavantaj: ınanumite conditii poate aparea fenomenul de transfer negativ, ceea ce implica rezultate maislabe pentru un sistem ce implementeaza aceasta teorie fata de cazul simplu. Desi s-a studiatfoarte putin aceasta problema, este unanim acceptat faptul ca transferul negativ este stranslegat de masura de relationare dintre domenii.

Exista o ımpartire a metodelor ce implementeaza transferul de cunostinte, ın functiede existenta elementelor etichetate ın cele doua domenii, ın inductive, transductive si ne-supravegheate. O alta ımpartire tine cont de ce anume se transfera de la sursa la tinta,rezultand astfel metode care transfera elemente, forme de reprezentare a trasaturilor, para-

6

metri de model sau direct elemente relationale dintre domenii.In acest context, primul algoritm propus ın aceasta teza se ıncadreaza ın cazul inductiv,

cu transfer de elemente, unde exista un domeniu sursa intens populat cu elemente etichetatesi un domeniu tinta, unde doar cateva elemente sunt prezente. Rolul tranferului de cunostinteeste de a construi un clasificator care sa functioneze ın domeniul tinta, desi a fost antrenatpreponderent cu elemente din domeniul sursa.

2.3 Metode de ınvatare

Aceasta sectiune face o prezentare succinta a catorva algoritmi de ınvatare, precummetode de tip boosting, Support Vector Machines si modele Markov cu stari ascunse. Ovarianta de algoritm de tip boosting este propusa ın Capitolul 5, numita Xferboost, prinadaugarea de abilitati specifice teoriei transferulu de cunostinte. De asemenea, capitolele3 si 4 utilizeaza intensiv modelele Markoviene pentru cele doua aplicatii de recunoastere.SVM-urile au fost utilizate doar pentru comparatie cu metodele propuse.

Metode de tip boosting

Tehnica de tip boosting (to boost - a propulsa) construieste clasificatori puternici, folosindmai multi clasificatori slabi. Pe post de clasificator slab poate fi orice functie decizionala,al carei raspuns este mai bun decat al unei variabile aleatoare binare. In final, clasificatorulrezultat va avea un profil foarte apropiat de raspunsul ideal.

Mecanismul de constructie presupune o procedura dubla de ponderare. Pe de o parte,elementele din setul de antrenare primesc ponderi, ın functie de masura ın care sunt etichetatecorect sau nu de clasificatorii slabi stabiliti anterior, iar pe de alta parte exista un set deponderi asociat clasificatorilor ınsisi, care asigura o ordine a importantei acestora. Deciziafinala este construita pe baza votului ponderat al clasificatorilor componenti.

Desi ın literatura exista o varietate de metode de tip boosting, AdaBoost este de departecel mai cunoscut. Propus de Freund si Shapire ın [24], AdaBoost implementeaza o optimizarede tip scadere dupa gradient ce presupune un numar de T iteratii, fiecare constand ın selectia,dint-o lista, a unui clasificator slab. Distributia de ponderi este actualizata dupa fiecareiteratie, conducand la ponderi mai mici pentru elementele etichetate corect de clasificatoriianteriori si ın acelasi timp la ponderi crescute pentru elementele plasate gresit ın clasaconcurenta.

Desi prezinta sensibilitate la zgomot si elemente aflate la granitele claselor, AdaBoostramane algoritmul preferat ın multe aplicatii de clasificare, datorita simplitatii, capacitatiide generalizare bune precum si flexibilitatii crescute.

Support Vector Machines

Originile algoritmului de tip SVM dateaza din anii ′70s [25], ınsa forma actuala ce imple-menteaza conceptul de soft margin a fost propusa abia ın 1995 de Vapnik si Cortes ın [26].Initial SVM-urile au fost introduse ca modele non-probabilistice binare, ce realizau separareacelor doua clase construind bariere decizionale sub forma unor hiperplane. Construtia acestorhiperplane implica maximizarea distantelor pana la cele mai apropiate puncte, numite vectorisuport. Daca se putea construi un astfel de plan, atunci clasele puteau fi separate printr-o

7

bariera decizionala liniara, ınsa ın practica, astfel de conditii s-au dovedit greu de realizat.Pentru a contracara acest inconvenient, Boser et al. a propus ceea ce se numeste kernel trick,prin care s-a trecut la rezolvarea problemei de optimizare ıntr-un spatiu mult mai mare cadimensiune. Translatia catre noul spatiu se realizeaza cu ajutorul unei functii neliniare de tipnucleu, iar prin aceasta operatie se urmareste ınlaturarea neliniaritatii datelor, astfel ıncatsa se poata construi un hiperplan (functie decizionala liniara) ın noul domeniu. Pe post defunctii nucleu se folosesc adesea functii polinomiale, cu baze radiale precum si functii de tiptangenta hiperbolica.

Metoda de tip soft margin introdusa ın [26] relaxeaza conditiile de separabilitate absoluta,introducand un parametru care sa masoare ”distanta” de perfectiune. In aceste conditii,problema de optimizare se traduce prin gasirea functiei decizionale care sa separe linar claseledin baza de date cat mai aproape de cazul ideal posibil. Exista, prin urmare, un compromisıntre precizia cu care sunt separate clasele si distanta fata de vectorii suport (acest compromiseste reglat de parametrul C).

Succesul SVM-urilor ın practica este dependent de alegerea functiei nucleu care asiguratranslatia ın spatiul extins al trasaturilor si de alegerea parametrului C. In general, se cautaıntre mai multe valori din tabele de parametri si se valideaza alegerile prin experimente catmai diversificate (cross-validation).

Modele Markoviene cu stari ascunse

Desi introduse la sfarsitul anilor ′60, modelele Markoviene au atras interesul cercetatorilortot mai mult ın ultimele decenii, acest fapt datorandu-se pe de o parte ıntregii teorii matem-atice de la baza, iar pe de alta parte datorita varietatii de aplicatii ce pot fi solutionate cuajutorul lor. In general, HMM-urile sunt preferate pentru modelarea dinamicii sistemelor,pentru care se pot evidentia secvente observabile de lungime finita. Acest lucru face ca, oride cate ori un proces variabil ın timp sau spatiu poate fi descris de un sir de simboluri, sase poata construi un model Markovian care sa reproduca acel proces.

Un model Markov este reprezentat de un graf orientat cu un numar finit de stari, inter-conectate statistic de matricea de tranzitie a starilor. Toti acesti parametri sunt vizibili sisuficienti pentru a descrie o astfel de structura. Prin contrast, ın cazul unui model Markovcu stari ascunse (HMM), starile ımpreuna cu mecanismul care guverneaza tranzitia aces-tora sunt inaccesibile. Ceea ce se poate observa la exterior este doar secventa de simbolurigenerate de model, prin intermediul evolutiei starilor. Legatura dintre stari si simboluriobservabile este modelata tot statistic, prin intermediul unor distributii de probabilitate,reprezentate fie de functii masa de probabilitate (pmf ), ın cazul modelelor discrete, fie prinfunctii densitate de probabilitate, ın cazul modelelor continue.

Un HMM este definit complet de urmatorii parametri: numarul de stari, N , matricea detranzitie a starilor, A, matricea distributiilor de probabilitate asociate starilor, B, si vectorulde probabilitati ale starii initiale, π. Odata stabiliti acesti parametri, atunci modelul notatλ = {A,B, π} poate fi utilizat pentru a ”explica” o secventa de simboluri data. Rezultatulinterogarii modelului este o masura a probabilitatii ca acesta sa fi emis secventa ın cauza.Calculul acestei probabilitati (P (O/λ)) se realizeaza ın practica folosind unul din urmatoriitrei algoritmi: forward, care construieste iterativ probabilitatea ca modelul sa fi emis secventapartiala de simboluri pana la un anumit punct, backward, care este ın esenta similar cuforward, doar ca realizeaza iteratiile ın ordine inversa, sau Viterbi, de asemenea un algoritm

8

iterativ, care determina cea mai probabila secventa de stari ascunse (care sa explice cel maibine sirul de simboluri observabile) ımpreuna cu valoarea acelei probabilitati.

Una din cele mai dificil de rezolvat probleme asociate HMM-urilor este antrenarea aces-tora, cu alte cuvinte, reteta prin care se determina setul optim de parametri, care sa reflectecel mai fidel caracteristicile datelor de antrenare. Din nefericire, cel putin pana ın acestmoment, au fost propuse doar solutii de optim local al parametrilor unui model, cel mai desutilizat fiind algoritmul Baum-Welch. Propus de Baum et al. ın [27], acest algoritm estede tip expectation-maximization, ce implementeaza o procedura compusa din doua etape, cuscopul de a determina iterativ un nou set de parametri, mai apropiati de un optim local.Solutionarea problemei de optimizare conduce la obtinerea formulelor de re-estimare, caregaranteaza faptul ca setul de parametri corespunde punctului de optim local. Chiar si ınaceste conditii, acordand o atentie deosebita conditiilor initiale, solutia oferita de formulelede re-estimare este mai mult decat satisfacatoare ın majoritatea aplicatiilor de recunoastere.

9

3 Recunoasterea fetelor folosind HMM

Una din cele mai studiate trasaturi biometrice din istoria inteligentei artificiale estereprezentata de fata umana. Numarul impresionant de lucrari asupra detectiei respectiv re-cunoasterii fetelor, precum si interesul ınca manifestat de a testa sisteme propuse pe aceastatema (cum e cazul competitiei Face Recognition Vendor Test - FRVT), ıntaresc ideea potrivitcareia studiul ın acest domeniu este departe de a fi ıncheiat.

Recunoasterea fetelor presupune operatia de disociere ıntre mai multe clase asociate di-verselor identitati, prin exploatarea trasaturilor faciale caracteristice. Exista doua aplicatiibiometrice des ıntalnite ın practica. Una dintre ele este cea de autentificare, ce oferaraspunsul la solicitarea unui individ care pretinde o anumita identitate dintr-o baza dedate. In acest caz, trasaturile solicitantului sunt comparate cu cele din baza de date core-spunzatoare identitatii pretinse si ın caz de potrivire se valideaza cererea. Cea de-a douaaplicatie este identificarea, caz ın care trasaturile extrase de la persoana de test sunt com-parate cu cele ale tuturor identitatilor din baza de date, ın final returnandu-se cea maiapropiata identitate, alaturi de o masura a similitudinii. Aceasta ultima aplicatie este con-siderata recunoasterea propriu-zisa.

3.1 Metoda adoptata

Acest paragraf prezinta influenta a cinci tipuri de trasaturi des ıntalnite ın practica (PCA,DCT, DCT cu DPA, HOG si LBP) asupra ratei de recunoastere a unui sistem bazat pemodele Markoviene, atat ın prezenta zgomotului cat si ın absenta sa. O parte din rezultateau fost publicate ın [28]. Performantele sistemului au fost testate pentru fiecare tip detrasatura pe doua baze de date cunoscute si disponibile ın mod public, ORL si Yale, fiecarecu provocari specifice. Prima include imagini ın care apar variatii ale pozitiei si expresieifetei, iar cea de-a doua prezinta imagini captate ın diferite conditii de iluminare. Intregulstudiu a fost realizat ın jurul metodelor de extragere de trasaturi, ce reprezinta o etapafundamentala ın componenta oricarui algoritm de recunoastere de obiecte.

Cadrul de test este bazat pe sistemul introdus de Nefian ın [29], ın care s-a utilizatun model Markovian cu stari ascunse pentru a modela procesul de explorare descris de ofereastra glisanta de dimensiuniW×L pixeli, peste o imagine de dimensiuniW×H. Cea maipotrivita topologie de model pentru acest proces este structura stanga-dreapta, prezentataın Fig. 3.1, unde numarul de stari din graf corespunde numarului de zone principale ın carese poate ımparti fata (i.e. par, frunte, ochi, nas, gura).

Figure 3.1: HMM ın structura stanga-dreapta, corespunzatorunui proces de explorare a fetei

10

Pentru a minimiza riscul de a omite anumite zone, mecanismul de explorare a permisferestrelor sa se ıntrepatrunda cu P pixeli (asa cum se poate vedea ın Fig. 3.2), asigurandu-seastfel o tranzitie fina de la o zona la alta. Parametrii de explorare (grosimea benzii, numarulde pixeli dintre doua benzi succesive) au fost stabiliti experimental la 8 respectiv 6 pixeli.Din fiecare fereastra a fost extras cate un vector trasatura, care a contribuit la constructiasecventei observabile.

Figure 3.2: Exemplu de proces de explorare folosind o fereastra glisanta

Procesul de antrenare a modelului foloseste siruri de T simboluri observabile extrase dinfiecare imagine din set. Pentru fiecare identitate din baza de date a fost antrenat cate unmodel, astfel ıncat sa reflecte cat mai bine caracteristicile individuale ale clasei. Pentruınceput este necesara initializarea parametrilor fiecarui model, acest lucru realizandu-se cuajutorul unei segmentari uniforme, urmata de o segmentare Viterbi. Antrenarea propriu-zisa consta ın utilizarea formulelor de re-estimare, care sa maximizeze probabilitatea P (O|λ).Formulele se aplica ın mod repetat, pana cand diferentele dintre valorile parametrilor core-spunzatoare iteratiilor succesive sunt neglijabile.

Etapa de test presupune extragerea secventei observabile si interogarea fiecarui modelantrenat, utilizand algoritmul forward, spre exemplu. Fiecare model va raspunde cu o prob-abilitate, iar cea mai mare valoare va marca modelul castigator.

3.2 Rezultate si discutii

Experimentele s-au desfasurat pe doua baze de date bine cunoscute: ORL1 si Yale2.Prima contine 400 de imagini, de dimensiune 92 × 112, ın nuante de gri, reprezentand 40de identitati. Imaginile surprind variatii ale expresiei si pozitiei fetei ın cadru. Cea de-adoua baza de date contine 165 imagini apartinand a 15 persoane, fiecare cu cate 11 cadre ınnuante de gri, de dimensiune 243 × 320. Variatii ale conditiilor de iluminare sunt prezenteın aceasta baza de date. Cateva exemple sunt ilustrate ın Fig. 3.3.

Modelele HMM au fost antrenate consecutiv cu cate 5, 6 respectiv 7 imagini din fiecareclasa, ın timp ce restul au fost utilizate pentru testare. Graficele din figurile 3.4a,..., 3.5bprezinta rezultate parametrice doar pentru 5 si 7 imagini la antrenare, pentru ambele bazede date. Experimentele au avut ca scop evidentierea influentei fiecarei trasaturi asupra rateide recunoastere, atat ın conditii ideale (fara zgomot) cat si ın prezenta zgomotului. S-auvariat dimensiunea spatiului trasaturii, precum si cantitatea de zgomot prezent.

1http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html2http://cvc.yale.edu/projects/yalefaces/yalefaces.html

11

http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

http://cvc.yale.edu/projects/yalefaces/yalefaces.html

Figure 3.3: Imagini reprezentand prima clasa (persoana) dinbazele de date ORL (a) si Yale (b)

(a) (b)

Figure 3.4: Rata de recunoastere pe baza de date ORL folosind 5 (a) si 7 (b)imagini pentru antrenare

Dupa cum se poate observa din grafice, histogramele vectorilor de tip gradient sunt ınesenta cele mai potrivite pentru acest sistem bazat pe modele Markov. In cazul bazei de dateYale, la antrenarea cu 7 exemple pe clasa, sistemul este capabil sa recunoasca perfect toateelementele din setul de test. Metoda de selectie a coeficientilor DCT bazata pe analiza puteriide discriminare DPA surclaseaza constant metoda zig-zag, ın special ın spatii dimensionalreduse.

Efectul este mult mai pronuntat pe baza de date Yale, unde alegerea corecta a coeficienti-lor DCT trebuie sa tina cont de conditiile de iluminare, lucru care nu se ıntampla ın cazulmetodei zig-zag. Nu ın ultimul rand, trasaturile de tip LBP sunt o alegere neinspirata ıncolaborare cu modelele Markoviene, asa cum reiese din rezultatele experimentale slabe.

In ceea ce priveste comportamentul sistemului sub actiunea factorilor perturbatori, douatipuri de zgomot specifice mijloacelor de captare a imaginilor au fost modelate ın acest studiu.Primul este zgomotul de amplificator, independent pentru fiecare pixel si independent de in-tensitatea semnalului. Acest zgomot aditiv a fost modelat cu un proces aleator cu distributieGaussiana, avand medie 0 si dispersie variabila. Cel de-al doilea tip de zgomot simuleazaprocese de pixeli stinsi, erori ale blocului de conversie analog-digitala, erori de transmisie sialtele, fiind modelat cu ajutorul unui proces aleator de tip sare si piper. Parametrul vari-abil ın acest caz este procentul din imagine afectat de zgomot. Intrucat trasaturile de tip

12

(a) (b)

Figure 3.5: Rata de recunoastere pe baza de date Yale folosind 5 (a) si 7 (b)imagini pentru antrenare

(a) (b)

Figure 3.6: Influenta zgomotului Gaussian de medie 0 si dispersie variabilape bazele de date ORL (a) respectiv Yale (b)

HOG si LBP, puternic dependente de valorile pixelilor si de variatiile acestora, au manife-stat o sensibilitate ridicata la zgomot, formele de unda asociate lor nu au mai fost incluseın grafice. Astfel, figurile 3.6a,..., 3.7b prezinta influenta celor doua tipuri de zgomot doarasupra trasaturilor ramase. Acestea par a avea, per ansamblu aceeasi imunitate, cu exceptiabazei de date Yale, unde de data aceasta metoda determinista zig-zag se dovedeste mai efi-cienta, fata de DPA. Acest comportament al metodei clasice poate fi explicat prin selectiacoeficientilor ın ordinea crescatoare a frecventelor, lucru care garanteaza si cea mai bunaimunitate la zgomot.

In concluzie, diferite tipuri de trasaturi influenteaza ın mod diferit diverse aspecte ale unuisistem de recunoastere bazat pe modele Markoviene, precum rata de recunoastere, imunitateala zgomot, costurile de implementare s.a. Au fost testate cinci tipuri de trasaturi cu ınfluentedeterministe respectiv statistice. Dupa cum s-a demonstrat ın [28], transformata CosinusDiscreta este o forma eficienta de reprezentare, cu rezultate foarte bune ın dimensiuni mariale spatiului vectorial si cu imunitate ridicata la zgomot. In combinatie cu metoda DPA,se obtine o trasatura cu putere mare de discriminare, ın special ın spatii de dimensiunimici. Acest lucru prezinta mari avantaje ın ceea ce priveste viteza de calcul, facand posibilaobtinerea de sisteme care sa ruleze ın timp real. Cu toate acestea, pentru aplicatia derecunoastere a fetelor, cel mai potrivit descriptor ramane HOG, cu rezultate remarcabile ınasociere cu modelele Markov. Metoda PCA se claseaza spre finalul listei ın ceea ce priveste

13

(a) (b)

Figure 3.7: Influenta zgomotului de tip sare si piperpe bazele de date ORL (a) respectiv Yale (b)

rata de recunoastere, desi prezinta imunitate ridicata la zgomot. De departe, cea mai slabaperformanta a fost obtinuta folosind trasaturi de tip LBP, atat ın ceea ce priveste rata derecunoastere, precum si raspunsul la zgomot.

14

4 Recunoasterea gesturilor statice folosind HMM

Recunoasterea gesturilor statice (HGR) este de asemenea o tema intens studiata ın dome-niul inteligentei artificiale, cu aplicatii directe ın recunoasterea semnelor. In ultimele decenii,s-a constatat o tendinta accentuata de a ınlocui metodele conventionale de interactiune cucalculatorul, precum tastatura sau mouse-ul, cu mijloace mai intuitive, precum gesturileefectuate de maini. Au fost astfel propuse o serie de platforme care sa traduca gesturi ıncomenzi specifice limbajului-masina. Una din cele mai cunoscute este Kinect1, un dispoz-itiv echipat cu un senzor de adancime (alaturi de multe altele), capabil sa urmareasca sisa recunoasca diferite posturi si gesturi efectuate de corpul uman. Aceste specificatii oferanoi perspective ın crearea de legaturi intuitive cu masina de calcul, simplificand activitatiprecum navigarea prin meniuri sau jocul pe calculator.

In general, algoritmii de ınvatare sunt specializati pe recunoasterea a doua tipuri degesturi ale mainii: cele statice, pentru care se urmareste doar postura si configuratia mainiisi cele dinamice, efectuate ın timp prin miscarea mainilor si pentru care mai importantaeste traiectoria gestului decat pozitia mainii. Desi folosirea de echipamente dedicate (manusicolorate sau echipate cu diversi senzori) usureaza mult rezolvarea celor doua probleme, acesteobiecte reduc din naturaletea si spontaneitatea gesturilor.

Per ansamblu, aplicatia de recunoastere a gesturilor este ın continua dezvoltare, acestargument fiind sustinut de abundenta de lucrari publicate pe aceasta tema.

Scopul acestui capitol este de a prezenta o metoda simpla dar eficienta care trateazaproblema recunoasterii gesturilor statice efectuate de maini, folosind modele Markovienediscrete. Simplitatea metodei consta ın descrierea gesturilor, prin procese de explorare alecontururilor asociate. Acest lucru asigura rezultate competitive la o viteza ridicata. Desiscenariul ales este oarecum restrictiv, studiul efectuat valideaza experimental metoda pro-pusa, ıntarind ideea potrivit careia ın combinatie cu trasaturi potrivite, modelele Markovsunt capabile sa genereze rezultate impresionante cu un efort nesemnificativ.

4.1 Metoda propusa

Cadrul adoptat, descris pe larg ın [30], foloseste HMM-uri discrete, pentru care secventeleobservabile sunt alcatuite de unghiuri pe care tangenta la contur le formeaza cu axa or-izontala. Utilizarea unui bloc rapid de segmentare ın culoarea pielii, urmat de aplicareaoperatorului de derivare asupra conturului asigura un timp de calcul mult redus. In gen-eral, modelele Markoviene sunt eficiente ın descrierea ın sens statistic a proceselor variabile ıntimp, acest lucru fiind demonstrat experimental si ın [31], unde modele cu distributii continuede probabilitate au fost folosite pentru recunoasterea gesturilor statice din imagini ın nuantede gri, utilizand trasaturi vizuale. Spre deosebire de [31], acest studiu antreneaza modelediscrete si ın plus procesarea este realizata direct pe imagini color. Asa cum mentionamın Capitolul 2, un HMM este un graf orientat format din N stari, descris de matricea detranzitie, A, vectorul de probabilitati pentru starea initiala, π si matricea de distributii deprobabilitate asociate starilor, B.

1Kinect(http://en.wikipedia.org/wiki/Kinect)

15

http://en.wikipedia.org/wiki/Kinect

Avand acesti parametri stabiliti, ca urmare a procesului de ınvatare, modelul rezultat sinotat λ(A,B, π) poate fi interogat cu referire la orice secventa de simboluri observabile delungime T, O = [o1, o2, ..., oT ]. Cu alte cuvinte, orice model raspunde cu probabilitatea dea fi emis secventa respectiva, adica P (O|λ). Calculul acestei probabilitati se poate realizacu oricare din algoritmii consacrati si anume forward, backward sau Viterbi, ın functie deaplicatie. In acest caz algoritmul Viterbi este de preferat, desi consuma mai multe resurse,ınsa secventa de stari pe care o determina este foarte utila ın etapa de postprocesare, crescandconsiderabil rata de recunoastere.

Figure 4.1: Conturul mainii (stanga) alaturi de rezultatul segmentarii initiale (dreapta)

In procesul de initializare a unui HMM, un rol fundamental ıl joaca particularitatileproblemei, cu ajutorul carora se pot stabili de la bun ınceput anumiti parametri de model.Cunoscand detalii despre procesul de explorare, se poate fixa spre exemplu structura sitopologia grafului, ın acest caz un model unidirectional fiind de asemenea cel mai potrivitpentru a explora conturul unui gest. Numarul de stari se determina prin definirea uneisegmentari initiale, care sa descrie fiecare gest printr-o colectie de segmente concatenate,asa cum se poate vedea ın Fig. 4.1. Ceilalti parametri se initializeaza tot ıntr-o manieraparticulara, spre exemplu matricea de tranzitie a starilor va reflecta evolutia acestora dela stanga spre dreapta, acest lucru fortand valori corespunzatoare tranzitiilor ın sens inverssa fie nule. Distributiile de probabilitate asociate starilor vor reflecta, ın sens statistic,caracteristicile populatiilor (colectii de vectori-trasatura) corespunzatoare fiecarui segment(unei stari din graf ıi corespunde un segment din contur). Nu ın ultimul rand, vectorul deprobabilitati pentru starea initiala, π, va forta ca modelul sa fie parcurs mereu ıncepand cuprima stare.

Antrenarea propriu-zisa presupune utilizarea algoritmului Baum-Welch pentru maxi-mizarea probabilitatilor conditionate P (O|λ), unde O reprezinta toate elementele dedicateantrenarii pentru fiecare clasa (gest). Astfel, fiecare gest va avea asociat cate un modelantrenat sa ıi reflecte caracteristicile, iar testarea se realizeaza ın aceeasi maniera ca ın cazulaplicatiei de recunoastere de fete.

Avand ın vedere ca exista foarte putine baze de date publice continand gesturi (cu atatmai putine ın cazul celor statice), acest studiu a fost realizat pe o baza de date proprie,ınregistrata cu ajutorul unui aparat foto digital Canon PowerShot. Imaginile pentru setulde antrenare au fost captate de la o singura persoana, rezultatul totalizand 450 de exemple(9 gesturi cu cate 50 de exemple fiecare), la o rezolutie de 640 × 480 pixeli, transformataulterior ın 320× 240. La un alt moment de timp, acceasi persoana a fost solocitata pentruınregistrarea a 9 secvente video, fiecare ınsumand aproximativ 30 de secunde, la o rata de30 de cadre pe secunda, rezultand peste 900 de cadre pentru fiecare gest. Primele 900 au

16

(a) (b)

Figure 4.2: Exemple din cele doua seturi de date: antrenare (a) respectiv test (b)

fost utilizate, la aceeasi rezolutie, pentru testare. Exemple din fiecare set sunt ilustrate ınFig. 4.2a (antrenare) respectiv 4.2b (testare). Intreaga baza de date a fost generata tinandcont de doua constrangeri fundamentale: prima se refera la fundal, care a fost ales ın modspecial pentru a usura procesul de segmentare, iar a doua reglementeaza limitele de rotatiea mainii, ın asa fel ıncat sa nu existe zone obturate din gest. In Fig. 4.3 sunt prezentatecateva exemple de variatii ale unghiului de rotatie.

Figure 4.3: Exemple de variatii ale unghiului de rotatie a mainii

Etapele ce descriu algoritmul au fost simplificate cat mai mult pentru a asigura o vitezade procesare crescuta. Atunci cand se trateaza o noua imagine continand un gest, maiıntai obiectul de interes (mana) este izolat cu ajutorul segmentarii ın culoarea pielii, apoise extrage conturul corespunzator. Se foloseste de asemenea o filtrare mediana, pentru aelimina zgomotul prezent si pentru a netezi conturul. Ulterior se stabileste un punct destart ın explorarea conturului si apoi sunt extrase unghiurile pe care tangenta la contur lecreeaza cu axa orizontala. In final, se aplica un proces de cuantizare ce asigura corespondentaunghiurilor cu elementele dictionarului de simboluri definit a priori. In acest caz, dictionarula fost ales ın asa fel ıncat sa ımparta ıntreaga plaja de variatie a unghiurilor (1 - 360 grade)ın 18 intervale egale. Astfel toate unghiurile cuprinse ıntre 1 si 20 de grade spre exempluvor avea asociat acelasi prim simbol din dictionar.

17

4.2 Resultate si concluzii

Rezultatele au fost obtinute prin interogarea fiecarui model (din cele 9) relativ la fiecaresecventa de simboluri din setul de test. In total au fost testate peste 8000 de imagini coresp-punzatoare celor 9 gesturi. Rata de recunoastere initiala, calculata utilizand doar valoareaprobabilitatii emise de fiecare model, a fost ın medie de 85.08%, la o rata de procesarede 24 cadre pe secunda (53 fps - modulul de extragere a trasaturilor si 44 fps - modululde clasificare). Dupa aplicarea constrangerilor legate de consistenta starilor (s-a utilizataici informatia despre secventa de stari furnizata de algoritmul Viterbi), media ratei de re-cunoastere a crescut semnificativ la o valoare de 96.2%, cu un cost de doar 2 cadre pe secundapentru unitatea de clasificare. Aceste constrangeri asigura o minima consistenta pentrufiecare stare, proportionala cu lungimea segmentului care ıi corespunde. Modelele care nuındeplinesc aceste constrangeri sunt penalizate. Rezultatele etapei de test sunt ptezentate ınTab. 4.1, ınainte si dupa post-procesare. Se pot observa cu usurinta ımbunatatirile pentrufiecare clasa de gesturi.

Indexul gestului ınainte de post-procesare Dupa post-procesare

1 99.1 99.12 82.8 98.63 88.0 91.44 68.5 95.55 53.8 96.36 90.0 91.77 86.5 94.28 96.7 98.69 100.0 100.0

Table 4.1: Rata de recunoastere obtinuta ın urma procesului de test

Acest capitol propune o metoda rapida, simplu de implementat si eficienta pentru prob-lema recunoasterii gesturilor statice efectuate de maini. De-a lungul experimentelor, s-a con-statat o sensibilitate ridicata a ratei de recunoastere la raspunsul modulului de segmentare.Cu alte cuvinte, daca acesta din urma functioneaza necorespunzator (ca urmare de exem-plu a prezentei ın cadru a altor obiecte ın culoarea pielii), atunci performantele ıntreguluisistem scad dramatic. Prin contrast, etajul de post-procesare asigura robustete ridicata lavariatia posturii mainii si ajuta modelele sa pastreze structura initiala obtinuta la antrenare.Pentru viitor, sistemul poate fi ımbunatatit prin adaugarea spre exemplu a unui senzor deadancime, care sa permita izolarea obiectului de interes de restul cadrului, facandu-l astfelrobust la variatia componentei fundalului. Nu ın ultimul rand modelele Markoviene si-audovedit eficienta, asigurand rezultate competitive cu costuri minime.

18

5 Estimarea pozitiei capului

Aplicatia de recunoastere a pozitiei capului este urmarea fireasca a celei de recunoasterea fetelor, atunci cand se discuta despre sisteme care sa interpreteze comportamentul uman.Este unanim acceptat faptul ca orientarea capului ın spatiu este strans legata de directia ıncare se ındreapta atentia unei persoane. Exista un parametru care caracterizeaza aceastaatentie, cunoscut sub numele de visual focus of attention (VFOA). Estimarea VFOA estede mare interes atunci cand se urmareste obtinerea de informatii comportamentale pe bazaınteractiunii dintre persoane. De exemplu, ıntr-un scenariu de socializare (o petrecere),pentru a putea spune ceva despre caracterul unui participant (de exemplu cat de comunicativeste) e necesar sa se cunoasca gradul de interactiune cu alti participanti. Strict vorbind,estimarea VFOA presupune atat cunostinte despre orientarea capului cat si directia ın carese ındreapta privirea. Aceasta ultima informatie se poate obtine doar ın cazul ın care avemacces la trasaturile fetei, deci la imagini de rezolutie suficient de buna pentru a le puteadistinge. In cazul unui scenariu de supraveghere, ca cel tratat ın acest capitol, este aproapeimposibil de localizat ochii, avand ın vedere dimensiunea foarte mica a imaginilor (doarzona capului ocupa 20 × 20 pixeli). In acest fel, singurul parametru care ofera indicii, ınlinii mari, despre orientarea atentiei (indicii suficiente pentru a putea evidentia interactiunidintre persoane) ramane pozitia capului.

Estimarea pozitiei capului (HPE) este procesul de identificare a orientarii acestuia, ınraport cu un punct de referinta. In general, capul este modelat ca un obiect rigid, avand 3parametri asociati gradelor de libertate si inspirati din industria aeronautica: pan(yaw), cecaracterizeaza miscarea ın plan orizontal, ın jurul axei Oz, tilt(pitch), ce reflecta miscareade rotatie ın jurul axei Oy si roll, responsabil cu miscarea ın jurul axei Ox (se presupuneun sistem cartezian ın care axa Ox este ın aceeasi directie cu privitul ınainte). Dupa cumse specifica ın [32], acesti 3 parametri variaza ıntre −79.8◦ si 75.3◦ pentru pan, ıntre −60.4◦

si 69.6◦ pentru tilt si de la −40.9◦ la 36.3◦ pentru roll, ın cazul unui barbat adult. Inmulte aplicatii ınsa, roll se considera aproape static, ceea ce reduce procesul de estimare ladeterminarea a doi parametri. Mai mult, ıntr-o aplicatie de clasificare, estimarea se reducela gasirea uneia din clasele ın care au fost ımpartite valorile parametrilor.

Exista o multitudine de lucrari publicate pe tema estimarii pozitiei capului. Desi existaalte criterii de clasificare a lucrarilor (se poate consulta [32] pentru o analiza amanuntita), uncriteriu mai potrivit este spatiul (definit de cativa parametri) ın care opereaza fiecare metodapropusa. Se disting astfel metode care opereaza ın camp apropiat, avand la dispozitie imaginide rezolutie suficient de buna pentru a putea extrage trasaturi faciale (ochi, nas, gura).Singurul dezavantaj al acestor metode este legat de constrangerile pe care le impun (rotatiacapului nu trebuie sa depaseasca anumite limite, care ar obtura detaliile fetei). Cea de-adoua categorie de metode trateaza imagini obtinute ın camp ındepartat, unde se ıncearcautilizarea informatiei complete legate de pozitia capului. Lipsa preciziei acestor sisteme faceca pozitia capului sa fie un estimator ın linii mari al parametrului VFOA. Cele doua categoriide metode pot fi la randul lor ımpartite ın functie de numarul de cadre disponibile pentrufiecare element (numarul de camere utilizate ın etapa de achizitie). Se deosebesc astfelmetode care utilizeaza o singura imagine, precum si metode care folosesc imagini multiple,

19

provenite de la mai multe camere. Figura 5.1 ilustreaza ımpartirea metodelor ın functie decele doua criterii discutate.

Figure 5.1: Classificarea metodelor pentru estimarea pozitiei capului

Aplicatiile de estimare a pozitiei capului au cunoscut ın ultima vreme o dezvoltare con-tinua, tratand tot mai multe grade de libertate, sau realizand aproximari din ce ın ce maifine. Chiar si ın aceste conditii, exista loc pentru ımbunatatiri, ca urmare a prezentei di-verselor provocari determinate de variatii ale conditiilor de iluminare, ale fundalului, sauparametrilor dispozitivelor de ınregistrare, etc. Judecand dupa numarul mare de publicatiirecente, se poate spune ca cercetatorii au devenit din ce ın ce mai constienti de necesitateade a avea sisteme complete pentru a umple golul ın comunicarea dintre om si masina.

5.1 Determinarea celei mai discriminatorii trasaturi pentru HPE

Aceasta sectiune analizeaza impactul catorva metode de extragere de trasaturi, asupraratei de recunoastere a unui sistem de estimare a pozitiei capului, ce utilizeaza imaginiprovenite de la camere multiple. Sunt oferite cateva detalii legate de sistemul utilizat pentrucomparatie si sunt de asemenea discutate rezultatele si trasate concluziile.

Abordarea de tip multi-task ıntr-un proces de ınvatare ıncearca sa solutioneze mai multeprobleme corelate ın acelasi timp, sau sa rezolve aceeasi problema ın contexte diferite, rezul-tatul fiind ın ambele cazuri un model care sa exploateze elementul comun dintre domenii(probleme)1. In acest studiu, sistemul utilizat ce implementeaza acest tip de ınvatare antre-neaza un model pe doua baze de date concurente, urmand apoi a fi testat doar pe unadintre ele. Diferenta dintre aceasta metoda si cea discutata anterior legata de transferulde cunostinte este ca ın acest caz domeniile sunt tratate cu aceeasi prioritate (datele suntadunate la gramada nestiindu-se provenienta fiecareia), spre deosebire de cazul al doilea,unde unul dintre domenii este favorizat. Acest scenariu este utilizat aici pentru a comparadiversele trasaturi.

Algoritmul de ınvatare este de tip boosting, inspirat de lucrarea din [23], unde autoriicombina un algoritm LogitBoost cu trasaturi de tip matrice de covarianta (intitulat ARCO)pentru a obtine un sistem de recunoastere robust la variatii de scalare si ale conditiilor deiluminare. Aplicatia prezentata ın [23] este una de estimare a pozitiei capului ın imagini derezolutie mica. In aceeasi maniera, ın acest studiu imaginile au fost ımpartite ın subferestresi pentru fiecare a fost antrenat cate un clasificator de tip LogitBoost. In etapa de test,decizia finala este obtinuta pe baza votului majoritar al ferestrelor. Spre deosebire de ARCO,pe langa matrice de covarianta, aici s-au utilizat si alte metode de extragere a trasaturilor,

1Wikipedia(en.wikipedia.org/wiki/Multi-task learning)

20

precum transformata Cosinus Discreta, transformata Wavelet, trasaturi de tip HOG sauLBP.

Algoritmul LogitBoost are la baza aceeasi idee de constructie ca si Adaboost folosindclasificatori slabi si urmareste ınvatarea tuturor elementelor din setul de antrenare, indiferentde provenienta. Pentru fiecare subfereastra se va antrena un clasificator puternic, {Fp},continand L clasificatori slabi. Daca se considera un set de antrenare {xi} cu N elementeapartinand claselor de la 1...J , atunci algoritmul LogitBoost actualizeaza iterativ setulde ponderi asociate elementelor, {wi}, printr-o serie de probabilitati posterioare {Pj(xi)}.Fiecare clasificator slab rezolva o problema de regresie ponderata, a carei eficienta e masuratacu ajutorul vectorilor raspuns, pentru fiecare element i si anume zi = {zij}Jj=1. In acest fel,daca setul de antrenare contine o multitudine de elemente apartinand aceluiasi domeniu side asemenea cateva elemente dintr-un altul, clasificatorul rezultat va reflecta cu sigurantacaracteristici mentinand proportionalitatea (deci va fi orientat catre primul domeniu). Pemasura ce se vor adauga tot mai multe elemente din al doilea domeniu, atunci clasificatorulse va orienta treptat spre acesta din urma. Un astfel de experiment este realizat ın aceststudiu, unde primul domeniu joaca rol de sursa, la fel ca ın cazul teoriei transferului decunostinte, iar al doilea este folosit pe post de tinta.

Odata cu adaugarea a tot mai multe elemente din domeniul tinta, este de asteptat caperformantele sistemului sa creasca, avand ın vedere ca testarea se realizeaza tot pe tinta.Dupa cum se poate observa din garficul cu rezultate, fiecare tip de trasatura va exploata ınmod diferit surplusul de informatie. Pe post de sursa a fost utilizata o baza de date publica,cunoscuta sub numele de CLEAR07. Cealalta baza de date (DPOSE) a fost ınregistrata ınlaboratoarele FBK2, ın conditii diferite fata de CLEAR07. Imaginile au fost captate de patrucamere de filmat, plasate la colturile ıncaperii si orientate catre centru. Dupa izolarea zoneicapului folosind algoritmi de urmarire, imaginile au fost separate ın 24 clase, corespunzatoarea 8 intervale de valori ale parametrului pan si 3 ale parametrului tilt. Cele 3 subseturi dedate cu cate 8 clase fiecare au fost denumite down (pentru variatii ale parametrului tilt ıntre−70◦ si −20◦), frontal (tilt ıntre −20◦ si 20◦) respectiv up (tilt ıntre 20◦ si 70◦). Exempledin cele doua baze de date CLEAR si DPOSE sunt prezentate ın Fig. 5.2a, ın timp ce ınFig. 5.2b sunt ilustrate cateva decupaje din DPOSE.

Clasificatorul LogitBoost a fost antrenat ın mod repetat pe 100 de exemple din CLEAR -frontal si un procent variabil de elemente din DPOSE - frontal, partitionate pentru antrenare,iar rezultatele testului au fost obtinute pe setul de test din DPOSE. Trasaturile utilizate aufost printre cele discutate ın Capitolul 2 ın variantele lor de baza. Fiecare tip de trasatura afost extras din fiecare subfereastra, iar vectorii rezultati au fost utilizati pentru antrenare. Deasemenea s-a considerat o abordare de tip early fusion, ın sensul ca cele 4 imagini concatenateau fost ımpartite ın 76 de subferestre, iar rezultatul final a supus la vot toti cei 76 declasificatori.

Dupa cum se poate observa din Fig. 5.3, trasaturile de tip matrice de covarianta suntcele mai potrivite pentru aceasta aplicatie, cu rezultate mai bune cu pana la 14% fata deurmatoarea clasata. Merita subliniat faptul ca ın acest experiment au fost folosite doarvariantele de baza pentru toate trasaturile si ca, ın principiu, fiecare poate fi ımbunatatitaprin diverse mijloace. Spre exemplu ın calculul matricelor de covarianta pot fuziona diversetipuri de trasaturi de nivel inferior. In acelasi mod, LBP pot fi extinse cu proprietati ale

2Fondazione Bruno Kessler(http://www.fbk.eu/)

21

http://www.fbk.eu/

(a)

(b)

Figure 5.2: Exemple din CLEAR (sursa) si DPOSE (tinta)(a) - imagini originale si (b) - imagini decupate

filtrelor Gabor, asa cum se prezinta ın [33].

Figure 5.3: Rezultate folosind diverse tipuri de trasaturi

Succesul trasaturilor de tip matrice de covarianta a fost dovedit ın aplicatii de detectiede pietoni, analize de texturi, iar odata cu acest studiu, si ın cea de estimare a pozitieicapului, clarificand faptul ca acest stil de fuziune dintre trasaturi reprezinta probabil cea maibuna solutie pentru sisteme care sa prezinte robustete relativ la majoritatea provocarilor dindomeniul procesarii de imagine.

22

5.2 Cazul simplu: subiecti aflati ın punctul de referinta

Prima ıncercare de a utiliza teoria transferului de cunostinte pentru aplicatia de estimarea pozitiei capului [34] este un studiu amanuntit ce evidentiaza modul ın care sunt afectaterezultatele pe diverse perechi de distributii de date. Pentru acest studiu s-au utilizat fiecaredin cele trei subseturi din CLEAR07 (up, frontal, down) pe post de domeniu sursa, iar rolultintei a fost jucat, pe rand, de subseturile corespunzatoare din DPOSE. S-a analizat fiecarecombinatie sursa-tinta (9 ın total). In acest fel, parametrul tilt a fost fixat si s-au realizatdoar operatii de clasificare continand 8 clase, usurand pe de o parte problema estimarii,iar pe de alta parte facilitand accesul la sisteme special concepute pentru anumite scenariidin practica (ca de exemplu testarea unui clasificator pe o baza de date continand persoaneaflate ıntr-un muzeu, unde capul este ın general orientat ın sus, avand ın vedere ca a fostantrenat pe un set cu exemple reprezentand persoane care privesc ın jos).

Pe langa tratarea problemei de estimare a capului folosind transferul de cunostinte,ın aceasta sectiune este propus un algoritm bazat pe LogitBoost, numit Xferboost, careadapteaza un model antrenat pe un domeniu sursa la un domeniu tinta, folosind doar catevaelemente din noul domeniu. Metoda de referinta pentru comparatia cu algoritmul propuseste cea prezentata ın [23], unde un clasificator asemanator (ARCO), dar care nu a fostconceput pentru transfer de cunostinte, a obtinut performante remarcabile pe o aplicatiesimilara. Prin urmare, ARCO a fost antrenat pe CLEAR07 si testat pe ambele baze de date(sursa, respectiv tinta). Rezultatele sunt trecute ın Tab. 5.1 si vor reprezenta elementul dereferinta pentru comparatii ulterioare.

CLEARfrontal

CLEARup

CLEARdown

DPOSEfrontal

DPOSEup

DPOSEdown

CLEARfrontal 91.9 85.5 54.1 57.2 62.7 34.2

CLEARup 72.5 93.1 22.5 58 72.3 28.8

CLEARdown

58.2 34.8 93.2 25.3 36.1 38.4

Table 5.1: Rezultate ARCO pentru diferite combinatii de antrenare (linii)respectiv test (coloane)

Dupa cum se poate vedea din Tab. 5.1, ARCO este o metoda cu putere mare de dis-criminare atunci cand este antrenat si testat pe aceleasi distributii de date (aceeasi bazade date, acelasi tilt). Atunci cand acestea sunt diferite, performantele sistemului scad dra-matic. In practica, diferente ıntre distributii pot aparea ca urmare a variatiei conditiilor deiluminare, parametrilor tehnici ai camerelor s.a. Pentru a reduce influenta acestor fenomene,algoritmul Xferboost integreaza elemente din TrAdaBoost [35], un algoritm special conceputpentru transfer de cunostinte. Acesta trateaza cu prioritate elementele din noul domeniu,prin intermediul unor ponderi, facand astfel ca clasificatorul rezultat sa reflecte cat mai multdatele din tinta. Experimentele efectuate indica faptul ca aceasta asociere conduce la rezul-tate mai bune decat cazul ın care s-ar adauga pur si simplu elementele din domeniul tintapentru antrenare.

Sistemul contine un modul de pre-procesare, urmat apoi de etapa de extragere de trasaturisi se ıncheie cu antrenarea clasificatorului Xferboost. Modulul de pre-procesare utilizeaza un

23

etaj de tracking bazat pe filtre de particule si este ın esenta responsabil cu obtinerea decu-pajelor asociate zonelor capului. Rezultatele de la cele patru camere (20× 20 pixeli fiecare)sunt concatenate ıntr-o singura imagine ce surprinde un subiect din patru unghiuri diferite.Folosind informatia de etichetare, elementele ce alcatuiesc baza de date sunt ımpartite ın 8clase, pentru fiecare interval de valori ale parametrului tilt.

Ca urmare a rezultatelor obtinute ın sectiunea precedenta, ın acest studiu s-au utilizattrasaturile de tip matrice de covarianta, care s-au dovedit stabile la variatii de scalare, ilu-minare, sau la prezenta obturatiilor. Pe langa flexibilitate, matricele de covarianta sunt ca-pabile de a descrie eficient obiecte din imagini de rezolutii suficient de mici. In experimentelece urmeaza, matricele de covarianta combina 12 trasaturi de nivel inferior (transformari deimagine), descrise de Ec. 5.1: coordonatele spatiale ale pixelilor (x si y), valori ale canalelorde culoare (R,G,B), derivate partiale ale functiei intensitate pe cele doua directii, convolutiicu 4 filtre Gabor precum si o distanta de tip Kullback-Leibler(KL) [21].

Φ =[x, y, R,G,B,Gab{0,π/6,π/3,4π/3}Ix, Iy, KL

](5.1)

Evaluarea algoritmului Xferboost s-a realizat pe toate cele 9 combinatii de subseturisursa-tinta (rezultate prezentate ın Tab. 5.3). ARCO a fost testat ıntr-o configuratie detip multi-task learning, ce implica adaugarea elementelor din tinta pentru antrenare fara apermite comportament privilegiat, ca ın cazul Xferboost. Ambele baze de date (CLEAR siDPOSE) contin ın jurul a 25000 de imagini ımpartite ın seturi de antrenare, respectiv testsi de asemenea ın cele 3 subseturi ın functie de valorile parametrului tilt, asa cum se poateobserva ın Tab. 5.2.

CLEARfrontal

CLEARup

CLEARdown

DPOSEfrontal

DPOSEup

DPOSEdown

Antrenare 7490 3013 2451 400 400 400

Test 7481 3010 2444 12406 7077 5941

Table 5.2: Dimensiunile seturilor de antrenare respectiv testarepentru cele doua baze de date

Din Tab. 5.3 se pot contura urmatoarele concluzii:

• folosind scenariul cu mai multe camere, rezultatele sunt considerabil mai bune decatın cazul uneia singure. Este adevarat ca acest surplus de performanta atrage o serie decosturi suplimentare, ınsa, ori de cate ori este posibil (ıntr-un cadru de supraveghere),acest scenariu ofera rezulate mai mult decat satisfacatoare.

• teoria transferului de cunostinte functioneaza mai bine atunci cand datele provin dindistributii ”mai diferite”.

• rezultatele slabe obtinute pe subsetul DPOSE - down pot fi explicate prin dificultatilesuplimentare ce caracterizeaza aceasta baza de date, unde trasaturile faciale sunt decele mai multe ori ascunse.

Aceste rezultate confirma eficienta algoritmului propus, ce poate fi o alternativa compet-itiva pentru aplicatia de estimare a pozitiei capului ıntr-un scenariu cu mai multe camere.

24

Antrenare Test LRezultat

(1 cam)% castig

Rezultat

(4 cam)% castig

CLEAR down

DPOSE down 8 42.7 (41.3) 3.4 66.5 (64.5) 3.1

DPOSE frontal 9 40.8 (38.6) 5.8 65.5 (62.7) 4.4

DPOSE up 9 51.5 (48.5) 6.2 81.2 (78.7) 3.2

CLEAR frontal

DPOSE down 10 40.1 (39.1) 2.5 61.9 (60.8) 1.9

DPOSE frontal 8 54.1 (52.3) 3.5 78.8 (77.1) 2.2

DPOSE up 8 63.7 (62) 2.7 87 (86) 1.1

CLEAR up

DPOSE down 10 40 (38.3) 4.5 59.7 (57.7) 3.6

DPOSE frontal 8 58.1 (57.3) 1.4 80.6 (80.1) 0.6

DPOSE up 9 69.3 (68.9) 0.7 88.8 (88.6) 0.3

Table 5.3: Cele mai bune rezultate obtinute cu Xferboost pentru diferite combinatii(numarul de elemente din domeniul tinta este 5)

5.3 Cazul subiectilor aflati ın miscare

Cea de-a doua abordare a estimarii pozitiei capului [36] include cazul ın care subiectii sepot deplasa liber ın spatiul de lucru, adaugand astfel noi provocari problemei. Procesul devariatie a trasaturilor capului ca urmare a miscarii este ınsotit de expunerea sau ascundereaanumitor zone. In cazul ın care un clasificator s-ar baza pe astfel de trasaturi, atunciun astfel de fenomen ar crea dificultati suplimentare si cel mai probabil eficienta acestuiaar scadea. Intr-un astfel de scenariu, transferul de cunostinte ofera o solutie eleganta laproblema etichetarii suplimentare a multor elemente pentru ca un clasificator sa poata ınvatarelatia dintre pozitie, trasaturile fetei si postura capului.

Avand ın vedere ca ın general ın aplicatii de supraveghere nu sunt necesare modele deınalta precizie, problema estimarii pozitiei capului a fost redusa la o operatie de clasificareın 8 clase de pan, pentru o plaja de valori frontale ale parametrului tilt. Scopul final alacestui studiu este de a putea analiza date comportamentale ale diversilor indivizi angajatiın activitati de socializare, prin evidentierea gradului de interactiune al fiecaruia.

Metoda propusa (WD) este inspirata din lucrarea publicata ın [37], unde o functie para-metrica de tip distanta a fost transferata ıntre doua domenii, pentru o aplicatie de detectiesi recunoastere de secvente video. In contextul estimarii pozitiei capului, functia de tipdistanta este utilizata pentru a determina care dintre subferestrele ın care este ımpartitafiecare imagine este mai discriminatorie, dandu-se locatia subiectului si imaginea de referintaasociata. Imaginea de referinta se obtine ın urma unei transformari geometrice si denota

25

aceeasi informatie ca si cand subiectul s-ar afla ın punctul de referinta (centrul ıncaperii).Procesul de ”aducere” a imaginii ın punctul de referinta este ınsotit de generarea unei mastide ıncredere, care reflecta, pe o scara de la 0 la 1, gradul de ıncredere al fiecarui pixel caresufera acest proces. La fel ca ın [23], si ın acest caz s-au utilizat subferestre de dimensiune8 × 8 pixeli, din fiecare generandu-se cate o trasatura de tip LBP, motivat de imunitateaacestora la variatiile nuantelor de gri. In final, rezultatul clasificarii este obtinut folosindmetoda celui mai apropiat vecin, printr-un vot majoritar ponderat al subferestrelor.

Pentru a usura si mai mult calculul, spatiul de lucru a fost divizat ın 4 regiuni comple-mentare (R1, ..., R4), pentru care s-au calculat masti predefinite. Regiunea ın care se gasesteo imagine se determina pe baza informatiilor provenite de la algoritmul de tracking. Mastilede ıncredere joaca un rol important ın etapa de transfer a functiei de tip distanta de la sursala tinta. Transferul se realizeaza de la un domeniu intens populat de elemente (reprezentatde imagini ale subiectilor plasati ın punctul de referinta) catre unul din care se folosesc doarcateva pentru antrenare. Domeniul tinta contine imagini ale subiectilor aflati ın miscare.Intregul proces de ınvatare, precum si partea de test sunt prezentate ın Fig. 5.4. Algoritmulde ınvatare contine doi pasi fundamentali:

• mai ıntai o functie de tip distanta DWs(xi, xj) este antrenata ın domeniul sursa. Con-siderand ca fiecare element este o colectie deQ subferestre suprapuse, DWs se determinaca o functie liniara parametrica DWs(xi, xj) = W T

s dij, unde dij este distanta euclidianadintre subferestre corespondente ale imaginilor i si j. Ws este vectorul de ponderi,i.e. Ws = {ω1, ω2, ..., ωQ}. Functia de tip distanta va fi obtinuta impunand ca imaginireprezentınd aceeasi postura a capului sa fie mai apropiate decat cele ce reflecta posturidiferite.

• ın al doilea rand, o functie similara, DWt , este obtinuta ın domeniul tinta, folosind Ws

determinat anterior si mastile de ıncredere calculate ın etapa de translare geometricaspre punctul de referinta.

Figure 5.4: Schema metodei propuse

26

WD pe subiecti stationari

In acest paragraf este realizata o comparatie ıntre metoda bazata pe transferul vectorului deponderi (WD) si algoritmul de tip state-of-the-art ARCO, pentru validarea metodei propuse.In acest scop, ambii algoritmi au fost antrenati pe seturi de date din CLEAR07 si testati peseturi reprezentand subiecti stationari din ambele baze de date (CLEAR si DPOSE). In acestexperiment s-au utilizat trasaturi de tip matrice de covarianta, pentru care s-au construitdiverse combinatii de trasaturi de nivel ınferior, pentru a testa influenta acestora. In plus,au fost folosite si trasaturi de tip HOG, respectiv LBP, pentru a verifica compatibilitatea cumetoda WD.

In etapa de test s-a utilizat urmatorul protocol: atunci cand setul de test face partedin domeniul sursa (CLEAR), WD implementeaza doar prima etapa, aceea de antrenare afunctiei de tip distanta la sursa, ın timp ce la testul pe domeniul tinta s-a utilizat ıntregulalgoritm care adapteaza ponderile asociate subferestrelor la acest domeniu. Tabelele 5.4 si5.5 au un dublu scop: mai ıntai de a clarifica daca utilizand subferestre ponderate (WDs,WDt) este mai eficient decat ın cazul ın care acestea au aceeasi importanta (NWDs) si deasemenea de a compara rezultatele ıntre ARCO si WD. Indexul s atasat metodei propusesemnaleaza faptul ca ın etapa de clasificare metoda celui mai apropiat vecin a luat ın calculdoar elemente din domeniul sursa, ın timp ce un index t sugereaza prezenta elementelor dindomeniul tinta ın cautarea celui mai apropiat vecin.

x, y,Gabor(d = 6)

RGB,Gabor(d = 7)

x, y,RGB,Gabor,OG(d = 10)

x, y,RGB,Gabor,KL(d = 10)

x, y,RGB,Gabor,Ix, Iy, OG(d = 12)

x, y,RGB,Gabor,Ix, Iy,KL(d = 12)

HOG LBP

ARCO 81.3 81 82.7 82.9 83.9 84 - -

NWDs 80.7 79.2 79.3 79.4 79.8 80.3 67.9 81.9

WDs 81 79.5 79.8 79.9 80.8 81 68.8 81.7

Table 5.4: Rezultate comparative ıntre ARCO, WD si NWD pe domeniul sursa (CLEAR)Dim. antrenare (sursa) = 800 (100 elemente/clasa)

Dim. test (CLEAR)= 7485. d este numarul de trasaturi de nivel inferior folosite

Tabelul 5.4 reuneste rezultatele celor trei metode comparate, ARCO, WD si NWD pedomeniul sursa, utilizand diverse combinatii de trasaturi de nivel inferior. In Tab. 5.5 suntprezentate analize asemanatoare, doar ca setul de test este de data aceasta extras din bazade date DPOSE (12406 exemple). ARCO(s) descrie un clasificator ARCO antrenat doar peelemente din domeniul sursa, pe cand ın cazul ARCO(s+t) cateva elemente (10 pe clasa) dinDPOSE au fost adaugate la cele din CLEAR, fara ınsa a implica vreun transfer de cunostinte.Analizand rezultatele, se pot trage urmatoarele concluzii:

• WDs genereaza rezultate superioareNWDs ın mod constant ın ambele domenii (obtineperformante ımbunatatite de pana la 9.2% atunci cand se folosesc trasaturi LBP);

• pe domeniul sursa, WDs se descurca aproape la fel de bine ca ARCO, cu exceptiatrasaturilor HOG;

27

• pe domeniul tinta ambele metode NWDs si WDs depasesc ARCO(s), subliniind astfeldependenta celei din urma de caracteristicile bazei de date;

• ARCO(s+t) construieste cel mai puternic clasificator si acest lucru este consecintaınvatarii ıntregii baze de date de la antrenare;

• rezultatul slab obtinut de WDs ın comparatie cu ARCO(s+t) se explica prin faptulca elementele din domeniul tinta nu sunt utilizate ın determinarea celui mai apropiatvecin, lucru care se va schimba, odata cu introducerea metodei WDt, ın Tab. 5.6;

• trasaturile de tip LBP au functionat cel mai bine ın acest context, alaturi de WD

x, y,Gabor(d = 6)

RGB,Gabor(d = 7)

x, y,RGB,Gabor,OG(d = 10)

x, y,RGB,Gabor,KL(d = 10)

x, y,RGB,Gabor,Ix, Iy, OG(d = 12)


HOG LBP

ARCO(s) 31.2 26.2 38.4 42.9 47.1 48.4 - -

ARCO(s+t) 66.6 67.4 78.1 80.2 81.6 82.9 - -

NWDs 48 34.8 44.8 49.2 46.8 51.6 22.9 72.6

WDs 50.2 38 51.4 49.9 48.7 55.3 32.1 77.8

Table 5.5: Rezultate comparative ıntre ARCO, WD si NWD pe domeniul tinta (DPOSE)Dim. antrenare (sursa) = 800 (100 elemente/clasa)Dim. antrenare (tinta) = 80 (10 elemente/clasa)

Dim. test (DPOSE)= 12406 exemple corespunzatoare subiectilor stationari

In Tab. 5.6 este introdusa metoda WDt, caz ın care alegerea celui mai apropiat vecin seface dintre elementele de antrenare din DPOSE. Tot ın acest experiment ARCO(s+t) a fostınlocuit de varianta modificata pentru teoria transferului de cunostinte, si anume Xferboost.Au fost de asemenea considerate doar un numar restrans de trasaturi, incluzandu-le pecele care s-au dovedit eficiente ın etapele anterioare. Rezultatele ınclina de aceasta data ınfavoarea noii metode WDt, depasind chiar cea mai buna combinatie trasatura-Xferboost.

WD pe subiecti aflati ın miscare

Acest paragraf prezinta performantele metodei cu transfer de ponderi (WD) ın cazul subiecti-lor aflati ın miscare ın interiorul spatiului de lucru. In acest context, spatiul a fost ımpartit ınpatru zone R1, ..., R4, din care s-au extras cate 5 exemple din fiecare clasa pentru antrenare(ın total 160 pentru ıntreaga camera). Pentru transparenta, ın comparatia cu metoda pro-pusa a fost introdus un alt algoritm care implementeaza transferul de cunostinte, (Xferboost),alaturi de un clasificator traditional bazat pe SVM-uri si adaptat la scenariul cu mai multecamere. Toti clasificatorii au fost antrenati cu acelasi set din domeniul sursa (300 elementepe clasa), la care s-au adaugat cate 5 exemple/clasa din domeniul tinta, pentru mai multecombinatii de vectori-trasatura. Rezultatele sunt prezentate ın Tab. 5.7 (ın paranteze sunttrecute rezultatele obtinute la antrenarea doar pe sursa). Clasificarea a fost efectuata pe

28

RGB,Gabor(d = 7)


HOG LBP

ARCO(s) 31.3 58.5 - -

NWDs 47.7 61.3 32.3 75.1

Xferboost 68.8 85.4 - -

WDt 78.3 83.3 52.1 85.6

Table 5.6: Rezultate comparative ıntre ARCO, WD si NWD pe domeniul tinta (DPOSE)Dim. antrenare (sursa) = 2400 (300 elemente/clasa)Dim. antrenare (tinta) = 80 (10 elemente/clasa)

Dim. test (DPOSE)= 12406 exemple corespunzatoare subiectilor stationari

fiecare regiune ın parte. Dupa cum reiese din tabel, metoda WD obtine performante supe-rioare celorlalte doua pentru toate cele patru regiuni. Se remarca si ın acest caz trasaturileLBP, care par sa functioneze excelent ın acest context. Desi nu sunt spectaculoase, rezul-tatele ıncurajeaza investigatii viitoare, tinand cont de dificultatea scenariului adoptat. Ceamai consistenta crestere a ratei de recunoastere fata de Xferboost este de aproximativ 15%,ın timp ce, ın medie, aceasta crestere este de 9.48%. Prestatia slaba a clasificatorului bazatpe SVM poate fi atribuita ın principal trasaturilor utilizate (de tip gradient).

R1 R2 R3 R4

Xferboost Cov(d = 7) 41.1(22.9) 43.6(31.5) 45.9(29.9) 41.7(25.7)

Xferboost Cov(d = 12) 66.1(37.8) 67.6(44.9) 66.2(51.7) 59.1(40.3)

WDt Cov(d = 7) 65.8(33.1) 67.4(42.5) 59.6(51.2) 60.6(37.8)

WDt Cov(d = 12) 69.8(45) 72.4(51.6) 63(59.6) 62.4(42.3)

WDt LBP 74.7(60.9) 77.6(61.3) 66.9(58.7) 64.5(58.3)

Multi− view SVM 47.6 51.3 41 41.6

Table 5.7: Rezultate comparative ıntre Xferboost, WD si SVM pe domeniul tinta (DPOSE)corespunzatoare subiectilor aflati ın miscare

Dim. antrenare (sursa) = 2400 (300 elemente/clasa)Dim. antrenare (tinta) = 160 (5 elemente/clasa/regiune)

Dim. test (DPOSE)= 11628 (2399(R1),3185(R2),3048(R3),2996(R4))

In Fig. 5.5 si 5.6 sunt prezentate cateva rezultate calitative obtinute de WD pe exemplede subiecti aflati ın miscare. In prima figura este prezentata o singura persoana ın 4 cadrediferite (fiecare vazut din cele 4 unghiuri), la care se adauga rezultatul clasificatorului subforma unui con colorat. Culoarea conului codifica una din cele trei situatii considerate: verdepentru o clasificare reusita, galben atunci cand clasa indicata este vecina celei corecte si rosu,

29

pentru clasificari complet eronate. Aceasta codificare a fost posibila datorita informatieide etichetare obtinuta de la senzorul purtat de subiect ın momentul ınregistrarii. Meritamentionat faptul ca o parte din erorile de clasificare se datoreaza algoritmului de tracking,care uneori pierde subiectul, ca urmare a unor miscari bruste spre exemplu, sau din altecauze tehnice, punand astfel ın dificultate algoritmul de clasificare (este si cazul unui cadrudin Fig. 5.5).

Figure 5.5: HPE with single moving target. The green cone indicatesa correct classification, yellow stands for predicting a neighbor class

instead of the correct one and red signals a completely wrong estimate

Figura 5.6 prezinta un caz tipic de scenariu de socializare (petrecere) ın care mai multepersoane interactioneaza unele cu altele, generand totodata situatii de ocluzii partiale. Al-goritmul WD este potrivit si ın acest caz, fiind capabil sa gestioneze mai multi subiecti ınacelasi timp (doar doi au facut obiectul analizei) si reusind sa estimeze suficient de bine(apreciere obtinuta prin inspectie vizuala) pozitia capului asociata fiecarei persoane. Rezul-tatele obtinute sunt ıncurajatoare, motivand utilizarea metodei propuse ın scenarii de analizaa comportamentului uman, ın care sunt implicate mai multe persoane.

5.4 Concluzii

Studiile efectuate ın acest capitol au scopul de a aplica teoria transferului de cunostinte ınrezolvarea problemei de estimare a pozitiei capului, ıntr-un sistem multi-camera. Provocarilece reies dintr-un astfel de scenariu vizeaza nu numai algoritmii de ınvatare, ci ıntregul sis-tem. Transferul de cunostinte pare sa fie o alternativa inspirata pentru evitarea procesului

30

Figure 5.6: HPE with multiple moving targets. This time, only green coneshave been used, due to the absence of ground truth information

costisitor de etichetare de elemente pentru constructia bazelor de date. Acest concept afost dovedit ın numeroase publicatii si de asemenea si-a dovedit eficienta si ın acest caz.Rezultatele obtinute sunt ıncurajatoare, motivand investigatii ulterioare, ın special pe laturamariajului dintre trasaturi si algoritmii de ınvatare.

In acest capitol au fost introduse doua metode ce implementeaza caracteristici specificeteoriei transferului de cunostinte, pentru a usura procesul de clasificare ıntr-un domeniu nou,slab populat de elemente. Ambele solutii propuse au fost validate de numeroase experimentecu aplicatii ın recunoasterea pozitiei capului, lucru care face interpretarea comportamentuluiuman prin prisma inteligentei artificiale mai aproape de a fi realizata corespunzator.

31

6 Concluzii si abordari viitoare

Scopul acestei teze este de a analiza, pe de o parte, influenta mai mulltor tipuri detrasaturi cunoscute ın literatura, ın contextul catorva aplicatii de recunoastere. Rezultateimportante au fost obtinute comparand trasaturi precum Transformata Cosinus Discreta,Transformata Wavelet Discreta, cele de tip histograma ale vectorilor gradient (HOG), celede tip LBP, PCA sau matrice de covarianta pe aplicatii de recunoastere a fetelor sau estimarea pozitiei capului. Pe de alta parte, eforturi sustinute au fost ındreptate spre solutionareaproblemei de estimare a pozitiei capului ın sisteme multi-camera. Pentru aceasta, teoriatransferului de cunostinte a oferit o alternativa eleganta pentru a extinde un clasificatorcatre un domeniu nou ın care doar cateva elemente sunt disponibile pentru antrenare. Prob-lema a fost ımpartita ın doua sub-probleme, pentru usurinta abordarii (subiecti stationari,respectiv aflati ın miscare) si pentru fiecare a fost propusa cate o solutie bazata pe transferde cunostinte. In urma rezultatelor obtinute se pot contura urmatoarele concluzii:

• nu exista trasaturi generale, care sa functioneze ın orice ımprejurare si cu orice algoritmde ınvatare. Acest lucru este ıntarit de experimentele efectuate pe diferitele aplicatii.Spre exemplu, trasaturile de tip LBP au generat rezultate foarte slabe atunci cand aufost combinate cu modele Markoviene pe aplicatia de recunoastere a fetelor, ınsa ıncontextul estimarii pozitiei capului acestea au contribuit la obtinerea celor mai buneperformante.

• trasaturile de tip matrice de covarianta au dovedit o putere de discriminare impresio-nanta pe aplicatia de recunoastere a pozitiei capului, sugerand ca acest tip de fuziuneıntre mai multe tipuri de trasaturi de nivel inferior reprezinta o reteta sigura de aconstrui vectori-trasatura robusti la diverese provocari;

• modelele Markov au demonstrat o eficienta ridicata ın modelarea datelor secventiale,ori de cate ori este posibil de a evidentia secvente observabile. Experimental s-a demon-strat ca HMM-urile pot sta la baza aplicatiilor care sa ruleze ın timp real.

• algoritmul Xferboost implementeaza cu succes elemente din teoria transferului de cu-nostinte, aducand ımbunatatiri omniprezente ın fata metodelor clasice.

• metoda bazata pe transferul vectorului de ponderi (WD) este un bun punct de start ınsolutionarea cazului subiectilor aflati ın miscare, demonstrand potentialul transferuluide cunostinte ıntre diferite regiuni.

Contributiile tezei vizeaza, ın principal, doua directii fundamentale. Una se refera laevidentierea rolului etajului de extragere de trasaturi ıntr-un sistem de recunoastere. Sepoate spune ca exista o legatura stransa ıntre tipul trasaturii alese si performantele ıntreguluisistem. Cea de-a doua directie are ca scop gasirea de solutii optime pentru estimarea pozitieicapului ın scenarii de socializare. Au fost considerate cateva aplicatii de recunoastere, uneleın deplina maturitate (recunoasterea fetelor), altele ınca in stadiu de evolutie. In fiecaredin aplicatiile considerate au fost aduse ımbunatatiri care vizeaza ın principal rata de re-cunoastere, dar nu numai. Pe scurt, contributiile tezei sunt:

32

• realizarea unui studiu comparativ ıntre o serie de trasaturi des ıntalnite ın practica ınraport cu un sistem de recunoastere a fetelor bazat pe HMM-uri;

• propunerea unei metode simple, rapide si eficiente pentru recunoasterea gesturilor stat-ice efectuate de maini, pe baza modeleleor Markoviene;

• propunerea unui nou algoritm (Xferboost) pentru adaptarea unui model antrenat peun domeniu existent spre un altul nou, folosind teoria transferului de cunostinte, cetrateaza estimarea pozitiei capului ın imagini reprezentand subiecti stationari;

• propunerea unei metode de adaptare a clasificarii ın cadrul aceleiasi aplicatii, dar ıncare sunt implicati subiecti aflati ın miscare;

• realizarea unui studiu comparativ asupra catorva trasaturi, cu referire la aplicatia derecunoastere a pozitiei capului, pe un sistem de tip Logitboost;

• ınregistrarea unei baze de date (DPOSE) pentru aplicatia de estimare a pozitiei capului,continand peste 60000 de imagini etichetate.

Exista e serie de puncte care ar putea ımbunatati performantele sistemelor prezentate peviitor. Unul dintre ele, valabil ın orice alta aplicatie de recunoastere, este de a ımbunatatitrasaturile utilizate. Atat timp cat rata de recunoastere este diferita de 100%, cu siguranta caexista trasaturi mai potrivite pentru clasificatorul analizat. Personal sunt convins ca existaalgoritmi de ınvatare suficient de puternici pentru diverse aplicatii, care au nevoie doar detipul potrivit de trasatura. Alte ımbunatatiri pot fi aduse diverselor etape din procesul declasificare, precum modulul de tracking din sistemul prezentat ın Cap. 5, responsabil partialcu degradarea ratei de recunoastere. Se poate ımbunatati de asemenea fiecare dintre celelaltemodule, ıncepand cu cel de achizitie si finalizand cu clasificarea propriu-zisa, cu privire lavolumul de resurse consumate.

33

Lista de lucrari publicate

• Radu-Laurentiu Vieriu, Vasilica Tataru, si Liviu Goras. On feature extraction forhidden Markov model based face recognition. In Buletinul Institutului Politehnic dinIasi, pagini 29− 43, 2010.

• Vasilica Tataru, Radu-Laurentiu Vieriu, si Liviu Goras. On hand gestures recogni-tion using hidden Markov models. Acta Tehnica Napocensis, 51(3):29− 32, 2010.

• Radu-Laurentiu Vieriu, Bogdan Goras, si Liviu Goras. On hmm static hand gesturerecognition. In Proceedings-ul Simpozionului International de Semnale, Circuite siSisteme (ISSCS), pagini 221− 224, 2011.

• Radu L. Vieriu, Anoop K. Rajagopal, Ramanathan Subramanian, Oswald Lanz,Elisa Ricci, Nicu Sebe, si Kalpathi Ramakrishnan. Boosting-based transfer learning formulti-view head-pose classification from surveillance videos. In Proceedings-ul celei de-a 20-a Conferinta Europeana de Procesare a Semnalelor (EUSIPCO), pagini 221−224,2012.

• Anoop K. Rajagopal, Radu L. Vieriu, Ramanathan Subramanian, Oswald Lanz,Elisa Ricci, Nicu Sebe, si Kalpathi Ramakrishnan. An adaptation framework for headpose estimation in dynamic multi-view scenarios. Lucrare acceptata spre publicare ınProceedings-ul Conferintei Asiatice de Comuter Vision (ACCV), 2012.

34

Bibliography

[1] Karl Pearson. On lines and planes of closest fit to systems of points in space. Philosophical Magazine, 2:559–572, 1901.

[2] Saeed Dabbaghchian, Masoumeh P. Ghaemmaghami, and Ali Aghagolzadeh. Feature extraction using discrete cosinetransform and discrimination power analysis with a face recognition technology. Pattern Recognition, 43(4):1431–1440,2010.

[3] Michael Oren, Constantine Papageorgiou, and Pawan Sinha. Pedestrian detection using wavelet templates. In IEEEConference on Computer Vision and Pattern Recognition (CVPR), pages 193–199, 1997.

[4] Constantine Papageorgiou and Tomaso Poggio. A trainable system for object detection. International Journal of ComputerVision, 38:15–33, 2000.

[5] Shen Linlin, Ji Zhen, Bai Li, and Xu Chen. Dwt based hmm for face recognition. Journal of Electronics (China),24:835–837, 2007.

[6] Bai-Ling Zhang, Haihong Zhang, and Shuzhi Sam Ge. Face recognition by applying wavelet subband representation andkernel associative memory. IEEE Transactions on Neural Networks, 15:166–177, 2004.

[7] Hazim Kemal Ekenel and Bulent Sankur. Multiresolution face recognition. Image and Vision Computing, 23(5):469–477,2005.

[8] D. G. Lowe. Object recognition from local scale-invariant features. In IEEE International Conference on Computer Vision(ICCV), pages 1150–1157, 1999.

[9] Boris Ruf, Effrosyni Kokiopoulou, and Marcin Detyniecki. Mobile museum guide based on fast SIFT recognition. InProceedings of 6th International Workshop on Adaptive Multimedia Retrieval, pages 170–183, 2008.

[10] Stephen Se, David G. Lowe, and James J. Little. Vision-based mobile robot localization and mapping using scale-invariantfeatures. In IEEE International Conference on Robotics and Automation (ICRA), pages 2051–2058, 2001.

[11] Stephen Se, David G. Lowe, and James J. Little. Mobile robot localization and mapping with uncertainty using scale-invariant visual landmarks. International Journal of Robotics Research, 21(8):735–758, 2002.

[12] Matthew Brown and David G. Lowe. Recognising panoramas. In IEEE International Conference on Computer Vision(ICCV), pages 1218–1227, 2003.

[13] P. Scovanner, S. Ali, and M. Shah. A 3-dimensional SIFT descriptor and its application to action recognition. In Proceedingsof the 15th International Conference on Multimedia, pages 357–360, 2007.

[14] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In IEEE Conference on ComputerVision and Pattern Recognition (CVPR), volume 1, pages 886–893, 2005.

[15] Yan Ke and Rahul Sukthankar. PCA-SIFT: A more distinctive representation for local image descriptors. In IEEEConference on Computer Vision and Pattern Recognition (CVPR), pages 506–513, 2004.

[16] Serge Belongie, Jitendra Malik, and Jan Puzicha. Matching shapes. In IEEE International Conference on ComputerVision (ICCV), pages 454–463, 2001.

[17] Timo Ojala, Matti Pietikainen, and David Harwood. A comparative study of texture measures with classification basedon featured distributions. Pattern Recognition, 29(1):51–59, 1996.

[18] Timo Ahonen, Abdenour Hadid, and Matti Pietikainen. Face Recognition with Local Binary Patterns. In IEEE EuropeanConference on Computer Vision (ECCV), volume 3021, pages 469–481, 2004.

35

[19] Di Huang, Caifeng Shan, Moshen Ardebilian, and Liming Chen. Facial image analysis based on local binary patterns: asurvey. Submitted for an IEEE publication.

[20] Oncel Tuzel, Fatih Porikli, and Peter Meer. Region covariance: A fast descriptor for detection and classification. In IEEEEuropean Conference on Computer Vision (ECCV), volume 3952, pages 589–600, 2006.

[21] S. Kullback and R. A. Leibler. On information and sufficiency. Annals of Mathematical Statistics, 22:79–86, 1951.

[22] Oncel Tuzel, Fatih Porikli, and Peter Meer. Human detection via classification on riemannian manifolds. In IEEEConference on Computer Vision and Pattern Recognition (CVPR), pages 1–8, 2007.

[23] Diego Tosato, Michela Farenzena, Mauro Spera, Vittorio Murino, and Marco Cristani. Multi-class classification on rie-mannian manifolds for video surveillance. In European Conference on Computer Vision (ECCV), volume 6312, pages378–391, 2010.

[24] Yoav Freund and Robert E. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting.In Proceedings of the 2nd European Conference on Computational Learning Theory (EuroCOLT), pages 23–37, 1995.

[25] N. Vladimir Vapnik. Estimation of the Dependences based on empirical data. Springer Series in Stadistics, SpringerVerlag, 1982.

[26] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20(3):273–297, 1995.

[27] L. E. Baum, T. Petrie, G. Soules, and N. Weiss. A maximization technique occurring in the statistical analysis ofprobabilistic functions of Markov chains. The Annals of Mathematical Statistics, 41(1):164–171, 1970.

[28] Radu-Laurentiu Vieriu, Vasilica Tataru, and Liviu Goras. On feature extraction for hidden Markov model based facerecognition. In Bulletin of the Polytechnical Institute of Iasi, pages 29–43. 2010.

[29] A.V. Nefian and III Hayes, M.H. Face detection and recognition using hidden Markov models. In IEEE InternationalConference on Image Processing (ICIP), volume 1, pages 141–145, 1998.

[30] Radu-Laurentiu Vieriu, Bogdan Goras, and Liviu Goras. On hmm static hand gesture recognition. In Proceedings of theInternational Symposium on Signals, Circuits and Systems (ISSCS), pages 221–224, 2011.

[31] Vasilica Tataru, Radu-Laurentiu Vieriu, and Liviu Goras. On hand gestures recognition using hidden Markov models.Acta Tehnica Napocensis, 51(3):29–32, 2010.

[32] E. Murphy-Chutorian and M. M. Trivedi. Head pose estimation in computer vision: A survey. IEEE Transactions onPattern Analysis and Machine Intelligence (PAMI), 31:607–626, 2009.

[33] Shiguang Shan, Wenchao Zhang, Yu Su, Xilin Chen, and Wen Gao. Ensemble of piecewise fda based on spatial histogramof local (gabor) binary patterns for face recognition. In IEEE International Conference on Pattern Recognition (ICPR),pages 606–609, 2006.

[34] Radu L. Vieriu, Anoop K. Rajagopal, Ramanathan Subramanian, Oswald Lanz, Elisa Ricci, Nicu Sebe, and KalpathiRamakrishnan. Boosting-based transfer learning for multi-view head-pose classification from surveillance videos. InProceedings of the 20th European Signal Processing Conference (EUSIPCO), pages 221–224, 2012.

[35] Wenyuan Dai, Qiang Yang, Gui-Rong Xue, and Yong Yu. Boosting for transfer learning. In Proceedings of the 24thInternational Conference on Machine Learning (ICML), pages 193–200, 2007.

[36] Anoop K. Rajagopal, Radu L. Vieriu, Ramanathan Subramanian, Oswald Lanz, Elisa Ricci, Nicu Sebe, and KalpathiRamakrishnan. An adaptation framework for head pose estimation in dynamic multi-view scenarios. In Paper acceptedfor publication in Proceedings of the Asian Conference on Computer Vision (ACCV), 2012.

[37] Weilong Yang, Yang Wang, and Greg Mori. Human action recognition from a single clip per action. In IEEE InternationalConference on Computer Vision Workshops (ICCVW), pages 482–489, 2009.

36

Date post:	31-Oct-2014
Category:	Documents
Upload:	danutz-maxim
View:	66 times
Download:	4 times

Teza

Documents