Retele Neuronale_2014

REREREREELE ELE ELE ELE NEURONALE NEURONALE NEURONALE NEURONALE

Ioan Ioan Ioan Ioan Z.Z.Z.Z. MIHU MIHU MIHU MIHU

1

1 Sisteme neuronale artificiale. Introducere

De multe secole, una dintre principalele preocupri ale omului a fost aceea de a construi maini. Aceste maini urmau s preia cele mai dificile i mai plictisitoare activiti pe care omul trebuia s le efectueze, astfel nct munca omului s devin mai uoar i mai plcut. Era construciei de maini a nceput odat cu descoperirea celor mai simple dispozitive precum prgia, roata i scripetele. Inginerii i cercettorii din zilele noastre ncearc s construiasc maini inteligente. Sistemele bazate pe reele neuronale artificiale fac parte din acea categorie de maini inteligente care pot contribui decisiv la creterea calitii vieii. Dei calculatoarele sunt mult mai rapide i mai eficiente n execuia operaiilor aritmetice, totui oamenii i animalele au abiliti de procesare i de recunoatere a imaginilor mult mai bune dect cele mai eficiente calculatoare. Prin urmare, reelele neuronale artificiale pot suplimenta puterea enorm de procesare a calculatorului clasic (von Neumann) cu abilitatea de a lua decizii sensibile/inteligente i de a nva din experienele obinuite ("de via"), aa cum fac oamenii. Prin reelele neuronale artificiale se sper s se reproduc, chiar dac doar parial, flexibilitatea i puterea de procesare a creierului uman. Procesarea ntr-o asemenea reea se bazeaz pe o structur dens de nterconexiuni prin care se interconecteaz uniti (noduri) simple. Unitile simple se numesc neuroni artificiali, sau mai sintetic neuroni sau noduri. Neuronii sunt uniti simple care realizeaz o sum ponderat a semnalelor de intrare, urmat de o funcie de transformare neliniar. n anumite cazuri, neuronii sunt considerai uniti cu prag (threshold), care se activeaz doar dac semnalul total de intrare (suma ponderat a semnalelor de intrare) depaste o anumit valoare de prag. Neuronii dintr-o reea artificial opereaz n paralel i pentru a descrie mai uor procesarea efectuat la nivelul ntregii reele, acetia sunt interconectai printr-o reea (topologie) regulat. Adesea neuronii sunt organizai n straturi (layers) succesive. n arhitecturile feedforward nu apar bucle de reacie; astfel de bucle apar n reelele recurente (feedback networks), unde ieirile neuronilor din cadrul unui strat sunt rebuclate pe intrrile acelorai neuroni sau pe intrrile neuronilor din straturile anterioare (din amonte). Neuronii sunt deci interconectai printr-o reea dens de conexiuni. Fiecare conexiune are o anumit intensitate dat de un parametru numeric numit pondere (pondere sinaptic). Aceas pondere (weight) este variabil i prin urmare, poate fi modificat i este modificat n timpul nvrii (antrenrii) reelei. Spre deosebire de calculatoarele convenionale, care sunt programate (limbaje de rogramere) pentru a rezolva anumite probleme, relele neuronale trebuie nvate (antrenate) s rezolve anumite probleme. Acestea nva noi asocieri, noi comportamente, noi dependene funcionale. nvarea reprezint un proces de modificare (ajustare) a ponderilor (parametrilor reelei). Avem de-a face cu o nvare din exemple (din experiene), realizat prin reguli sau algoritmi de nvare. nvarea reelei neuronale nlocuiete programarea pe care o revendic calculatorul convenional. Reelele neuronale au atras atena cercettorilor din diferite domenii. Neurobiologii sunt interesai n emularea sistemelor neuronale biologice cu ajutorul reelelor neuronale artificiale. Fizicienii sunt interesai de analogiile funcionale care apar ntre reelele neuronale i sistemele dinamice neliniare. Matematicienii sunt fascinai de posibilitile de modelare matematic a comportamentului sistemelor mari i complexe, cum sunt reelele neuronale. Inginerii electroniti i calculatoriti consider reelele neuronale artifciale drept sisteme de procesare a semnalelor. Acetia sunt de asemenea interesai de problema proiectrii i construciei unor circuite integrate dedicate mainilor inteligente (neuroprocesoare). Psihologii privesc reelele neuronale artificiale ca i posibile prototipuri de maini capabile s proceseze informaiile ntr-o manier similar omului. Cei preocupai de tiina calculatoarelor sunt interesai de provocrile pe care le deschide procesarea

2

masiv paralel din cadrul reelelor neuronale i de aplicaiile acestora n domeniile inteligenei artificiale, teoria computaional, modelare i simulare i altele.

2 Concepte i modele fundamentale ale sistemelor neuronale artificiale

2.1 Neuronul biologic i modelele sale artificiale

Creierul uman conine aproximativ 1015 neuroni (dup ultimele estimri) interconectai printr-o reea foarte dens de interconexiuni sinaptice (aproximativ 104 sinapse per neuron). Neuronii opereaz ntr-un meidiu chimic i comunic prin impulsuri electrice. Prin urmare, creierul uman poate fi considerat o reea electric de comutare puternic interconectat i influenat de procesele biochimice care au loc la nivelul interconexiunilor (sinapselor). Aceast vast reea neuronal natural are o structur extrem de elaborat, cu interconexiuni complexe (fig. 2.1). Primete informaii de intrare de la receptorii senzoriali. Receptorii primesc la rndul lor stimuli att din interiorul corpului ct i de la organele senzoriale care preiau stimuli din mediul extern. Stimulii constau n impulsuri electrice care injecteaza informaie n reeaua neuronal (creier).

Fig 2.1. Fluxul informaiilor n sistemul nervos

Informaia de intrare este procesat n creier, n urma procesrii se genereaz informaia de control pe care o transmite ctre efectori, iar acetia, prin intermediul organelor motoare, genereaz diverse aciuni. Prin urmare, avem de-a face cu un sistem pe 3 nivele, care const din receptori, reeaua neuronal i efetori; acest sistem controleaz corpul uman i aciunile sale. Aa cum se arat n fig. 2.1, informaia de intrare este procesat , evaluat i comparat cu informaia memorat n creier (sistemul nervos central). Atunci cnd devine necesar, creierul generea comenzi pentru organele motoare. Organele motoare sunt monitorizate de ctre creier prin informaia ntoars prin bucla de reacie (internal feedback) i astfel aciunile acestora sunt verificate. Se pooate observa c structura sistemlui nervos are caracteristicile unui sistem de reglare n bucl nchis.

3

A Neuronul biologic

Neuronul biologic reprezint celula elementar din componena creierului. Structura sa este redat n figura 2.2.

Fig 2.2 Structura neuronului biologic i modul de transmitere a informaiei (impulsuri electrice)

Cele 3 componente ale neuronului biologic sunt:

- corpul neuronului (cell body), denumit i soma, n care se proceseaz informaia recepionat (impulsurile electrice recepionate) de pe intrri (dendrite)

- dendritele care formeaz o structur arborescent foarte dens, prin care se recepioneaz informaii (impulsuri electrice) de la neuronii vecini

- axonul, o fibr cilindric lung prin care se transmite informaia de ieire din neuron (impulsuri electrice) ctre neuronii cu care acesta este interconectat (urmtorii neuroni din reea)

4

Elementul de contact dintre axon i dendrite se numete sinaps (synapse). Prin sinaps neuronul transmite informaii (impulsuri electrice) ctre urmtorul neuron din reea. Sinapsa opereaz ntr-un mediu chimic care afecteaz transmiterea impulsurilor (mediul chimic modeleaz un fel de conductan electric a crei valoare poate varia). Impulsurile de intrare n neuron (recepionate prin intermediul dendritelor) sunt agregate de-a lungul unei perioade de timp denumit perioad latent de insumare (period of latent summation). Astfel se obine potenialul total la nivelul membranei celulei. Dac potenialul total depete un anumit nivel, neuronul se activeaz i emite un impuls pe ieire (pe axon). Prin urmare, membrana agregheaz semnalele de intrare n neuron de-a lungul unei perioade de timp (perioada latent de insumare). Semnalele de intrare n neuron pot fi excitatoare sau inhibitoare. Prin urmare, neuronul se activeaz numai dac excitaia total depete inhibiia total cu cel puin o valoare denumit prag (T=threshold). Deoarece conexiunile sinaptice sunt excitatoare i respectiv inhibitoare, putem asigna ponderi sinaptice cu valoarea +1 conexiunilor excitatoare i respectiv -1 conexiunilor inhibitoare. Putem astfel reformula regula de activare: neuronul se activeaz dac i numai dac, pe perioad latent de insumare, suma algebric a ponderilor sinaptice aferente conexiunilor pe care primete impulsuri depete valoarea de prag. Impulsurile neuronale nu sunt sincronizate n timp. Cu toate acestea, neuronul biologic realizeaz o integrare i respectiv nsumare a semnalelor de intrare de-a lungul unei perioade de timp (period of latent summation). Dac neuronul se excit i elibereaz un impuls de ieire prin intermediul axonului, atunci neuronul devine neexcitabil pentru o anumit perioad de timp, denumit perioad refractar (refractory period). Pe aceast durat de timp neuronul nu mai poate genera niciun fel de semnal pe ieire, indiferent de valoarea excitaiei. Aceasta ne permite s mprim axa timpului n intervale egale cu refractory period. i s introducem un model discret pentru descrierea comportamentului sistemului (n ansamblu): putem stabili ce neuroni vor fi excitai la momentul k+1 n funcie de condiiile de excitare existente la momentul k. Trebuie menionat c descrierea de mai sus este mult simplificat i prin urmare simplific foarte mult "funcionarea" neuronului biologic.

B Modelul McCulloch-Pitts

Prima definiie formal a neuronului artificial, inspirat din descrierea funcional a neuronului biologic prezentat mai sus, a fost introdus de ctre McCulloch i Pitts n 1943. Modelul McCulloch Pitts este prezentat n figura 2.3a. Intrrile xi pot fi 1 sau 0, simboliznd prezena sau absena unui impuls pe intrarea respectiv la momentul k. Ieirea neuronului este notat cu o i se obine conform cu regula de activare (relaiile) din figura 2.3a. Supraindicele k reprezint momentul de timp (model discret) iar coeficientul wi reprezint coeficientul sinaptic (ponderea sinaptic) aferent intrrii i (wi=+1 pentru sinapsele excitatoare i respectiv -1 pentru sinapsele inhibitoare). T reprezint valoarea de prag (threshold). Pentru ca neuronul s se activeze, suma ponderat a intrrilor (

=

n

iii xw

1) trebuie s fie mai mare sau egal cu valarea de prag

T (vezi relaiile din fig 2.3a). Dei modelul McCulloch Pitts este simplu, acesta are totui potenial computaional; alegnd corespunztor valorile ponderilor sinaptice wi, poate fi utilizat pentru implementarea porilor NOT, OR i AND (vezi fig 2.3b)

5

Fig 2.3a Modelul McCulloch Pitts

Fig 2.3b Poart NAND, poart NOR i celul de memorie implementate cu ajtorul neuronului McCulloch Pitts

6

C Modelarea neuronului dedicat reelelor neuronale artificiale

Reelele neuronale artificiale utilizeaz o varietate de modele aferente neuronului cu trsturi mai diversificate, dac le raportm la cele ale modelului McCulloch Pitts. n cele ce urmeaz vom introduce modelele de baz al neuronului artificial. Un model general al neuronului artificial este prezentat n fig 2.4.

Fig 2.4 Simbolul general al neuronului

Simbolul din figura 2.4 evideniaz un set de intrri (xi), un set de ponderi sinaptice (wi), unitatea de procesare a neuronului (nodul de procesare) i o ieire (o). Semnalul de ieire al neuronului este dat de relaia:

n form vectorial aceast ecuaie devine:

unde w reprezint vectorul de ponderi sinaptice:

x este vectorul de intrare:

iar f reprezint funcia de activare a neuronului.

Not: w si x sunt vectori coloan (supraindicele t denot operaia de transpunere).

(2.1a)

(2.1b)

7

Se definete valoarea de activare a neuronului net ca fiind produsul scalar dintre vectorul de ponderi sinaptice w i vectorul de intrare x:

Variabila net devine argumentul funciei de activare f(net) i reprezint (prin analogie) potenialul membranei neuronului biologic. S observm c valoarea de prag (T) nu apare explicit nici n figura 2.4 i nici n ecuaiile (2.1) i (2.2). Aceasta poate fi modelat ns cu ajutorul ultimei intrri n neuron, dac se seteaz xn=1 i wn=T. n acest caz vectorul de intrare real conine primele n-1 componente (x=[x1 x2 xn-1]t) i este extins (augmentat) cu a n-a component (xn=1) doar pentru a modela pragul neuronului (T). n reelele n care se prefer precizarea ntr-o manier explicit a valorii de prag (sub forma unui parametru distinct al modelului), vectorul de intrare nu va mai fi augmentat cu ca de-a n-a component xn=1. Modelul neuronului prezentat n figura 2.4 i a crui funcionalitate este definit prin ecuaiile (2.1) i (2.2) este larg utilizat n literatura de specialitate. Ecuaia (2.1) reliefeaz faptul c neuronul (un nod de procesare din cadrul unei reele neuronale) efectueaz 2 operaii succesive:

- calculul valorii de activare =

=

n

iii wxnet

1, printr-o nsumare a intrrilor xi

ponderate cu coeficienii sinaptici wi .

- calculul valorii de ieire prin aplicarea funciei de activare: o=f(net).

Cele mai utilizate funcii de activare sunt:

- funcia bipolar continu (bipolar continuous) denumit i funcia sigmoidal bipoar:

- funcia bipolar binar (bipolar binary) denumit i funcia treapt bipoar:

Prin deplasarea i scalarea funciilor bipolare (2.3a) i (2.3b) se obin funciile unipolare:

- funcia unipolar continu (unipolar continuous) denumit i funcia sigmoidal unipolar:

- funcia unipolar binar (unipolar binary) denumit i funcia treapt unipolar:

(2.2)

(2.3a)

(2.3b)

(2.4a)

(2.4b)

8

Observaie: n (2.3a) i (2.4a) am introdus notaia: net

net

= e)exp( .

Parametrul din funciile (2.3a) i (2.4a) este proporional cu ctigul neuronului i determin panta funciei de activare n punctul net=0. Graficul funciei sigmoidale bipolare i respectiv unipolare este redat n figura 2.5, pentru diferite valori ale parametrului .

Fig 2.5 Graficul funciei de activare a neuronului: (a)-bipolar continu, (b)-unipolar continu

Cele mai multe reele neuronale utilizeaz neuroni cu funcie de activare bipolar, continu sau binar. Mai rar (doar n anumite arhitecturi) se utilizeaz functiile de activare unipolare. Funcia bipolar/unipolar binar este evident funcia trept bipolar/unipolar. Calculnd limita funciei sigmoidale bipolare definit de relaia (2.3a) pentru , vom obine funcia treapt bipolar definit de relaia (2.3b). Analog, treapta unipolar (2.4b) este de fapt limit din funcia sigmoidal unipolar definit prin relaia (2.4a), cnd . Dac funcia de activare este treapta bipolar definit prin relaia (2.3b) atunci simbolul general al neuronului prezentat n figura 2.4 poate fi nlocuit cu simbolul din figura 2.6, iar dac funcia de activare este sigmoida bipolar definit prin relaia (2.3a) atunci simbolul general poate fi nlocuit cu cel din figura 2.7.

Fig 2.6 Modelul neuronului cu funcia de activare treapt (perceptronul discret)

9

Fig 2.7 Modelul neuronului cu funcia de activare sigmoidal (perceptronul continuu)

Schema bloc a neuronului (perceptronului) discret din figura 2.6 conine 2 blocuri de procesare succesive:

- un bloc de adunare care calculeaz suma ponderat a intrrilor - o unitate logic de prag (TLU = threshold logic unit) care implementeaz funcia

de activare de tip treapt.

Acest model, denumit perceptronul discret, introdus de Rosenblatt n anul 1958, a fost prima main capabil s nvee. Neuronul (perceptronul) continuu din figura 2.7 este redat printr-un amplificator cu ctig mare i cu saturare, care amplific semnalul de intrare net=wtx (suma ponderat a intrrilor). I eirea neuronului va fi discret n cazul neuronului discret i respectiv continu n cazul neuronului coninuu. Dac se implementeaz o reea neuronal cu m neuroni organizai ntr-un singur strat (fig 2.8a) atunci pe ieirea reelei vom obine un vector cu m componente:

unde oi reprezint semnalul de ieire al neuronului i.

Domeniul n care vectorul de ieire o ia valori va fi:

pentru funcia de activare bipolar continu definit de relaia (2.3a) i respectiv:

pentru funcia de activare unipolar continu definit de relaia (2.4a).

Este evident c domeniul vectorului o este interiorul hipercubului m-dimensional (-1,1)m n primul caz i respectv (0,1)m n cel de-al doilea caz.

n cazul neuronului discret, domeniul vectorului de ieire o va fi:

pentru funcia de activare trept bipolar definit de relaia (2.3b) i respectiv:

(2.5)

(2.6a)

(2.6b)

(2.7a)

10

pentru funcia de activare treapt unipolar definit de relaia (2.4b).

Este evident c domeniul vectorului o este reprezentat doar de vrfurile hipercubului m-dimensional [-1,1]m n primul caz i respectv [0,1]m n cel de-al doilea caz. n aceste ultime dou cazuri, vectorul o poate lua doar 2m valori distincte. ntr-o manier similar se pot descrie vectorii de intrare x i domeniul acestora. Neuronul artificial, cu modelele sale definite n cadrul acestei seciuni, nu modeleaz i ntrzierile induse de neuronul biolgic (perioada latent de nsumare, perioada refractar). Neuronul artificial este un dispozitiv fr memorie, care proceseaz instantaneu intrrile i genereaz semnalul de ieire fr nicio ntrziere. La nevoie, un dispozitiv de ntrziere extern ar putea fi adugat acestui "neuron instantaneu" astfel nct s obinem un model care opereaz "cu memorie". n reelele neuronale cu reacie (feedback) va trebui introdus aceast ntrziere pentru a putea descrie matematic comportamentul reelei (vezi seciunea urmtoare).

2.2 Modele de reele neuronale artificiale

Neuronul artificial definit n seciunea precedent reprezint piesa de baz utilizat n construcia reelelor neuronale artificiale. Neuronii din cadrul unei reele sunt interconectai iar semnalele propagate prin aceste interconexiuni sunt ponderate cu coeficienii sinaptici afereni. Fiecare conexiune are propriul coeficient sinaptic (w). Proiectarea unei reele neuronale (cu scopul de a rezolva o anuit problem specific, de exemplu recunoaterea caracterelor) presupune:

1. stabilirea arhitecturii reelei 2. stabilirea valorilor tuturor coeficienilor sinaptici (w)

A. Reele Neuronale cu propagare nainte (Feedforward Ntworks)

n figura 2.8 se prezint o arhitectur feedforward simpl cu un singur strat de neuroni. Cei m neuroni recepioneaz n intrri. Prin urmare, vectorii de intrare i respectiv ieire vor fi:

Ponderea sinaptic Wij conecteaz neuronul i la intrarea j; primul indice (i) specific destinaia iar cel de-al doilea indice (j) specific sursa. Not: Aceast convenie relativ la semnificaiile celor 2 indici nu este universal acceptat; n anuite lucrri pot fi intlnite alte convenii.

Valoarea de activare a neuronului i va fi:

Funcia de activare va fi apoi aplicat valorii neti. Aplicnd aceast transformare puternic neliniar se obin ieirile celor m neuroni:

(2.7b)

(2.8)

(2.9)

(2.10)

11

Vectorul de ponderi wi din ecuaia (2.10) conine toate ponderile sinaptice care conduc spre neuronul i:

Fig 2.8 Reea feeforward cu un singur strat: (a) schema de interconexiuni (b) schema bloc

Introducnd operatorul matricial neliniar definit prin relaia (2.12c) i matricea de ponderi sinaptice W definit prin relaia (2.12b), maparea spaiului intrrilor x n spaiul ieirilor o pe care o realizeaz reeaua neuronal monostrat din figura 28.(a) va fi:

o=[Wx] (2.12a)

unde:

i:

S observm c funcia de activare neliniar f() care apare pe diagonala operatorului matricial opereaz, component cu component, asupra valorii de activare net a fiecrui neuron. Fiecare valoare de activare neti reprezint de fapt produsul scalar dintre rndul i din matricea W (vectorul de ponderi aferent neuronului i) i vectorul de intrare x.

(2.11)

(2.12b)

(2.12c)

12

Vectorii de intrare i respectiv ieire, x i o, sunt denumii adesea forme de intrare (input patterns) i respectiv fome de ieire (output patterns). Maparea unei forme de intrare ntr-o form de ieire se consider a fi instantanee, deoarece nu implic nicio ntrziere ntre intrarea x i ieirea o. Prin urmare, dac vrem s explicim i parametrul timp, ecuaia (2.12a) poate fi rescris astfel:

o(t)=[Wx(t)] (2.13)

n figura 3.8(b) se prezint schema bloc a reelei feedforward (cu propagare nainte). Se observ c aceast arhitectur este caracterizat de lipsa buclelor de reacie (fr feedback). Reelele feedforward cum este cea din figura 2.8(a) pot fi conectate n cascad pentru a obine o reea multistrat (multilayer). Evident c nici reelele multistrat nu conin bucle de reacie.

Aceste reele nva de regul supervizat, n sensul c exist un aa zis "profesor" care cunoata ieirea dorit (odi) pentru fiecare intrare xi (i=1, 2, k reprezint indicele vectorului de intrare din setul de antrenament). Reeaua find iniial neinstruit, la intrarea xi va rspunde cu ieirea real ori. Prin urmare, se poate calcula o eroare bazat pe diferena od

i-or

i. Pe baza acestei erori se pot calcula nite semnale de eroare care se vor propaga

napoi n reea i pe baza acestor semnale se vor ajusta ponderile Wij. Efectul acestor ajustri va fi reducerea erorii odi-ori ,msurat la ieire.

n exemplul 2.1 (vezi J.M. Zurada - pag.39) se analizeaz o reea feedforward simpl cu 2 straturi i cu un singur neuron pe cel de-al doilea strat.

B. Reele Neuronale cu reacie (Feedback Networks)

O reea cu reacie se poate obine din reeaua feedforward din figura 2.8(a) conectnd ieirile neuronilor la intrrile acestora ca n figura 2.10.

Fig 2.10 Reea cu reacie discret cu un singur strat (a) schema de interconexiuni (b) schema bloc

13

Esena implementrii unei bucle de reacie n arhitectura reelei este aceea de a permite controlul ieirii oi prin intermediul ieirilor oj (j=1, 2, m). Acest mecanism de control devine mai clar dac introducem parametrul timp: ieirea reelei la momentul t, o(t), va controla ieirea la momentul urmtor , o(t+). Intervalul de timp este introdus de elementele de ntrziere plasate n bucla de reacie (vezi figura 2.10(a)). n cadrul acestei arhitecturi, ntrzierea are un neles simbolic; corespunde perioadei refractare din cadrul neuronului biologic. Dac utilizm notaile introduse cu ocazia descrierii reelei feedforward (seciunea anterioar), maparea o(t) n o(t+) poate fi scris astfel:

Aceast formul poate fi dedus din schema bloc prezentat n figura 2.10(b). S notm c intrarea x(t) este necsar doar pentru a iniializa reeaua (iniia procesarea) la momentul t=0, cnd o(0)=x(0). Intrarea x este apoi ndeprtat i reaua evolueaz autonom pentru t>0. Prin urmare, aici vom lua n considerare cazul particular n care x(t)=x(0) (adic se aplic un vector de intrare la momentul t=o), dup care vectorul x este indeprtat i reeaua evolueaz n timp (t>0) doar datorit semnalelor rebuclate la intrare pe bucla de reacie.

Exist 2 tipuri de reele cu reacie cu un singur strat:

reele discrete; sunt reelele n care variabila t este considerat discret i prin urmare, comportamentul reelei este calculat la momente discrete: , 2 , 3 , ... . Pentru a descrie mai uor comportamentul reelei se consider =1 (o unitate de timp) i pentru a marca aceste momente discrete pe axa timpului se utilizeaz indicele superior k:

unde k reprezint momentul de timp.

Reeaua din figura 2.10 se numete reea recurent deoarece rspunsul reelei la momentul k+1 depinde de ntreaga istorie (evoluie anterioar) a reelei, care a nceput la momentul k=0. ntr-adevr ecuaia (2.12a) este o ecuaie recurent n care, dac se dau valori indicelui k se obine:

Reelele recurente opereaz de regul cu reprezentri discrete ale datelor; acestea utilizeaz neuroni cu funcie de activare de tip treapt. Un sistem cu intrri discrete i care opereaz cu date discrete se numete automat. Prin urmare, reelele neuronale din aceast clas pot fi considerate automate. Ecuaia 2.16a descrie starea reelei la momentele k=1, 2, 3 i prin urmare conduce la o secven de tranziii de stare. Reeaua niiaz aceste tranziii la momentul t=0, cnd se aplic intrarea x0, dup care tranziteaz o secven de stri, pentru k=1, 2, 3 , pn atinge o stare de echilibru, dac aceasta exist. Starea de echilibru se numete atractor. Atractorul poate consta dintr-o singur stare sau un ciclu finit de stri.

(2.15)

(2.16a)

(2.16b)

14

Secvena de stri prin care evoluaz o reea recurent ctre atractor este n general nedeterminist. Suplimentar, pot exista mai muli atractori (stri de echilibru) ctre care poate s convearg reeaua, dup un numr de asemenea tranziii nedeterministe. n esen, n jurul fiecrui atractor se construiete un bazin de atracie i atractorul ctre care va evolua reeaua depinde de starea iniial (punctul din care pornete reeaua la momentul t=0). Dac punctul iniial se afl ntr-un bazin de atracie atunci reeaua va converge ctre atractorul aferent bazinului respectiv. Dac punctul iniial se afl pe un palier, situat ntre 2 sau mai multe bazine de atracie atunci reeaua poate s convearg ctre oricare dintre bazinele (atractorii) din vecintate.

n exemplul 2.2 (vezi J.M. Zurada - pag.44) se analizeaz funcionarea (tranziia ctre o stare de echilibru) unei reele recurente discrete simple.

reele continue (continous-time networks).Conceptul de reacie n arhitectura unei reele neuronale poate fi implementat i cu ntrzieri () infinitezimale inserate n bucla de reacie. n cazul introduceri unei ntrzieri infinitezimale ntre ieirea i intrarea reelei (n bucla de reacie), vectorul de ieire o poate fi considerat o funcie continu n timp. Drept rezultat, ntreaga reea va evolua continuu n timp. O astfel de reea se poate obine nlocuind elementele de ntrziere din figura 2.10 cu elemente de ntrziere infinitezimal (continous-time lag components).

Un astfel de element de ntrziere infinitezimal este circuitul din figura 2.13(a).

Fig 2.13 Element de ntrziere pentru reelele neuronale continue (a) schema elementului (b) rspunsul obinut pe ieire la un impuls aplicat pe intrare

(c) semnalul obinut pe ieire pentru o armonic amortizat aplicat pe intrare

15

De fapt, reelele electrice sunt adesea utilizate pentru a modela comportamentul reelelor neuronale deoarece acestea ofer flexibilitatea modelrii tuturor fenomenelor liniare i neliniare ntlnite n studiul reelelor neuronale. Datorit acestei flexibiliti, reelele electrice sunt utilizate adesea ca modele fizice de lucru pentru studiul reelelor neuronale. Revenind la circuitul de ntrziere din figura 2.13, ecuaia diferenial care red relaia dintre tensiunea de ieire (v2) i tensiunea de intrare (v1), este:

Variaia tensiunii de ieire v2 obinut pe un interval de timp t foarte mic va fi:

Din ecuaia (2.22) se observ c, pentru C i t fixe, variaia tensiunii de ieire v2 este proporional cu diferena dintre v1 i v2. Dac v1 este meninut constant sau este variat lent, v2 va urmri v1 n timp, cu o mic ntrziere, aa cum se obser n figurile 2.13(b) i 2.13(c). n figura 2.13(b) este redat variaia lui v2 dac la intrare se aplic un v1 de tip impuls iar n figura 2.13(c) dac semnalul v1 este o armonic (sinusoid) amortizat. De regul reelele neuronale continue utilizeaz neuroni cu funcie de activare continu. O conexiune sinaptic (dintre 2 neuroni) pe care s-a inserat elementul de ntrziere prezentat n figura 2.13 (a) este redat n figura 2.14.

Fig 2.14 Conexiune sinaptic n cadrul unei reele neuronale continue

Rezistena Rij implementeaz ponderea sinaptic dintre ieirea neuronului j i intrarea neuronului i. Utiliznd un interval t finit, ecuaia (2.21) poate fi discretizat astfel:

(2.21)

(2.22)

16

Valoarea de activare a neuronului i la momentul k+1 va fi:

Dup cum se observ, contribuia la neti pe care o realizeaz ieirea neuronului j se distribuie n timp aa cum indic ecuaia (2.23b), unde t este un interval de timp infinitezimal. Cnd n neuroni sunt conectai la intrarea neuronului i, aa cum se arat n figura 2.14, expresia (2.23b) trebuie calculat pentru j=1,2, ....n i valorile netik+1 trebuiesc nsumate. Numeroase studii arat c n cazul interconectrii a n neuroni, rezult o dinamic foarte complex a reelei. Descrierea fidel a tranziiilor care era foarte simpl n cazul reeleor recurente discrete (vezi exemplul 2.2), revendic rezolvarea unor ecuaii difereniale neliniare n cazul reelelor continue (exemplul 2.3). n exemplul 2.3 (vezi J.M. Zurada - pag.49) se analizeaz funcionarea (tranziia ctre starea de echilibru) unei reele recurente continue simple.

2.3 Procesarea neuronal

Procesul de calcul al ieirii o pentru un anume intrare x, realizat de ctre o reea neuronal se numete recall (reamintire). Recall reprezint faza propriu-zis de procesare din cadrul unei reele neuronale i obiectivul acestei procesri este regsirea informaiei. Recall reprezint decodificarea unui coninut memorat care a fost anterior codifiocat n reea. Vom sistematiza n aceast seciune principalele tipuri de procesare neuronal. S presupunem c un set de forme (patterns) pot fi memorate n reeaua neuronal. Dac dup memorare, pe intrarea reelei se aplic un pattern similar unuia din componena setului memorat, reeaua va putea asocia pattern-ul aplicat la intrare cu cel mai apropiat din cadrul setului memorat. Acest proces este denumit autoasociere i este ilustrat n figura 2.16(a).

Fig 2.16 Reea de asociere (a) autoasociere (b) heteroasociere

Tipic, un pattern de intrare degradat (afectat de zgomot) servete ca informaie (indicaie) pentru obinerea formei sale originale. Acest proces este ilustrat n figura 2.16(a) unde un ptrat distorsionat aplicat pe intrarea reelei genereaz la ieire ptratul codificat n reea (forma corect, fr zgomot). Relaia de asociere poate fi memorat i n variant heteroasociativ, situaie n care se memoreaz de fapt relaia de asociere dintre perechi

(2.23a)

(2.23b)

17

de pattern-uri, aa cum indic figura 2.16(b); o form de tip ptrat aplicat la intrare genereaz o form de tip romb la ieire. i n acest caz, o form distorsonat (cu zgomot) aplicat la intrare va putea genera prin (heteroasociere) o form corect la ieire (vezi figura 2.16(b)). Clasificarea este o alt form de procesare neuronal. S cosiderm c un set de pattern-uri de intrare este mprit ntr-un numr de clase sau categorii. n cazul aplicrii unui pattern pe intrare, reeaua va rspunde cu codul clasei din care face parte pattern-ul respectiv. Tipic, clasele sunt codificate binar i prin urmare neuronii de ieire dintr-o reea de clasificare vor avea funcii de activare binare (treapt). Schema de principiu a unui clasificator care clasific formele de intrare n trei clase este redat n figura 2.17(a).

Fig 2.17 Rea de clasificare (a) clasificare (b) recunoatere

n mod evident clasificarea poate fi neleas ca o form de heteroasociere (asociere ntre pattern-ul de intrare i codul clasei din care acesta face parte). Dac rspunsul reelei trebuie s fie codul clasei dar pe intrare se aplic un pattern care nu face parte din setul memorat (de exemplu un pattern afectat de zgomot) atunci procesul se numete recunoatere (pattern recognition). n acest context, clasificarea poate fi privit ca un caz particular al recunoaterii (cazul n care la intrarea reelei se aplic un pattern care aparine setului memorat). Recunoaterea pentru un set de 3 forme este ilustrat n figura 2.17(b). Aceast form de procesare neuronal devine foarte important atunci cnd formele aplicate la intrarea reelei sunt afectate de zgomot. Unul dintre atuurile reelelor neuronale este capacitatea nde generalizare. Spunem c reeaua generalizeaz bine atunci cnd interpoleaz (rspunde bine la) pattern-uri noi aplicate la intrare. S presupunem c reeaua a fost antrenat cu pattern-urile x1 la x5 (vezi figura 2.18.) n figur se prezint exemple de bun i respectiv proast generalizare pe care reeaua o realizeaz atunci cnd pe intrare i se aplic pattern-uri care nu fac parte din setul memorat Reelele neuronale realizeaz de regul o funcie intrare-ieire (o mapare a spaiului intrrilor n spaiul ieirilor) cu o capacitate bun generalizare. Pentru a pune n eviden formele de procesare pe care le poate realiza o reea neuronal, am plecat de la premisa c reeaua neuronal este capabil s memoreze date. Pn aici, am descris funcia recall a reelei fr a descrie i posibilitatea/ procedura de memorare a unor date n reea. Datele sunt memorate n reea printr-un proces de nvare.

18

Fig 2.18 Exemplu de generalizare

2.4 nvarea i adaptarea

Omul dobndete i i perfecioneaz anumite ndemnri i abiliti prin nvare. nvarea se manifest printr-o schimbare permanent a comportamentului individului care se realizeaz pe baza experienelor de via. nvarea la om i animale este un proces inferenial. Acest proces nu poate fi observat n mod direct; concluzionm c el are sau a avut loc atunci cnd observm o cretere a performanelor individului. Invarea n cadrul reelelor neuronale artificiale este un proces mult mai direct i mai clar i se face cu ajutorul unui algoritm de nvare. Pentru a implementa una din funciile prezentate n seciunea anterioar (clasificare, recunoatere, etc) reeaua neuronal trebuie s nvee o mapare a spaiului intrrilor n spaiul ieirilor (o funcie intrare-ieire), pornind de la un set de exemple. Proiectarea unui clasificator sau a unui asociator const deci n nvarea unei funcii care transform intrrile n ieiri, pornind de la un set de exemple (un set de perechi de vectori intrare-ieire).

A. nvarea ca proces de aproximare sau ca proces de codificare a unor stri de echilibru

Teoria aproximrii are drept obiectiv aproximarea unei funcii continue i multivariabile h(x) cu o alt funcie H(w,x) unde x=[x1, x2, .... xn]t este vectorul de intrare iar w=[w1, w2, .... wn]t este un vector de parametri (de ponderi). Dintr-o anume perspectiv, reelele neuronale pot fi privite ca sisteme care pot nva s aproximeze diverse funcii. Scopul nvrii este de a gsi vectorul w care produce cea mai bun aproximare a funciei h(x) cu funcia H(w,x), pornind de la un set de exemple {x}. O prim problem care trebuie rezolvat este alegerea formei funciei H(w,x); un exemplu de funcie greit aleas (neneted) este curba (2) din figura 2.18. Chiar dac gsim cele mai bune valori pentru parametrii wi, o funcie H(w,x) greit aleas va conduce la aproximri incorecte ntre puncte (ntre exemplele din setul de antrenament). Alegerea funciei H(w,x) cu scopul de a aproxima pe h(x) este definit ca fiind problema reprezentrii. O dat aleas funcia H(w,x), urmeaz aplicarea algoritmului de nvare cu scopul de a gsi valorile optime pentru parametrii wi. ntr-o formulare mai precis, problema nvrii const n gsirea vectorului w* (parametrii optimali) pentru care:

[H(w*,x),h(x)] [H(w,x),h(x)] (2.26)

19

unde [H(w,x),h(x)] reprezint o distan (o funcie de distan) care msoar calitatea aproximrii funciei h(x) cu H(w,x). Cnd gradul de potrivire este evaluat (acurateea aproximrii este evaluat) prin suma diferenelor ptratice calculate n punctele de nvare (pe exemplele {x} din cadrul setului de antrenament), distana [H(w,x),h(x)] va fi suma erorilor ptratice. Aceasta ar fi nvarea ca aproximare. n contrast cu reelele feedforward, care memoreaz asocieri intrare-ieire i care, la aplicarea unui vector pe intrare rspund instantaneu cu vectorul asociat pe ieire, reelele recurente (cu reacie) sunt sisteme dinamice. Maprile (asocierile) intrare-ieire sunt codificate n reelele recurente sub forma strilor de echilibru. Ca i n cazul reelelor feedforward, i la reelele recurente ponderile (w) determin proprietile reelei. nvarea n cazul reelelor recurente const n codificarea strilor de echilibru. De regul aceast codificare se face aplicnd un algoritm de calcul al ponderilor (w) ntr-un singur pas (aa-zisul "proces al nregistrrii"). Exist i abordri n care se aplic algoritmi de nvare incrementali (ca n cazul reelelor feedforward).

B. nvarea supervizat i nvarea nesupervizat

nvarea poate fi considerat ca fiind un proces de "forare" a reelei neuronale s dea un anumit rspuns pe ieire atunci cnd i se aplic un anumit vector (pattern) pe intrare. nvarea este necesar atunci cnd nu dispunem apriori de informaii despre datele de intrare i respectiv de ieire din reea sau cnd informaiile de care dispunem sunt incomplete. Metoda de nvare cea mai utilizat este nvarea incremental (incremental training). Se pornete de la un set de exemple denumit set de antrenament (training set). Exemplele din setul de antrenament trebuie s fie relevante pentru problema de rezolvat. nvarea incremental este o nvare n pai succesivi. n cadrul unui pas i se d reelei un exemplu i dac reeaua rspunde incorect la acel exemplu se trece la ajustarea ponderilor w (de regul cu valori w foarte mici) astfel nct, data viitoare, reeaua s rspund mai bine la exemplul respectiv. ntr-un numr de pai succesivi i se vor da reelei toate exemplele din setul de antrenament. Acesta va fi un ciclu de nvare. Procesul de nvare este relativ costisitor deoarece presupune un numr relativ mare de cicluri de nvare. Dac algoritmul de nvare decurge bine, ntr-un numr finit de cicluri reeaua trebuie s nvee bine toate exemplele din setul de antrenament iar dac exemplele sunt relevante pentru problema de rezolvat (asociere, clasificare, recunoatere, etc), dup nvare reeaua va fi capabil s rezolve corect respectiva problem. Anumite reele (n general cele recurente) nva "la pachet" toate exemplele din setul de antrenament, metoda fiind denumit ca nvare "la pachet" (batch learning). Acest tip de nvare are loc atunci cnd ponderile w sunt ajustate (calculate) ntr-un singur pas. n acest unic pas, ntregul set de exemple este utilizat pentru a determina valorile corecte ale ponderilor w. Aceast metod de nvare se mai numete i nregistrare (recording) i este utilizat mult mai rar dect metoda incremental. nvarea incremental este mult mai des utilizat iar conceptul de feeback joac un rol important n aceast tehnic de nvare. Exist dou tipuri de nvare incremental (vezi figura 2.19):

nvare supervizat nvare nesupervizat

nvarea supervizat se aplic atunci cnd, pentru fiecare exemplu (vector x) aplicat la intrare, se cunoate rspunsul dorit la ieire (d). Rspunsul dorit este furnizat de "profesor" aa cum este ilustrat n figura 2.19(a). Distana [d,o] dintre rspunsul real (o) i cel dorit (d) reprezint o msur a erorii pe care o face reeaua i este utilizat pentru ajustarea parametrilor reelei (ajustarea ponderilor w). Ajustarea ponderilor are drept scop minimizarea acestei erori. Prin urmare, nvarea supervizat pornete de la un set de exemple (un set de perechi): (x1,d1), (x2,d2), ... (xp,dp); acest set de perechi intrare-ieire

20

este denumit set de antrenament (training set). S remarcm c nvarea supervizat este foarte intuitiv i este utilizat adesea i n nvarea natural (n cazul fiinelor vii). Tipic, nvarea supervizat "premiaz" rspunsurile (asocierile, clasificrile, etc) corecte i "pedepsete" rspunsurile incorecte. Mecanismul de premiere/pedepsire se traduce n ajustri corespunztoare ale ponderilor w. Ideia este de a estima direcia invers a gradientului erorii i de a ajusta ponderile w astfel nct s se fac un mic pas (pe suprafaa de eroare) n aceast direcie. ntr-un numr finit de astfel de pai fcui pe suprafaa de eroare (n direcia invers gradientului), se va ajunge n punctul de minim al erorii (al suprafeei de eroare). Cnd se ajunge n punctul de minim nvarea se consider ncheiat. Cei mai muli algoritmi de nvare supervizat realizeaz un proces de minimizare stochastic a erorii n spaiul multidimensional al ponderilor (w).

(a) (b)

Fig 2.19 Schema bloc pentru explicarea procesului de nvare (a) superizat (b) nesupervizat

n figura 2.19(b) este redat schema bloc a nvrii nesupervizate. Aceast nvare ("fr profesor") se aplic atunci cnd nu se cunosc rspunsurile dorite (d) i prin urmare, o informaie explicit despre eroare nu exist i deci nu poate fi utilizat pentru corectarea rspunsurilor reelei. nvarea trebuie s se bazeze n acest caz pe observarea i analiza rspunsurilor pe care reeaua le d atunci cnd i se aplic la intrare vectori (x) despre care avem cunotine marginale/incomplete. De exemplu, nvarea nesupervizat poate fi utilizat n probleme de cluster-are; presupunnd c verctorii de intrare x sunt grupai ntr-un numr de clase (categorii), reeaua are sarcina de a gsi graniele dintre aceste categorii (cluster-e). Altfel spus, reeaua trebuie s asocieze fiecrui vector de intrare x, categoria (cluster-ul) din care acesta fece parte. n figura 2.20 (a) i (b) sunt redate dou distribuii ale vectorilor de intrare x n spaiul de intrare, considerat bidimensional. ntr-o situaie favorabil, prezentat n figura 2.20(a), graniele cluster-elor pot fi determinate dac pe intrarea reelei se aplic un set mare i reprezentativ de forme (vectori) de intrare. Un mecanism adecvat de autoadaptare a ponderilor w va trebui inclus n algoritmul de nvare, deoarece nu exist apriori cunotine privind apartenena la anumite claster-e a diverilor vectori de intrare. O regul de nvare posibil ar fi: forma de intrare (vectorul) x va fi adugat unui anumit cluster dac distana dintre vectorul x i centrul respectivului cluster este mai mic dect distanele dintre vectorul x i centrele tuturor celorlalte cluster-e.

21

(a) (b)

Fig 2.20 Exemple de distribuie a formelor de inrare n spaiul intrrilor (a) cluster-e evidente (b) cluster-e neevideniate.

Algoritmul de nvare nesupervizat utilizeaz forme de intrare (x) selectate aleator, fr a i se furniza informaii privind apartenena acestor forme la diferitele cluster-e.n cadrul nvrii nesupervizate reeaua trebuie s descopere singur proprieile, asemnrile i deosebirile dintre diferitele forme de intrare. Altfel spus, reeaua trebuie s descopere singur modul de distribuie a formelor de intrare n spaiul intrrilor. Descoperind aceast distribuie, reeaua va parcurge un proces de ajustare a propriilor parametrii (ponderilor w). Acest proces este denumit auto-organizare (self-organization). La finalul acestui proces de auto-organizare (nvare) reeaua va reui s grupeze formele de intrare n cluster-e. Trebuie menionat c nvarea nesupervizat nu este ntotdeauna posibil. Un asemenea caz este redat n figura 2.20(b). unde cluster-ele nu pot fi percepute nici chiar de ochiul uman.

2.5 Reguli de nvare a reelelor neuronale

Neuronul artificial (figura 2.4) este un element adaptiv. Ponderile sale wi sunt ajustabile i vor fi ajustate n funcie de semnalul aplicat la intrare (valorile xi), de valoarea (real) obinut la ieire (o) i de valoarea dorit la ieire (d) furnizat de "profesor". Distana (diferena) dintre ieirea dorit i ieirea real [d,o] reprezint eroarea pe care o face neuronul iar ajustarea ponderilor (wi) se face astfel nct aceast eroare s fie minimizat. Acesta este modelul nvrii supervizate. n anumite cazuri, ieirea dorit (d) nu poate fi precizat (este necunoscut). ntr-o astfel de situaie, ponderile (wi) vor fi ajustate numai n funcie de semnalul aplicat la intrare (valorile xi) i de valoarea obtinut la ieire (o). Acesta este modelul nvrii nesupervizate. Procesul nvrii pentru neuronul i, care de regul este un element de procesare din cadrul unei reele mult mai complexe, este ilustrat n figura 2.21. nvarea const n ajustarea tuturor componentelor wij ale vectorului de ponderi wi. Intrarea xj (care va fi ponderat cu coeficientul ajustabil wij) poate fi ieirea unui alt neuron din cadrul reelei (neuronul j) sau poate fi o intrare extern. n aceast seciune vom descrie nvarea, uneori supervizat alteori nesupervizat, a unor reele foarte simple, formate dintr-un singur neuron sau dintr-un singur strat de neuroni. Forma funciei de activare poate s difere de la o regul de nvare la alta. S mai observm c valoarea de prag (T) nu apare explicit n figura 2.21. Aceasta poate fi modelat ns cu ajutorul ultimei intrri n neuron (intrarea de bias), dac se seteaz xn=1 i wn=T (vezi i explicaiile de la 2.1.C). n acest

22

caz vectorul de intrare real conine primele n-1 componente (x=[x1 x2 xn-1]t) i este extins cu a n-a component (xn=1) doar pentru a modela pragul neuronului (T). n acest fel, valoarea de prag T devine un parametru (wn=T) ajustabil n timpul nvrii. Prin urmare, n cele ce urmeaz vom considera intrarea xn fix i egal cu -1.

Fig 2.21 Ilustrarea procesului de nvare prin ajustarea ponderilor (ieirea dorit di este disponibil numai la nvarea supervizat)

n studiile relative la nvarea reelele neuronale s-a adoptat urmtoarea regul general: Vectorul de ponderi wi=[wi1 wi2 win]t trebuie s creasc proporional cu produsul dintre vectorul de intrare x i semnalul de nvare r. Semnalul de nvare r este n general o funcie de wi, x i n unele cazuri (la nvarea supervizat) de ieirea dorit di. Prin urmare:

r=r(wi,x,di) (2.27)

Valoarea cu care vetorul wi se ajusteaz (se incrementeaz) n pasul de nvare de la momentul t va fi:

wi(t)=cr[wi(t),x(t),di(t)]x(t) (2.28)

unde c este o constant pozitiv denumit constant de nvare care determin rata de nvare. Vectorul de ponderi de la momentul t devine la momentul t+1 (prin ajustare):

wi(t+1)=wi(t)+cr[wi(t),x(t),di(t)]x(t) (2.29a)

Dac recurgem la modelul discret putem introduce indicele superior (k) pentru a defini pasul de nvare (training step). Pentru pasul k, formula de ajustare (2.29a) devine:

wik+1

=wik+cr[wik,xk,dik]xk (2.29b)

23

nvarea dup formula (2.29b) reprezint modelul discret al nvrii, n care timpul t este considerat o variabil discret. Modelul continuu pleac de la premisa c t este o variabil cointinu. Formula de ajustare a ponderilor pentru modelul continuu rezult din (2.29a); aceasta este:

)(cd

)(d trt

ti xw = (2.30)

A Regula lui Hebb (Hebbian Learning Rule)

n cazul nvrii hebbiene (Hebb 1949), semnalul de nvare este (prin definiie) egal cu ieirea neuronului:

r=oi=f(wit x) (2.31)

Valoarea wi cu care se ajusteaz vectorul de ponderi va fi:

wi=cf(wit x)x (2.32a)

iar formula de ajustare a unei singure ponderi va fi:

wij=cf(wit x)xj (2.32b)

Sintetic, acast formul poate fi rescris astfel:

wij=coixj pentru j=1, 2, ..., n (2.32c)

Aceast formul revendic iniializarea ponderilor cu valori mici aleatoare (n jurul valorii wi=0). Iniializarea ponderilor se face desigur naintea startrii procesului de nvare. nvtrea hebbian este o regul de nvare nesupervizat i implementeaz matematic clasica propoziie a lui Hebb: "When an axon of cell A is near enough to excite a cell B and repeatedly or persistently takes place in firing it, some growth process or metabolic change takes place in one or both cells such that A's efficiency, as one of the cells firing B, is increased." (Hebb 1949.). Regula stipuleaz faptul c, dac produsul sau termenul de corelaie oixj (produsul dintre ieire i intrare) este pozitiv, trebuie s produc la o cretere a ponderii wij, n caz contrar ponderea va scdea. Ponderile sinaptice vor fi ajustate pentru fiecare vector (pattern) aplicat la intrare. Asta nseamm c pattern-urile aplicate cele mai frecvent vor avea cea mai mare influen asupra ieirii. De la introducere, regula lui Hebb a evoluat n diferite variante. n anumite variante regula este uor modificat pentru a contracara creterea excesiv a ponderilor, care se produce atunci cnd intrarea (xj) i ieirea (oi) sunt frecvent de acelai semn. O asemenea variant este denumit nvare hebbian cu saturaie (cnd tind s creasc excesiv, ponderile se satureaz la un nivel prestabilit).

Exemplul 2.4 (J.M.Zurada, pag 61) ilustreaz nvarea hebbian pentru neuroni cu funcia de activare binar (treapt) i respectiv continu (sigmoidal).

24

B Regula Perceptronului (Perceptron Learning Rule)

Pentru regula perceptronului, semnalul de nvare este diferena dintre rspunsul dorit la ieirea neuronului i cel real obinut (Rosenblatt 1958). Prin urmare, nvarea dup regula perceptronului este supervizat i semnalul de nvare este (prin definiie):

r=di-oi (2.33)

unde oi=sgn(wit x), adic funcia de activare este funcia treapt bipolar, iar di reprezint rspunsul dorit la ieirea neuronului. Regula perceptronului este ilustrat n figura 2.23.

Fig 2.23 Regula perceptronului de nvare

n cazul acestei reguli de nvare, formulele de ajustare a ponderilor devin:

wi=c[di-sgn(wit x)]x (2.34a)

wij= c[di-sgn(wit x)]xj pentru j=1, 2, ..., n (2.34b)

Regula perceptronului este aplicabil numai pentru neuroni cu funcie de activare de tip treapt iar ecuaiile (2.34) redau formulele de ajustare pentru treapta bipolar. S observm c n cazul acestei reguli ajustarea ponderilor se face numai dac rspunsul real oi este incorect. Eroarea di-oi este inerent inclus n aceast regul de nvare. Deoarece rspunsul dorit (di) i cel real (oi) pot fi fie 1 fie -1, formula de ajustare (2.34a) se reduce la:

xw ci 2= (2.35)

unde semnul plus se utilizeaz cnd di=1 i oi=sgn(wit x)=-1 i semnul minus se utilizeaz cnd di=-1 i oi=sgn(wit x)=1. Din formula (2.35) se observ c ajustarea wi devine zero cnd rpunsul real oi este egal (identic) cu cel dorit di. Ca metod de nvare supervizat, regula perceptronului este larg utilizat. Pentru aceast regul de nvare ponderile pot fi iniializate cu orice valori.

25

Exemplul 2.5 (J.M.Zurada, pag 65) ilustreaz nvarea dup regula perceptronului.

C Regula delta (Delta Learning Rule)

Regula delta se poate aplica doar n cazul funciilor de activare continue, cele mai uzuale fiind funciile sigmoidale (bipolar i respectiv unipolar), definit prin relaiile (2.3a) i (2.4a). nvarea prin regula delta este o nvare supervizat. Semnalul de nvare utilizat n cadrul acestei reguli este denumit delta i este definit astfel:

r=[di-f(wit x)]f'(wit x) (2.36)

unde f'(wit x) reprezint derivata funciei f(net) calculat pentru net=wit x. Schema bloc aferent acestei reguli de nvare este redat n figura 2.24.

Fig 2.24 Regula de nvare delta

Regula delta poate fi uor dedus dac se pornete de la premisa c nvarea trebuie s minimizeze eroarea ptratic dintre ieirea real oi i ieirea dorit di, definit prin relaia (2.37a).

2

21 )o(dE ii = (2.37a)

Ecuaia (2.37a) este ecivalent cu:

2][21 )f(dE tii xw= (2.37b)

Dac se calculeaz gradientul erorii (2.37b) n raport cu wi se obine:

xxw = )()( tiii ' fodE (2.38a)

26

Componentele vectorului gradient vor fi:

jt

iiiij

' fodw

Exxw =

)()( ; pentru j=1, 2, ..., n (2.38b)

Gradientul unei funcii este un vector care definete direcia i sensul de cretere maxim a respectivei funcii. Prin urmare, minimizarea erorii ptratice impune ajustarea vectorului de ponderi n sens invers gradientului:

Ei = w (2.39)

unde este o constant pozitiv. Din (2.38a) i (2.39) se obine formula de calcul a valorilor de ajustare a vectorului de ponderi:

x= )()( iii netfod ' iwwww

(2.40a)

Valoarea de ajustare a unei singure ponderi se obine din (2.38b) i (2.39):

jiii xnetfod ' = )()(jiw

; pentru j=1, 2, ..., n (2.40b)

S notm c formulele (2.40) de ajustare a ponderilor s-au obinut pornind de la ideea minimizrii erorii ptratice. Pe de alt parte, dac n regula general a nvrii (2.28) introducem semnalul de nvare r definit prin ecuaia (2.36), obinem:

x= )()( iii netfod ' ciwwww

(2.41)

Se poate observa c ecuaia (2.41) este identic cu (2.40a) deoarece i c au aceeai semnificaie (constante pozitive care definesc rata de nvare). S notm c, pentru regula delta, iniializarea ponderilor se poate face cu orice valori. S mai notm c regula delta a fost introdus n anul 1986 (McClelland i Rumelhart) i reprezint o completare a regulii perceptronului; ea se mai numete i regula de nvare a perceptronului continuu (regula perceptronului vizeaz perceptronul discret !).

Exemplul 2.6 (J.M.Zurada, pag 68) ilustreaz nvarea dup regula delta.

D Regula de nvare Widrow-Hoff

nvarea prin regula Widrow-Hoff (Widrow 1962) este o nvare supervizat. n acelai timp, este o nvare independent de funcia de activare deoarece minimizeaz eroarea ptratic dintre ieirea dorit d i valoarea de activare a neuronului net=wtx. Prin urmare, semnalul de nvare utilizat va fi:

r=di-wit x) (2.42)

Formula de calcul a valorilor de ajustare a vectorului de ponderi va fi:

xxww = )( tiii dc (2.43a)

27

Valoarea de ajustare a unei singure ponderi va fi:

j t

iiji xdcw = )( xw ; pentru j=1, 2, ..., n (2.43b)

Regula Widrow-Hoff poate fi considerat un caz particular al regulii delta. ntr-adevr, dac n ecuaia (2.36) considerm f(wit x)=wit x, adic dac funcia de activare este funcia identic f(net)=net, atunci relaia (3.36) devine identic cu (2.42). Regula Widrow-Hoff este uneori denumit regula LMS (least mean square). n cadrul acestei reguli ponderile se pot iniializa cu orice valori.

E Regula corelaiei (correlation learning rule)

Dac n formula general a nvrii (2.28) se substituie r=di se obine regula corelaiei. Formula de calcul a valorilor de ajustare a vectorului de ponderi devine:

xw = ii dc (2.44a)

Valoarea de ajustare a unei singure ponderi va fi:

jiji xdcw = ; pentru j=1, 2, ..., n (2.44b)

Regula corelaiei poate fi rezumat astfel: dac di este rspunsul dorit pentru intrarea xj, ajustarea pondereii corespunztoare (wij) este proporional cu produsul acestora (dixj). Aceast regul se aplic de obicei pentru nregistrarea datelor n reelele de memorare realizate cu neuroni discrei. Exist o oarecare similaritate ntre regula corelaiei i regula lui Hebb (dac n ecuaiile (2.32a) i (2.32b) se nlocuiete oi= wit x cu di, se obine (2.44a) i respectiv (2.44b). Totui, regula lui Hebb realizeaz o nvare nesuperizat n timp ce regula corelaiei realizeaz o nvare supervizat. Similar regulii hebiene, regula corelaiei revendic iniializarea ponderilor cu zero (w=0).

F Regula winner-take-all

Regula winner-take-all (nvingtorul ia tot) difer substanial de toate cele prezentate pn aici; ea nu poate fi explicat dect pe un ansamblu de neuroni, uzual aranjai ntr-un strat. Aceast regul este un exemplu de nvare competitiv (competiie ntre neuroni), realiznd o nvare nesupervizat. De obicei aceast regul este utilizat pentru nvarea proprietilor statistice aferente datelor (vectorilor) de intrare. nvarea pleac de la premisa c unul dintre neuroni, s zicem neuronul m (vezi figura 2.25), va genera cea mai mare valoare pe ieire (rspunsul maxim), atunci cnd se aplic stimulul (vectorul) x la intrare. Acest neuron este declarat nvingtor (winner). Drept consecin, doar vectorul de ponderi aferent nvingtorului:

wm=[wm1 wm2 ... wmn]t (2.45)

va fi ajustat, iar valorea de ajustare se calculeaz cu formula:

wm=(x-wm) (2.46a)

Formula de ajustare a unei singure ponderi va fi:

28

wij=(xj-wmj) pentru j=1, 2, ..., n (2.46b)

unde >0 este o constant de nvare de valoare mic, care de regul este micorat pe msur ce nvarea progreseaz.

(ponderile ajustate sunt reprezentate cu linii ngroate)

Fig 2.25 Regula de nvare "winner-take-all"

nvingtorul este ales dintre toi cei p neuroni aflai n competiie, pe baza criteriului de activare maxim:

)( xwxw ti tm p1,2,...,

i=

= max (2.47)

Acest criteriu nseamn de fapt gsirea vectorului de ponderi wm care este cel mai apropiat (n termeni geometrici, ca direcie i sens) de vectorul de intrare x. Dup gsire, regula (2.46) realizeaz incrementarea vectorului wm cu o fracie () din x-wm. S notm c doar vectorul de ponderi aferent neuronului nvingtor (wm) este ajustat. n urma ajustrii, vectorul de ponderi aferent nvingtorului (wm) tinde s estimeze mai bine vectorul de intrare n cauz (x). Asta nseamn c, prin ajustare vectorul de ponderi aferent nvingtorului se apropie i mai mult (ca direcie i sens n termeni geometrici) de vectorul de intrare n cauz. La anumite reele care utilizeaz aceast regul de nvare, cum ar fi reeaua cu autoorganizare introdus de Kohonen, vecintatea este extins astfel nct s includ i neuronii cei mai apropiai de nvingtor iar ajstarea ponderilor se aplic att nvingtorului ct i celorlali neuroni din vecintatea sa. nvarea ncepe cu o vecintate extins i pe msur ce nvarea progreseaz vecintatea se reduce progresiv (fine tuning). Spre sfritul procesului de nvare se ajunge de regul la vecintatea minim, care include doar neuronul nvingtor. Ponderile se iniializeaz cu valori aleatoare iar, pe durata nvrii, vectorii de ponderi ajustai trebuie sistematic normalizai (scalai pentru ca lungimea lor s rmn permanent 1).

29

G Regula outstar

Similar regulii winner-take-all, regula outstar poate fi uor explicat pe un ansamblu de nouroni aranjai ntr-un strat. Regula vizeaz obinerea raspunsului dorit d la ieirea unui strat de p neuroni aa cum se arat n figura 2.26. Dei regula outstar realizeaz o nvare supervizat, ea permite reelei s extrag proprietile statistice ale semnalelor aplicate (vectorilor aplicai) la intrare i respectiv obinute (obinui) la ieire.

Fig 2.26 Regula de nvare outstar

Formula de ajustare a vectorului de ponderi este:

)( jj wdw = (2.48a)

iar cea de ajustare a unei singure ponderi este:

)( jmmmj wdw = pentru m=1, 2, ..., p (2.48b)

S observm c, spre deosebire de toate regulile descrise pn aici, ponderile ajustate n cazul regulii outstar sunt cele care conecteaz intrarea xj la toi cei p neuroni din stratul neuronal (poonderile aferente conexiunilor figurate cu linii ngroate n figura 2.26). Prin urmare, vectorul de ponderi ajustat cu formula (2.48a) se definete astfel:

Constanta de nvare este o constant mic pozitiv a crei valoare se reduce pe msur ce nvarea progreseaz. Aplicnd n mod repetat formula de ajustare (2.48), regula outstar asigur faptul c pattern-urile reale, iniial distorsionate, obinute la ieire (o), devin similare cu pattern-urile nedistorsionate dorite la ieire (d).

30

Concluzii privind regulile de nvare

Concluziile sintetice relative la cele apte reguli de nvare prezentate pn aici, sunt redate n tabelul 2.1. Pentru fiecare regul sunt redate n tabel urmtoarele:

formula de ajustare a ponderilor tipul nvrii (supervizat sau nesupervizat) modul de iniializare a ponderilor funcia de activare impus de respectiva regul de nvare structura reelei care nva (un singur neuron sau un strat de neuroni)

Primele 5 reguli redate n tabel pot fi utilizate pentru nvarea unui singur neuron; ultimele 2 revendic aplicarea pe un strat de neuroni i deci nu pot fi utilizate pentru nvarea unui singur neuron.

Regula de nvare

Formula de ajustare a unei ponderi

wij Iniializarea ponderilor Tipul nvrii

Funcia de activare a neuronului

Structura care

nva

Hebbian wij=coixj j=1,2, ... ,n zero nesupervizat oricare neuron

Perceptronului wij= c[di-sgn(wit x)]xj

j=1,2, ... ,n orice valori superevizat treapt bipolar sau unipolar (*) neuron

Delta jiiiji xnetf'odw = )()( j=1,2, ... ,n orice valori superevizat

continu (sigmoidal) neuron

Windrow-Hoff j t

iiji xdcw = )( xw j=1,2, ... ,n orice valori superevizat oricare neuron

Corelaiei jiji xdcw = j=1,2, ... ,n zero superevizat oricare neuron

Winner-take-all wij=(xj-wmj); m-indexul neuronului nvingtor j=1,2, ... ,n

valori aleatoare, vectori normalizai superevizat

continu (sigmoidal)

strat de neuroni

Outstar )( jiiij wdw = i=1,2, ... ,n

zero nesupervizat continu (sigmoidal) strat de neuroni

c, , - constante de nvare (pozitive) (*) - formula de calcul wij este pentru treapta bipolar; pentru treapta unipolar nu

este dat n tabel. Tabelul 2.1 Date sintetice privind regulile de nvare i proprietile acestora

Prezentarea celor 7 reguli de nvare nu este exhaustiv; cele 7 sunt cele mai importante dar nu sunt singurele reguli. Fiecare regul are propria semnificaie, propriul suport matematic i propria aplicabilitate. Utiliznd aceste reguli, reelele neuronale pot fi nvate (antrenate) cu scopul de a rezolva probleme specifice cum ar fi: clasificare, asociere, recunoaterea formelor. nvarea de regul se face cu succes. Nu sunt excluse ns eecurile (situaiile n care reeaua nu reuete s nvee). Eecurile sunt ns excepii; nu reprezint regula. Atunci cnd nvarea eueaz, reeaua (ponderile) se reiniializeaz, i algoritmul de nvare (iterativ) se restarteaz. De cele mai multe ori restartarea conduce la succes.

31

3 Clasificatori bazai pe reele de perceptroni monostrat

Principala funcie a unui clasificator este de a mpri formele (pattern-urile) de intrare n clase i de a decide crei clase i aparine fiecare form ce i se aplic la intrare. Conceptual, problema poate fi descris ca o transformare a unui set de date de intrare (din spaiul de intrare) n spaiul de ieire, denumit spaiul de clasificare. n general, transformarea datelor de intrare n clase de apartenen este o transformare complex i neinvertibil.

3.1 Modelul clasificrii, caracteristici i regiuni de decizie

Clasificarea formelor (pattern classification) este una dintre cele mai utile sarcini pe care o poate rezolva o reea neuronal. O form (pattern) este o descriere cantitativ a unui obiect, eveniment sau fenomen. Formele pot fi spaiale (caractere, amprente, hri, imagini) sau temporale (semnale de vorbire, electrocardiograme, seismograme, semnale variabile n timp produse de diveri senzori). Obiectivul clasificrii este de a asigna unei forme (obiect fizic, eveniment sau fenomen) o clas sau o categorie prespecificat. n figura 3.1(a) este redat schema bloc a unui sistem de recunoatere i clasificare.

Fig 3.1 Sistem de recunoatere i clasificare (a) Schema bloc (b) clasificatorul de forme

Recunoaterea trebuie neleas ca fiind clasificarea unor forme de nvare care nu sunt identice cu cele utilizate n antrenarea (nvarea) clasificatorului. De exemplu, clasificatorul este antrenat cu (nva) forme de intrare pure iar n momentul utilizrii este pus n situaia de a clasifica forme de intrare deformate (cu zgomot). ntr-o astfel de situaie clasificarea formelor devine recunoaterea formelor.

32

Sistemul de clasificare const dintr-un traductor de intrare (input transducer) care furnizeaz extractorului de caracteristici (feature extractor) datele (vectorii) care descriu formele de intrare. Prin urmare, la intrarea extractorului de caracteristici se aplic vectori de date care aparin diverselor categorii (clase). Aceti vectori de intrare de regul pot fi comprimai fr a pierde informaii relevante (fr a afecta performana clasificatorului). Prin compresie, vectorii de intrare genereaz aa zisele caracteristici (features). Caracteristicile sunt evident tot nite vectori de date (vectori de caracteristici) de dimensiune mult mai mic dect vectorii de intrare. Prin urmare, extractorul de caracteristici din figura 3.1(a) realizeaz o reducere de dimensionalitate; dimensiunea spaiului de caracteristici (feature space) este mult mai mic dect dimensiunea spaiului formelor (pattern space) denumit i spaiu de intrare (input space). S notm c la intrarea clasificatorului se pot aplica direct vectorii de intrare (n formatul extins), aa cum se arat n figura 3.1(b). n acest caz, extractorul de caracteristici este nglobat n structura clasificatorului, nemaifiind implementat separat. Prin urmare, clasificatorul din figura 3.1(b) va realiza att extragerea caracteristicilor ct i clasificarea propriu-zis. n cele ce urmeaz vom considra c la intrarea clasificatorului se aplic vectori (x), n-dimensionali, care descriu formele ce trebuie clasificate:

Clasificatorul implementeaz funcia de deizie:

io=io(x) (3.1)

care poate lua R valori vadiscrete (io=1, 2, ...., R), specificnd astfel clasa creia i aparine vectorul de intrare x. n figura 3.2 este ilustrat modul n care pot fi obinui vectorii de intrare (x) n cazul a dou tipuri de forme (obiecte), obiecte spaiale i respectiv temporale.

Fig 3.2 Dou moduri simple de codificare a formelor de clasificat prin vectori de intrare (a) form spaial (b) form temporal

33

n cazul obiectului spaial din figura 3.2(a), fiecrei componente xi a vectorului de intrare x=[x1 x2 ... xn]t i se asigneaz valoarea 1 dac celula i conine o poriune a obiectului spaial i respectiv valoarea 0 (sau -1) dac nu conine nicio poriune din obiectul spaial (conine doar zon de fundal). n cazul obiectului temporal din figura 3.2(b) reprezentat de funcia f(t), vectorul de intrare x poate fi format din valorile discrete xi=f(ti), cu i=1, 2, ..., n. Clasificarea poate fi descris ntr-o manier intuitiv, n termeni geometrici. Fiecare obiect (vector) de intrare poate fi reprezentat printr-un punct n spaiul euclidian En denumit i spaiul formelor sau spaiul intrrilor. Clasificatorul implementeaz o funcie care mapeaz seturi de puncte din En ntr-unul din numerele io=1, 2, ..., R, aa cum sugereaz funcia de decizie (3.1) Vom nota cu HHHH1, HHHH2, ..., HHHHR seturile de puncte care aparin claselor 1, 2, ..., R. n figura 3.3 este redat un exemplu cu patru astfel de regiuni disjuncte (HHHH1, HHHH2, HHHH3, HHHH4), pentru cazul n=2 i R=4.

Fig 3.3 Exemplu de regiuni de decizie

Putem acum preciza mai clar rezultatul pe care trebuie s-l genereze funcia de decizie pentru o form (un obiect) ce aparine clasei j:

io(x)=j pentru toi vectorii xHHHHj, j=1, 2, 3, 4

De exemplu, vectorul x=[20 10]t aparine regiunii HHHH2 i prin urmare clasei 2 iar vectorul x=[4 6]t aparine regiunii HHHH3 i prin urmare clasei 3, etc. Regiunile HHHHi se numesc regiuni de decizie. Regiunea HHHHi este separat de regiunile vecine prin suprafee de decizie. Putem afirma c obiectele (x) situate pe suprafetele de decizie nu aparin niciunei clase. Un astfel de obiect este reprezentat n figura 3.3 de

34

vetorul x=[-10 10]t. S observm c suprafeele de decizie n spaiul E2 sunt linii curbe. n cazul En (cazul general), suprafeele de decizie sunt hipersuprafee n-1 dimensionale.

3.2 Funcii discriminant

n demersul nostru de proiectare a clasificatorului vom pleca de la premisa c dispunem de un set de antrenament: un set de P forme (vectori) de intrare n-dimensionali x1, x2, ..., xP i pentru fiecare vector xi (i=1, 2, ..., P) se cunoate clasa din care face parte. Dimensiunea P a setului de antrenament este finit i n general este mult mai mare ca dimensiunea n a spaiului de intrare. n cele mai multe cazuri practice se consider de asemenea c P este mult mai mare dect numrul de clase R. Pentru nceput vom descrie clasificatorul printr-o abordare analitic bazat pe conceptul funciilor discriminant. Aceast descriere va conduce la concluzii interesante legate de antrenarea (nvarea) clasificatorilor neuronali. Descrierea bazat pe funcii discriminant va conduce de asemenea la unele dintre regulile de nvare prezentate n capitolul 2. S presupunem pentru moment c dispunem de un clasificator deja proiectat (fig 3.3a), capabil s clasifice corect vectorii (formele) de intrare x. Pentru a realiza clasificarea unui vector x, clasificatorul trebuie s compare valorile celor R funcii discriminant g1(x), g2(x), ..., gR(x). Este convenabil s considerm c cele R funcii discriminant calculate pentru vectorul de intrare x vor genera valori scalare. Vectorul x va aparine clasei i dac i numai dac:

gi(x)>gj(x) pentru i,j=1, 2, ..., R i ij (3.2)

Prin urmare, n interiorul regiunii de decizie HHHHi, funcia gi(x) va avea valoarea cea mai mare. Aceast proprietate de maxim a funciei gi(x) pentru toate formele (vectorii) aparinnd clasei i este fundamental i va servi la alegerea formei adecvate pentru functiile discriminant.

Fig 3.3a Structura clasificatorului bazat pe funcii discriminant

Funciile discriminant gi(x) i gj(x), n cazul unor regiuni de decizie HHHHi i HHHHj contigue, vor defini suprafaa de decizie din spaiul intrrilor (En) care va delimita (separa) formele

35

din cele dou clase, i i respectiv j. Suprafaa de decizie nsi va conine forme care nu aparin nici clasei i i nici clasei j. Prin urmare, ecuaia suprafeei de decizie va fi:

gi(x)gj(x)=0 (3.3)

n figura 3.4(a) este ilustrat modul n care sunt separate 6 forma de intrare care provin din dou clase. Este redat un exemplu simplu n care spaiul intrrilor este E2 iar suprafaa de decizie este o linie dreapt (n acest spaiu cu dou coordonate: x1, x2). Deci figura 3.4(a) ilustreaz cazul particular n=R=2 i introduce conceptul funciilor discriminant liniare. O simpl evaluare a figurii 3.4(a) conduce la concluzia c exist o infinitate de funcii discriminant care asigur clasificarea corect a celor 6 forme de intrare.

Exemplul 3.1: Cele 6 forme din spaiul de intrare E2 prezentate n figura 3.4(a) trebuie clasificate n conformitate cu apartenena lor la cele 2 clase:

{[0 0]t, [0,5 1]t, [1 2]t} : clasa 1 {[2 0]t, [1,5 1]t, [1 2]t} : clasa 2

Evalund distribuia celor 6 forme (vectori de intrare) n spaiul de intrare constatm c exist o infinitate de suprafee de decizie care separ corect formele n cauz. Soluia prezentat n figura 3.4(a) este:

g(x)=2x1+x2+2 (3.4)

Ecuaia (3.4) este ecuaia unei linii drepte care mparte spaiul formelor de intrare (planul x1, x2) n dou regiuni de decizie contigue HHHH1 i HHHH2. Este evident c g(x)>0 pentru toate formele de intrare care aparin clasei 1, g(x)

36

Fig 3.4a,b Ilustrare grafic pentru exemplul 3.1

37

(a) formele de intrare i suprafaa de decizie (b) funciile discriminant

Fig 3.4c,d Ilustrare grafic pentru exemplul 3.1

38

(c) harta de contur a funciilor discriminant (d) construcia vectorului normal pe planul g1(x)

n mod similar poate fi augmentat vectorul [2 1]t cu cea de-a treia component care ar putea avea orice valoare pozitiv i pentru care putem alege tot valoarea 2. Se obine astfel vectorul [2 1 2]t, care prin normalizare va genera vectorul r2 (vectorul unitate normal la g2(x)). Prin urmare, vectorii unitate normali la planele g1(x) i g2(x) obinui prin normalizare sunt:

=

=

323132

323132

21

rrrrrrrr, (3.5b)

Aceti vectori sunt redai n figura 3.4(b). Sa considerm c planul care reprezint funcia discriminant g1(x) trece prin punctul x1=1, x2=0, g1=1 (un punct a crui proiecie pe planul x1, x2 se afl pe suprafaa (linia) de decizie g(x)=g1(x)g2(x)=0). Planul care reprezint funcia discriminant g2(x) trebuie s treac prin acelai punct (x1=1, x2=0, g1=1). Pentru ambele plane, g1(x) i respectiv g2(x), cunoatem vectorii normali unitari (r1, r2) i un punct de intersecie (Q=[1 0 1]t). Utiliznd ecuaia planului care trece printr-un punct cunoscut i cu vectorul normal cunoscut (vezi J.M. Zurada - anexa A6 / pag. A35), obinem ecuaiile funciilor discriminant g1(x) i respectiv g2(x):

0101

t1 =

1

2

1

gx

xrrrr

(3.5c)

0101

t2 =

2

2

1

gx

xrrrr

Se poate verifica faptul c ecuaiile (3.5c) sunt identice cu ecuaiile (3.5a). Din (3.5a) se poate obine forma explicit a ecuaiilor celor dou funcii discriminant:

2211 +

=

2

11 x

x)(g x (3.6)

=

2

12 x

x)(g211x

nlocuind g1(x) i g2(x) din ecuaia suprafeei de decizie g(x)=g1(x)g2(x) cu termenul drept din ecuaiile (3.6), se va obine ecuaia (3.4). S observm c suprafaa de decizie g(x) nu definete n mod unic funciile discriminant g1(x) i g2(x). Vectorii normali r1 i r2 definii prin relaiile (3.5b) nu sunt unici; exist o infinitate de vectori normali care ar putea fi utilizai. De asemenea,

39

exist o infinitate de constante care ar putea fi adunate la g1(x) i respectiv g2(x) fr a schimba proiecia interseciei dintre planurie g1(x) i g2(x) pe planul x1, x2. Pentru a verifica corecta funcionare a clasificatorului proiectat, trebuie s comparm valorile funciilor discriminant g1(x) i g2(x) pentru cele 6 forme (vectori) de intrare de clasificat. Forma (pattern-ul) {[2 0]t aparine ntr-adevr regiunii HHHH2 (clasei 2) deoarece g2(2 0)=2 > g1(2 0)=0, forma (pattern-ul) {[0 0]t aparine ntr-adevr regiunii HHHH1 (clasei 1) deoarece g1(0 0)=2 > g2(0 0)=0, etc. n cadrul acestui exemplu funciile discriminant au fost obinute printr-o abordare matematic, pornind de la poziia formelor (pattern-urilor) n spaiul intrrilor. Cnd structura clasificatorului este complex, metoda matematic devine excesiv de complex.

Atunci cnd clasificarea se bazeaz pe funcii discriminant cunoscute, schema bloc a clasificatorului utilizat arat ca cea din figura 3.5(a). Pentru un pattern x aplicat la intrare, cei i discriminatori calculeaz valorile celor i funcii discriminant gi(x), denumite pe scurt discriminani. Selectorul de maxim implementeaz condiiile (3.2) selectnd valoarea valoarea maxim aplicat pe cele R intrri. Dac gk(x) are valoarea maxim atunci pe ieirea clasificatorului se obine io=k ceea ce nseamn c pattern-ul x aparine clasei k. Abordarea bazat pe funcii discriminant i exemplul prezentat pun n eviden cazul particular al clasificatorului n dou clase (R=2) denumit i dichotomizer (englez: dichotomizer), denumire care provine din limba greac: dicha=n dou, tomia=a tia. S-a artat c, n cazul dichotomizerului, evaluarea condiiilor (3.2) poate fi nlocuit cu evaluarea funciei discriminant:

g(x)=g1(x)g2(x) (3.7a)

Prin urmare pentru dichotomizer, regula general de clasificare (3.2) poate fi nlocuit cu:

g(x)>0: clasa 1 g(x)

=

gj(x) pentru toate pettern-urile x HHHHi, i=1, 2, ..., R; j=1, 2, ..., R; ij

atunci subseturile HHHHi sunt liniar separabile.

46

n figura 3.9 sunt prezentate dou exemple de seturi liniar neseparabile (n spaiul bi i respectiv tridimensional) Este vorba de funcia XOR (SAU exclusiv) denumit i funcia de paritate:

f(x1, x2, ...,xn)=XOR(x1, x2, ...,xn)= x1 x2 ... x3

Fig 3.9 Exemplu de funcie care conduce la neseparabilitate liniar (R=2) (a) funcia x1 x2 (b) funcia x1 x2 x3

Valorile funciei XOR sunt distribuite n vrfurile hipercubului n-dimensional. n figura 3.9(a) se prezint forma bipolar iar n figura 3.9(b) forma unipolar a funciei XOR. Funcia XOR este adesea utilizat pentru a exemplifica neseparabilitatea liniar. n figurile 3.4(a) i 3.6 sunt prezentate exemple de pattern-uri liniar separabile. Putem observa c suprafeele de decizie liniare definesc regiuni de decizie convexe n spaiul de intrare (spaiul pattern-urilor).

3.4 Conceptul nvrii neparametrice

Metodologia de proiectare a clasificatoarelor prezentat mai sus este o metodologie analitic bazat pe calculul granielor (suprafeelor de decizie), pornind de la poziia (distribuia) prototipurilor, respectiv a cluster-elor pe care acestea le formeaz, n spaiul de intrare. n abordarea teoretic, precum i n exemplele 3.1 i 3.2, s-a artat c coeficienii funciilor discriminant liniare, denumii ponderi, pot fi determinai pe baza setului de prototipuri i respectiv apartenenei acestora la diversele clase (cluster-e). n acest paragraf vom examina clasificatoarele bazate pe reele neuronale, ale cror ponderi (coeficieni) se obin prin nvare (nu printr-un calcul analitic !). n aceast abordare se pornete de la un set de pattern-uri (prototipuri) x1, x2, ..., xP, denumit set de exemple, set de nvare sau set de antrenament. n cadrul procesului (algoritmului) de nvare, prototipurile sunt aplicate succesiv i ciclic pe intrarea clasificatorului. nvarea va fi de tip supervizat deoarece pentru fiecare prototip se cunoate rspunsul corect (clasa din care acesta face parte). La aplicarea unui prototip pe intrarea reelei vom avea, pe de

47

o parte rspunsul real al reelei i pe de alt parte, rspunsul corect (clasa din care face parte respectivul prototip) furnizat de ctre "profesor". Dac rspunsul real nu coincide cu cel corect (dac clasificatorul clasific greit respectivul prototip) se trece la ajustarea ponderipor (coeficienilor) clasificatorului astfel nct eroarea s fie corectat. Prin urmare, reeaua nva din exemple, pentru fiecare exemplu (prototip), comparnd raspunsul real cu cel dorit. Parametrii clasificatorului (ponderile reelei) sunt ajustai ori de cte ori rspunsul reelei este incorect. Deoarece ajustarea se face de regul cu valori mici (pentru a evita intrarea reelei n "oscilaie"), pentru corectarea unei greeli de clasificare sunt necesare de regul mai multe ajustri succesive. nvarea devine astfel ciclic i se va opri doar n momentul n care toate prototipurile (exemplele) vor fi clasificate corect. S reanalizm dichotomizerul introdus n paragraful 3.2 n ideea de a defini un algoritm de nvare supervizat pentru acest clasificator liniar n dou clase. Schema bloc a dichotomizerului augmentat porezentat n figura 3.5(b) este redat din nou n figura 3.10.

Fig 3.10 Dichotomizerul liniar bazat pe neuronul cu funcia de activare de tip treapt (bazat pe perceptronul discret)

Acest dichotomizer are n+1 ponderi i o unitate de prag care opereaz ca un element bipolar (binar) de decizie. Prin urmare, este identic cu perceptronul discret prezentat n figura 2.6. Intrarea n elementul bipolar de decizie va fi suma ponderat a componentelor vectorului de intrare augmentat y (obinut prin augmentarea vectorului de intrare x cu cea dea n+1 -a componenent xn+1=1). Aceast intrare adiional se numete intrare de bias i n condiile n care wn+1=T, va emula pragul T aferent perceptronului neaugmentat. Astfel, perceptronul augmentat va avea intrarea suplimentar de bias dar pragul su va deveni zero, modelul augmentat fiind perfect echivalent cu cel neaugmentat. n partea a 2-a a prezentului paragraf vom analiza dichotomizerul liniar instruibil (capabil s nvee) i vom deduce algoritmul de nvare aferent acestuia. Pentru ajustarea ponderilor perceptronului din figura 3.10 se poate porni de la informaia de eroare care se cuantific prin diferena dintre rspunsul corect (furnizat de "profesor") i respectiv cel real obinut la ieire, atunci cnd la intrarea perceptronului se aplic un pattern din setul de antrenament (un prototip). Mai nti vom analiza procesul de clasificare apelnd la reprezentri geometrice n spaiul de intrare augmentat. Aceast analiz geometric va conduce, ntr-un mod deosebit de relevant, la un algoritm de nvare; va fi algoritmul de nvare aferent perceptronului discret. Din consideraiile prezentate pn aici tim c ecuaia suprafeei de decizie, n spaiul de intrare (spaiul pattern-urilor) n-dimensional este:

wtx+wn+1=0 (3.22a)

48

n spaiul de intrare augmentat (spaiul En+1), ecuaia 3.22a) devine:

wty=0 (3.22b)

Aceasta este ecuaia planului care trece printr-un punct dat i care este normal la un vector dat (normal vetor-point ecuation, vezi J.M. Zurada, Anexa 6, pag. A35); este prima ecuaie pe care o considerm n spaiul ponderilor (nu n spaiul de intrare!) Prin urmare, ecuaia (3.22b) este ecuaia hiperplanului de decizie din spaiul augmentat al ponderilor. Acest plan intersecteaz ntotdeauna originea sistemului de axe (punctul w=0). Vectorul nurmal (perpendicular) la acest plan este chiar pattern-ul augmentat y. Pentru exemplificare, n figura 3.11 sunt reprezentate, n spaiul augmentat al ponderilor, cinci hiperplane de decizie; sunt hiperplanele generate de cinci pattern-uri (prototipuri) din setul de antrenament: y1, y2, ..., y5.

Fig 3.11 Hiperplanele de decizie din spaiul augmentat al ponderilor, pentru un set de 5 prototipuri, clasificate n 2 clase.

49

Conform reprezentrii din figura 3.11, cele cinci prototipuri sunt ncadrate n dou clase. Vectorul yi (i=1,2, ..., 5) normal la hiperplanul de decizie wtyi=0, va fi orientat ntotdeauna spre semispaiul pozitiv (semispaiul n care wtyi>0). Deci vectorul yi este orientat ntotdeauna ctre semispaiul care reprezint clasa 1. Cunoscnd semispaiile pozitiv i respectiv negativ pentru fiecare prototip (y1, y2, ..., y5), putem gsi uor o regiune din spaiul augmentat al ponderilor care satisface separarea liniar n cele dou clase. Pentru a gsi regiunea soluiilor, trebuie s gsim intersecia a cinci semispaii: semispaiile pozitive pentru prototipurile care aparin clasei 1 (wty1>0, wty4>0) i respectiv semispaiile negative pentru prototipurile care aparin clasei 2 (wty2

50

Fig 3.12a Ajustarea ponderilor dichotomizerului pe parcursul nvrii

Ilustrarea unei proceduri iterative de nvare, care conduce la o succesiune de ajustri ale vectorului de ponderi (n spaiul augmentat al ponderilor) este redat n figura 3.12b. S considerm c setul de antrenament este format din trei prototipuri (vectori de intrare augmentai): y1, y2, y3. n figura 3.12b sunt redate hiperplanele de decizie pe care aceste trei prototipuri le creeaz n spaiul ponderilor (liniile notate cu ). Poziiile acestor hiperplane (linii) de decizie rmn fixe deoarece vectorii normali la aceste hiperlane (y1, y2, y3) sunt fici. S considerm c n cadrul algoritmului de nvare, pattern-urile din setul de antrenament sunt aplicate succesiv pe intrarea clasificatorului (perceptronului discret) n ordinea: y1, urmat de y2, urmat de y3. S mai considerm c vectorul de ponderi augmentat este iniializat cu valoarea w1(vezi figura 3.12b).

51

Fig 3.12b Ajustarea ponderilor dichotomizerului pe parcursul nvrii (exemplu)

n primul pas al algoritmului de nvare, prototipul y1 este aplicat pe intrarea clasificatorului i va fi clasificat greit. Drept consecin se face prima ajustare a vectorului de ponderi (vezi figura 3.12b):

w2=w1+cy1

n pasul al doilea se aplic la intrarea clasificatorului prototipul y2 care, conform figurii 3.12b va fi incorect clasificat i prin urmare, vectorul de ponderi w2 (obinut n pasul anterior) va fi din nou ajustat:

w3=w2+cy2

Deoarece al treilea pattern (y3) aparine clasei 2, clasificare incorect se va obine i n pasul 3. Vectorul de ponderi va fi din nou ajustat:

w4=w3cy3

Vectorul w4 se afl n zona haurat (spaiul soluiilor) i prin urmare, va asigura clasificarea corect a tuturor celor trei pattern-uri y1, y2, y3. Putem afirma c perceprtronul (clasificatorul) a fost antrenat (nvat) s clasifice corect cele trei prototipuri.

52

n concluzie, procedura de nvare supervizat poate fi sintetizat prin ecuaia:

w'=w cy1 (3.26)

unde semnul + se utilizeaz n cazul pattern-urilor care aparin clasei 1 i sunt incorect clasificate iar semnul - se utilizeaz n cazul pattern-urilor care aparin clasei 2 i sunt incorect clasificate. Pentru pattern-urile corect clasificate nu se fac ajustri. S notm c am redescoperit regula de nvare a perceptronului prezentat n capitolul 2; formula (3.26) este echivalent cu (2.35). Pentru a echivala perfect cele dou formule trebuie s facem urmtoarele aseriuni:

- constanta de nvare c din ecuaia (2.35) va fi jumtate din constanta c din ecuaia (3.26); aseriunea este permis deoarece c trebuie s ndeplineasc o singur condiie: c>0.

- vectorul x din ecuaia (2.35) este vectorul de intrare augmentat (notat n (3.26) cu y).

3.5 nvarea perceptronului discret i utilizarea acestuia n clasificare: algoritm i exemplu

S analizm ntr-o manier mai detaliat procesul ajustrii ponderilor Vom apela din nou la reprezentarea geometric i vom determina valoarea constantei c astfel nct s controlm valoarea (mrimea) ajustrii. Distana p de la un punct w1 la planul wty=0 n spaiul euclidian (n+1)-dimensional se calculeaz cu formula (vezi J.M. Zurada, Anexa 6):

yyw =

1tp (3.27a)

unde semnul din faa fraciei se alege astfel nct s fie opus semnului componentei wn+1. Altfel spus, semnul trebuie ales astfel nct s fie identic cu semnul produsului w1ty, deoarece p este un scalar nenegativ. innd cont de acest lucru, relaia (3.27a) poate fi rescris utiliznd valoarea absolut a produsului w1ty:

yyw

=

1t

p (3.27b)

S calculm valoarea constantei c pentru care vectorul de ponderi w2 rezultat n urma ajustrii realizate cu (3.26) va fi situat chiar pe hiperplanul de decizie w1ty=0 (hiperplanul utilizat n acest pas de ajustare). Localizarea vectorului w2 pe hiperplanul de decizie w1ty=0 implic:

w2ty=0 (3.28)

adic: 0)c( t1 = yyw

iar constanta c care realizeaz acest "salt" chiar pe hiperplanul de decizie va fi:

yyyw

= t1t

c (3.29a)

Deoarece constanta de corecie c este pozitiv, relaia (3.29a) poate fi rescris sub forma:

53

yy

yw

= t

1t

c (3.29b)

Lungimea vectorului cy cu care se ajusteaz vectorul de ponderi w devine:

yyy

ywy

= t

1t

c (3.30)

Deoarece 2yyy =t , putem concluziona c distana p de la punctul w1 la hiperplanul de decizie definit prin ecuaiile (3.27) este identic cu lungimea vectorului de ajustare definit prin ecuaia (3.30). Dac lum n considerare o asemenea strategie de ajustare, nseamn c "constanta" de corecie c nu va mai fi constant ci o variabil a crei valoare depinde de pattern-ul curent y, aa cum indic ecuaiile (3.29). Pentru c=1, regula de corecie de baz (3.26) conduce la o ajustare foarte simpl a vectorului de ponderi; ajustarea modific ( ) vectorul de ponderi w exact cu vectorul (pattern-ul) curent y. Dac lum ca referin corecia obinut cu ecuaiile (3.29), vom putea defini mai multe strategii de ajustare a ponderilor, n funcie de lungimea vectorului de corecie w2w1. Aceast lungime va fi proporional cu un coeficient >0, (coeficient de proporionalitate) care va interveni n expresia constantei c:

yy

yw

= t1t

c (3.31)

Fig 3.13 Strategii de ajustare a ponderilor, n funcie de valoarea parametrului (pentru pasul i)

54

Din relaiile deduse mai sus, ilustrate n termeni geometrici n figura 3.13 (pentru pasul de ajustare i), rezult c este raportul distanelor de la vechiul vector de ponderi (wi) la noul vector (wi+1) i respectiv de la vechiul vector (wi) la hiperplanul de decizie wity=0. Diferitele valori ale parametrului conduc la diferite valori ale constantei de corecie c i efectul acestora este ilustrat n figura 3.13. Dac =0 nu se face ajustare. Dac =1 corecia va realiza un "salt" exact pe hiperplanul de dcizie wity=0. Dac =2 corecia va realiza un "salt" peste hiperplanul de decizie, n punctul wi+1, care este simetricul lui wi n raport cu hiperplanul de decizie. n cele dou cazuri intermediare vom avea:

- regula de corecie fracionar (pentru 0

55

ajustare a ponderilor. Cnd dk=1 i ok=-1, ceea ce nseamn c un pattern care aparine clasei 1 a fost clasificat greit (ca aparinnd clasei 2), ajustarea ponderilor devine:

kk1k yww =+ c (3.39a)

Cnd dk=-1 i ok=1, ceea ce nseamn c un pattern care aparine clasei 2 a fost clasificat greit (ca aparinnd clasei 1), ajustarea ponderilor devine:

kk1k yww =+ c (3.39b)

Prin urmare, algoritmul de nvare a dichotomizerului implementat cu ajutorul unui perceptron discret revendic ajustarea ponderilor atunci i numai atunci cnd survine o clasificare greit. Cnd clasificarea greit se datoreaz condiiei wty0, atunci pondrile wi sunt diminuate (sczute) cu valori proporionale cu yi. Prin urmare, cnd are loc o clasificare greit ponderile sunt corectate ("pedepsite") corespunztor. Cnd clasificarea este corect, ponderile nu sunt corectate ("pedepsite") iar lipsa unei "pedepse" poate echivala cu o "premiere". n algoritmul de nvare aferent perceptronului discret, se definete o eroare E care cuantific greelile (clasificrile incorete). nvarea se realizeaz n cicluri succesive iar n cadrul unui ciclu se aplic pe intrarea perceptronului i se clasific succesiv toate prototipurile din setul de antrenament. Dac eroarea global (cumulat), calculat la sfrit de ciclu este mai mare ca zero, concluzia este c nvarea nu s-a ncheiat (nc mai sunt prototipuri incorect clasificate). ntr-o astfel de situaie se trece la un nou ciclu de nvare. Dac la sfritul unui ciclu, eroarea global este zero, concluzia este c nvarea s-a ncheiat (toate prototipurile sunt clasificate corect). Operatorul va fi utilizat pentru operaia de atribuire (de exemplu, operaia k1 nseamn c variabilei k i se atribuie valoarea 1).

Algoritmul de nvare aferent perceptronului discret Se d setul de antrenament format din P perechi:

{(x1,d1), (x2,d2), ..., (xP,dP)}, unde

xi este vector de intrare )( 1n

, di este ieirea dorit )( 11 , i=1, 2, ..

Date post:	07-Jan-2016
Category:	Documents
Upload:	lita-claudiu
View:	266 times
Download:	1 times

Retele Neuronale_2014

Documents