+ All Categories

Curs RN

Date post: 05-Nov-2015
Category:
Upload: vlad-flavius
View: 225 times
Download: 1 times
Share this document with a friend
Description:
a
23
1 Curs nr. 1 Introducere 1.1 Reţele neuronale artificiale – definiţie, proprietăţi Preocuparea pentru reţelele neuronale artificiale, denumite în mod curent „reţele neuronale”, a fost motivată de recunoaşterea faptului că modul în care calculează creierul fiinţelor vii este complet diferit de cel al calculatoarelor numerice convenţionale. Fiind modele simplificate ale creierului uman, ele deţin capacitatea de a învăţa, spre deosebire de calculatoarele convenţionale, care rămân totuşi mai eficiente pentru sarcinile bazate pe operaţii aritmetice precise şi rapide Reţelele neuronale nu dispun de unităţi de procesare puternice, dimpotrivă, acestea sunt caracterizate printr-o simplitate extremă, însă interacţiunile lor pe ansamblu produc rezultate complexe datorită numărului mare de conexiuni. Reţelele neuronale artificiale (RNA) sunt ansambluri de elemente de procesare simple, puternic interconectate şi operând în paralel, denumite uneori procesoare paralel distribuite, neurocomputere sau modele conexioniste. RNA reprezintă o încercare de a simula, cel puţin parţial, structura şi funcţiile creierului specifice organismelor vii. Deşi nu există o definiţie general acceptată, se poate spune că RNA reprezintă un sistem de procesare al semnalelor, compus dintr-un număr mare de procesoare elementare interconectate, denumite neuroni artificiali sau noduri care cooperează pentru rezolvarea unor sarcini specifice. Aceste noduri sunt puternic interconectate prin intermediul unor legături numite interconexiuni prin care se propagă informaţie numerică. În reţelele neuronale informaţia nu mai este memorată în zone bine precizate, ca în cazul calculatoarelor standard, ci este memorată difuz în toată reţeaua. Modalitatea de adaptare la condiţiile specifice mediului constă în modificarea ponderilor asociate conexiunilor dintre neuroni şi eventual a structurii RNA. Originea acestor reţele trebuie căutată în studierea reţelelor bioelectrice din creier formate de neuroni şi sinapsele acestora. Principala trăsătură a acestor reţele este capacitatea de a învăţa pe bază de exemple, folosindu-se de experienţa anterioară pentru a-şi îmbunătăţi performanţele. Astfel de modele conexioniste oferă anumite avantaje, caracteristice sistemelor neuronale reale (biologice) şi care nu sunt întâlnite în cazul sistemelor de calcul tradiţionale, secvenţiale: - O proprietate deosebit de importantă a RNA este aceea de a învăţa şi de a se adapta; - Posibilitatea de a opera cu date imprecise; - Capacitatea de generalizare, în sensul în care RNA va opera corect şi cu date de intrare care nu au fost prezentate în timpul procesului de antrenament; - Datorită gradului ridicat de paralelism , funcţionarea defectuoasă sau chiar pierderea unui număr de neuroni nu afectează semnificativ performanţa sistemului global. RNA reprezintă deci sisteme tolerante la erori; - Capacitatea de a aproxima orice funcţie continuă neliniară cu gradul de acurateţe dorit. Astfel RNA pot fi folosite cu succes în modelarea sistemelor neliniare; - Datorită numărului mare de intrări şi ieşiri, RNA modelează cu uşurinţă sisteme multivariabilă; - Implementările hardware ale RNA, de exemplu prin intermediul circuitelor integrate pe scară largă (VLSI), fac posibilă utilizarea RNA pentru cazul aplicaţiilor în timp real. 2. Neuronul biologic. Modul în care funcţionează creierul este încă un mister. Totuşi anumite aspecte privind structura creierului sunt deja cunoscute. În particular, este bine cunoscut faptul că creierul este format din celule numite neuroni, despre care se presupune că ne oferă capacitatea de a memora, a gândi, a folosi experienţele dobândite anterior.
Transcript
  • 1

    Curs nr. 1

    Introducere 1.1 Reele neuronale artificiale definiie, proprieti

    Preocuparea pentru reelele neuronale artificiale, denumite n mod curent reele neuronale, a fost motivat de recunoaterea faptului c modul n care calculeaz creierul fiinelor vii este complet diferit de cel al calculatoarelor numerice convenionale. Fiind modele simplificate ale creierului uman, ele dein capacitatea de a nva, spre deosebire de calculatoarele convenionale, care rmn totui mai eficiente pentru sarcinile bazate pe operaii aritmetice precise i rapide

    Reelele neuronale nu dispun de uniti de procesare puternice, dimpotriv, acestea sunt caracterizate printr-o simplitate extrem, ns interaciunile lor pe ansamblu produc rezultate complexe datorit numrului mare de conexiuni.

    Reelele neuronale artificiale (RNA) sunt ansambluri de elemente de procesare simple, puternic interconectate i opernd n paralel, denumite uneori procesoare paralel distribuite, neurocomputere sau modele conexioniste. RNA reprezint o ncercare de a simula, cel puin parial, structura i funciile creierului specifice organismelor vii. Dei nu exist o definiie general acceptat, se poate spune c RNA reprezint un sistem de procesare al semnalelor, compus dintr-un numr mare de procesoare elementare interconectate, denumite neuroni artificiali sau noduri care coopereaz pentru rezolvarea unor sarcini specifice. Aceste noduri sunt puternic interconectate prin intermediul unor legturi numite interconexiuni prin care se propag informaie numeric. n reelele neuronale informaia nu mai este memorat n zone bine precizate, ca n cazul calculatoarelor standard, ci este memorat difuz n toat reeaua. Modalitatea de adaptare la condiiile specifice mediului const n modificarea ponderilor asociate conexiunilor dintre neuroni i eventual a structurii RNA.

    Originea acestor reele trebuie cutat n studierea reelelor bioelectrice din creier formate de neuroni i sinapsele acestora. Principala trstur a acestor reele este capacitatea de a nva pe baz de exemple, folosindu-se de experiena anterioar pentru a-i mbunti performanele.

    Astfel de modele conexioniste ofer anumite avantaje, caracteristice sistemelor neuronale reale (biologice) i care nu sunt ntlnite n cazul sistemelor de calcul tradiionale, secveniale: - O proprietate deosebit de important a RNA este aceea de a nva i de a se adapta; - Posibilitatea de a opera cu date imprecise; - Capacitatea de generalizare, n sensul n care RNA va opera corect i cu date de intrare care nu au fost prezentate n timpul procesului de antrenament; - Datorit gradului ridicat de paralelism , funcionarea defectuoas sau chiar pierderea unui numr de neuroni nu afecteaz semnificativ performana sistemului global. RNA reprezint deci sisteme tolerante la erori; - Capacitatea de a aproxima orice funcie continu neliniar cu gradul de acuratee dorit. Astfel RNA pot fi folosite cu succes n modelarea sistemelor neliniare; - Datorit numrului mare de intrri i ieiri, RNA modeleaz cu uurin sisteme multivariabil; - Implementrile hardware ale RNA, de exemplu prin intermediul circuitelor integrate pe scar larg (VLSI), fac posibil utilizarea RNA pentru cazul aplicaiilor n timp real. 2. Neuronul biologic.

    Modul n care funcioneaz creierul este nc un mister. Totui anumite aspecte privind structura creierului sunt deja cunoscute. n particular, este bine cunoscut faptul c creierul este format din celule numite neuroni, despre care se presupune c ne ofer capacitatea de a memora, a gndi, a folosi experienele dobndite anterior.

  • 2

    Creierul uman const dintr-o reea de 1010...1011 neuroni puternic interconectai. Fiecare neuron este interconectat cu ali neuroni. Numrul de conexiuni poate varia de la 1000 la 10.000 dar pot exista i neuroni care au 200.000 de ali neuroni conectai.

    Neuronii care alctuiesc creierul efectueaz sarcini simple i la o vitez nu prea mare (timp de rspuns 103s) dar sunt puternic interconectai si lucreaz n paralel. Avnd n vedere faptul c circuitele electronice care stau la baza calculatoarelor actuale au timpi de rspuns mult mai mici (109s) i totui sunt surclasate de ctre creier n rezolvarea unor probleme complexe (vedere, decizii pe baza unor date incomplete etc.), rezult c puterea computaional a creierului rezid n faptul c milioane de neuroni opereaz simultan. Evident, ar fi de dorit realizarea de sisteme care s lucreze cu viteza componentelor electronice i s fie caracterizate de conectivitatea creierului.

    n fig.1 este prezentat structura unei celule nervoase.

    Fig.1 Structura neuronului biologic

    Se pot distinge urmtoarele pri constituente:

    - Soma sau corpul celulei reprezint partea central a celulei care realizeaz majoritatea funciilor logice ale neuronului. Corpul celulei conine mecanismul genetic i metabolic necesar meninerii activitii neuronului. - Axonul (ieirea celulei) reprezint o prelungire a corpului celulei (citoplasm), unic i n general nearborizat. Funcia axonilor este aceea de a conduce influxul nervos de la corpul celular la dendritele sau corpul celular al altui neuron sau la o celul efectoare. - Dendritele (intrrile neuronului) sunt prelungiri ale citoplasmei relativ scurte, groase i bogat ramificate. Funcia lor este aceea de a recepiona informaii i de a le conduce pn la corpul neuronului. n funcie de tipul neuronului el poate avea pn la 104 dendrite.

    Contactul dintre neuroni se realizeaz prin intermediul sinapselor. Sinapsele dintre doi neuroni se realizeaz n trei feluri: ntre butonii terminali ai axonului unui neuron i dendritele altui

  • 3

    neuron (sinapse axo-dendritice); ntre butonii terminali ai axonului unui neuron i corpul altui neuron (sinapse axo-somatice); ntre butonii terminali ai axonului unui neuron poriunea incipient a axonului altui neuron (sinapse axo-axonale). Stocarea informaiei n neuroni se presupune c este efectuat prin intermediul conexiunilor sinaptice, mai precis prin tiparele pe care le formeaz acestea i prin ponderea pe care o are fiecare legtur n parte.

    Fig. 2. Reprezentare schematic a neuronului biologic

    n fig.2 se ofer o reprezentare schematic a neuronului biologic din perspectiva teoriei

    prelucrrii informaiei. Conform acestui model simplificat al neuronului, corpul celulei primete semnale de la ali neuroni prin intermediul conexiunilor sinaptice ajustabile. Cnd un neuron este activat, produce impulsuri nervoase care sunt transmise, fr atenuare, de-a lungul axonului, spre ali neuroni. Rata impulsurilor ieirii neuronului depinde att de intensitatea semnalelor de intrare ct i de ponderile sinaptice aferente acestora. Se poate spune c neuronul opereaz ntr-o form mixt, digital-analogic. Informaia transmis ntre neuroni, sub forma impulsurilor nervoase (poteniale de aciune), poate fi considerat semnal digital. Densitatea impulsurilor este cea care codeaz informaia i poate fi privit ca un semnal analogic.

    O trstur important a reelei neuronale biologice este plasticitatea. Ca rspuns la stimulrile primite, la nivelul conexiunilor se produc schimbri pe termen lung, astfel nct conexiunile care ajut la obinerea de rezultate pozitive sunt ntrite, iar cele care determin rezultate nedorite sunt slbite. De asemenea, neuronii pot forma n timp noi conexiuni cu ali neuroni Aceste mecanisme stau la baza capacitii de adaptare a creierului la stimulii primii, pe care o numim n mod convenional nvare

    n mod analog funcioneaz i o reea neuronal artificial. n cea mai general form a sa, o reea neuronal este o main proiectat pentru a modela felul n care creierul rezolv o anumit problem sau execut o funcie cu un anumit scop; reeaua este de obicei implementat folosindu-se componente electronice sau simulat printr-un program

    3. Neuronul artificial

    Neuronul artificial denumit uneori procesor elementar sau, mai simplu nod, ncearc s imite structura i funcionarea neuronului biologic. Exist numeroase modele prezentate n literatur, dar

  • 4

    cel mai rspndit are la baz modelul elaborat de McCulloch-Pitts n 1943. Astfel se poate considera c neuronul artificial este format dintr-un numr de intrri, fiecare dintre acestea fiind caracterizat de propria pondere sinaptic. De exemplu, semnalul xj prezent la intrarea sinapsei j este conectat la neuronul k prin multiplicare cu ponderea wkj (fig.3).

    Fig. 3: Modelul neuronului artificial

    O alt component a modelului neuronului artificial prezentat n fig.3 o reprezint

    sumatorul destinat nsumrii intrrilor ponderate. Rezultatul obinut n urma nsumrii se numete intrarea net a neuronului i se calculeaz cu relaia:

    1

    N

    k kj jj

    u w x

    (1) Pentru limitarea nivelului amplitudinii semnalului de ieire al neuronului, acesta este de

    obicei prevzut cu o funcie de activare, , astfel nct semnalul de ieire al neuronului va fi: k k k k ky u u b (2)

    n care k reprezint valoarea pragului de activare (treshold) al neuronului. Uneori ieirea

    neuronului se exprim folosind termenul kb denumit factor al deplasrii scrii (bias). Aceast deplasare a scrii este negativul pragului de activare.

    Valoarea: kkk u

    poart denumirea de potenial de activare. n ceea ce privete tipul funciei de activare, aceasta este de regul o funcie neliniar; n

    cele ce urmeaz se va face o prezentare a celor mai rspndite tipuri de funcii de activare (fig.4): - Funcia prag:

    - Funcia prag simetric sau funcia signum:

    - Funcia sigmoid:

    - Funcia tangent hiperbolic:

  • 5

    Funciile sigmoid i tangent hiperbolic reprezint unele dintre funciile de activare cel mai des folosite la implementarea RNA, unul dintre motive reprezentndu-l calculul simplu al derivatelor acestora.

    - Funcia liniar:

    - Funcia liniar cu saturaie:

    - Funcia liniar cu saturaie, simetric:

    - Funcia gaussian:

    Fig. 4: Funciile de activare cele mai utilizate n cazul neuronului artificial

    Analiznd comparativ modelele neuronului real (biologic) i neuronului artificial se pot

    face urmtoarele observaii [6]: - Din punct de vedere al implementrii este practic imposibil i chiar ineficient ca modelul

    artificial al neuronului s copieze exact comportamentul i structura celui biologic. - RNA sunt proiectate pentru rezolvarea unor probleme specifice i deci arhitectura i

    trsturile RNA depind de problema pe care trebuie s o rezolve. - Un neuron real produce la ieire o secven de impulsuri i nu o anumit valoare

    cum este cazul celui artificial. Reprezentarea ratei de activare printr-un singur numr (yk) ignor informaia care ar putea fi coninut de exemplu n faza impulsurilor.

    - Unele celule nervoase biologice efectueaz o nsumare neliniar a intrrilor. Pot exista chiar operaii logice (I, SAU, NU) efectuate la nivelul dendritelor.

    - Ieirile neuronilor nu se modific n mod sincron i nu toi au acelai tip de ntrziere. - Cantitatea de substan transmitoare (mediator chimic) eliberat la nivelul sinapsei

    poate s varieze ntr-un mod imprevizibil. Fenomenul este aproximat grosier prin intermediul funciei de activare.

  • 6

    Arhitecturi ale RNA Neuronii pot fi conectai n diferite moduri pentru a forma o reea neuronal. De-a lungul

    timpului, au fost ncercate multe structuri diferite de reele neuronale, unele bazate pe imitarea a ceea ce un biolog vede sub microscop, altele mai mult pe o analiz matematic a problemei.

    Arhitectura unei reele neuronale se refer la modul n care sunt plasate unitile funcionale (topologie) i la modul n care acestea sunt interconectate (conectivitate). Un model uzual de topologie consider neuronii organizai n mai multe straturi. O reea neuronal multistrat conine dou sau mai multe straturi de neuroni. Primul strat primete intrrile din mediu. Ieirile neuronilor din acest strat constituie intrri pentru neuronii stratului urmtor. Ieirea reelei este format din ieirile neuronilor ultimului strat. Straturile situate ntre primul i ultimul nivel sunt straturi ascunse ale reelei. Schema unei astfel de topologii este dat in figura 5.

    Motivul acestei complicri a arhitecturii este legat de faptul c, uneori, arhitecturile mai simple se dovedesc incapabile de a rezolva o problem sau o clas de probleme. Dac o reea dat nu poate rezolva o problem, este uneori suficient s mrim numrul neuronilor din reea, pstrnd vechea arhitectur. In alte situaii, pentru rezolvarea problemei este necesar s modificm arhitectura reelei, introducnd unul sau mai multe straturi neuronale noi. n general nodurile de intrare sunt pasive, n sensul c nu modific datele. Rolul neuronilor din stratul de intrare este doar de a multiplica semnalul de la intrare pentru a-1 aplica la intrrile neuronilor din stratul urmtor. n cazul reelelor care conin bucle de reacie, neuronii de intrare pot primi semnale i de la neuroni din straturile urmtoare ale reelei. Neuronii din stratul ascuns i cel de ieire sunt activi, avnd rol n prelucrarea datelor. Neuronii din straturile ascunse au rolul de a colecta semnalele, de a le prelucra i de a distribui semnalul de ieire ctre alte uniti. Unitile de ieire colecteaz semnalele de la alte uniti, l prelucreaz i transmit semnalul pe care l obin mediului extern.

    Fig. 5 O reea neuronal cu dou straturi ascunse

    n reeaua din figura anterioar nu exist conexiuni ntre neuronii aceluiai strat. Semnalul se

    propag n reea dinspre stratul de intrare spre cel de ieire. Din punctul de vedere al modului n care sunt conectai neuronii, putem avea RNA total conectate sau parial conectate. Se spune despre o RNA c este total conectat dac fiecare nod din fiecare strat este conectat la fiecare neuron din stratul precedent (fig.6).

  • 7

    Fig. 6. RNA feedforward total conectat

    Dac anumite conexiuni sinaptice lipsesc se spune c RNA este parial conectat

    (fig.7).

    Fig. 7. RNA feedforward parial conectat

    RNA total conectate au un caracter general, n sensul in care pot fi folosite ntr-o gam larg

    de probleme, dar rezultatele nu sunt ntotdeauna cele mai bune. RNA parial conectate introduc anumite restrngeri, care reprezint tocmai cunotine apriorice despre problema de rezolvat i care reduc gradul de generalitate al unei RNA. Prin restrngerea cmpului de recepie al neuronilor se efectueaz o extragere a trsturilor locale iar n straturile ce urmeaz acestea sunt combinate pentru a se forma trsturi de ordin superior. Astfel, RNA parial conectate pot da rezultate mai bune dect RNA total conectate n rezolvarea anumitor probleme specifice, cu condiia exploatrii cunotinelor apriorice despre problema dat.

    Modul de amplasare a unitilor determin topologia reelei. Din punctul de vedere al acesteia exist:

    - Reele in care nu are importan (din punctul de vedere al algoritmilor de funcionare i/sau de nvare) poziia geometric a unitilor. Astfel de topologii sunt asociate reelelor organizate pe nivele i reelelor Hopfield. n reprezentrile schematice ale reelelor organizate pe nivele, unitile aceluiai nivel sunt reprezentate grupat dei poziia lor nu are semnificaie pentru procesul de funcionare i cel de nvare.

    - Reele n care este esenial organizarea geometric, relaiile de vecintate dintre uniti intervenind n algoritmul funcionare sau n cel de nvare. Astfel de topologii sunt cele asociate reelelor Kohonen sau reelelor celulare (fig. 8). Esenial n acest caz este definirea unei relaii de vecintate intre uniti.

  • 8

    Fig. 8. Exemple de reele neuronale celulare

    Principalele tipuri de topologii sunt: - Arbitrar. Mulime de uniti pe care nu este definit nici o relaie de ordine. n acest caz

    nu are importan nici locul i nici distanele dintre uniti. Un model cu o astfel de topologie este modelul Hopfield. De regul, acestei topologii i corespunde o conectivitate total;

    - Pe nivele. Unitile sunt mprite in mai multe submulimi, numite nivele. n cadrul unui nivel nu are importanii modul de aranjare a unitilor. In aceast categorie intr reelele feedforward cu unul sau mai multe nivele;

    - Cu structur geometric. Unitile sunt amplasate in nodurile unei grile unidimensionale, bidimensionale sau chiar tridimensionale. n acest caz se poate defini o funcie distan intre uniti. in aceast categorie intr reelele de tip Kohonen i cele celulare. in practic se utilizeaz i arhitecturi mixte in care fiecare nivel poate avea o anumit structur geometric.

    Fluxul informaional reprezint modul n care "curge" informaia prin reea de la unitile

    care preiau datele de intrare ctre unitile care produc semnalul de ieire.Din punctul de vedere al modului de propagare al semnalului prin RNA, se pot distinge dou tipuri de topologii: RNA feedforward (cu propagare nainte) i RNA recurente (feedback, cu propagare napoi). RNA feedforward (cu propagare nainte) sunt caracterizate de prezena unui strat de neuroni de intrare, un numr de straturi ascunse (posibil i fr) i un strat de neuroni de ieire. Definitoriu pentru acest tip de RNA este faptul c un neuron primete semnale doar de la neuroni aflai in stratul/straturi precedent/precedente. Se pot imagina i modele mai sofisticate de arhitecturi multistrat. Putem astfel considera arhitecturi de reea n care exist conexiuni intre neuronii aceluiai strat. De asemenea, uneori poate fi util s considerm conexiuni de la un neuron spre neuroni aflai n stratul anterior (mai apropiat de intrarea reelei). Alteori, conexiunile pot lega doi neuroni care nu se afl neaprat n straturi adiacente.

    RNA recurente se individualizeaz prin existena unui semnal de reacie, din partea

    neuronilor de ordin superior, pentru cei de ordin inferior sau chiar pentru propriile lor intrri (fig.9).

  • 9

    Fig. 9. RNA recurent

    Tipuri i algoritmi de instruire Odat ce o topologie de reea a fost aleas pentru o anumit aplicaie, reeaua este pregtit

    pentru nceperea procesului de antrenament. Pentru a demara acest proces, ponderile sunt iniializate la valori aleatoare, dup care nvarea propriu-zis ncepe. RNA achiziioneaz cunotinele prin instruire (nvare). nvarea presupune adaptarea parametrilor liberi ai RNA (ponderi, praguri, rat de nvare, uneori chiar forma funciei de activare sau structura reelei) ca urmare a stimulilor mediului n care se gsete reeaua.

    Vectorii de instruire sunt prezentai RNA n mod secvenial iar ponderile sinaptice, care memoreaz practic cunotinele reelei, sunt adaptate pentru a extrage informaia pe care aceti vectori o conin.

    Tipul de nvare este determinat de maniera n care sunt ajustai parametrii liberi ai RNA. Dei n literatura de specialitate dedicat RNA [1], [5], [8] exist o mare diversitate de opinii n ceea ce privete modul de clasificare al algoritmilor i tipurilor de nvare, fig.10 ncearc s sintetizeze principalele direcii.

    Fig. 10 Principalele moduri de instruire ale RNA

  • 10

    Exist trei tipuri de nvare: supervizat, nesupervizat i prin ntrire. - nvarea de tip supervizat Este caracterizat de prezena unui supervizor care cunoate cu exactitate modul de

    asociere al intrrilor RNA cu ieirile acesteia, conform fig.11.

    Fig. 11 Sistem cu nvare supervizat

    Parametrii RNA sunt modificai sub influena combinat a vectorilor de antrenament i a

    semnalului de eroare (diferena dintre rspunsul dorit i cel actual). Scopul final al algoritmului de antrenament este ca RNA s emuleze, optim n sens statistic, supervizorul.

    - nvarea de tip nesupervizat (cu autoorganizare) Este caracterizat de absena unui semnal sau supervizor care s aprecieze

    corectitudinea asociaiilor intrare-ieire (fig.12). RNA va descoperii singur legitile coninute n datele de intrare printr-o reprezentare intern adecvat a trsturilor vectorului de intrare.

    Fig. 12 Sistem cu nvare nesupervizat

    - nvarea prin ntrire

    Urmrete maximizarea unei mrimi scalare (indice de performan sau semnal de ntrire) n urma unei aciuni efectuate de ctre sistemul supus nvrii. Dac modificrile aduse conduc spre o stare mai bun dect cea precedent, tendina sistemului de a produce acea aciune particular este ntrit.

    Algoritmi de nvare - Algoritmi de nvare bazai pe corecia erorii Fie x(n) vectorul de intrare aplicat unei RNA. Dac se noteaz ieirea neuronului k

    prin ny k , semnalul de eroare poate fi definit ca fiind diferena dintre ieirea dorit pentru neuronul k i ceea ce furnizeaz n etapa actual de ctre acelai neuron:

    k k ke n d n y n

  • 11

    Scopul final al algoritmilor bazai pe corecia erorii este de a minimiza aa-numita funcie de cost. Unul dintre criteriile frecvent utilizate n alegerea funciei de cost este cel al erorii ptratice medii, care urmrete minimizarea valorii medii ptratice pentru suma erorilor ptratice aferente stratului de ieire al RNA:

    212 kk

    J E e n n care E[.] semnific media n sens statistic. Una dintre metodele de minimizarea a funciei de cost J n raport cu parametrii RNA este

    metoda gradientului descendent. De cele mai multe ori proprietile statistice ale procesului nu sunt cunoscute. n acest caz

    se ofer o soluie aproximativ pentru problema de optimizare, prin utilizarea drept funcie de cost a valorii instantanee a sumei erorilor ptratice:

    212 kk

    n e n Graficul aplicaiei J n funcie de ponderile RNA poart denumirea de suprafa a

    erorii. n figura 13 este prezentat reprezentarea suprafeei erorii pentru cazurile unui element liniar, iar n figura 14 pentru cazul unui element neliniar.

    Fig. 13.Suprafaa erorii pentru cazul unui neuron liniar

  • 12

    Fig.14. Suprafaa erorii pentru cazul unui neuron neliniar

    Se poate desprinde ideea conform creia minimizarea erorii unui neuron liniar este mai

    uoar dect minimizarea unui neuron neliniar (de ex. sigmoidal). Pentru cazul elementului liniar eroarea are un minim global, uor de localizat pe cnd pentru neuronul neliniar, suprafaa erorii poate avea minime locale.

    - Algoritmi de nvare de tip Boltzmann Sunt inspirai din teoria informaiei i din termodinamic, neuronii constituind o structur

    recurent caracterizat de aa-numita funcie energie: 12 ij j ii j

    E w s s unde is reprezint starea neuronului i, adic +1 (neuron activ) sau -1 (neuron

    inactiv). Maina Boltzmann opereaz prin alegerea aleatoare a unui neuron i schimbarea strii

    acestuia. Astfel schimbarea ponderilor se va face innd cont de corelaiile dintre starea neuronului i i cea a neuronului j.

    - Algoritmul de nvare de tip competitiv Este caracterizat de competiia ntre neuronii de ieire ai RNA, ctigtorul acesteia urmnd

    s fie activat. Spre deosebire de RNA care se bazeaz pe ali algoritmi de nvare i la care exist posibilitatea ca mai muli neuroni s fie activi simultan, la RNA bazate pe algoritmi de nvare de tip competitiv doar un singur neuron este activ la un moment dat. Practic, fiecare neuron al unei astfel de RNA va deveni specializat, n urma procesului de nvare, n recunoaterea unei anumite trsturi prezent n datele de intrare. Acest lucru este posibil avnd n vedere modalitatea de adaptare a ponderilor:

    , " "0,

    j jiji

    x w dac neuronul j a ctigat competiiaw

    altfel

    Prin aceasta, ponderea wj a neuronului j, ctigtor al competiiei, se apropie i mai mult de tiparul x prezentat la intrare.

  • 13

    Reele neuronale de tip perceptron n cadrul acestui capitol se prezint o clas deosebit de importante de RNA de tip cu

    propagare nainte a semnalului (feedforward). Este vorba de RNA perceptron simplu, respectiv o generalizare a acestuia, perceptronul multistrat (RNA-MLP, Multilayer Perceptron). Printre primii autori care au fundamentat principiile teoretice legate de perceptronul simplu/multistrat se regsesc Rosenblatt [11], Widrow [12] i respectiv Rumelhart, Hinton,Williams [13]. Cei din urm autori fundamenteaz i celebrul algoritm de antrenament pentru RNA-MLP i anume algoritmul cu propagare napoi a erorii (BP, backpropagation). Toate aceste aspecte sunt extensiv tratate de ctre S.Haykin n una dintre cele mai bune cri referitoare la domeniul RNA [5].

    Interesul deosebit fa de aceste reele neuronale a fost generat, printre altele, de capacitatea acestora de a generaliza adic de a opera cu date diferite de cele prezentate n etapa de antrenament i de a nva plecnd de la o distribuie aleatoare a ponderilor sinaptice ale reelei. n consecin acest tip de reele poate fi folosit cu succes n diversele aplicaii ce conin clasificatori.

    RNA de tip perceptron cu un singur neuron n acest paragraf sunt prezentate arhitectura i algoritmii de antrenament pentru cazul RNA

    cu un singur neuron: perceptronul simplu i RNA ADALINE antrenat cu algoritmul LMS. Perceptronul simplu are o aplicabilitate practic limitat datorit valorii binare a ieirii sau datorit imposibilitii clasificrii tiparelor (vectorilor de intrare) neliniari. El se constituie ns ca punct de plecare n studiul perceptronului multistrat.

    Perceptronul simplu Arhitectura unei astfel de RNA este prezentat n figura 15. Se poate afirma c perceptronul

    simplu reprezint o particularizare a modelului McCulloch-Pitts al neuronului artificial pentru cazul n care funcia de activare este de tip treapt unitate bipolar.

    Fig 15. Arhitectura perceptronului simplu.

    Scopul perceptronului simplu este de a clasifica n una din cele dou clase

    disponibile (y = +1 sau y = -1) un set de stimuli exteriori. Funcionarea sa pote fi descris prin urmtoarele ecuaii:

    1

    N

    i ii

    v w x

    12

    1,sgn

    1,dac x n C

    y v vdac x n C

    Regiunile de decizie vor fi separate de ctre un hiperplan definit de relaia:

    10

    N

    i ii

    w x

  • 14

    Ca i particularizare pentru cazul N = 2 ecuaia precedent ia forma:

    1 1 2 2 0w x w x ceea ce reprezint ecuaia unei drepte n planul determinat de x2 i x 1 . n acest caz,

    tiparele vor fi separate printr-o dreapt. Un exemplu de astfel de problem liniar separabil l constituie funcia I logic iar ca i contraexemplu se poate considera funcia SAU-EXCLUSIV (fig.16). Pentru cazul N = 3 ecuaia descrie un plan iar pentru N > 3 un hiperplan.

    Fig. 16. Tabela de adevr i ilustrarea separabilitii funciilor logice I i SAU-EXCLUSIV n concluzie, perceptronul simplu poate fi folosit cu succes doar n cazul particular al

    clasificrii tiparelor liniar separabile, adic a tiparelor care sunt situate, ntr-un caz general, de-o parte i de alta al unui hiperplan. Avnd n vedere notaiile urmtoare:

    1 21, , ,..., TNn x n x n x n x = vector de intrare, 1 2, , ,..., TNn n w n w n w n w = vectorul ponderilor sinaptice, n = prag, y n = rspuns actual, d n = rspuns dorit, n = rata de nvare, de regul 0 1 ,

    paii algoritmului (tip Rosenblatt) de antrenament aferent perceptronului simplu vor fi: a) Iniializarea: 0 0w ; b) Calcul rspuns actual: sgn Ty n w n x n , n care funcia sgn(.) reprezint funcia signum.

  • 15

    c) Modificarea ponderilor sinaptice: 1w n w n d n y n x n n care :

    121,1,

    dac x n Cd n

    dac x n C

    d) Incrementarea lui n cu o unitate i salt la pct.b) RNA Adaline. Algoritmul LMS Algoritmul celor mai mici ptrate (LMS - Least Mean Square), cunoscut i sub denumirea

    de algoritmul Widrow-Hoff sau regula delta, este destinat antrenrii unei RNA format dintr-un singur neuron liniar. Ceea ce l difereniaz de algoritmul de antrenament al perceptronului simplu este modul de calcul al semnalului de eroare, care n acest caz nu este cuantizat iar funcia de activare poate fi liniar.

    Avnd n vedere aceste aspecte, algoritmul LMS poate fi formulat n modul urmtor: a) Etapa de iniializare: pentru 0 0kw , k = 1,2, ..., N b) Etapa de filtrare:

    0

    N

    j jj

    y n w n x n

    e n d n y n 1k k kw n w n e n x n , k=1,2,,N

    Formularea algoritmului LMS s-a fcut din perspectiva unei filtrri spaiale. El poate fi utilizat n aceeai msur n rezolvarea problemelor de filtrare temporal,

    considernd c x(n) reprezint eantioane ale vectorului de intrare la momente de timp diferite: , 1 ,..., 1 Tn x n x n x n N x

    RNA ADALINE (Adaptive Linear Element) folosete algoritmul de antrenament LMS

    (Widrow-Hoff) n scopul clasificrii tiparelor. Structura ei este prezentat n figura 17. n timpul etapei de antrenament, tiparele sunt aplicate direct RNA, ea urmnd s descopere singur caracteristicile acestora. Experiena acumulat de ctre RNA este coninut n valorile w1 , ..., wN i .

    Fig. 17. Structura RNA ADALINE.

  • 16

    Deducerea regulilor de modificare a ponderilor pentru cazul perceptronului simplu Algoritmul de modificare a ponderilor urmrete minimizarea erorii la nivelul neuronului

    sau al stratului neuronal de ieire. Eroarea la nivelul neuronului de ieire k: nyndne kkk Pentru cuantificarea erorii la nivelul neuronului/neuronilor de ieire se definete o

    funcie de cost, uneori denumit i criteriu de performan [14]. O posibil form pentru aceasta este:

    k

    k neEJ2

    21

    cu E[.] reprezentnd media n sens statistic. Una dintre metodele folosite pentru obinerea minimului funciei J este bazat pe gradientul

    acesteia. Ilustrarea metodei pailor descendeni se poate face prin urmtoarea figur:

    Fig. 18: Ilustrarea grafic a metodei pailor descendeni

    Conform acestei metode incrementul de modificare a ponderilor este dat de ecuaia:

    wJJnw

    Pentru c proprietile statistice nu sunt de regul cunoscute, se poate folosi n loc de J, suma erorilor ptratice instantanee:

    k

    2kav ne2

    1nE

    Pentru cazul prezentat anterior, k=1 i = sgn, se obine: w n e n x n d n y n x n

  • 17

    Consideraii asupra valorii ratei de nvare (instruire) n cazul algoritmilor de antrenament prezentai anterior rata de nvare trebuie s

    satisfac condiia: .ct, 10

    pentru a asigura convergena algoritmului. Dac este aleas la o valoare prea mic, rezult un proces lent de nvare, vectorul

    pondere modificndu-se foarte puin de la o iteraie la alta. Dac este prea mare, algoritmul poate s nu sesizeze punctul de minim, ceea ce conduce la un proces de nvare oscilant care s-ar putea s nu convearg niciodat.

    Exist diverse procedee (figura 19) prin care rata de nvare poate fi modificat de-a lungul epocilor de antrenament, obinndu-se astfel o rat de nvare variabil:

    - Metoda aproximrii stochastice: .ctc,ncn

    - Metoda caut apoi converge: .ct,,nn

    001

    Fig. 19. Metode de modificare a ratei de nvare

    Capacitatea perceptronului simplu Se refer la numrul de tipare maxim, pmax , care poate fi stocat ntr-o reea cu N intrri.

    Pentru cazul unitilor care furnizeaz valori continue (liniare sau neliniare) numrul maxim de tipare intrare-ieire este dat de condiia de independen liniar:

    pmax N Pentru cazul unitilor cu neliniaritate de tip prag: pmax = 2N

  • 18

    RNA de tip perceptron cu mai multe straturi Perceptronul multistrat (RNAMLP, Multilayer Perceptron) reprezint o generalizare a

    perceptronului simplu prezentat n capitolul anterior. Este o RNA de tip feedforward (cu propagare nainte a semnalului) compus din (fig.20):

    - un strat de intrare; - unul sau mai multe straturi ascunse; - strat de ieire.

    Fig. 20. Perceptron cu dou straturi.

    Se deosebesc dou etape n realizarea unei aplicaii cu RNA. Prima reprezint etapa de antrenament sau de nvare n care sunt aplicate perechi de tipare intrare ieire corect asociate, iar RNA i modific parametrii liberi pentru a nva aceste asociaii. A doua etap presupune utilizarea propriuzis a RNA; se pot aplica n acest caz vectori de intrare diferii de cei din etapa de antrenament, urmnd ca RNA, pe baza capacitii de generalizare, s furnizeze un rspuns adecvat. Pentru algoritmul de antrenament corespunztor RNAMLP se definete eroarea la nivelul neuronului j din stratul de ieire, n a n- a iteraie:

    j j je n d n y n n care d j reprezint rspunsul dorit iar y j rspunsul actual al RNAMLP.

    Eroarea instantanee la nivelul ntregului strat de ieire poate fi definit ca suma erorilor ptratice ale neuronilor de ieire:

    212 jj

    n e n Fie T numrul total de tipare de antrenament. n acest caz, eroarea pentru ntreg setul de

    date de antrenament reprezint funcia de cost ce va trebui minimizat:

    1

    1 T

    nnav T

    n

    Exist dou moduri n care se pot adapta ponderile RNAMLP n cursul etapei de

    antrenament: modul tipar cu tipar, (pattern by pattern) n care dup aplicarea fiecrei perechi de tipare intrareieire ponderile sunt actualizate; modul lot de tipare, (batch) n care ponderile sunt calculate o singur dat pe baza tuturor perechilor de tipare intrareieire disponibile.

  • 19

    Determinarea numrul de straturi ascunse i de neuroni/strat ascuns. Numrul optim de straturi ascunse i de neuroni/strat ascuns este dificil de precizat

    apriori. n general, un singur strat ascuns e suficient pentru rezolvarea majoritii problemelor.

    n mod excepional, se pot folosi dou, cel mult trei straturi ascunse. De regul, numrul de neuroni afereni straturilor de intrare respectiv ieire este dictat

    de natura aplicaiei. Neuronii structurilor ascunse au rolul foarte important de a detecta trsturile, legitile, regularitile coninute n tiparele de antrenament.

    Un numr prea mare de neuroni ascuni/strat influeneaz n mod negativ capacitatea de generalizare a RNA. Totodat conduce la sporirea volumului de date care urmeaz a fi procesat i deci la o durat sporit pentru etapa de antrenament. Un numr prea mic de neuroni nu este suficient pentru formarea unei reprezentri interne a datelor adecvat i poate conduce la o eroare medie ptratic mare pe parcursul epocilor de antrenament i implicit la o eroare mare corespunztoare nu numai datelor de test ci i celor de antrenament.

    n concluzie, numrul optim de neuroni ascuni se va determina experimental. Reele neuronale artificiale bazate pe funcii radiale Reele neuronale artificiale bazate pe funcii radiale reprezint o abordare diferit a modului

    de realizare a unei RNA. Acest proces este vzut de aceast dat ca o problema de aproximare a unei curbe ntr-un spaiu multidimensional. Conform acestui punct de vedere, nvarea este echivalent cu gsirea unei suprafee ntr-un spaiu multidimensional care s se potriveasc cu cea descris de datele de intrare. Generalizarea reelelor neuronale bazate pe funcii radiale (Radial Basis Function RBF) reprezint n acest caz capacitatea de interpolare a RNA vizavi de datele de test.

    Comparativ cu o RNA-MLP, RNA-RBF pot s solicite mai muli neuroni dar antrenarea acestora necesit mai puin timp dect n cazul perceptronului. Explicaia acestui fapt este urmtoarea: ieirile neuronilor sigmoidali ai stratului ascuns sunt semnificative pentru regiuni largi ale spaiului de intrare n timp ce neuronii bazai pe funcii radiale rspund doar la regiuni relativ mici din spaiul de intrare. n consecin, RNA-RBF se comport mai bine cnd sunt disponibili muli vectori de antrenament.

    Modelul unui neuron RBF este prezentat n fig.21. n acest caz intrarea net este constituit din norma diferenei vectoriale ||t - x||.

    Fig 22. Arhitectura unui neuron RBF.

  • 20

    Un exemplu tipic pentru funcia de activare este: 2xx e reprezentat n fig.22. Se constat c funcia radial are un maxim dac intrarea e nul. Dac distana dintre t i x descrete, valoarea ieirii crete. Adic neuronul radial se comport ca un detector care produce 1 la ieire de fiecare dat cnd tiparul de intrare e identic cu vectorul pondere t.

    Fig. 22. Form tipic pentru funcia de activare radial

    O RNA-RBF prezint structural trei straturi (fig.23):

    Fig. 23. Arhitectura unei RNA-RBF

    - stratul ascuns, care furnizeaz funcii care constituie o baz pentru vectorii de intrare; aceste funcii poart denumirea de funcii radiale;

    - stratul de ieire alctuit din neuroni cu funcie de activare liniar. Transformarea spaiului de intrare n spaiul neuronilor ascuni este neliniar pe cnd transformarea spaiului neuronilor ascuni n spaiul neuronilor de ieire este liniar. Problema interpolrii Problema interpolrii poate fi formulat n felul urmtor: Fiind date N puncte diferite pix R | i = 1,2,...,N i un numr echivalent de numere reale 1id R | i = 1,2,...,N s se gseasc funcia 1: pF R R care satisface condiia de interpolare: , 1, 2,....,i iF x d i N .

    Tehnica bazat pe funcii radiale const n alegerea funciei F cu urmtoarea form:

    1

    N

    i ii

    F x w x x

  • 21

    unde | 1, 2,...,ix x i N reprezint o mulime de N funcii arbitrare, de regul neliniare, cunoscute sub denumirea de funcii radiale. Notaia ||.|| semnific o norm, de regul cea euclidian. Punctele cunoscute , 1, 2,...,pix R i N reprezint centrele funciilor radiale. Rezultatele teoretice i experimentale arat c alegerea funciei neliniare (.) nu este crucial pentru performanele ulterioare ale unui RNA RBF. Aceasta poate fi, de exemplu:

    1/22 21 , 0, 0r c r

    r c

    sau

    22exp , 0, 02rr r

    Strategii de nvare pentru RNA bazate pe funcii radiale

    Exista mai multe metode de antrenament ale RNA-RBF, deosebirea ntre ele constnd n

    metoda de alegere a centrilor funciilor radiale.

    - Metoda bazat pe creterea reelei

    Iniial stratul ascuns nu are nici un neuron. Dup fiecare epoc, vectorul de intrare pentru care se obine cea mai mare eroare la nivelul stratului de ieire este folosit pentru crearea unui nou neuron prin egalizarea ponderilor acestuia cu vectorul de intrare. Se calculeaz apoi ponderile stratului liniar. Dac se ajunge la eroarea (performana) dorit sau dac se atinge un numr maxim de neuroni pentru stratul ascuns, procesul de antrenament va fi ncheiat.

    - Metoda centrilor fici, alei aleator Reprezint una dintre cele mai simple abordri i presupune funcii radiale fixe care

    definesc funciile de activare ale stratului ascuns. Locaiile centrilor funciilor sunt alese aleator dintre vectorii de intrare.

    - Metoda seleciei autoorganizate a centrilor n cadrul acestei abordri este permis deplasarea locaiei centrilor funciilor radiale ntr-o

    manier autoorganizat, n timp ce ponderile stratului liniar de ieire sunt calculate ntr-o manier supervizat.

    Componenta autoorganizant permite alocarea resurselor RNA astfel nct centrii funciilor radiale vor fi plasai doar n regiuni semnificative ale spaiului de intrare. Pentru selecia autoorganizat a centrilor se poate folosi metoda celor mai apropiai k vecini iar pentru nvarea supervizat se poate folosi un algoritm bazat pe corecia erorilor (de exemplu LMS).

    RNA-RBF au fost folosite cu succes n deosebi la problemele de aproximare/interpolare [18] i predicie [19] a funciilor. RNA-RBF reprezint o soluie alternativ n special n problemele ce presupun interpolarea, aproximarea sau predicia funciilor. De menionat ns i posibilitarea folosirii lor n probleme de clasificare.

  • 22

    Reele neuronale artificiale recurente n acest capitol se prezint o alt clas important de RNA i anume aceea a RN cu structur

    recurent. RNA recurente sunt caracterizate de: - uniti de procesare neliniare; - simetria conexiunilor sinaptice (wji = wij ); - folosirea intensiv a feedback-ului . Din aceast categorie fac parte RNA Boltzmann (RNA-B) i RNA Hopfield (RNA-H), cea

    din urm fiind detaliat n cele ce urmeaz, dezvoltarea acestora fiind inspirat din fizica statistic i termodinamic.

    RNA de tip Hopfield (RNA-H) Poate fi vzut ca o memorie asociativ sau ca o memorie adresabil prin coninut, a crei

    funcie principal este regsirea tiparelor stocate n memorie, ca rspuns la prezentarea unui tipar incomplet sau contaminat cu zgomot. Esena memoriilor adresabile prin coninut const n transformarea tiparelor n stri stabile s ale sistemului dinamic (proces de codare) i invers (proces de decodare).

    Fiecare neuron, de tip McCulloch-Pitts, al RNA-H (fig.24) este caracterizat prin una din cele dou stri posibile: activ (si = 1) , respectiv inactiv (si = -1). Starea unei RNA-H alctuit din N neuroni este definit de ctre vectorul:

    1 2, ,..., TNs s ss Potenialul intern al unui neuron j este:

    1

    N

    j ji i ji

    v w s

    n care j reprezint pragul neuronului.

    Fig.24: Arhitectura unei RNA-H cu 3 neuroni

    Neuronul j i modific starea conform regulii:

    1, 0

    1, 0j

    jj

    dac vs

    dac v

  • 23

    sau echivalent sgnj js v . Dac 0jv atunci js poate lua o valoare arbitrar, +1 sau 1. De exemplu, se poate conveni ca starea neuronului s rmn nemodificat.

    n funcionarea RNA-H se pot distinge dou etape: a.) Faza de memorare. S presupunem c se dorete stocarea a p vectori N

    dimensionali | 1, 2,...,u p . Atunci ponderea legturii dintre neuronul j si neuronul i se calculeaz cu relaia:

    , ,1

    1 pji j iw N

    De regul se consider 0, .iiw i Acelai lucru poate fi scris n form matricial astfel:

    1

    1 p T pN N

    W I n care W reprezint matricea ponderilor sinaptice ale reelei i are dimensiunea NxN iar I

    reprezint matricea identic. Se constat faptul c ponderile RNA se calculeaz ntr-o singur epoc, spre deosebire de

    RNA-MLP sau RBF. Din ecuaia de calcul pentru ponderile RNA se constat urmtoarele: - ieirea fiecrui neuron se constituie n intrare pentru toi ceilali neuroni ai reelei; - nu exist autoexcitaie (self-feedback), adic 0, .iiw I - matricea ponderilor RNA este simetric adic influena exercitat

    de neuronul i asupra neuronului j este egal cu influena exercitat de neuronul j asupra neuronului i.

    b) Faza de utilizare (regsire). n aceast faz, un anumit tipar x este impus drept vector de stare al RNA-H. De regul el reprezint o versiune incomplet sau afectat de zgomot al unui tipar memorat. Procesul de regsire se desfoar n mod dinamic: fiecare neuron al reelei, n mod aleator ales, estimeaz propriul potenial de activare i i stabilete starea final. Acest proces asincron (serial) de modificare a strilor se va opri n momentul n care vectorul de stare nu se va mai modifica. Aceasta nseamn c RNA-H a produs un vector de stare y invariant n timp, ale crui elemente satisfac condiia de stabilitate:

    1sgn , 1, 2,...,

    N

    j ji i ii

    y w y j N

    sau n form matricial:

    sgn y W y Vectorul de stare y este denumit stare stabil a spaiului fazelor sistemului. RNA-H cu ponderi sinaptice simetrice li se poate asocia aa-numita funcie de energie:

    1 1

    12

    N N

    ji i ji j

    E w s s

    Variaia energiei E ca urmare a variaiei strii neuronului j e dat de expresia:

    1

    N

    j ji iii j

    E s w s

    Astfel, n timpul fazei de regsire a unui tipar, E descrete monoton. Schimbarea strii

    RNA-H va continua pn cnd se va atinge un minim local al peisajului energetic.


Recommended