+ All Categories

ica

Date post: 03-Jul-2015
Category:
Upload: ana-anisoara
View: 178 times
Download: 0 times
Share this document with a friend
54
1.Componenta independent Analiza 1.1Definiţia ICA Pentru a defini riguros ICA [ 28 , 7 ], putem folosi o `` latentă variabile statistice''model. Să presupunem că observăm n amestecuri liniare x 1 ,..., n x de n componente independente (1 ) Am renuntat acum t indicele de timp; în model ICA, vom presupune că fiecare amestec x j precum şi independent de fiecare componentă k s este o variabilă aleatoare, în loc de un semnal de timp corespunzătoare. Valorile observate x j (t), de exemplu, semnalele microfonul în problema cocktail, sunt apoi un eşantion de această variabilă aleatoare. Fără pierdere de generalitate, putem presupune că atât variabilele amestec şi componente independente au zero înseamnă: Dacă acest lucru nu este adevărat, atunci variabilele observabile x i poate fi întotdeauna centrat prin scăderea proba medie, ceea ce face ca modelul de zero-medie . Este convenabil să folosiţi notaţie vector-matrice în loc de sume ca în ecuaţia precedentă. Să notăm cu vector aleator ale căror elemente sunt amestecuri x 1, ..., x n, şi de asemenea prin vector aleator cu elemente S 1, ... , S n. Să notăm cu matrice cu elemente de un ij. În general, litere aldine minuscule indica vectorii şi litere aldine majuscule matrici denota. Toate vectori sunt înţelese ca vectori coloană, astfel , Sau a transpune , Este un vector rând. Folosind acest notaţie vector-matrice, modelul de mai sus de amestecare este scris ca (2 ) Uneori avem nevoie de coloane din matrice ; Le denotă de modelul poate fi scris, de asemenea, ca
Transcript
Page 1: ica

1.Componenta independent Analiza1.1Definiţia ICA Pentru a defini riguros ICA [ 28 , 7 ], putem folosi o `` latentă variabile statistice''model. Să presupunem că observăm n amestecuri liniare x 1 ,..., n x de n componente independente

(1)

Am renuntat acum t indicele de timp; în model ICA, vom presupune că fiecare amestec x j

precum şi independent de fiecare componentă k s este o variabilă aleatoare, în loc de un semnal de timp corespunzătoare. Valorile observate x j (t), de exemplu, semnalele microfonul în problema cocktail, sunt apoi un eşantion de această variabilă aleatoare. Fără pierdere de generalitate, putem presupune că atât variabilele amestec şi componente independente au zero înseamnă: Dacă acest lucru nu este adevărat, atunci variabilele observabile x i poate fi întotdeauna centrat prin scăderea proba medie, ceea ce face ca modelul de zero-medie . Este convenabil să folosiţi notaţie vector-matrice în loc de sume ca în ecuaţia precedentă. Să notăm cu vector aleator ale căror elemente sunt amestecuri x 1, ..., x n, şi de asemenea prin

vector aleator cu elemente S 1, ... , S n. Să notăm cu matrice cu elemente de un ij. În general, litere aldine minuscule indica vectorii şi litere aldine majuscule matrici denota. Toate vectori sunt înţelese ca vectori coloană, astfel , Sau a transpune , Este un vector rând. Folosind acest notaţie vector-matrice, modelul de mai sus de amestecare este scris ca

  (2)

Uneori avem nevoie de coloane din matrice ; Le denotă de modelul poate fi scris, de asemenea, ca

 

(3)

Modelul statistic în ecuaţia. 4 se numeste analiza componentelor independente, sau model ICA. Modelul ICA este un model generativ, ceea ce înseamnă că descrie modul în care datele observate sunt generate de un proces de amestecare i s componente. Componente independente sunt variabile latente, în sensul că acestea nu pot fi observate direct. De asemenea, matricea de amestecare se presupune a fi necunoscut. Tot ce observăm este vector aleator , Iar noi trebuie să estimeze atât şi folosindu-l. Acest lucru trebuie făcut în general, ca ipotezele posibil. Punctul de plecare pentru ICA este foarte simpla ipoteza că i s componentele sunt statistic independente. Statistice independenţa va fi riguros definite în secţiunea 3 . Acesta va fi văzut de mai jos că noi trebuie să presupunem că, de asemenea, componenta independent trebuie să aibă distributii nongaussian. Cu toate acestea, în modelul de bază nu ne asumăm aceste distribuţii cunoscute (dacă sunt cunoscute, problema este simplificat considerabil.) Pentru simplitate, suntem, de asemenea, presupunând că necunoscut amestecare matricea este pătrată, dar această ipoteză poate fi, uneori, relaxat, ca explicat în secţiunea 4.5 . Apoi, după estimarea matricea , Putem calcula inversul său, spune , Şi de a obţine componenta independent pur şi simplu prin:

Page 2: ica

  (4)

ICA este foarte strâns legată de metoda de separare numita sursa orb (BSS) sau de separare semnal orb. O sursă ``''înseamnă aici un semnal original, componente şi anume independent, ca vorbitor într-o problemă de partid cocktail. `` Blind''înseamnă că noi nu foarte puţin, în cazul în care ceva, pe ipotezele de amestecare matrice, şi să facă puţin pe semnalele sursa. ICA este o metoda, poate cea mai utilizate pe scară largă, pentru efectuarea de separare sursă orb. În multe aplicaţii, ar fi mai realist să se presupună că există unele zgomot în măsurători (a se vedea de exemplu [ 17 , 21 ]), ceea ce ar însemna adăugarea unui termen de zgomot în model. Pentru simplitate, vom omite orice termeni de zgomot, de la estimarea modelului fără zgomot este destul de dificil în sine, şi pare să fie suficientă pentru multe aplicaţii.

1.2.Ambiguităţi de ICA În modelul ICA în ecuaţia. ( 4 ), este uşor să vedem că ambiguităţile va deţine următoarele: 1. Nu putem determina diferenţe (energiile) din componente independente. Motivul este că, atât şi fiind necunoscut, orice scalar multiplicator într-una din sursele

de i s-ar putea fi întotdeauna anulate prin împărţirea coloana corespunzătoare de de scalar aceeaşi; vezi ec. ( 5 ). Ca urmare, am putea la fel de bine stabili amploarea acestor componente independente; ca acestea sunt variabile aleatoare, modul cel mai natural de a face

acest lucru este să se presupună că fiecare unitate a varianţa: . Atunci matricea vor fi adaptate în metodele ICA soluţie pentru a ţine seama de această restricţie. Reţineţi

că acest lucru lasă încă ambiguitatea semn: am putea multiplica componenta un independent cu -1, fără a afecta modelul. Această ambiguitate este, din fericire, nesemnificative în majoritatea aplicaţiilor. 2. Nu putem determina ordinea de componente independente. Motivul este că, din nou ambele şi fiind necunoscut, putem liber schimba ordinea termenilor din suma în ( 5 ), şi de apel oricare dintre componentele independent primul. Formal, o permutare matrice şi inversa ei pot fi înlocuite în modelul de a da

. Elementele de sunt variabile independente original e j, dar într-o altă ordine. Matricea este doar un necunoscut nouă amestecare matrice, pentru a fi rezolvate prin algoritmi ICA

1.3.Ilustrare a ICA

Pentru a ilustra modelul ICA din punct de vedere statistic, în considerare două componente independente, care au următoarele distribuţii uniforme:

 (5)

Page 3: ica

Gama de valori pentru această distribuţie uniformă au fost alese astfel încât să facă medie zero şi varianţa egală cu o, cum a fost convenit în secţiunea precedentă. Densitatea comun de s 1 şi s 2, atunci este uniform pe un pătrat. Acest lucru rezultă din definiţia de bază, că densitatea comună a două variabile independente este doar produsul marginal densitatea lor (a se vedea ecuaţia. 10 ): avem nevoie pentru a calcula pur şi simplu de produs. Densitatea comun este ilustrat în Figura 5 , demonstrând puncte de date aleator extrase din această distribuţie.

   Figura 5: distribuţia în comun a

componentelor independente s 1 şi s 2, cu distribuţii uniforme. Axa orizontală: S 1, axa

verticală: S 2.

   Figura 6: distribuţia în comun a

amestecurilor observate x 1 şi x 2. Axa orizontală: x 1, axa verticală: x 2.

Page 4: ica

Acum, ca sa amesteca aceste două componente independente. Să luăm de amestecare următoarele matrice:

(6)

Acest lucru ne dă două variabile mixte, x 1 şi x 2. Este uşor de calculat că datele mixt are o distribuţie uniformă pe un paralelogram, aşa cum se arată în figura 6 . Reţineţi că variabilele aleatoare x 1 şi x 2 nu sunt independente nici mai mult; o modalitate uşoară de a vedea acest lucru este să ia în considerare, dacă este posibil să se prevadă valoarea uneia dintre ele, spun x 2, de la valoarea de celelalte. În mod clar dacă x 1 atinge unul din maxime sau valorile minime, atunci aceasta determină complet valoarea x 2. Ele nu sunt, prin urmare, independente. (Pentru variabilele S 1 şi S 2, situaţia este diferită: Fig. De la 5 poate fi văzut că, prin cunoaşterea de valoarea S 1 nu, nu, în nici un fel de ajutor în valoare de ghicitul s 2. l) Problema de estimare a modelului de date a ICA este acum să se estimeze matricea de

amestecare folosind numai informaţiile cuprinse în aceste amestecuri x 1 şi x 2. De fapt, puteţi vedea din Figura 6 -un mod intuitiv de estimarea : Marginile de paralelogram sunt în direcţiile de coloane de . Aceasta înseamnă că am putea, în principiu, estimarea model ICA prin estimarea prima densitatea comun de 1 x şi x 2, iar localizarea apoi marginile. Deci, problema pare a avea o soluţie. În realitate, însă, acest lucru ar fi o metoda foarte slabă, pentru că funcţionează numai cu variabile care au distribuţii exact uniformă. În plus, ar fi destul de complicat de calcul. Ceea ce avem nevoie este o metoda care functioneaza pentru orice distribuţii de componente independente, si actioneaza rapid si fiabil. Următoare vom lua în considerare definiţia exactă a independenţei înainte de a începe să dezvolte metode de estimare a modelului ICA.

Page 5: ica

2.Ce este independenta?

2.1.Definiţie şi proprietăţi fundamentale

Pentru a defini conceptul de independenţă, în considerare două scalar-aleatoare variabile valoare y 1 şi y 2. Practic, variabilele y 1 şi y 2 se spune că sunt independente în cazul în care informaţii cu privire la valoarea de y 1 nu oferă nicio informaţie cu privire la valoarea y 2, şi vice-versa. De mai sus, am constatat că acesta este cazul cu variabilele s 1, s 2, dar nu cu variabile amestec x 1, x 2.

Punct de vedere tehnic, independenţa poate fi definită prin densitatea de probabilitate. Să notăm cu p (y 1, y 2), în comun funcţia de densitate de probabilitate (pdf) din y 1 şi y 2. Să ne în continuare nota cu p 1 (y 1) pdf marginal de y 1, adică pdf de y 1, atunci când este luat in considerare singur:

(7)

şi în mod similar pentru y 2. Apoi am defini ca y 1 şi y 2 sunt independente dacă şi numai dacă pdf comun este factorizable în felul următor:

 

p (y 1, y 2) = p 1 (y 1) P 2 (y 2). (8)

Această definiţie se extinde natural pentru orice n număr de variabile aleatoare, caz în care densitatea în comun trebuie să fie un produs de n termeni.

Definiţia poate fi folosit pentru a obţine o proprietate cel mai important de variabile aleatoare independente. Având în vedere două funcţii, h 1 şi h 2, avem mereu

  (9)

Acest lucru poate fi dovedit, după cum urmează:

Page 6: ica

2.2.variabile necorelate sunt numai parţial independente

O formă mai slabă de independenţă este uncorrelatedness. Două variabile aleatoare şi y 2 se spune că sunt necorelat, în cazul în care covarianţa lor este zero:

(10)

În cazul în care variabilele sunt independente, ele sunt necorelate, care rezultă direct din ecuaţia. ( 11 ), ţinând h 1 (y 1) = y 1 şi h 2 (y 2) = y 2.

Pe de altă parte, uncorrelatedness nu implică independenţa. De exemplu, să presupunem că (y 1, y 2) sunt discrete evaluate şi să urmeze o astfel de pereche de distributie care sunt cu o probabilitate de 1 / 4 valori egale la oricare dintre următoarele: (0,1), (0, -1), (1,0), (-1,0). Apoi, y 1 şi y 2 sunt necorelate, ca poate fi doar calculate. Pe de altă parte,

(11)

astfel condiţie în ecuaţia. ( 11 ) este încălcat, iar variabilele nu poate fi independent.

De la declararea independenţei implică uncorrelatedness, multe metode de constrângere ICA procedură de estimare, astfel încât acesta dă întotdeauna estimări necorelate din componente independente. Acest lucru reduce numărul de parametri gratuit, şi simplifică problema.

2.3.De ce variabile gaussiene sunt interzise

Restricţia fundamentale în ICA este că, componentele trebuie să fie independent nongaussian pentru ICA să fie posibilă.

Pentru a vedea de ce variabile gaussiene face ICA imposibil, să presupunem că amestecul este matricea ortogonală şi s i sunt Gaussian. Apoi, x 1 şi x 2 sunt gaussian, necorelate, şi de varianţă unitate. Densitatea lor comun este dat de

(12)

Această distribuţie este ilustrat în Fig. 7 . Figura arată că densitatea este complet simetrică. Prin urmare, acesta nu conţine nicio informaţie cu privire la direcţiile de coloane din matrice de amestecare . Acesta este motivul pentru nu poate fi estimată.

   Figura 7: Distribuţia multivariată a două

Page 7: ica

variabile independente gaussian.

Mai riguros, se poate dovedi că distribuţia de orice transformare ortogonală a gaussiană (x 1, x 2), are exact aceeaşi distribuţie ca (x 1, x 2), şi că x 1 şi x 2 sunt independente. Astfel, în cazul variabilelor gaussian, putem estima doar model ICA până la o transformare ortogonală. Cu alte cuvinte, matricea nu este identificabilă pentru componente Gaussian independent. (De fapt, în cazul în care doar una din componentele independent este Gaussian, model ICA poate fi încă estimat.)

3.Principiile de ICA estimare

3.1.`` Nongaussian este independent''

Intuitiv vorbind, cheia pentru estimarea model ICA este nongaussianity. De fapt, fără nongaussianity estimare nu este posibilă în toate, aşa cum se menţionează în Sec. 3.3 . Aceasta este, în acelaşi timp, probabil, principalul motiv pentru renaşterea destul de tarziu de cercetare ICA: În cele mai multe de teoria statistică clasică, variabile aleatoare se presupune că au distribuţii gaussiene, împiedicând astfel orice metode referitoare la ICA.

Central Limit Teorema, un rezultat clasic în teoria probabilităţii, spune că distribuirea unei sume de variabile aleatoare independente tinde spre o distribuţie gaussiană, în anumite condiţii. Astfel, o sumă de două variabile aleatoare independente de obicei, are o distribuţie care este mai aproape de gaussian decât oricare dintre cele două variabile aleatoare originale.

Să presupunem acum că datele vector este distribuită conform datelor modelul ICA în ecuaţia. 4 , adică este un amestec de componente independente. Pentru simplitate, să presupunem că în această secţiune toate componentele independenţi au distributii identice. Pentru a estima una din componente independente, considerăm o combinaţie liniară de x i (a

se vedea ec. 6 ); să notăm acest lucru prin , În cazul în care este un vector care urmează să fie stabilite. În cazul în care a fost unul din rânduri de inversă a

Page 8: ica

, Această combinaţie liniară va fi egal cu de fapt, una dintre componentele independent. Întrebarea este acum: Cum am putea folosi Central Limit Teorema pentru a determina astfel încât aceasta va fi egal cu una dintre rânduri de inversă a ? În practică, nu putem determina un astfel de exact, deoarece nu avem cunoştinţe de matrice , Dar putem gasi un estimator care oferă o bună aproximare.

Pentru a vedea cum acest lucru duce la principiul de bază de estimare ICA, să ne facă o

schimbare de variabile, definirea . Apoi ne-am . Y este astfel o combinaţie liniară de i s, cu greutăţi dat de z i. Deoarece o sumă de chiar două variabile aleatoare independente este Gaussian mai mult decât variabile original, gaussiană este mai mult decât orice i s şi devine cel gaussian atunci când, de fapt, este egală cu una din i s. În acest caz, evident, doar unul dintre elementele z i de este nenul. (Reţineţi că i s-au aici se presupune că au distribuţii identice.)

Prin urmare, am putea lua ca un vector care maximizează nongaussianity de . O astfel de vector ar corespunde în mod necesar (în transformat sistem de coordonate) la un care are doar o componentă diferită de zero. Acest lucru înseamnă că este egală cu una din componentele independent!

Maximizarea nongaussianity de astfel ne dă una dintre componentele independent. De fapt, peisajul de optimizare pentru nongaussianity în spaţiu n-dimensional de vectori are 2 locale maxima n, câte două pentru fiecare componentă independent, care corespunde şi i s - i s (reamintească faptul că componentele independent poate fi estimat doar până la un semn multiplicativ). Pentru a găsi mai multe componente independente, avem nevoie pentru a găsi toate aceste maxime locale. Acest lucru nu este dificil, deoarece diferitele componente independente sunt necorelate: Putem sa spunem mereu de căutare pentru a spaţiului, care oferă estimări necorelate cu cele anterioare. Aceasta corespunde orthogonalization într-un spaţiu corespunzător transformat (de exemplu, albit).

Abordarea noastră aici este destul de euristic, dar se va vedea în secţiunea următoare şi Sec. 4.3 , care are o justificare perfect riguros.

3.2.Măsuri de nongaussianity

Pentru a utiliza nongaussianity în estimarea ICA, trebuie să avem o măsură cantitativă a nongaussianity a unei variabile aleatoare, spune y. Pentru a simplifica lucrurile, să presupunem că y este centrat (zero-medie) şi are varianţă egală cu o. De fapt, una din funcţiile de preprocesare în algoritmi ICA, care urmează să fie acoperite în secţiunea 5 , este de a face posibilă această simplificare.

3.2.1.Kurtosis

Măsura clasică a nongaussianity este exces sau cumulant de-a patra comandă. Exces de y clasic este definit de

Page 9: ica

(13)

De fapt, din moment ce ne-am asumat că Y este de varianţă unitate, mana-dreapta simplifică

la . Acest lucru arată că exces este pur şi simplu o versiune normalizat de

moment patra . Pentru un y Gaussian, moment patra este egală cu . Astfel, exces este zero pentru o variabilă aleatoare Gaussian. Pentru cele mai multe (dar nu chiar toate) nongaussian variabile aleatoare, exces este nenul.

Exces poate fi atât pozitive sau negative. variabile aleatoare care au un exces negative sunt numite subgaussian, şi cele cu exces pozitive sunt numite supergaussian. În literatura de specialitate statistice, expresii corespunzătoare platykurtic şi leptokurtic sunt de asemenea folosite. variabile aleatoare Supergaussian au de obicei o ţepos ``''pdf cu cozi grele, adică pdf este relativ mare la zero şi la valori mari ale variabila, fiind în acelaşi timp mici pentru valori intermediare. Un exemplu tipic este distribuţia Laplace, ale căror pdf (normalizat la variaţia unitate) este dat de

(14)

Acest pdf este ilustrat în Fig. 8 . Subgaussian variabile aleatoare, pe de altă parte, au de obicei un PDF ``''plat, care este destul de constant aproape de zero, şi foarte mici, pentru valori mai mari de variabile. Un exemplu tipic este distibution uniform în ec. ( 7 ).

   Figura 8: funcţia de densitate a distribuţiei

Laplace, care este o distribuţie supergaussian tipic. Pentru comparaţie, densitatea gaussiană este dat de o linie punctată. Ambele densităţi

sunt normalizate varianţei unitate de ot.

Page 10: ica

De obicei nongaussianity este măsurată prin valoarea absolută a exces. Pătrat de exces pot fi de asemenea utilizat. Acestea sunt zero pentru o variabilă Gaussian, şi mai mare decât zero pentru variabilele cele mai nongaussian aleatoare. Există variabile aleatoare nongaussian care au zero exces, dar ele pot fi considerate ca fiind foarte rare.

Exces, sau mai degrabă valoarea sa absolută, a fost utilizat pe scară largă ca o măsură de nongaussianity în ICA şi domenii conexe. Principalul motiv este simplitatea ei, atât de calcul şi teoretice. Computational, exces poate fi estimată prin simpla utilizare moment al patrulea datele eşantion. Analiza teoretică este simplificată datorită proprietăţii liniaritate următoarele: Dacă x 1 şi x 2 sunt două variabile aleatoare independente, pe care le deţine

(15)

şi

(16)

în cazul în care este un scalar. Aceste proprietăţi pot fi uşor demonstrat, folosind definiţia.

Pentru a ilustra într-un exemplu simplu ceea ce peisajul de optimizare pentru exces arata, si cum independent componente ar putea fi găsite prin minimizarea sau maximizarea exces, să ne uităm la un model de 2-dimensional . Să presupunem că componente

independente s 1, s 2 au valori kurtosis , Respectiv, ambele diferite de zero. Amintiţi-vă că am presupus că au diferenţe unitate. Căutăm pentru una din

componentele independente ca .

Să ne face din nou de transformare . Apoi ne-am

. Acum, bazat pe proprietatea aditiv de exces, ne-

am . Pe de altă parte, am facut constrângere că variaţia lui y este egal cu 1, bazate pe ipoteza privind acelaşi S 1, S 2.

Aceasta implică o constrângere asupra : . Geometric, aceasta înseamnă că vector este constrâns să cercul unitate pe planul 2-dimensional. Problema de optimizare este acum: care sunt maximele de funcţia

pe cercul unitate? Pentru simplitate, vă poate considera că exces sunt de acelaşi semn, caz în care operatorii valoare absolută poate fi omise. Graficul acestei funcţii este "peisajul de optimizare" pentru problema.

Nu este greu să arate [ 9 ], că maximele sunt la punctele de exact atunci când unul din elementele de vector este zero şi nenul altă parte; din cauza constrângere cercul unitate,

Page 11: ica

element nenul trebuie să fie egală cu 1 sau -1. Dar aceste puncte sunt exact cele atunci când y

este egală cu una din componentele independent , Iar problema a fost rezolvată.

În practică, ne-ar porni de la unele vector greutate , Calcula direcţia în care exces de

este în creştere cel mai puternic (în cazul în exces este pozitiv) sau descrescătoare cel mai puternic (în cazul în exces este negativ), pe baza eşantionului disponibile

vector de amestec , Şi de a folosi o metodă de gradient sau unul de extensii lor pentru a găsi un nou vector . Exemplu, pot fi generalizate la dimensiuni arbitrare, care arată că exces poate fi teoretic utilizată ca un criteriu de optimizare pentru problema ICA.

Cu toate acestea, exces are, de asemenea, unele dezavantaje, în practică, atunci când valoarea sa trebuie să fie estimat la un eşantion măsurate. Problema principală este că exces poate fi foarte sensibile la valori aberante [ 16 ]. Valoarea sa poate depinde doar câteva observaţii în cozile de distribuţie, care poate fi observaţii eronate sau irelevante. Cu alte cuvinte, exces nu este o măsură de robust nongaussianity.

Astfel, alte măsuri de nongaussianity ar putea fi mai bun decât exces în anumite situaţii. Mai jos vom considera negentropy ale căror proprietăţi sunt mai degrabă opuse cu cele ale exces, şi să introducă în cele din urmă aproximări de negentropy care mai mult sau mai puţin combina bune proprietati de ambele măsuri.

3.2.2.Negentropy

O a doua măsură foarte importantă de nongaussianity este dat de negentropy. Negentropy se bazează pe cantitatea de informaţii teoretice ale (diferential) entropie.

Entropia este conceptul de bază al teoriei informaţiei. Entropia unei variabile aleatoare poate fi interpretat ca gradul de informare că observarea variabilei dă. ''Mai `` aleatoriu, adică imprevizibil şi nestructurate este variabila, mai mare de entropie. Mai riguros, entropia este strâns legată de lungimea de codificare a variabilei aleatoare, de fapt, în anumite ipoteze simplificatoare, entropia este lungimea de codificare a variabilei aleatoare. Pentru introduceri pe teoria informaţii, a se vedea de exemplu [ 8 , 36 ].

Entropia H este definită pentru o variabilă aleatoare Y discrete

(17)

unde a i sunt valorile posibile ale Y. Această definiţie foarte bine-cunoscute pot fi generalizate pentru variabile continue cu valori aleatoare şi vectori, caz în care este adesea

numit entropia diferenţială. Diferenţial entropie H a unui vector aleator cu densitate este definită ca [ 8 , 36 ]:

  (18)

Page 12: ica

Un rezultat fundamental al teoriei informaţiei este aceea că o variabilă Gaussian are cea mai mare entropie dintre toate variabilele aleatoare de varianţă egală. Pentru o dovadă, a se vedea de exemplu [ 8 , 36 ]. Acest lucru înseamnă că entropia ar putea fi folosit ca o măsură de nongaussianity. De fapt, acest lucru arată că distribuţia gaussiană este''`` cel mai aleatoriu sau cel puţin structurat de toate distribuţiile. Entropia este mic pentru distribuţiile care sunt în mod clar concentrate pe anumite valori, de exemplu, atunci când variabila este în mod clar grupate, sau are un format pdf, care este''foarte `` tepi.

Pentru a obţine o măsură de nongaussianity, care este zero pentru o variabilă Gaussian şi întotdeauna nenegative, se foloseşte adesea o versiune uşor modificată a definiţiei de entropiei diferenţiale, numit negentropy. Negentropy J este definită după cum urmează

  (19)

în cazul în care este o variabilă aleatoare Gaussian din matricea de covarianŃă

aceleaşi ca . Datorită proprietăţilor de mai sus, negentropy este întotdeauna non-negativ, şi

este zero dacă şi numai dacă are o distribuţie gaussiană. Negentropy are interesant de proprietate suplimentar că este liniar invariant pentru transformări inversabilă [ 7 , 23 ].

Avantajul folosirii negentropy, sau, echivalent, entropia diferenţială, ca o măsură de nongaussianity este faptul că este bine justificată prin teoria statistică. De fapt, negentropy este într-un sens estimator optim de nongaussianity, în ceea ce priveşte proprietăţile statistice sunt în cauză. Problema în utilizarea negentropy este, totuşi, că este foarte dificil de calcul. Estimarea negentropy folosind definiţia ar necesita o estimare (eventual neparametrice) din pdf. Prin urmare, aproximări simple de negentropy sunt foarte utile, cum vor fi discutate in continuare

3.2.3.Aproximări de negentropy

Estimarea negentropy este dificil, după cum sa menţionat mai sus, şi, prin urmare, această funcţie contrast rămâne în principal una teoretică. În practică, unele apropierea trebuie să fie utilizat. Aici vom introduce aproximări care au proprietăţi foarte promiţătoare, şi care vor fi utilizate în următoarele pentru a obţine o metodă eficientă pentru ICA.

Metoda clasică de a aproxima negentropy este utilizarea de ordinul momente mai mare, de exemplu, după cum urmează [ 27 ]:

  (20)

Page 13: ica

Y variabila aleatoare se presupune a fi de medie zero şi varianţa unitate. Cu toate acestea, valabilitatea de aproximaţii poate fi destul de limitate. În special, aceste aproximări suferă de nonrobustness întâlnite cu exces.

Pentru a evita problemele întâmpinate cu aproximările precedent de negentropy, aproximări noi au fost dezvoltate în [ 18 ]. Aceste apropiere s-au bazat pe principiul maxim-entropie. În general, vom obţine apropierea următoarele:

 

(21)

unde k eu sunt unele constante pozitive, şi este o variabilă Gaussian de medie zero şi varianţă unitate (de exemplu, standardizat). Y variabilă este presupus a fi de medie zero şi varianţa unitate, precum şi funcţiile G i sunt unele funcţii nonquadratic [ 18 ]. Reţineţi că, chiar şi în cazurile în care această apropiere nu este foarte precis, ( 24 ) pot fi utilizate pentru a construi o măsură de nongaussianity care să fie consecventă, în sensul că este întotdeauna non-negativ, şi egală cu zero în cazul în care y are o distribuţie gaussiană.

În cazul în care vom folosi doar o singură funcţie nonquadratic G, apropierea devine

 

(22)

pentru practic orice pătratice funcţie non-G. Aceasta este în mod clar o generalizare a bazat pe apropierea moment în ( 23 ), în cazul în care y este simetrică. Într-adevăr, luând G (y) = y 4, unul apoi obţine exact ( 23 ), adică o bază de apropiere exces.

Dar punctul de aici este că, prin alegerea G cu înţelepciune, o aproximări obţine din negentropy care sunt mult mai bine decât cel dat de ( 23 ). În special, alegerea G, care nu cresc prea rapid, unul mai robust obţine estimatori. Urmatoarele variante de G-au dovedit a fi foarte utile:

   

(23)

în cazul în care este de aproximativ constantă potrivit.

Astfel, vom obţine aproximări de negentropy care dau un compromis foarte bun între proprietăţile două măsuri nongaussianity clasice dat de exces şi negentropy. Ele sunt simple conceptual, pentru a calcula rapid, dar au atrăgătoare proprietăţile statistice, în special robusteţe. Prin urmare, vom folosi aceste funcţii de contrast în metodele noastre ICA.

Page 14: ica

Deoarece exces pot fi exprimate în această acelaşi cadru, aceasta poate fi încă folosit de metodele noastre ICA. Un algoritm practice bazate pe aceste funcţii de contrast vor fi prezentate în secţiunea 6 .

3.3.Minimizarea de informare reciprocă

O altă abordare pentru estimarea ICA, inspirate de teoria informaţiei, este reducerea la minimum a informare reciprocă. Vom explica această abordare aici, şi arată că aceasta duce la acelaşi principiu de a găsi cele mai multe direcţii nongaussian cum a fost descris mai sus. În special, această abordare oferă o justificare riguroasă a principiilor euristice utilizate de mai sus

3.3.1.De informare reciprocă

Folosind conceptul de entropie diferenţial, vom defini de informare reciprocă între I m (scalar) variabile aleatoare, i y, i = 1 ... m, după cum urmează

 (24)

Informarea reciprocă este o măsură naturală a dependenţei dintre variabilele aleatoare. De fapt, acesta este echivalent cu divergenţă bine-cunoscut Kullback-Leibler între densitatea

comun şi produsul densităţilor sale marginale; o măsură foarte natural pentru independenţă. Este întotdeauna non-negativ, şi zero dacă şi numai dacă variabilele sunt independente statistic. Astfel, informarea reciprocă ia în considerare întreaga structură dependenţa de variabile, şi nu numai covarianţă, cum ar fi APC şi metodele conexe.

Informarea reciprocă poate fi interpretat prin utilizarea de interpretare a entropiei ca lungime cod. Termeni H (y i) da lungimi de coduri pentru y i atunci când acestea sunt codificate

separat, şi dă lungimea cod atunci când este codat ca un vector aleator, adică toate componentele sunt codificate în acelaşi cod. Informarea reciprocă astfel de reducere a ceea ce prezinta o lungime cod se obţine prin codificarea vector întregi în loc de componente separate. În general, codurile de bune pot fi obţinute prin codificarea vector întreg. Cu toate acestea, în cazul în care y i sunt independente, ele nu dau nici o informaţie cu privire la fiecare alte, şi s-ar putea la fel de cod bine variabilele separat, fără a creşte lungime cod.

O proprietate importantă de informare reciprocă [ 36 , 8 ], este că avem pentru o transformare

liniară inversabilă :

  (25)

Page 15: ica

Acum, să ne gândim ce se întâmplă dacă ne constrânge y i să fie necorelate şi de varianţă

unitate. Acest lucru înseamnă , Ceea ce implică

, Şi acest lucru implică faptul că trebuie să fie constantă. Mai mult decât atât, pentru y i de varianţă unitate, entropia şi negentropy diferă doar printr-o constantă, şi semnul. Astfel vom obţine,

  (26)

unde C este o constantă care nu depinde de . Acest lucru arată relaţia fundamentală între informaţiile negentropy şi reciprocă.

3.3.2.ICA Definirea de informare reciprocă

Deoarece de informare reciprocă este măsura natural informaţii-teoretică a independenţei de variabile aleatoare, am putea folosi drept criteriu pentru găsirea ICA transforma. În această abordare, care este o alternativă la abordarea modelului de estimare, putem defini ICA a unui vector aleator ca o transformare inversabilă ca în ( 6 ), în cazul în care matricea este stabilit astfel încât informaţiile reciprocă a componentelor I s transformat este minimizat.

Este acum evident de la ( 29 ), că găsirea unei transformare inversabilă care minimizează de informare reciprocă este aproximativ echivalent cu a găsi direcţiile în care negentropy este maximizată. Mai precis, este aproximativ echivalent cu găsirea subspaţii 1-D, astfel încât proiecţiile în aceste subspaţii au negentropy maxim. Riguros, vorbind, ( 29 ) arată că estimarea ICA prin minimizarea de informare reciprocă este echivalentă cu maximizarea suma de nongaussianities a estimărilor, în cazul în care estimările sunt constrânse să fie necorelate. Constrângere de uncorrelatedness este, de fapt, nu este necesar, dar simplifică calculele considerabil, ca se poate folosi apoi în formă mai simplă ( 29 ) în loc de formă mult mai complicate în ( 28 ).

Astfel, vedem că formularea ICA ca minimizare de informare reciprocă oferă o altă justificare riguroasă a ideii noastre a introdus mai multe euristic de a găsi maxim direcţii nongaussian.

3.4.Risc maxim Estimarea

3.4.1.Probabilitatea

O abordare foarte popular pentru estimarea model ICA este probabilitatea de estimare maxim, care este strâns legată de principiul Infomax. Aici vom discuta despre această abordare, şi arată că este în esenţă echivalente cu reducerea de informare reciprocă.

Este posibil să formuleze direct în probabilitatea-free ICA model de zgomot, care a fost făcut în [ 38 ], şi estimează apoi modelul printr-o metodă probabilitate maximă. Care denotă de

matrice , Jurnalul de probabilitatea ia forma [ 38 ]:

Page 16: ica

 (27)

unde f i sunt funcţiile densitatea i s (aici, presupus a fi cunoscut), şi sunt

realizari de . Termenul în probabilitatea vine de la regula clasic pentru (linear) aleatoare variabile transformarea şi densitatea lor [ 36 ]: In general, pentru orice

vector aleator cu p densitate x şi pentru orice matrice , Densitatea de este dat

de .

3.4.2.Principiul Infomax

O altă funcţie legate de contrast a fost derivat dintr-un punct de vedere reţele neuronale în [ 3 , 35 ]. Acest lucru a fost bazat pe maximizarea entropiei de ieşire (sau fluxul de informaţii) a unei reţele neuronale cu ieşiri non-linear. Presupunem că este de intrare la reţele

neuronale ale căror rezultate sunt de forma , În cazul în care i-g sunt unele funcţii

non liniare scalar, şi sunt vectori greutatea neuroni. Una apoi vrea să maximizeze entropia iesiri:

(28)

Dacă i g sunt bine alese, acest cadru permite, de asemenea, estimarea modelului ICA. Într-adevăr, mai mulţi autori, de exemplu, [ 4 , 37 ], s-au dovedit rezultatul surprinzător că principiul maximizării entropiei de reţea, sau ``''Infomax, este echivalentă cu probabilitatea de estimare maxim. Acest lucru echivalenţei impune ca non-linearities g am folosit în reţele neuronale sunt alese ca funcţiile de distribuţie cumulativă corespunzătoare densităţilor f, adică eu, g i'(.)= f i (.).

3.4.3.Conexiune la informarea reciprocă

Pentru a vedea legătura între probabilitatea şi informare reciprocă, considera aşteptarea log-probabilitatea:

(29)

Page 17: ica

De fapt, în cazul în care f i erau egale cu distribuţiile reale de , Primul termen va fi egal

cu . Astfel, probabilitatea ar fi egale, până la un aditiv constant, la negativ de informare reciprocă, aşa cum figurează în ecuaţia. ( 28 ).

De fapt, în practică, conexiunea este mult mai puternic. Acest lucru se datorează faptului că, în practică, nu ştim distribuţii de componente independente. O abordare rezonabilă ar fi să se

estimeze densitatea de ca parte a metodei de estimare ML, şi de a folosi acest lucru ca o aproximare a densităţii lui i s. În acest caz, probabilitatea şi informare reciprocă sunt, pentru toate scopurile practice, echivalent.

Cu toate acestea, există o diferenţă mică, care poate fi foarte important în practică. Problema cu probabilitate de estimare maxim este faptul că densităţile f i trebuie să fie estimată corect. Ei nu trebuie să fie estimat cu precizie mare: de fapt este suficient pentru a estima dacă acestea sunt sub-sau supergaussian [ 5 , 25 , 31 ]. În multe cazuri, de fapt, avem destule cunoştinţe anterioare pe componente independente, şi nu avem nevoie pentru a estima natura lor de date. În orice caz, dacă informaţiile cu privire la natura componentelor independent nu este corectă, estimarea ML va da rezultate complet gresit. Unele grijă trebuie să fie luate cu estimarea ML, prin urmare. În schimb, utilizarea măsurilor rezonabile de nongaussianity, această problemă nu se pune de obicei.

3.5.ICA şi Pursuit de proiectie

Este interesant de remarcat modul în care abordarea noastră de a ICA face explicit legătura între ICA şi exercitarea de proiecţie. desfăşurarea de proiecţie [ 12 , 13 , 16 , 27 ], este o tehnica dezvoltata în statisticile pentru găsirea ``''proiecţiile interesant de date multidimensionale. Astfel de proiecţii pot fi apoi folosite pentru vizualizarea optima a datelor, precum şi pentru scopuri cum ar fi estimarea densitatea şi regresie. În căutarea de bază de proiectare (1-D), vom încerca să găsească direcţii astfel încât proiecţiile a datelor în aceste direcţii au distributii interesante, de exemplu, afişarea unor structuri. Acesta a fost susţinut de către Huber [ 16 ] şi de Jones şi Sibson [ 27 ], că distribuţia gaussiană este de cel puţin interesantă, şi că direcţiile cele mai interesante sunt cele care arată cel de distribuţie gaussiană. Acest lucru este exact ceea ce facem pentru a estima model ICA.

Utilitatea de a găsi aceste previziuni pot fi văzute în Fig. 9 , în cazul în care proiecţia pe direcţia exercitarea de proiecţie, care este orizontală, arată în mod clar structura cluster de date. Proiecţia pe prima componentă principală (vertical), pe de altă parte, nu reuşeşte să arate această structură.

   Figura 9: O ilustrare de urmărire şi

proiecţie''interestingness `` de proiecţii nongaussian. Datele din această cifră este în mod clar împărţită în două grupuri. Cu toate

acestea, componenta principală, şi anume

Page 18: ica

direcţia de variaţia maximă, ar fi vertical, oferind nici o separare între clustere. În contrast, puternic nongaussian direcţia

exercitarea proiecţie este orizontală, oferind separarea optimă a clusterelor.

Astfel, în formularea general, ICA poate fi considerată o variantă de urmărire de proiecţie. Toate măsurile de nongaussianity şi algoritmii corespunzătoare ICA prezentate aici ar putea fi numit, de asemenea, urmărirea indicilor de proiecţie ``''şi algoritmi. În special, desfăşurarea de proiecţie ne permite să abordeze situaţia în care nu sunt independente componente mai puţin decât s i variabile original x i este. Presupunând că aceste dimensiuni ale spaţiului, care nu sunt calibrat de componente independente sunt ocupate de zgomot gaussian, vedem că calcul proiecţia direcţiile nongaussian exercitarea, estimăm efectiv componente independente. Când toate direcţiile nongaussian au fost găsite, toate componentele independente au fost estimate. O astfel de procedură poate fi interpretat ca un hibrid de urmărire de proiecţie şi ICA.

Cu toate acestea, trebuie remarcat faptul că în formularea de urmărire proiecţie, nici un model de date sau componente independente cu privire la ipoteza în care se face. Dacă modelul ICA deţine, optimizarea măsurile ICA nongaussianity produce componente independente, în cazul în care modelul nu deţine, atunci ceea ce primim sunt directiile de proiecţie urmărire.

4.Preprocesare pentru ICA

În secţiunea precedentă, am discutat despre principiile care stau la baza metodelor statistice ICA. Practice algoritmi bazate pe aceste principii vor fi discutate in sectiunea urmatoare. Cu toate acestea, înainte de aplicarea unui algoritm ICA asupra datelor, de obicei este foarte util pentru a face unele preprocesare. În această secţiune, vom discuta despre unele tehnici de preprocesare care fac problema de estimare ICA mai simple şi mai bine condiţionat.

4.1.Centrarea

Preprocesarea cele mai de bază şi este necesar să centru , Adică scade vectorului său

înseamnă astfel încât să un zero-medie variabilă. Aceasta implică faptul că

Page 19: ica

este zero, înseamnă, de asemenea, cum se poate vedea prin luarea aşteptările pe ambele părţi ale ecuaţiei. ( 4 ).

Aceasta preprocesare se face exclusiv de a simplifica algoritmi ICA: Aceasta nu înseamnă că media nu a putut fi estimată. După estimarea matricea de amestecare cu date centrat, putem finaliza estimarea prin adăugarea vector medie de Înapoi la estimările centrat de . Vectorul medie de este dat de , În cazul în care este înseamnă că a fost scăzută în preprocesare.

4.2.Albire

O alta strategie folositoare preprocesare în ICA este de a albi prima variabile observate. Acest lucru înseamnă că înainte de aplicarea algoritmului ICA (şi după centrare), vom transforma vector observate liniar, astfel încât să putem obţine un vector nou care este de culoare albă, şi anume componentele sale sunt necorelate şi variaţii lor unitate egal. Cu alte cuvinte, matricea de covarianţă este egal cu matricea identitate:

(30)

Transformarea albire este întotdeauna posibil. O metoda populara pentru albire este de a

folosi descompunerea eigen-valoare (EVD) din matricea de covarianŃă ,

În cazul în care este matricea ortogonală de vectorii proprii de şi este

matricea diagonală a valorilor proprii sale, . Reţineţi că

poate fi estimat într-un mod standard de probă disponibile . Albirea se poate face acum de către

  (31)

în cazul în care matricea este calculată printr-o operaţie simplă componentă-înţelept

ca . Este uşor pentru a verifica faptul că acum

.

Albire transformă într-o matrice de amestecare unul nou, . Avem de la ( 4 ) şi ( 34 ):

(32)

Page 20: ica

Utilitate de albire constă în faptul că noua matrice de amestecare este ortogonală. Acest lucru poate fi văzut de la

(33)

Aici vom vedea că albire reduce numărul de parametri care urmează să fie estimate. În loc de a avea pentru a estima n 2 parametri, care sunt elementele originale ale matricei , Avem

nevoie doar pentru a estima noi, ortogonale amestecare matrice . O matrice ortogonală conţine n (n -1) / 2degrees de libertate. De exemplu, în două dimensiuni, o transformare ortogonală este determinată de un parametru singur unghi. În dimensiuni mai mari, o matrice ortogonală conţine doar aproximativ jumătate din numărul de parametri de o matrice arbitrar. Astfel, se poate spune că albirea rezolva jumatate din problema a ICA. Deoarece albire este o procedura foarte simpla si standard, mult mai simplu decât orice algoritmi ICA, este o idee bună de a reduce complexitatea problemei în acest fel.

Acesta poate fi, de asemenea, destul de util pentru a reduce dimensiunea datelor în acelaşi

timp, ca facem albire. Apoi ne uitam la valorile proprii d j de şi aruncaţi cei care sunt prea mici, cum este făcut de multe ori în tehnica statistică a analiza componentelor principale. Acest lucru are adesea efectul de reducere a zgomotului. Mai mult decât atât, reducerea dimensiunii previne overlearning, care pot fi uneori observate în ICA [ 26 ].

O ilustrare grafică a efectului de albire poate fi văzut în figura 10 , în care datele din Figura 6 a fost albit. Pătrat definirea de distribuţie este în prezent în mod clar o versiune a rotit pătrat original în Figura 5 . Tot ce rămâne este estimarea un unghi unic care oferă rotaţie.

   Figura 10: distribuţia în comun a

amestecurilor albit.

Page 21: ica

În restul acestui tutorial, vom presupune că datele au fost preprocessed de centrare şi albire. Pentru simplitate de notaţie, vom nota datele preprocessed doar de către , Şi transformat de amestecare matrice de , Omiţând tilde.

4.3.Mai multe preprocesare

Succesul a ICA pentru un anumit set de date pot depende crucial cu privire la efectuarea unor paşi aplicarea-dependente de preprocesare. De exemplu, în cazul în care datele constă din timp semnale, unele band-pass de filtrare poate fi foarte util. Reţineţi că, dacă am filtru liniar semnalele observate x i (t) pentru a obţine noi semnale, spune x * i (t), model ICA deţine încă

pentru , Cu acelaşi amestec matrice.

Acest lucru poate fi văzut după cum urmează. Notăm prin matrice care conţine observaţiile

ca coloanele sale, şi în mod similar pentru . Apoi model ICA poate fi exprimată ca:

(34)

Acum, timp de filtrare corespunde la multiplicarea de la dreapta de o matrice, să ne spunem . Aceasta oferă

(35)

care arată că modelul ICA rămâne încă valabilă.

5.Algoritmul FastICA

În secţiunile precedente, am introdus diferite măsuri de nongaussianity, funcţii şi anume obiectiv pentru estimarea ICA. În practică, este nevoie, de asemenea, un algoritm pentru maximizarea funcţia de contrast, de exemplu, unul din ( 25 ). În această secţiune, vom introduce o metoda foarte eficienta de maximizarea potrivită pentru această sarcină. Este aici presupune că datele sunt preprocessed de centrare şi albire după cum sa discutat în secţiunea precedentă

  5.1.FastICA pentru o unitate

Pentru a începe cu, vom arăta versiunea-o unitate de FastICA. Printr-o "unitate", ne referim la o unitate de calcul, în cele din urmă un neuron artificial, având o greutate vector că neuron este capabil de a actualiza de către o regulă de învăţare. FastICA învăţare regulă găseşte o direcţie, adică un vector unitate astfel încât proiecţia maximizează

Page 22: ica

nongaussianity. Nongaussianity este aici măsurată prin apropierea de negentropy dat în ( 25 ). Amintiti-va ca varianţa aici trebuie să fie constrânsă să unitate, pentru datele albit aceasta este echivalentă cu constrângerea norma de care urmează să fie unitate.

FastICA se bazează pe o schemă de iteraţie fix-point pentru găsirea unui maxim de nongaussianity de , Măsurată în ( 25 ), a se vedea [ 24 , 19 ]. Acesta poate fi, de asemenea, ca un derivat aproximativ iteraţie Newton [ 19 ]. Notăm de g derivat al funcţiei nonquadratic G utilizate în ( 25 ), de exemplu, derivatele funcţiilor în ( 26 ) sunt:

 

(36)

în cazul în care este o constantă potrivit, de multe ori luate ca 1 = 1. Forma de bază a algoritmului FastICA este după cum urmează:

  1.

Alegeţi o iniţial (de exemplu aleatoriu) vector greutate . 2.

Să 3.

Să 4.

Dacă nu convergente, du-te inapoi la 2. Reţineţi că de convergenţă înseamnă că valorile vechi şi noi de punct în aceeaşi direcţie, adică lor dot-produsul este (aproape) egal cu 1. Nu este necesar ca vector converge la un

singur punct, deoarece şi defini aceeaşi direcţie. Acest lucru este din nou, deoarece componentele independent poate fi definită doar până la un semn multiplicativ. Reţineţi, de asemenea, că este aici presupune că datele sunt prewhitened.

Derivarea de FastICA este după cum urmează. Primul act de faptul că maximele din apropierea negentropy de

sunt obţinute la anumite valori optime de . În conformitate cu condiţiile Kuhn-Tucker

[ 32 ], Optima de sub constrângere sunt obţinute la punctele de unde

  (37)

Page 23: ica

Să încercăm să rezolve această ecuaţie prin metoda lui Newton. Notând funcţia pe-o parte partea stângă a ( 40 )

de către F, vom obţine sa matricei Jacobian ca

  (38)

Pentru a simplifica inversarea acestei matrice, ne vom hotărî să aproximative primul termen din ( 41 ). Deoarece datele este sferica, o aproximare rezonabilă pare să fie

. Astfel, matricea Jacobian devine diagonală, şi poate fi uşor inversat. Astfel, vom obţine următoarele aproximativa iteratie Newton:

  (39)

Acest algoritm poate fi simplificat prin înmulţirea ambele părţi ale ( 42 ) de . Acest lucru dă, după simplication algebrice, iteraţia FastICA.

În practică, aşteptările în FastICA trebuie să fie înlocuit cu estimările lor. Estimările naturale sunt, desigur, ale mijloacelor de probă. În mod ideal, toate datele disponibile ar trebui folosite, dar acest lucru nu este adesea o idee bună, deoarece calculele poate deveni prea dificile. Apoi, mediile pot fi estimate pe baza unui eşantion mai mici, ale căror dimensiune poate avea un efect considerabil asupra preciziei estimărilor finale. De puncte de prelevare ar trebui să fie alese separat la fiecare iteraţie. În cazul în care convergenţă nu este satisfăcător, se poate creşte apoi dimensiunea eşantionului.

5.2.FastICA pentru mai multe unităţi

Algoritmul de o unitate de estimările precedente subsecţiunea doar una dintre componente independente, sau într-una desfăşurarea direcţie de proiecţie. Pentru a estima mai multe componente independente, avem nevoie pentru a rula o singură unitate FastICA algoritm

folosind mai multe unităţi (de exemplu, neuroni), cu vectori greutate .

Pentru a preveni diferite de vectori converg spre aceleaşi maxime trebuie să ne decorrelate

ieşiri după fiecare iteraţie. Vom prezenta aici trei metode pentru realizarea acestui lucru.

Un mod simplu de a realiza decorrelation este un sistem bazat pe o deflatie decorrelation Gram-Schmidt-like. Aceasta înseamnă că ne estimare independent una componentele de

unul. Când ne-am estimat independent componente p, sau vectori P , Vom rula

algoritmul de o unitate fixă puncte pentru , Şi după fiecare pas iteraţie scădea de la

proiecţiile ``'' de p vectori estimat anterior, şi apoi

renormalize :

Page 24: ica

 (40)

În anumite aplicaţii, cu toate acestea, ar fi de dorit să folosească o decorrelation simetric, în care nu sunt vectori ``''privilegiate peste alţii [ 29 ]. Acest lucru poate fi realizat, de exemplu, prin metoda clasică implică rădăcini matrice pătrată,

  (41)

în cazul în care este matricea de vectori, şi rădăcina pătrată invers

se obţine din descompunerea valori proprii de ca

. O alternativă simplă este iterativ următorul algoritm [ 19 ],

 (42)

Norma în pasul 1 poate fi aproape orice normă obişnuită matrice, de exemplu, 2 norma sau cea mai mare rând absolut (sau coloana), suma (dar nu norma Frobenius).

5.3.FastICA şi probabilitatea maximă

În cele din urmă, vom da o versiune de FastICA care arată în mod explicit conexiunea la bine-cunoscute Infomax sau algoritm de risc maxim introdus în [ 1 , 3 , 5 , 6 ]. Dacă ne exprima FastICA folosind formula intermediar în ( 42 ), şi scrie-l sub formă de matrice (a se vedea [ 20 ] pentru mai multe detalii), vom vedea că FastICA ia următoarea formă:

  (43)

în cazul în care , , Şi . Matricea trebuie să fie orthogonalized după fiecare pas. În această versiune matrice, este firesc să

orthogonalize simetric.

Versiunea de mai sus din FastICA ar putea fi comparate cu metoda gradient stohastice pentru maximizarea probabilităţii [ 1 , 3 , 5 , 6 ]:

Page 25: ica

  (44)

în cazul în care este rata de învăţare, nu neapărat constantă în timp. Compararea ( 46 ) şi ( 47 ), vom vedea că FastICA poate fi considerat ca un punct fix algoritm pentru estimarea probabilitatea maximă a modelului de date ICA. Pentru detalii, a se vedea [ 20 ]. În FastICA,

viteza de convergenţă este optimizat prin alegerea a matricelor şi . Un alt avantaj al FastICA este că se poate estima cât şi super-Gaussian independent sub componente, care este în contrast cu ML algoritmi ordinare, care numai de lucru pentru o anumită clasă de distribuţii (a se vedea Sec. 4.4 ).

5.4.Proprietăţi de algoritmului FastICA

Algoritmul FastICA şi funcţiile de bază de contrast au un număr de proprietăţi de dorit în comparaţie cu metodele existente pentru ICA.

1. Convergenţă este cubi (sau cel puţin pătratic), în ipoteza a modelului de date ICA (pentru o dovadă, a se vedea [ 19 ]). Acest lucru este în contrast cu algoritmi ordinare ICA pe baza (stohastic) metode de gradient de coborâre, în cazul în care convergenţă este doar liniar. Aceasta înseamnă o foarte rapid de convergenţă, astfel cum a fost confirmat de simulări şi experimente pe date reale (a se vedea [ 14 ]).

2. Contrar algoritmi de gradient-based, nu există parametri pas mărime de a alege. Acest lucru înseamnă că algoritmul este usor de utilizat.

3. Algoritmul consideră direct componente independente de (practic) orice distribuire non-Gaussian utilizând orice g neliniaritate. Acest lucru este în contrast cu mulţi algoritmi, în cazul în care unele estimare a funcţiei distribuţiei de probabilitate trebuie să fie dispoziţie pentru prima dată, şi neliniaritatea trebuie să fie ales în consecinţă.

4. Performanţă a metodei poate fi optimizat prin alegerea unui g neliniaritate adecvat. În special, se poate obţine algoritmi care sunt robuste şi / sau de varianţă minimă. De fapt, cele două neliniarităţilor în ( 39 ) au unele proprietăţi optime; pentru detalii a se vedea [ 19 ].

5. Componentele independent poate fi estimată unul câte unul, care este aproximativ echivalent cu a face exercitarea de proiecţie. Acest lucru es util în analiza exploratorie a datelor, şi scade sarcina de calcul a metodei în cazurile în care doar o parte din componente independente trebuie să fie estimate.

6. FastICA are cele mai multe din avantajele de algoritmi neuronale: Este paralel, distribuit, computational simple, şi necesită spaţiu de memorie mic. Metode de gradient Stochastic par a fi de preferat numai în cazul în adaptivity rapid într-un mediu în schimbare este necesară.

Page 26: ica

O punerea în aplicare a algoritmului FastICA este disponibil pe World Wide [Web gratuit 11 ].

6.Aplicatii ale ICA

În această secţiune vom revizui unele aplicatii din ICA. Cererea cea mai clasică a ICA, problema cocktail-partid, a fost deja explicat în secţiunea de deschidere a acestei lucrări.

6.1.Separarea de artefacte în MEG de date

Magnetoencephalography (MEG) este o tehnica neinvaziva, prin care activitatea sau neuroni corticali poate fi măsurată cu o rezolutie temporala foarte bună şi o rezoluţie spaţială moderate. Când se foloseşte un record MEG, ca un instrument de cercetare sau clinice, investigatorul poate confrunta cu o problemă de extragere a caracteristicilor esenţiale ale semnalelor neuromagnetic în prezenţa de artefacte. Amplitudinea perturbaţiilor poate fi mai mare decât cea a semnalelor creierului, precum şi artefacte pot semana cu semnalele patologice în formă.

În [ 41 ], autorii au introdus o nouă metodă de a separa activitatea creierului de artefacte folosind ICA. Abordarea se bazează pe presupunerea că activitatea creierului şi artefacte, de exemplu, mişcările ochilor sau clipeşte, sau senzor de defecţiuni, sunt anatomic si fiziologic procese separate, iar această separare este reflectată în independenţa statistică dintre semnalele magnetic generat de aceste procese. Abordarea urmează experimentele anterioare cu semnale EEG, raportate în [ 40 ]. O abordare este legat de faptul că [ 33 ].

Semnalele de MEG au fost înregistrate într-o cameră ecranate magnetic cu o Neuromag 122-canal întregi-scalp-122 neuromagnetometer. Acest dispozitiv colectează date la 61 locaţii pe scalp, folosind ortogonale dublu-bucla pick-up bobine care cuplu puternic la o sursă locală doar dedesubt. Persoana de testare a fost rugat să clipească şi să facă saccades orizontală, în scopul de a produce tipice ocular (ochi) artefacte. Mai mult decât atât, pentru a produce myographic (musculare) artefacte, subiectul a fost rugat să muşte dinţii pentru atâta timp cât 20 de secunde. Totuşi, un alt artefact a fost creat, prin plasarea unui ceas digital un metru distanţă de casca în cameră ecranat.

Figura 11 prezintă un subset de 12 MEG semnale spontane x i (t) de la, temporal, occipital şi zonele frontale [ 41 ]. În figura, de asemenea, poziţiile de senzori corespunzătoare de pe casca. Datorită dimensiunii de date (122 semnale magnetice au fost înregistrate), nu este posibil să complot toate semnalele MEG x i (t), i = 1 ,..., 122. De asemenea, două canale de electro-oculogram şi electrocardiograma sunt prezentate, dar nu au fost utilizate în calcul ICA.

   Figura: (Din [ 41 ]) ciclu. Mostre MEG de

semnale, arătând produse artefacte de clipeşte, saccades, muşcă şi cardiace. Pentru

fiecare din cele 6 poziţii arătat, cele două direcţii ortogonale ale senzorilor sunt

Page 27: ica

reprezentate.

Semnalul vector în model ICA ( 4 ) constă în prezent din amplitudinilor x i (t) din cele 122 semnale într-un moment anumit, deci dimensionalitatea este n = 122. În model teoretic,

este privit ca un vector aleator, iar măsurătorile da un set de realizări de ca veniturile timp. Reţineţi că în modelul de bază ICA pe care le utilizaţi, corelaţiile temporal în semnalele nu sunt utilizate deloc.

vectori au fost albite folosind APC şi dimensionalitatea a fost scăzut, în acelaşi timp. Apoi, folosind algoritmul FastICA, un subset de rânduri de separare matrice de ec. ( 6 )

au fost calculate. Odată ce un vector au devenit disponibile, un semnal ICA i s (t) poate fi

calculată din cu denotând acum vectorul albite şi mai mici de semnal dimensional.

Figura 12 arată secţiuni din 9 componente independente (IC's) i s (t), i = 1, ..., 9 găsit din datele înregistrate, împreună cu modele câmpul corespunzător [ 41 ]. Primele două IC sunt în mod clar ca urmare a activităţii musclular provin de la muscatura. separarea lor în două componente pare să corespundă, pe baza modelelor de teren, a două seturi diferite de muschi, care au fost activate în timpul procesului. Ic3 şi IC5 sunt afişate mişcările ochilor orizontală şi clipeşte ochi, respectiv. IC4 reprezintă artefact cardiac, care este foarte clar extrase.

Page 28: ica

   Figura: (Din [ 41 ]).. independente nouă

componente găsit din MEG de date Pentru fiecare componentă, dreapta spate şi vederi de

stânga modele câmpul generat de aceste componente sunt prezentate - linie completa standuri pentru flux magnetic iese din cap, şi

linia punctată spre interior flux.

Page 29: ica

Pentru a găsi artefacte rămase, datele au fost high-pass filtrat, cu frecvenţa de tăiere de la 1 Hz. Apoi, IC8 componenta independent a fost găsit. Acesta arată în mod clar originea artefactul la ceas digital, situat la partea din dreapta a magnetometru. IC9 Ultima componentă independent este legat de un senzor de prezenta RMS mai mare (rădăcină medie pătratică) zgomot decât altele.

Rezultatele din fig. 12 arată clar că, utilizând tehnica ICA şi algoritmul FastICA, este posibil să se izoleze atât mişcarea ochilor şi clipitul artefacte, precum şi cardiace, myographic, şi alte artefacte din semnalele MEG. Algoritmul FastICA este un instrument adecvat în special, pentru că îndepărtarea artefactul este o tehnică interactivă şi anchetator poate alege în mod liber cât de multe dintre IC el sau ea vrea.

În plus faţă de reducerea artefacte, ICA pot fi folosite pentru a descompune domenii evocate [ 42 ], care permite accesul direct la funcţionarea creierului care stau la baza, care este probabil să fie de mare importanţă în cercetare neuroştiinţifică

6.2.Găsirea Factori ascunse în date financiare

Este o alternativă tentantă pentru a încerca ICA pe date financiare. Există multe situaţii în care domeniu de aplicare în care seriile de timp în paralel sunt disponibile, cum ar fi ratele de schimb valutar sau întoarce zilnică a stocurilor, care pot avea unii factori comune care stau la baza. ICA ar putea indica anumite mecanisme de conducere care, altfel, rămân ascunse. Într-un studiu recent a unui portofoliu stoc [ 2 ], sa constatat că ICA este un instrument complementar la APC, care să permită structura de bază de date să fie mai uşor de observat.

În [ 30 ], am aplicat ICA pe o alta problema: fluxului de numerar de mai multe magazine aparţinând al lantului de retail acelaşi, încercarea de a găsi factorii fundamentale comune la toate magazinele care afectează datele fluxurilor de trezorerie. Astfel, efectul fluxului de numerar de factori specifici la orice magazin special, de exemplu, efectul acţiunilor întreprinse la magazinele individuale şi în mediul său local ar putea fi analizat.

Presupunerea de a avea unele componente care stau la baza independent în această aplicaţie specifică nu poate fi nerealist. De exemplu, factori cum ar fi variaţiile sezoniere, datorită sărbătorilor şi variaţii anuale, precum şi factorilor care au un efect brusc asupra puterii de cumpărare a clienţilor cum ar fi schimbări premiu de mărfuri diferite, poate fi de aşteptat să aibă un efect cu privire la toate magazinele de vânzare cu amănuntul, şi factori cum ar se poate presupune a fi aproximativ independente una de cealaltă. Cu toate acestea, în funcţie de politica şi abilităţile de manager individuale ca eforturile de exemplu, publicitatea, efectul factori asupra fluxului de numerar de puncte de vânzare specifice pieţei cu amănuntul sunt uşor diferite. Prin ICA, este posibil să se izoleze atât factorii care stau la baza şi greutăţile efect, astfel, de asemenea, făcând posibilă grup de magazine, pe baza politicilor lor manageriale folosind doar timpul fluxului de numerar serii de date.

Datele constat fluxului de numerar pe săptămână în 40 de magazine care aparţin aceluiaşi lanţ de retail; măsurătorile de flux de numerar acoperi 140 săptămâni. Câteva exemple de date iniţiale x i (t) sunt prezentate în Fig. 13 .

Page 30: ica

   Figura: (de la [ 30 ]).. cinci probe de original timp de flux de numerar seria (medie eliminat, normalizat unitate standard la o deviere) Axa

orizontală: în timp săptămâni.

Prewhitening a fost efectuată în aşa fel încât vectorii semnalul original au fost proiectate pentru a subspaţiului calibrat lor de primele cinci componente principale şi variaţii s-au normalizat la 1. Astfel, dimensiunea spaţiului semnalul a fost diminuat de la 40 la 5.

Folosind algoritmul FastICA, patru IC's au fost estimate. Cum este descris în Fig. 14 , algoritmul FastICA a găsit diferite fundamentale factori ascunse în mod clar în datele originale.

Factori au interpretări diferite în mod clar. Cea mai mare măsură doi factori urma schimbări bruşte, care sunt cauzate de concediu etc; exemplul cel mai proeminent este timpul de Crăciun. Factorul de pe rândul de jos, pe de altă parte, reflectă variaţia sezonieră mai lent, cu efect de vacanţa de vară în mod clar vizibile. Factorul de pe al treilea rând ar putea reprezenta o variantă încă mai lent, ceva care seamănă cu o tendinţă. Ultimul factor, pe rândul al patrulea, este diferit de ceilalţi; ar putea fi că acest factor urmează cea mai mare parte poziţia relativă concurenţială a lantului de retail cu privire la concurenţii săi, dar alte interpretări sunt de asemenea posibile.

   Figura: (de la [ 30 ]).. independent de patru

Page 31: ica

componente fundamentale sau factori de gasit din cashflow de date

Mai multe detalii despre experimentele şi interpretarea lor pot fi găsite în [ 30 ].

6.3.Reducerea zgomotului în imagini naturale

A treia exemplu cu găsirea de filtre ICA pentru imagini naturale şi, pe baza descompunere ICA, eliminarea zgomotului din imagini corupt cu zgomot gaussian aditiv.

Un set de imagini digitalizate naturale au fost utilizate. Notăm vectorul de niveluri de gri pixel într-o fereastră de imagine . Reţineţi că, spre deosebire de celelalte două cereri în secţiunile anterioare, noi nu sunt de această dată având în vedere serii de timp multi-sau imagini schimbă în timp; în schimb, elementele de sunt indexate de locaţia în fereastra imaginii sau patch-uri. Ferestrele au fost luate la proba de puncte aleatorii. Structura 2-D din Windows este de nici o semnificaţie aici: rând pe rând de scanare a fost folosit pentru a transforma o fereastră imagine pătrat într-un vector de valori pixel. Componente independente de ferestre de imagine, cum ar sunt reprezentate în Fig. 4 . Fiecare fereastră din

acest Figura corespunde uneia dintre coloanele a matricei de amestecare . Astfel, o fereastră de imagine observată este o suprapunere de aceste ferestre ca în ( 5 ), cu coeficienţi independent.

Acum, să presupunem că un model imagine zgomotos deţine:

 

Page 32: ica

(45)

în cazul în care zgomot este necorelat, cu elemente indexate în fereastra imaginii în acelaşi mod ca , Şi este fereastra imaginii cu zgomot măsurat corupt. Să presupunem în continuare că este Gaussian şi este non-gaussian. Există multe moduri de a curăţa de zgomot; un exemplu este de a face o transformare a spatiului de frecvenţe spaţiale de DFT, nu low-pass de filtrare, şi a reveni la spaţiul imaginea de IDFT [ 15 ]. Acest lucru nu este foarte eficient, cu toate acestea. O metodă mai bună este recent introdus wavelet metoda Contractia [ 10 ], în care o transforma bazat pe wavelets este folosit, sau metode bazate pe medie de filtrare [ 15 ]. Nici una dintre aceste metode este de a lua în mod explicit profita de statistici imagine, cu toate acestea.

Am introdus recent un alt, principială statistic metoda numita Sparse Codul Contractia [ 22 ]. Este foarte strâns legată de analiza componentelor independente. Pe scurt, dacă am model densitatea de ICA, şi să îşi asume Gaussian, atunci probabilitatea maximă (ML) soluţie pentru dat de măsurare pot fi dezvoltate în modelul de semnal ( 48 ).

Soluţia ML poate fi pur şi simplu calcul, deşi aproximativ, folosind o descompunere, care este o versiune orthogonalized a ICA. Transforma este dat de

(46)

în cazul în care aici este o matrice ortogonală, care este cea mai buna aproximare orthognal a inversului ICA amestecare matrice. Termenul de zgomot este încă Gaussian şi alb. Cu o corespunzător ales ortogonale transforma , Cu toate acestea, densitatea

devine extrem de non-gaussian, de exemplu, super-gaussian cu un mare exces pozitiv. Acest lucru depinde, desigur, original semnale, cum suntem, de fapt, presupunând că există un model pentru semnal, astfel încât semnalele `` sursă''sau elemente ale

au o densitate kurtotic pozitiv, caz în care ICA transforma dă foarte componente supergaussian. Acest lucru pare să deţină cel puţin pentru ferestre imaginea de scene naturale [ 34 ].

A fost demonstrat în [ 22 ] că, presupunând o densitate de Laplacianul i s, soluţia pentru ML i

s este dată de o funcţie de contracţie ``'' , Sau sub formă de vector,

. ). Funcţia g (are o formă caracteristică: este zero aproape de origine şi apoi liniară după o valoare de tăiere în funcţie de parametrii de densitate Laplacianul şi densitatea zgomot gaussian. Presupunând alte forme de densitati, alte contracţie funcţii optime pot fi derivate [ 22 ].

În Codul Sparse metoda Contractia, operaţiunea de contracţie se efectuează în rotit spaţiu, după care estimarea pentru semnalul în spaţiul original este dat de rotirea înapoi:

(47)

Page 33: ica

Astfel, vom obţine estimarea maximă Probabilitatea pentru fereastra imaginii în care mare parte din zgomotul a fost eliminat.

Operatorul de rotaţie este de aşa natură încât sparsity a componentelor este maximizată. Acest operator poate fi învăţat cu o modificare a algoritmului FastICA; a se vedea [ 22 ] pentru detalii.

Un rezultat de curăţare de zgomot este prezentată în Fig. 15 . O imagine silenţioasă şi o versiune zgomotoase, în care nivelul de zgomot este de 50% din nivelul de semnal, sunt afişate. Rezultatele din Codul Sparse metoda Contracţia şi Wiener clasic de filtrare sunt date, care indică faptul că Sparse Codul Contractia poate fi o abordare promiţătoare. Zgomot este redus, fără estomparea margini ascuţite sau alte caracteristici la fel de mult ca în Wiener de filtrare. Acest lucru se datorează în mare parte de natura puternic neliniar al operatorului de contractie, care este adaptat optim la statistica inerente de imagini naturale.

Figura: (de la [ 22 ]) denoising. Un experiment în. Din stânga sus: imaginii originale. dreapta sus: image original deteriorat, cu zgomot; nivelul de zgomot este de 50%. Stânga

jos: imaginea recuperate după aplicarea contracţie cod rare. Din dreapta jos: pentru comparatie, o imagine filtrată Wiener.

Page 34: ica

  

6.4.Telecomunicaţii

În cele din urmă, amintim un alt domeniu emergent de aplicare a mare potenţial: telecomunicaţii. Un exemplu de-lume comunicaţii aplicarea reală în cazul în care tehnicile de separare orb sunt utile este separarea propriu al utilizatorului semnal de la orice imixtiune utilizatori "alte semnale din CDMA (Code-Division Multiple Access) de comunicaţii mobile [ 39 ]. Această problemă este semi-orb, în sensul că anumite informaţii suplimentare înainte sunt disponibile pe modelul de date CDMA. Dar numărul de parametri care urmează să fie estimată este de multe ori atât de mare încât orb sursa tehnici de separare corespunzătoare, luând în considerare înainte de cunoştinţe disponibile oferi o imbunatatire a performantei clar peste mai mult de estimare tehnicile tradiţionale [ 39 ].

7.Concluzie

ICA este o tehnica foarte general, cu scop statistic în care sunt observate date aleatoare liniar transformate în componente care sunt maxime independente una de alta, şi au în acelaşi timp `` distributii interesante''. ICA pot fi formulate ca estimarea unui model de variabile latente. Noţiunea intuitivă a nongaussianity maxime pot fi folosite pentru a obţine funcţii diferite ale cărei obiective de optimizare permite estimarea model ICA. Alternativ, se poate folosi mai multe noţiuni clasice ca estimarea probabilităţii maxime sau minimizarea informare reciprocă pentru a estima ICA, oarecum surprinzator, aceste abordări sunt (aproximativ) echivalent. O metodă foarte eficientă de calcul performante de estimare reală este dată de algoritmul FastICA. Cererile de ICA pot fi găsite în multe domenii diferite, cum ar fi procesarea audio, procesare de semnal biomedicale, procesare de imagini, de telecomunicaţii, şi Econometrie.

8.Bibliografie

Page 35: ica

1 S.-I. Amari, A. Cichocki, HH şi Yang. Un nou algoritm de învăţare pentru trierea la sursă orb. În Progrese în neuronale Information Processing Systems 8, paginile 757-763. MIT Press, Cambridge, MA, 1996.

2 Înapoi AD şi AS Weigend. O prima aplicare a analiza componentelor independente pentru extragerea structura din deconturile de stoc. Int. J. pe sisteme neuronale, 8 (4) :473-484, 1998.

3 AJ Bell şi Sejnowski TJ. O abordare informaţii maximizare la separarea orb şi deconvoluţia orb. Neural Computation, 7:1129-1159, 1995.

4 J.-F. Cardoso. Infomax şi probabilitatea maximă pentru trierea la sursă. Scrisori IEEE pe prelucrare a semnalului, 4:112-114, 1997.

5 J.-F. Cardoso şi Hvam B. Laheld. Equivariant separare sursă adaptive. IEEE Trans. pe prelucrare a semnalului, 44 (12) :3017-3030, 1996.

6 A. Cichocki, Bogner RE, L. Moszczynski, şi Papa K.. Modificat Herault-Jutten algoritmi pentru separarea orb de surse. Procesare digitală a semnalului, 7:80 - 93, 1997.

7 Comon P.. analiza componentelor Independent - un concept nou? Signal Processing, 36:287-314, 1994.

8 TM Acoperiti si Thomas JA. Elemente de teoria informaţiei. John Wiley & Sons, 1991.

9 N. Delfosse şi P. Loubaton. separarea Adaptive orb din surse independente: o abordare deflaţie. Signal Processing, 45:59-83, 1995.

10 DL Donoho, Johnstone IM, G. Kerkyacharian, şi D. Picard. contracţie wavelet: asymptopia? Jurnalul de Statistică ser Royal Society. B, 57:301-337, 1995.

11 FastICA MATLAB pachet. Disponibil la http://www.cis.hut.fi/projects/ica/fastica/.

12 JH Friedman şi Tukey JW. Un algoritm desfăşurarea proiecţia pentru analiza exploratorie a datelor. IEEE Trans. de Calculatoare, c-23 (9) :881-890, 1974.

13

Page 36: ica

Friedman JH. Exploratorie proiecţie urmărire. J. al Asociatiei Americane de Statistică, 82 (397) :249-266, 1987.

14 Giannakopoulos X., J. Karhunen, şi E. Oja. comparaţie experimentală a algoritmilor neuronale ICA. În Proc. Int. Conf. pe Retele neuronale (ICANN'98), paginile 651-656 artificiala, Skövde, Suedia, 1998.

15 R. Gonzalez şi P. Wintz. Digitale de procesare a imaginii. Addison-Wesley, 1987.

16 Huber PJ. Proiecţie urmărire. Analele de Statistică, 13 (2) :435-475, 1985.

17 Hyvärinen A.. analiza componentelor independente, în prezenţa zgomotului gaussian prin maximizarea probabilităţii comun. Neurocomputing, 22:49-67, 1998.

18 Hyvärinen A.. aproximări noi de entropiei diferenţiale pentru analiza componentelor independente şi exercitarea de proiecţie. În Progrese în neuronale Information Systems prelucrare, volumul 10, paginile 273-279. MIT Press, 1998.

19 Hyvärinen A.. Rapid şi algoritmi robust fixe puncte pentru analiza componentelor independente. IEEE Trans. pe reţele neuronale, 10 (3) :626-634, 1999.

20 Hyvärinen A.. Algoritm fix-punct şi estimarea probabilităţii maxime pentru analiza componentelor independente. Neuronale scrisori de procesare, 10 alineatul (1) :1-5, 1999.

21 Hyvärinen A.. momente Gaussian pentru analiza componentelor independente zgomotoase. IEEE scrisori prelucrare a semnalului, 6 (6) :145-147, 1999.

22 Hyvärinen A.. Sparse contracţie cod: denoising de date nongaussian prin estimarea probabilităţii maxime. Neural Computation, 11 (7) :1739-1768, 1999.

23 Hyvärinen A.. Ancheta privind analiza componentelor independente. Sondajele de calcul neuronale, 2:94-128, 1999.

24

Page 37: ica

A. Hyvärinen şi E. Oja. Un algoritm rapid fix puncte pentru analiza componentelor independente. Neural Computation, 9 (7) :1483-1492, 1997.

25 A. Hyvärinen şi E. Oja. analiza componentelor independente de general neliniare reguli Hebbian ca-învăţare. Signal Processing, 64 (3) :301-313, 1998.

26 A. Hyvärinen, J. Särelä, şi R. Vigário. Spikes şi umflături: Artefactele generate de analiza componentelor independente cu mărimea eşantionului insuficiente. În Proc. Int. Atelier de lucru pe Independent Component Analiza şi separare semnal (ICA'99), paginile 425-429, Aussois, Franţa, 1999.

27 MC Jones şi R. Sibson. Ce este urmărirea proiecţie? J. al Societăţii Regale de Statistică, ser. A, 150:1-36, 1987.

28 C. Herault Jutten şi J.. separarea Orbilor din surse, partea I: Un algoritm adaptiv bazat pe arhitectura neuromimetic. Signal Processing, 24:1-10, 1991.

29 J. Karhunen, E. Oja, L. Wang, R. Vigário, şi J. Joutsensalo. O clasă de reţele neuronale pentru analiza componentelor independente. IEEE Trans. pe reţele neuronale, 8 (3) :486-504, 1997.

30 K. Kiviluoto şi E. Oja. analiza componentelor independente pentru serii paralele de timp financiare. În Proc. ICONIP'98, volumul 2, paginile 895-898, Tokyo, Japonia, 1998.

31 T.-W. Lee, Girolami M., şi Sejnowski TJ. Analiza componentelor independente cu ajutorul unui algoritm Infomax extins pentru mixte sub-Gaussian şi surse de super-Gaussian. Neural Computation, 11 (2) :417-441, 1999.

32 DG Luenberger. Metode de optimizare de spaţiu vectorial. John Wiley & Sons, 1969.

33 S. Makeig, Bell AJ, T.-P. Jung, şi T.-J. Sejnowski. Analiza componentelor independente de date electroencefalografice. În Progrese în neuronale Information Processing Systems 8, paginile 145-151. MIT Press, 1996.

34 SG Mallat. O teorie de descompunere semnal multirezoluţie: reprezentare wavelet. IEEE Trans. pe Pami, 11:674-693, 1989.

35

Page 38: ica

J.-P. Nadal şi N. Parga. neuroni non-liniar în limita de zgomot redus: un cod factorial maximizeaza transferul de informaţii. Reţea, 5:565-581, 1994.

36 A. Papoulis. Probabilitate, variabile aleatoare, şi Procese stochastice. McGraw-Hill, ediţia a 3, 1991.

37 Pearlmutter BA şi Parra LC. Maxim probabilitatea sursă de separare orb: O generalizare sensibile la context a ICA.

În Progrese în neuronale Information Systems prelucrare, volumul 9, paginile 613-619, 1997.

38 D.-T. Pham, P. Garrat, şi C. Jutten. Separarea de un amestec de surse independente printr-o abordare probabilitate maximă. În Proc. EUSIPCO, paginile 771-774, 1992.

39 T. Ristaniemi şi J. Joutsensalo. Privind performanţa de separare sursă orb în downlink CDMA. În Proc. Int. Atelier de lucru pe Independent Component Analiza şi separare semnal (ICA'99), paginile 437-441, Aussois, Franţa, 1999.

40 Vigário R.. Extracţia de artefacte oculare din EEG utilizând analiza componentelor independente.

Electroenceph. Clin. Neurophysiol., 103 (3) :395-404, 1997. 41

R. Vigário, V. Jousmäki, M. Hämäläinen, R. Hari, şi E. Oja. analiza componentelor independente pentru identificarea de artefacte în înregistrări magnetoencephalographic. În Progrese în neuronale Information Processing Systems 10, 229 - 235 pagini. MIT Press, 1998.

42 R. Vigário, J. Särelä, şi E. Oja. analiza componentelor independente în descompunerea val de domenii evocate auditive. În Proc. Int. Conf. pe Retele neuronale (ICANN'98), paginile 287-292 artificiala, Skövde, Suedia, 1998.


Recommended