23
MINISTERUL EDUCAŢIEI AL REPUBLICII MOLDOVA
UNIVERSITATEA TEHNICĂ A MOLDOVEI
FACULTATEA CALCULATOARE INFORMATICĂ ŞI MICROELECTRONICĂ
CATEDRA IA
La APLN
Tema: „WORD SENSE DISAMBIGUATION AND ITS APPLICATION TO INTERNET SEARCH”
A efectuat: Ilicovici Irina st. gr IA-121M
A verificat: Popescu A. prof. univ.
CHIŞINĂU 2013
23
CuprinsINTRODUCERE......................................................................................................................................3
1. RESURSELE DE BAZĂ.........................................................................................................................5
1.1. Prezentarea metodelor folosite pentru dezambiguizarea sensurilor................................................5
1.2. Resursele de baza.........................................................................................................................6
1.2.1. WordNet........................................................................................................................................6
1.2.1.1. Sensurile in WordNet..............................................................................................................7
1.2.2. SemCor..........................................................................................................................................7
1.2.3. Marcarea parţii de vorbire a lui Brill..........................................................................................8
1.3. Resursele de extragere a informaţiei................................................................................................9
1.3.1. AltaVista.....................................................................................................................................9
1.3.2. Conferin?ele de preluare de text (TREC)......................................................................................10
2. DEZAMBIGUIAREA SENSULUI CUVINTELOR.....................................................................................12
2.1.Dependenţa de abordare cuvant- cuvant.......................................................................................12
2.2.Clasamentul contextual al sensurilor sugerate...........................................................................12
2.2.1.Algoritmul 1..................................................................................................................................12
2.2.2. Procedura de evacuare............................................................................................................14
2.3. Algoritmul densitaţii conceptuala...................................................................................................15
2.3.1. Algoritmul 2.............................................................................................................................15
2.4. Exemplu..........................................................................................................................................16
CONCLUZII..........................................................................................................................................20
BIBLIOGRAFIE.....................................................................................................................................21
23
Inroducere
Dezambiguizarea automată a sensurilor cuvintelor a fost un subiect de interes încă din
anii 1950 (perioada în care a început să se studieze mai intens domeniul lingvisticii
computaţionale). Dezambiguizarea sensurilor nu este un scop în sine, este un proces
intermediar, necesar la un anumit nivel pentru a folosi la procesarea limbajului natural. Este,
în mod evident, util pentru aplicaţii care necesită interpretarea limbajului, (comunicarea prin
intermediul mesajelor, interacţiunea om – maşină), dar este folosit şi în domenii al căror scop
principal nu este înţelegerea limbajului natural:
- traduceri asistate de calculator: dezambiguizarea sensurilor cuvintelor este esenţială pentru
traducerea riguroasă a unor cuvinte polisemantice (ex.:franţuzescul grille , care, în funcţie de
context, poate fi tradus cu scală, orar, poartă, linie ferată etc.);
- regăsirea documentară şi parcurgerea hipertextelor: când căutam anumite cuvinte cheie, este
preferabil să eliminăm apariţiile în care sensurile acestora nu sunt cele dorite. De exemplu, când
se caută în domeniul juridic cuvântul curte, nu este de dorit să obţinem şi documentele în care
cuvântul curte are alt sens decât cel juridic;
- analiza tematică şi a conţinuturilor - o metodă obişnuită în analiza tematică şi a conţinuturilor
este să se analizeze distribuţia categoriilor predefinite de cuvinte (acele cuvinte care indică un
anume concept, o idee, o temă) în cadrul unui text.Importanţa dezambiguizării sensurilor în acest
domeniu se referă la includerea acelor instanţe cu sens corespunzător ale cuvintelor.
- analiza gramaticală: dezambiguizarea sensurilor este utilă ca parte a adnotării limbajului. De
exemplu în următoarea frază: „Am forţat broasca şi aceasta s-a rupt”, este necesar să
dezambiguizăm sensul cuvântului broască şi să îl adnotăm în mod corespunzător.
Dezambiguizarea sensurilor este necesară şi pentru anumite
analize sintactice, sau în parsări.
- procesarea limbajului: dezambiguizarea sensurilor este cerută pentru reproducerea corectă din
punct de vedere fonetic al cuvintelor, sau pentru segmentarea cuvintelor în cadrul sintetizării
limbajului.
- procesarea textului: dezambiguizarea este necesară pentru corectitudinea scrierii cuvintelor (un
exemplu ar fi introducerea diacriticelor, schimbări gramaticale ale formelor cuvintelor). Alt caz
ar fi accesul lexical pentru limbajele semitice (acele limbaje în care nu sunt scrise vocalele).
Problema dezambiguizării sensurilor cuvintelor a fost descrisă ca fiind AI-completă. O
problemă este AI-completă dacă poate fi rezolvată doar prin rezolvarea prealabilă a tuturor
23
problemelor dificile din cadrul inteligenţei artificiale (AI), cum ar fi reprezentarea sensurilor
cuvintelor şi cunoştinţelor. Dificultatea dezambiguizării sensurilor a fost una din punctele
centrale ale tezei lui Bar-Hillel [1960] în domeniul traducerii automate, teză în care acesta
susţinea ca nu există posibilitatea determinării automate a sensului cuvântului pen în
propoziţia: „The box is in the pen”. Argumentul lui Bar-Hillel a constituit baza pentru raportul
ALPAC, care e considerat unul din motivele abandonului majorităţii proiectelor de studiu
aletraducerii automate în anii ’60.Pe de altă parte, cam în aceeaşi perioadă se făcea un progres
enorm în domeniulreprezentării cunoştinţelor. Acum au apărut reţelele semantice, care vor fi
aplicate în studiuldezambiguizării sensurilor. În următoarele două decenii se continuă munca în
domeniul dezambiguizării, în contextul cercetării limbajului natural în cadrul AI, dar şi în
domeniul analizei conţinuturilor, analizei stilistice şi literare, precum şi a regăsirii documentare.
În ultimii zece ani s-a observat o intensificare a eforturilor dezambiguizării automate a
sensurilor, datorită accesului sporit la text procesat de maşină, precum şi datorită îmbunătăţirii
metodelor statistice de identificare şi aplicare a modelelor asupra datelor. Problema
dezambiguizării sensurilor a căpătat în ultimii ani o importanţă crescută în domeniul procesării
limbajului natural.
23
CAPITOLUL 1
Resursele de bază
1.1. Prezentarea metodelor folosite pentru dezambiguizarea sensurilor
În termeni generali, dezambiguizarea sensurilor cuvintelor înseamnă asocierea anumitor cuvinte
dintr-un text sau un discurs cu o definiţie sau un sens care se diferenţiază într-un anume mod de
alte sensuri atribuite acelui cuvânt. Acest proces va implica următoarele etape :
- determinarea tuturor sensurilor diferite ale unui cuvânt ce prezintă o anumite relevantă pentru
textului considerat.
- modalităţi de atribuire de sensuri pentru fiecare apariţie a cuvântului din text.
Majoritatea studiilor efectuate recent în acest domeniu pornesc de la premisa că, pentru pasul 1,
avem acces la o listă de sensuri, la un grup de caracteristici, categorii şi cuvinte asociate (de ex.
sinonime), la o listă de traduceri în anumite limbi străine etc.
Definiţia exactă a ceea ce înseamnă sens este încă o problemă care a dat naştere la numeroase
polemici. Diversitatea modurilor de definire a ridicat problema compatibilităţii şi
comparabilităţii studiilor efectuate în domeniul dezambiguizării sensurilor cuvintelor, şi, datorită
dificultăţii găsirii unei definiţii riguroase, nu se întrevede o rezolvare în următorii ani. Pe de altă
parte, încă de la începutul studiului dezambiguizării sensurilor cuvintelor, au existat discuţii pe
tema faptului că problemele dezambiguizării morfo - sintactice şi cele ale dezambiguizării
sensurilor ar trebui privite din acelaşi unghi de vedere. Aceasta înseamnă că, pentru homonime,
care sunt părţi diferite de vorbire (de ex.: haina), dezambiguizarea morfo - sintactică reuşeşte să
realizeze şi dezambiguizarea sensului. De aceea, dezambiguizarea sensurilor cuvintelor a acordat
o importanţă sporită determinării sensurilor homonimelor ce aparţin aceloraşi categorii
sintactice.
Pasul 2, cel al atribuirii sensurilor cuvintelor este îndeplinit prin referinţă la:
- Contextul cuvântului al cărui sens trebuie determinat. Acesta include informaţiile conţinute în
cadrul textului sau discursului în care apare cuvântul, precum şi informaţii asupra textului (aceste
ultime informaţii nu ţin neapărat de lingvistică).
- Surse de cunoaştere externe, care includ resurse lexicale, enciclopedice, dar şi surse de
cunoştinţe construite în scopul furnizării de date utile pentru asocierea cuvânt - sens.
23
Procesul de dezambiguizare include potrivirea contextului instanţei cuvântului al cărui sens
trebuie dezambiguizat cu informaţiile din sursele externe (în acest caz vorbim de
dezambiguizarea sensurilor cuvintelor orientată cunoştinţe), sau informaţii despre contex- tele
instanţelor cuvintelor care au fost deja dezambiguizate (dezambiguizarea sensurilor cu- vintelor
orientată date). Metodele de asociere sunt utilizate pentru a determina cea mai potrivită asociere
între contextul curent (cel din textul considerat) şi oricare din sursele externe de informaţie.
1.2. Resursele de bază
Resursele lexicale:
WordNet, un dicționar care poate fi citit automat
SemCor, un corpus semantic etichetat;
Taggerul Brill.
2. Informatii de preluare a resurselor:
(a) AltaVista, un motor de căutare pentru internet;
(b) TREC, preluare de Conferința de text, care oferă cercetatorii, cu un set de subiecte,
cu scopul de a testa sistemele concepute pentru extragerea de informații.
1.2.1. WordNet
WordNet [13] este un dicționar care poate fi citit automat, dezvoltat la Universitatea Prinсeton
de către un grup condus de George Miller [30],[13]. Acesta este utilizat de către sistemul nostru
pentru WSD și generarea de liste de similaritate pentru extindere de interogări. WordNet-ul
conține marea majoritate de a substantive, verbe, adverbe și de la adjeсtive din limba engleza.
Cuvintele din WordNet sunt organizate în seturi de sinonime, numite synsets. Fiecare synset
reprezintă un сonсept. WordNet 1.6 dispune de o rețea largă de 129504 cuvinte, organizate în
98548 de seturi de sinonime, numite synsets Tabelul 2.1 prezintă numărul de substantive, verbe,
adverbe și adjeсtives definite în WordNet.
Table 1.1 Numarul de cuvinte si concepte in WordNet 1.6
Part of speech words concepts
noun 94,473 66,024
verb 10,318 12,156
adjective 20,169 17,914
adverb 4,545 3,574
23
Total 129,504 98,548
Există un set bogat de relații între 391,885 de cuvinte, între cuvinte și synseturi, precum și între
synsets [17].
Relația semantică de bază dintre cuvinte, codificate în WordNet, este relația de sinonimie. Cele
synsets sunt legate de antonimie, hiperonimie / hiponimie (este-a) și relațiide meronime /
holonime (fracțiune de ansamblu) .
(carnivore)
(fissiped mammal, fissiped) (canine, canid) (feline, felid) (bear) (procynoid)Figure 2.1. A WordNet hierar
hy
(wolf) (wild dog) (dog) (hyena, hyaena) (brown bear, bruin, Ursus arctos)
(hnting dog) (working dog) (Syrian bear...) (grizzly...)
(dachshund, dachsie, badger dog) (terrier) (watch dog, guard dog) (police dog)
Fig.1,1. Ierarhie WodNet
1.2.1.1. Sensurile in WordNet
Aproape toate synset-urile din WordNet au sensuri definitorii. Un sens сonstă din definiții,
comentarii și exemple. De exemplu, sensul synsetului {interes, interesare) este (puterea de
atracție sau deține interesul cuiva (deoarece este neobișnuit sau captivant etс.); " Ei uu spus
nimic de mare interes"; "culori primare pot adăuga interes pentru o cameră "). Este o difiniție
pentru “ puterea de a atrage sau a deține interesul cuiva, un comentariu pentru că este neobișnuit
sau interesant etс, și două exemple: acestea nu au spus nimic de mare interes și culori primare
pot adăuga interes pentru o cameră. Unele sensuri pot conține multiple definiții sau mai multe
comentarii.
1.2.2. SemCor
23
SemCor [32]este un corpus textual în care fiecare cuvânt este legată de cel mai apropiat sens al
său în WordNet. Astfel, pot fi vizualizate fie ca un corpus, în care cuvintele au fost etichetate
din punct de vedere sintactic și semantic, sau ca un lexicon, în care propoziții exeplu pot fi
găsite în mai multe definiții. Textele folosite pentru crearea de concordanțe semantice sunt
extrase din Corpus Brown și apoi legate de sensurile în lexiconul WordNet. Marcare semantică
a fost făcut de mână, folosind diverse instrumente pentru a adnota textul cu sensurile WordNet.
Fișierele etichetate semantic sunt grupate în trei concordanțe semantice bazate pe ceea ce a fost
etichetat și când. Fiecare concordanță semantică este stocată într-un director separat, după cum
se arată în Tabelul 2.2.
Tabelul 1.2. Concordanțe semantice în SemCor 1.6
Name Conținutul Ce se etichitează?‘brown1” 103 Brown corpus files Toate clasele deschise ‘brown2” 83 Brown corpus files Toate clasele deschise‘brownv” 166 Brown corpus files verbele
Datele marcate semantic sunt codificate folosind SGML. SGML limbaj de marcare , care are perechi de forma atribut = valoare pentru a specifica: partea de vorbire, sensul cuvântului, paragrafele, propozițiile, etc. Figura 2.2 prezintă un fragment dintr-un fișier SemCor.
Figura 1.2. Un fragment din SemCor
Luați în considerare ca un exemplu de intrare pentru cuvântul “spus”, așa cum este prezentat în
această figură. Acesta specifică partea de vorbire pentru acest cuvânt ca fiind VB (verb), sub
formă de bază ca fiind „spune”, și sensul său, pe baza dicționarul WordNet, ca fiind sens # 1.
1.2.3. Marcarea părții de vorbire a lui Brill
Marcarea părții de vorbire este un domeniu important al PNL; astfel tagg-uri sunt adesea
folosite în faza de pre-procesare a multor sisteme de prelucrare lexicale. Rolul acestor tagg-uri
<contextfile concordance = brown><context filename=br-a01 paras=yes><p pnum=1><s snum=1>
<wf cmd=ignore pos=DT>The</wf><wf cmd=done rdf=group pos=NNP lemma=group wnsn=1 lexsn=1:03:00:: pn=group>Fulton+County_Grand_Jury</wf>
<wf cmd=done pos=VB lemma=say wnsn=1 lexsn=2:32:00::>said</wf>
23
este de a atribui părți de vorbire la cuvintele, ca această etichetare sa fie de obicei una dintre
primii pași în realizarea unei prelucrări lexicale, ar trebui să fie făcută cu mare precizie, pentru
a reduce eroarea prppagată.
Partea de etichetare a vorbirii a lui Brill [6], a fost dezvoltată la Universitatea din
Pennsylvania, este un sistem bazat pe reguli, care în mod automat presupune reguli dintr-un text
deja etichetat, iar apoi le aplică în procesul de alocare a părților de vorbire la cuvintele întâlnite
în textul liber.
Când ne-am decis să se utilizeze această etichitare în sistemul nostru, am luat în considerare
precizia sa, care rezultă din testele efectuate de noi împotriva etichetarea textelor de mână. Am
considerat 58 de fișiere din colecția de Word Journal, care au fost manual
etichetate în cadrul proiectului Penn-Treebank [25]. Dimensiunea medie a acestor fișiere a fost
de 323.1 de cuvinte, respeсtiv 368.09 de tagg-uri, în care setul de etichtări inсlud cuvinte și
punсtuație. Dimensiunea totală a fost de 18,738 cuvinte și 21,349 de etichtări. Din aceste cuvinte
18738, etichetele atribuite de către partea Brill’s Speeсh Tagger au fost aceleași ca și cele 17272
de cazuri alocate în manual, deci, o precizie de 92.18%.
Din cele 21349 etichitări, 19850 au fost etichetate de către aceeași Tagger Brill, adică 92.98%
precizie. Acestă precizie dovedește acest instrument ca unul potrivit pentru efectuarea marcarii
a părților de vorbire cu o mare precizie.
1.3. Resursele de extragere a informației
Scopul primului algoritm a metodei WSD propus în această lucrare este de a aduna statisticile
din Internet cu privire la cuvântul- cuvântul de evenimente. Această sarcină este
efectuată cu ajutorul AltaVista pentru a căuta pe Internet. Motorul de căutare este utilizat de
către sistemul de cautare pentru a prelua documentele care potențial includ informații relevante
la întrebarea de intrare. A fost testat apoi sistemul de regăsire utilizând 50 de întrebări derivate
din subiectele prevăzute la 6-a Conferință de prelucrare a textelor.
1.3.1. AltaVista
AltaVista [3]este un motor de cautare dezvoltat în 1995 de către Digital Equipment Microsoft
Corporation în laboratoare de cercetare Palo Alto. Există mai multe caracteristici ale acestui
serviciu de căutare, care face AltaVista unul dintre cele mai puternice motoarele de căutare.
Alegerea AltaVista pentru utilizarea în sistem, sța bazat pe două dintre caracteristicile sale:
23
(1) dimensiunea de informații pe Internet, care poate fi accesată prin AltaVista: ea are un indice
de creștere de peste 160 milioane de pagini unice pentru a World Wide Web;
(2), acceptă cautari booleene prin intermediul funcției sale de căutare avansată. Aceste
caracteristici face acest motor de căutare potrivit pentru dezvoltarea de software în jurul valorii
sale, cu scopul de a mări calitatea informației extrase.
Relații specifice pot fi create printre cuvintele cheie ale unei interogări acceptate de AltaVista.
Aceste relații pot fi create folosind paranteze, SI, SAU, NU și operatorii Aproape și găsește
numai documentele care conțin toate cuvintele specificate sau fraze. Documentele Maria și miel
le găsește pe ambele ca cuvântul Maria și cuvântul miel. Sau documente cre conțin cel puțin
unul dintre cuvinte sau fraze specificate .
Maria sau miel găsesc documentele care conțin fie Maria sau miel. Documentele recuperate pot
conține ambele cuvinte, dar nu neapărat pe ambele. Aproape gasește documentele care conțin
atât cuvintele sau frazele specificate în termen de 10 cuvinte fiecare. Maria alături de miel
gasește documentele care conțin atât cuvântul Maria cît și cuvântul miel, dar cu restricția ca
aceste cuvinte sunt separate de maxim 10 alte cuvinte.
Principala preocupare atunci când s-a decis să se bazeze pe Altavista pentru căutarea
documentelor
pe Internet, se considera fiabilitatea acestui motor de căutare. Numărul de rezultate obținute
pentru o anumită interogare ar trebui să varieze doar într-un interval mic de căutări efectuate la
intervale diferite de timp. În scopul de a testa fiabilitatea Altavista, s-a considerat un set de
1.100 de cuvinte (substantive, verbe, adjective si adverbe), setul a fost construit de la unul din
textele din corpus Brown. Un test constatat de căutarea pe Internet utilizând Altavista, pentru
fiecare dintre aceste cuvinte, și înregistrearea numărul de hit-uri obținute. S-a efectuat 20 de
teste, pe o perioada de timp de 10 zile, un test rulează la fiecare 12 ore. Rezultatele globale
pentru aceste teste au aratat ca, având în vedere AV ca o medie a numărul de hit-uri pentru un
anumit cuvânt:
- 90% din orile de inregistrarii au fost în intervalul [0.99 x AV - 1,01 x AV ]
- 100% din orile de inregistrarii au fost în intervalul [0,85 x AV - 1.15 x AV ]
Luând în considerare dimensiunea de informații găsite pe internet șivfaptul că această informație
este foarte nestructurată, variațiile mici realizate de AltaVista în căutarea pe Internet, se poate de
clasificat acest motor de cautare ca unul faliabil.
1.3.2. Conferințele de preluare de text (TREC)
23
Conferințele de preluare de text (TREC) fac parte din Programul de pronosticuri, și sunt
destinate să încurajeze cercetarea în extragerea de informații din texte de mari dimensiuni.
Nevoile informaționale sunt descrise de struсturI de date numite subiecte.
Projeсtul Tipster face distincție între două tipuri diferite de interogări: ad-hoc și de rutare.
Înterogările ad-hoc sunt concepute pentru a investiga performanțele
sistemelor de căutare a unui set de documente folosind subiecte noi, acestea sunt cele mai
potrivite pentru sistemele care implică cautari specificate. Interogările de rutare investighează
performanța
sistemelor care caută noi fluxuri de documente, sistemele care utilizează această sarcină de
obicei se adresează la căutari generale, o interogare de rutare poate fi privită ca un filtru pe
documentedeintrare.
Pentru că sistemul de cautare este conceput pentru a îmbunătăți calitatea informațiilor regăsite în
special în cazul întrebărilor specifice, s-a folosit temele ad-hoc, în scopul de a testa performanța
sistemului.S-a derivat 50 de întrebări lingvistice naturale din temele ad-hoc prevăzute la a șasea
Conferinţă de extragere de texte [43].
Un exemplu de un subiect TREC,colecție ad-hoc este prezentată în Figura 2.3. După cum se
vede din această figură, un subiect este un cadru ca structură de date. Fișierele lui trebuie să fie
interpretate, după cum urmează: secțiunea <num> identifică subiectul
<title> Secțiunea clasifică subiectul într-un domeniu; secțiunea <desc> oferă o scurtă
descriere a subiectului (pentru TREC-6, această secțiune a fost destinată, să fie o căutare inițială
de interogare); secțiunea <narr> oferă o explicație suplimentară despre cum un material
relevant poate arata.
Figura 1.3. Subiectul TIPSTER
În scopul de a testa sistemul, s-a utilizat câmpul <desc> să obțină întrebări
lingvistice naturale într-o formă asemănătoare la întrebările utilizate în mod normal de către
utilizatorii in cautare pe Internet. De exemplu, de la data intrării corpusul prezentat mai sus,
<num> Number: 301<titile> International Organized Crime<desc> Description:Identify organization that participate in international criminal activity, the activity, and, if possible, collaborating organization and the countries involved.<narr> Narrative:A relevant document must as a minimum identify the organization and the type of illegal activity (e.g., Columbian cartel exporting cocaine). Vague references to international drug trade without identification of the organization(s)involved would not be relevant.
23
întrebareacare s-a derivat este: \ Care sunt unele dintre organizațiile participante înactivitate
infracțională?".
După preluarea informației folosind întrebări derivate, relevanța dintre informație
a fost evaluată pe baza secțiunii narative a fiecărui subiect.
CAPITOLUL 2
Dezambiguizarea sensului cuvintelor
2.1. Dependență de abordare cuvânt- cuvânt
Metoda prezentată aici depinde de сontextul propoziției. Cuvintele sunt asociat și o
încercare se face pentru ambiguitatea unui cuvânt în contextul altui cuvânt. Acest lucru se face
prin căutarea pe Internet, cu interogările formate folosind diferite sensuri a unui singur cuvânt,
păstrând fixat în același timp alt cuvânt. Sensurile sunt clasate pur și simplu dupa ordine
furnizate de numărul de hit-uri. O precizie bună se obține, probabil, din cauza numărului mare
de texte de pe Internet. În acest fel, toate cuvintele
sunt prelucrate și sensurile sunt clasate. Noi folosim clasament de sensuri pentru a stopa
complexitatea computațională, în etapa care urmează. Numai cele mai promițătoare sensurile
suntpăstrate.
Următorul pas este de a perfecționa ordinea sensurilor cu ajutorul unei metode complet
diferite,
metoda, respectivă numită densitatea semantică. Acest lucru se măsoară prin numărul comun
de cuvinte care sunt la o distanță semantică a două sau mai multe cuvinte. O relație semantică
mai apropiată dintre două cuvinte, mai mare densitatea semantică între ele. Va prezentam
densitatea semantică, pentru că este relativ ușor de măsurat folosind MRD ca WordNet. O
metrica este introdusă în acest sens, care atunci când este aplicat la toate combinațiile posibile
de sensuri a două sau mai multe cuvinte le situează pe loc.
Un aspect esențial al metodei WSD prezentat aici este că aceasta oferă o asociații variate
posi-bile între cuvinte în loc de un binar da sau , decizie pentru fiecare combinație de sens
posibilă. Acest lucru permite o precizie controlabilă și alte module pot fi capabile să distingă
mai târziu, asociația corectă de sens la o astfel de piscină mică [27], [29].
2.2. Clasamentul contextual al sensurilor sugerate
23
Deoarece Internetul conține cea mai mare culegere de texte stocate electronic, voi folosi
Internetul ca o sursă de corpusuri pentru ierarhizarea sensuri ale cuvintelor.
2.2.1. Algoritmul 1
Date de intrare: semantic nemarcate cuvint1-cuvint2 pereche ( W1-W2)
Date de ieşire: marcarea sensului cuvintului
Formează o listă similară pentru fiecare sens pentru unul din cuvinte. Alege-ti unul dintre cuvintele, să presupunem W2, si folosind WordNet-ul, formează o listă similară pentru fiecare sens al acestui cuvânt. Pentru aceasta, folosim cuvintele din synset pentru fiecare sens și cuvintele din hipernimele synset-ului.Se consideră, de exemplu, că W2 are m sensuri, astfel W2 apare în listele similare :
( )
…
Unde sunt sensurile pentru W2. şi reprezintă numărul sinonimului
s a sensului ca definit în WordNet.
2. Forma W1- perechi. Perechile care pot fi formate sunt :
( W1- , W1- , W1- , … W1-
( W1- , W1- , W1- , … W1-
…
3. Se caută pe internet şi se clasifică sensul W i(s). O căutare efectuată pe Internet pentru fiecare set de perechi definite mai sus, rezultă într-o valoarea indicînd frecvența evenimentelor pentru W1 și pentu sensul lui W2. În experimente a fost folosit AltaVista [3], deoarece aceasta este una dintre cele mai puternice motoare de căutare disponibile în prezent.
23
Folosind operatorii lui AltaVista formele de interogare sunt definite pentru fiecare set W1- W i(s) mai jos:
( )
(
)
Pentru toate 1≤ i ≤m .Asterix (*) este folosit ca card salbatic pentru a crește numărul de
de rezultate cu cuvinte legate morfologic. Folosind una dintre aceste interogări, avem
numărul de rezultate pozitive pentru fiecare sens i a acestui substantiv și oferă un clasament al m
sensuri a lui W2 în care acestea se referă cu W1.
Un algoritm similar este folosit pentru a clasifica sensurile W1 păstrând W2 constant
(nu-dezambiguizat). Din moment ce aceste două proceduri sunt efectuate corpusuri mari (
Internet), precum și cu ajutorul listelor de similaritate, există o corelație mică între
rezultatele obținute de cele două proceduri.
2.2.2. Procedura de evacuare
Această metodă a fost testată pe 384 de perechi: 200 verbe-substantive (file BR-A01, br -
a02), 127 adjective-substantive (file BR-A01), și 57 adverbe-verbe ( file BR -A01), extrase din
SemCor 1.6 din corpusul lui Brown. Folosind formularul de interogare (a) pe Alta Vista, am
obținut rezultatele prezentate în tabelul 3.1.Tabelul indică procentele de sensuri corecte (așa
cum figurează în SemCor)clasificate în topurile 1, 2 , 3, și 4 din listă.
Am ajuns la concluzia că, prin menținerea primelor patru opțiuni pentru verbe și substantive,
precum și primele două opțiuni pentru adjective și adverbe, am cuprins toate sensurile relevante
la un procentaj mare (mai mult de jumate). Privind dintr-un punct de vedere diferit , sensul
procedurii de până acum este faptul că acesta exclude sensurile care nu se aplică, iar acest lucru
poate salva o durată considerabilă de timp de calcul atît cât i multe cuvinte sunt foarte
polisemantice.
Am folosit, de asemenea, formularul de interogare (b), dar rezultatele obținute au fost similare,
folosind
23
operatorul NEAR, un număr mai mare de rezultate este raportat, dar sensul clasificării rămâne
mai mult sau mai puțin același.
Tabel 3.1 Adunarea statistica de pe internet pentru 384 perechi de cuvinte
Top1 Top2 Top3 Top4
substantive 76% 83% 86% 98%
verbe 60% 68% 86% 87%
adjective 79,8% 93%
adverbe 87% 97%
2.3. Algoritmul densității conceptuală
O mulţime de înrudiri dintre cuvintele pot fi o sursă de cunoștințe pentru mai multe decizii în
aplicații NLP. Abordarea luată aici este de a construi un context lingvistic pentru fiecare sens al
verbului și substantivului, precum și pentru a măsura numărul de substantive comune împărtășite
de verb și contexte substantivale. În WordNet fiecare concept are o explicaţie care acționează ca
un micro-context pentru această noțiune. Acesta este un sursă bogată de informații lingvistice pe
care am găsit util în determinarea densității conceptuală între cuvinte.
2.3.1. Algoritmul 2
La Intrare: verb semantic fără mapare – pereche de substantive și un clasament al sensurilor
substantivelor (determinatca în algoritmul 1)
Ieșire: sensul verbului mapat –pereche de substantive
procedură:
1. Având o pereche de verb-substantiv V - N, denotate cu <v1, v2, :::, vh> și <n1; n2; ,,, nl>
sensurile posibile ale verbului și numele folosind WordNet-ul.
2) Utilizînd algoritmului 1, sensurile substantivelor sunt clasate. Numai primul t sens posibil
indicat de acest clasament va fi luată în considerare. Restul sunt puse pentru a reduce
complexitate computaţională.
3. Pentru fiecare pereche posibilă vi- nj, densitatea conceptuală se calculează după cum urmează:
(a) se extrag toate sensurile din sub- ierarhia inclusiv vi (explicaţia pentru selectarea sub-
ierarhiei este explicat mai jos)
(b) se determină substantivele din aceste sensuri. Acestea constituie contextul substantivului a
23
fiecărui
verb. Fiecare astfel de substantiv este stocat împreună cu o greutate w care indică nivelul în
sub-ierarhie a conceptului verbului în al cărui sens numele a fost găsit.
(c) se determină substantive din sub-ierarhia substantivului , inclusiv nj.
(d) se determină densitatea conceptuală Cij a conceptelor comune între substantivele (în b )
obținute și substantivele obținute (în c ) folosind metrica:
Cij = (1)
Unde:
|c dij | este numarul de concepte comune intre ierarhiile vi şi nj
wk sunt nivelele substantivelor în ierarhia verbului vi
descendenţii j este tumarul total de cuvinte in ierarhia sustantivului nj
Cij clasifică fiecare pereche vi - nj, pentru i şi j
1. În WordNet, un sens explică un concept și furnizează unul sau mai multe exemple cu
utilizarea tipică a acestui concept. În scopul de a determina cel mai apropiat nume și ierarhii
verbale, am efectuat câteva experimente folosind SemCor și am concluzionat că sub-ierarhie
subsantivului ar trebui să includă toate substantivele în clasa nj. Sub-Ierarhia verbului vi se ia
ca ierarhiaa a celui mai mare hypernym hi a verbului vi. Este necesar să se ia în considerare o
ierarhie mai mare, atunci doar cel furnizat de sinonime și hiponimele directe. Așa cum am
înlocuit rolul corpusului cu sensuri, rezultate mai bune se obțin în cazul în care sunt luate în
considerare mai multe sensuri .
2. Ca substantivele cu o ierarhie mare tind să aibă o valoare mai mare pentru pentru |cdij |, suma
ponderată a conceptelor comune este normalizată cu privire la dimensiunea ierarhiei substantiv.
Deoarece dimensiunea unei ierarhii creste exponential cu profunzimea ei, s-a folosit logaritmul
numărul total de descendenți în ierarhie, și anume log (descendentsj).
3. De asemenea, s-a luat în considerare și s-a experimentat cu alţi câțiva metrici. Dar, după
rularea programului pe mai multe exemple, formula de la algoritmul2, a produs cele mai bune
rezultate.
2.4. Exemplu
Ca un exemplu, să luăm în considerare verbul-nume colocarea revise law. Verbul revise are
două sensuri posibile în WordNet și numele law are șapte sensuri.
În primul rând, a fost aplicat, Algoritmului 1 și s-a căutat pe Internet utilizând Alta Vista, toate
23
perechile posibil V-N care pot fi create folosind revise , iar cuvintele din liste similare cu law
.Următorul clasament al sensurilor a fost obținută: law # 2 (2829), law # 3 (648), law # 4
(640), law # 6 (397), law # 1 (224), law # 5 (37), law # 7 (0), în cazul în care numerele din
paranteze indică numărul de nimeriri. Prin stabilirea pragului la t = 2, păstrăm numai sensurile #
2 și # 3.
În continuare, Algoritmul 2 se aplică pentru a clasifica patru posibile combinații (două pentru
timpurile verbului două pentru substantiv). Rezultatele sunt rezumate în Tabelul 3.4: (1)
| cdij | - numărul de concepte comune între verb și ierarhiile substantiv; (2)
descendantsj numărul total de substantive în ierarhia fiecarui sens; și (3)
densitatea conceptuală Cij pentru fiecare pereche nj - vj derivate folosind formula prezentată
de mai sus.
Densitatea conceptulă cea mai mare C 12 =0,30 corespunde la v1- n2 : revise #1/2-
law#2/5(notaţia #i/n înseamnă sensul i pe n sensuri posibile date de Word Net).Această
combinaţie verb-nume semnifică de asemenea prezenţa în SemCor, file-ul br-a01.
Tabelul 3.2. Valorile utilizate în calcularea densitaţii conceptuale şi densitaţii conceptuale Cij
| cdij | descendantsj
n2 n3 n2 n3 n2 n3
v1 5 4 975 1265 0,30 0,28
v2 0 0 975 1265 0 0
Lărgirea marimii ferestrei
Am extins metoda dezambiguizării mai mult de 2 apariţii.Considerăm exemplul
The bomb caused damage but no injuries.
Sensurile speificate în SemCor, sunt
1a. bomb(#1/3)cause(#1/2) damage(#1/5) injury(#1/4)
Pentru fiecare cuvînt X, considerăm toate combinaţiile posibile cu alte cuvinte Y din propoziţie,
doua deodata.Densitatea conceptual C a fost calculată pentru combinaţia X-Y ca suma a
densităţii conceptual între sensul I a cuvîntului X şi toate sensurile cuvîntului Y.
Rezultatele sunt prezentate in Tabelele 3.4, 3.5, 3.6.2 și 3.6.2 de mai jos, unde densitatea
conceptulă calculată pentru sensul #i a cuvîntului X este prezentată în coloana notată de C#i
23
Tabelul 3.4 CD pentru perechele bomb
X-Y cd#1 cd#2 cd#3
bomb-cause 0,57 0 0
bomb-demage 5,09 0,13 0
bomb-injury 2,69 0,15 0
8,35 0,28 0
Tabelul 3.5. CD pentru perechile cause
X-Y cd#1 cd#2Cause-bomb 5,16 1,34Cause-damage 12,83 2,64Cause-injury 12,63 1,75
30,62 5,73
Prin selectarea celei mai mari valori pentru densitatea conceptuală, cuvintele sunt etichetate
cu sensurile lor, după cum urmează:
1b. bombă (# 1/3) cause (# 1/2) damage (# 1/5) injury (# 2/4)
Rețineți că sensurile pentru cuvântulul injury diferă de la 1a. la 1b, unul determinat
prin metoda noastră (# 2/4) este descris în WordNet ca an accident that results in physical
damage or hurt "(hipernim: damage), și sensul prevăzut în SemCor (# 1/4) este
definit ca “any physical damage "(hypernym: health problem).
Acesta este un exemplu tipic de o nepotrivire cauzate de o granularitate bună a sensurilor
în WordNet care se traduce într-o hotărâre umană care nu este clară. Credem că selecția sensul
prevăzută de metoda noastră este justificată , atât damage și injury sunt obiecte ale aceluiași
verb „cause “, corelarea damage (# 1/5) și a injury (# 2/4) este mai mare , că ambele sunt de
aceiaşi clasă substantivală noun.event (nume.eveniment) ca opozitul la injury (# 1/4) care este
din clasa noun .state
Alte câteva exemple selectate în mod aleatoriu au fost luate în considerare:
2a. The terrorists(#1/1) bombed(#1/3) the embassies(#1/1).
2b. terrorist(#1/1) bomb(#1/3) embassy(#1/1)
3a. A car-bomb(#1/1) exploded(#2/10) in front of PRC(#1/1) embassy(#1/1).
3b.car-bomb(#1/1) explode(#2/10) PRC(#1/1) embassy(#1/1)
23
4a. The bombs(#1/3) broke(#23/27) windows(#1/4) and destroyed(#2/4) the two vehicles(#1/2).
4b. bomb(#1/3) break(#3/27) window(#1/4) destroy(#2/4) vehicle(#1/2)
Tabelul 3.6. CD pentru perechile damage
X-Y cd#1 cd#2 cd#3 cd#4 cd#5
Damage-bomb 5,60 2,14 1,95 0,88 2,16Damage-cause 1,73 2,63 0,17 0,16 3,80Damage-injury 9,87 2,57 3,24 1,56 7,59
17,20 7,34 5,36 2,60 13,55
Tabelul 3.7. CD pentru perechile injury
X-Y cd#1 cd#2 cd#3 cd#4
injury-bomb 2,35 5,35 0,41 2,28injury-cause 0 4,48 0,05 0,01injury-injury 5,05 10,40 0,81 9,69
7,40 20,23 1,27 11,98
Unde propoziţiile 2a,3a şi 4a sunt extrase din SemCor, cu sensurile asociate pentru fiecare cuvînt
şi propoziţiile 2b,3b şi 4b arată verbele şi substantivele etichitate cu sensurile din metod
noastră. Numai nepotrivirea este pentru cuvîntul broke şi posibil aceasta se datorează numărului
mare a sensurilor lui.Alt cuvînt cu un număr mare de sensuri explode a fost etichetat corect.
Luînd in consideraţie numai perechile din 2 cuvinte, cuvintele în 4 propoziţii fiind etichitate
precum:
1c. bomb(#1/3)cause(#1/2) damage(#5/5) injury(#2/4)
2c. terrorist(#1/1) bomb(#1/3) embassy(#1/1)
3b.car-bomb(#1/1) explode(#1/10) PRC(#1/1) embassy(#1/1)
4b. bomb(#1/3) break(#1/27) window(#1/4) destroy(#4/4) vehicle(#1/2)
23
Din cele 16 cuvinte , 14 au fost etivhitate corect unde a fost considerată o fereastră de marime
mai mare , şi numai 12 cuvinte au fost deyambiguizate corect, unde perechile din 2 cuvinte fiind
considerate . Astfel, pentru acest caz, mărirea în precizie a fost de 16% pe cînd cuvintele sunt
considerate în procesul de deyambiguizare
Concluzii:
Dezambiguizarea Sensurilor cuvintelor este una dintre cele mai dificile sarcini din PNL,
dificultăţile apar chiar atunci când mai multe sensuri sunt identificate folosind un dicţionar bun
cum ar fi WordNet. Metoda propusă în această lucrare mai degrabă oferă un clasament al
sensurilor, decât un singur sens corect. Ea combină doi algoritmi: mai întîi de toate , statisticile
sunt adunate de pe internet pentru a indica posibilile combinații de cuvinte, apoi, este folosită
o măsură de densitate semantică pentru a calcula înrudirele între cuvinte.
Diversitatea modurilor de definire a ridicat problema compatibilităţii şi comparabilităţii
studiilor efectuate în domeniul dezambiguizării sensurilor cuvintelor, şi, datorită dificultăţii
găsirii unei definiţii riguroase, nu se întrevede o rezolvare în următorii ani. Pe de altă parte, încă
de la începutul studiului dezambiguizării sensurilor cuvintelor, au existat discuţii pe tema
faptului că problemele dezambiguizării morfo - sintactice şi cele ale dezambiguizării sensurilor
ar trebui privite din acelaşi unghi de vedere. Aceasta înseamnă că, pentru homonime, care sunt
părţi diferite de vorbire (de ex.: haina), dezambiguizarea morfo - sintactică reuşeşte să realizeze
şi dezambiguizarea sensului. De aceea, dezambiguizarea sensurilor cuvintelor a acordat o
importanţă sporită determinării sensurilor homonimelor ce aparţin aceloraşi categorii sintactice.
Procesul de dezambiguizare include potrivirea contextului instanţei cuvântului al cărui
sens trebuie dezambiguizat cu informaţiile din sursele externe (în acest caz vorbim de
23
dezambiguizarea sensurilor cuvintelor orientată cunoştinţe), sau informaţii despre contex- tele
instanţelor cuvintelor care au fost deja dezambiguizate (dezambiguizarea sensurilor cu- vintelor
orientată date). Metodele de asociere sunt utilizate pentru a determina cea mai potrivită asociere
între contextul curent (cel din textul considerat) şi oricare din sursele externe de informaţie.
Bibliografie:
1. Agirre, E., and Rigau, G. A proposal for Word Sense Disambiguation using conceptual
distance. In Proceedings of the 1st International Conference on Recent Advances in
Natural Language Processing (Velingrad, 1995).
2. Allen, B. WordWeb - using the lexicon for WWW. http://www.inference.com,1997.
Inference Corporation.
3. AltaVista, 1999. Digital Equipment Corporation, "http://www.altavista.com".
4. Anikina, N., Golender, V., Kozhukhina, S., Vainer, L., and Zagatsky, B. Reason: NLP-
based search system for WWW. In Proceedings of the American Association for
Artificial Intelligence Conference, Spring Symposium, \NLP for WWW" (Stanford
University, CA, 1997), pp. 1{10.
5. Bloom, B., Engelhart, M., Furst, E., Hill, W., and Krathwohl, D.Taxonomy of
Educational Objectives, Handbook 1: Cognitive Domain. David M Kay Company In.,
1956.
6. Brill, E. A simple rule-based part of speech tagger. In Proceedings of the 3rd Conference
on Applied Natural Language Processing (Trento, Italy, 1992).
23
7. Bruce, R., and Wiebe, J. Word Sense Disambiguation using decomposable models. In
Proceedings of the 32nd Annual Meeting of the Association for Computational
Linguistics (ACL-94) (LasCruces, NM, June 1994), pp. 139{146.
8. Buckley, C., Salton, G., Allan, J., and Singhal, A. Automatic Query Expansion Using
SMART: TREC 3. NIST, 1994, pp. 69{81.
9. Burke, R., Hammond, K., and Kozlovsky, J. Knowledge-based information retrieval from
semi-strutured text. In Proceedings of the American Association for Artificial
Intelligence Conference, Fall Symmposium, \AI Applications in Knowledge Navigation
& Retrieval" (Cambridge, MA, 1995).
10. Callan, J. Passage-level evidence in document retrieval. In Proceedings of the 17th Annual
International ACM SIGIR, Conference on Research and Development in Information
Retrieval (Dublin, Ireland, 1994), pp. 302{310.
11. Callan, J., Croft, W., and Harding, S. The INQUERY retrieval system. In Proceedings of
the 3rd International Conference on Database and Expert Systems Applications (1992),
pp. 78-83.
12. Cowie, J., Guthrie, L., and Guthrie, J. Lexical disambiguation using simulated annealing.
In Proceedings of the 5th International Conference on Computational Linguistics
COLING-92 (1992), pp. 157-161.
13. Fellbaum, C. WordNet, An Electronic Lexical Database. The MIT Press, 1998.
14. FindLaw, internet legal resources. http://www.ndlaw.com/index.html, 1997.
15. Gale, W., Church, K., and Yarowsky, D. One sense per discourse. In Proceedings of the
DARPA Speech and Natural Language Workshop (Harriman, New York, 1992).
16. Gravano, L., Chang, K., Garcia-Molina, H., Lagoze, C., and Paepcke, A.STARTS,
Stanford protocol proposal for Internet retrieval and search. Digital Library Project,
Stanford University, 1997.
17. Harabagiu, S., and Moldovan, D. Enriching the WordNet Taxonomy with Contextual
Knowledge Acquired from Text. AAAI/MIT Press, 1999.
18. Hearst, M. Multi-paragraph segmentation of expository text. In Proceedings of the 32nd
Annual Meeting of the Association for Computational Linguistics (Las Cruces, NM,
1994), pp. 9-16.
19. Hearst, M., Karger, D., and Pedersen, J. Scatter/gather as a tool for the navigation of
retrieval results. In Proceedings of the American Association for Artical Intelligence
Conference, Fall Symposium \AI Applications in Knowledge Navigation & Retrieval"
(Cambridge, MA, 1995), pp. 65-71.
23
20. Ishikawa, K., Satoh, K., and Okumura, A. Query Term Expansion based on Paragraphs of
the Relevant Documents. NIST, 1997, pp. 577-585.
21. Katz, B. From sentence processing to information acess on the World Wide Web. In
Proceedings of the American Association for Artical Intelligence Conference, Spring
Symposium, \NLP for WWW" (Stanford, CA, 1997), pp. 77{86.
22. Leong, M. Concrete Queries in Specialized Domains: Known Item as Feedback for
Query Formulation. NIST, 1997, pp. 541-550.
23. Li, X., Szpakowicz, S., and Matwin, M. A WordNet based algorithm for word semantic
sense disambiguation. In Proceedings of the 14th International Joint Conference on
Articial Intelligence IJCAI-95 (Montreal, Canada, 1995).
24. Lu, X., and Keefer, R. Query Expansion/Reduction and its Impact on Retrieval E
ectiveness. NIST, 1994, pp. 231-240.
25. Marcus, M., Santorini, B., and Marcinkiewicz, M. Building a large cannotated corpus of
english: the Penn Treebank. Computational Linguistics 19,2 (1993),313-330.
26. McRoy, S. Using multiple knowledge sources for Word Sense Disambiguation.
Computational Linguistics 18, 1 (1992), 1{30.
27. Mihalcea, R., and Moldovan, D. Word Sense Disambiguation based on semantic density.
In Proceedings of COLING-ACL '98 Workshop on Usage of WordNet in Natural
Language Processing Systems (Montreal, Canada, 1998).
28. Mihalcea, R., and Moldovan, D. An automatic method for generating sense tagged
corpora. In Proceedings of AAAI-99 (Orlando, FL, July 1999). (to appear).
29. Mihalcea, R., and Moldovan, D. A method forWord Sense Disambiguation of
unrestricted text. In Proceedings of the 37th Annual Meeting of the Association for
Computational Linguistics (ACL-99) (Maryland, NY, June 1999). (to appear).
30. Miller, G. WordNet: A lexical database. Communication of the ACM 38, 11 (1995), 39-
41.
31. Miller, G., Chodorow, M., Landes, S., Leacock, C., and Thomas,R. Using a semantic on
cordance for sense identication. In Proceedings of the 4th ARPA Human Language
Technology Workshop (1994), pp. 240{243.
32. Miller, G., Leacock, C., Randee, T., and Bunker, R. A semantic on cordance. In
Proceedings of the 3rd DARPA Workshop on Human Language Technology (Plainsboro,
New Jersey, 1993), pp. 303{308.
33. Moldovan, D., and Mihalcea, R. An WordNet-based interface to Internet search engines.
In Proceedings of FLAIRS-98 (Sanibel Island, FL, May 1998).
23
34. Moldovan, D. e. a. Us Description of the SNAP system used for MUC-5. In Proceedings
of the 5th Message Understanding Conference (Baltimore, MD, 1993).
35. Ng, H., and Lee, H. Integrating multiple knowledge sources to disambiguate word sense:
An examplar-based approach. In Proceedings of the 34th Annual Meeting of the
Association for Computational Linguistics (ACL-96) (Santa Cruz,1996).
36. Pustejovsky, J., Boguraev, B., Verhagen, M., Buitelaar, P., and Johnston, M. Semantic
indexing and typed hyperlinking. In Proceedings of the American Association for Artical
Intelligence Conference, Spring Symposium, \NLP for WWW" (Stanford, CA, 1997), pp.
120- 128.
37. Resnik, P. Selectional preference and sense disambiguation. In Proceedings of ACL
Siglex Workshop on Tagging Text with Lexical Semantics, Why, What and How?
(Washington DC, April 1997).
38. Resnik, P., and Yarowsky, D. A perspective on Word Sense Disambiguation methods
and their evaluation. In Proceedings of ACL Siglex Workshop on Tagging Text with
Lexical Semantics, Why, What and How? (Washington DC, April 1997).
39. Rigau, G., Atserias, J., and Agirre, E. Combining unsupervised lexical knowledge
methods for Word Sense Disambiguation. Computational Linguistics (1997).
40. Salton, G., and Lesk, M. Computer evaluation of indexing and text processing. Prentice
Hall, Ing. Englewood Clics, New Jersey, 1971, pp. 143-180.